GIS in AI


GIS에 AI를 어떻게 활용할 것인가?

https://gisgeography.com/deep-machine-learning-ml-artificial-intelligence-ai-gis/



GIS에서의 Machine Learning과 Artificial Intelligence

간단히 말해, Machine Learning은 정돈되지 않은 데이터에서 우리가 생각치도 못했던 패턴을 찾는 것을 말합니다. 사전에 우리가 알고 있는 기능들을 사용하는 대신에, 반복적으로 나타나는 패턴들을 통해조건 지식을 습득하고 이를 바탕으로 새로운 상황에서 적용할 모델을 구축합니다.

예를 들어, 구글은 Bayesian clssification을 통해 스팸 메일을 필터링하고, Facebook은 얼굴을 인식하고 자동으로 인식한 얼굴들을 분류합니다.


하지만 GIS분야에서는 어떻게 사용할 수 있을까요?



Machine Learning 의 종류


머신러닝을 크게 두가지 카테고리로 나누면 Supervised Learning, Unsupervised Learning 로 나눌 수 있습니다. 이 두가지 모두 GIS에 다양한 방식으로 적용할 수 있습니다. 그 전에 이 둘의 차이점이 무엇일까요?


지도학습 (Supervised Learning)은 주어진 데이터를 바탕으로 예측모델을 만들고 이에 데이터를 적합시켜 다른 데이터의 답을 예측하는 것입니다.

비지도학습(Unsupervised Learning)은 unlabeled data의 패턴을 이용해 주어진 데이터가 어떤 데이터인지 인식하고 규칙성을 파악합니다.


가장 중요한것은 Machine learning은 최적으로 문제를 해결한다는 것입니다. 스스로 학습하고 그 경험으로 부터 항상시킵니다

최근에 GIS는 Classification, Prediction, Segmentation 부분에 AI기술들을 사용하고 있습니다.


이미지 분류 (SVM)

위성사진을 보면 나무나 잔디를 찾는 것이나, 길과 빌딩을 구별하는 것이 쉽지 않을 때가 있습니다. 사람은 바로 인식하고 파악할 수 있지만 컴퓨터는 우리가 어떤기준을 통해 파악할 수 있도록 학습시켜야 합니다.



EBK(Empirical Bayesian Kriging)을 이용한 예측

보간법을 이용하면 공간패턴에 의거해 알 수 없는 값을 예측할 수 있습니다. Variogram을 기준으로 가중치들을 추정할 수 있고, 또한 가중치의 quality를 반영한 estimate surface quality로 좀더 정확히 추정할 수 있습니다. 즉 unbiased하고 작은 variance를 가지는 가중치를 추정하는 것이 목표입니다.


전체 Data set에 대해 하나의 모델을 적합하는 Kriging과 달리, EBK는 전체 Data set을 Sub sampling 후 적어도 100개의 Local model들을 Subset에 시뮬레이션 합니다. 이 시뮬레이션을 최대 100번까지 반복적으로 예측합니다. 각각의 Semi-variogram은 서로 다른데 EBK는 Kriging 방법을 이용하여 각각의 Semi-variogram에 맞추기 위해 training을 거쳐 조금씩 좋은 방향으로 학습되기 때문에 조금씩 좋아지기 때문에, ‘Stationary’ 문제를 극복할 수 있습니다. 이렇게 반복적으로 학습된 각각의 Semi-variogram을 기존의 보간법으로는 만들 수 없게 섞게 됩니다.


마지막으로, 제일 좋은 최적해를 찾습니다. 몬테카를로 (Monte Carlo) 분석처럼 background에서 반복적으로 실행되는데 만약 Random process로 진행될 경우, 이 과정이 수천번 이상 줄어듭니다. 이를 통해 결과의 추세를 학인하고 최적해에 대한 정당한 근거를 찾을 수 있습니다. 때문에 EBK가 Straight kriging보다 거의 대부분 잘 예측됩니다.



K-means를 이용한 Image Segmentation 과 Clustering


K-means 알고리즘은 데이터를 클러스터링 하는데 쓰이는 방법입니다. Unsupervised learning에 속하는 방법으로 unlabeled data를 k개로 그룹화 한 후 각각의 데이터들을 Feature들의 유사성에 기초하여 K 개의 그룹 중 하나에 할당합니다.

이를 GIS 데이터에 적용하게 되면 다음과 같습니다. 먼저 앞으로의 분석을 위한 이미지를 분류한 후, 각각의 클러스터에 Land cover class가 할당됩니다. 하지만 GIS는 일반적인 데이터와는 다른 기준으로 Clustering을 사용할 수 있습니다. 예를 들어, 각 Data point들은 범죄를 나타낼 수 있고, 우리는 범죄가 낮은지 높은지에 따라 지역들을 Clustering할 수 있습니다. 또 사회경제적, 건강 혹은 환경적인 특성에 따라 clustering할 수 있습니다. 전반적으로 GIS는 예측, 분류 및 Clustering을 주로 사용합니다.





© 2018. by yeo0

Powered by yeo0