Tile2Vec: Unsupervised representation learning forspatially distributed data
19 Nov 2019 | SSL Contrastive--LearningNeal Jean, Sherrie Wang, Anshul Samar, George Azzari, David Lobell, Stefano Ermon
(Submitted on 8 May 2018 (v1), last revised 30 May 2018 (this version, v2))
arXiv:1805.02855
인공위성으로부터 얻은 이미지(Remote sensing images)를 학습하는 방법을 적어놓은 논문이다.
Remote sensing images는 기본 natural image보다 스펙트럼이 넓으며 버드아이 관점에서 찍은 이미지를 말한다. 또한 자연어 처리에서 시작된 Distributional hypothesis를 여기서 적용한다. 이 때, 지리학적으로 가까운 거리는 비슷한 의미와 representation을 가져야하고 먼 거리는 다른 representation을 가지는 것으로 적용하였다.
자연어 처리인 NLP(Natural Language Processing)에서의 atomic unit은 각각의 단어이지만 이 논문에서는 atomic unit으로 이미지 패치를 멀티스펙트럼 데이터로 일반화시킨 remote sensing data를 선택하였다. 또한 context는 앞서 말한 거리에 따른 유사성을 선택하였다.
Anchor(기준 패치) & Neighbor(가까운 패치)간의 거리는 작아져야하고 Anchor & Distant(먼 거리 패치)간의 거리는 커져야 한다. 이 때, distant 타일이 너무 멀어지는 것을 방지하기 위해서 margin을 설정한다.
Triplet loss는 [개념정리] Ranking Loss Functions & Metric Learning에 설명되어 있다.
Triplet sampling을 위해서는 2개의 hyperparameter를 사용했다. Tile size와 neighborhood radius 인데 이를 각각 100으로 설정해두었을 때 정확도가 가장 좋았다. 샘플링에 쓰이는 알고리즘은 왼쪽의 슈도코드를 참고하면 된다.
어느 타일이든 하나를 정하고 나머지 \(n-1\)개에서 다른 하나를 뽑았을 때 그 뽑은 타일이 정한 타일의 neighborhood일 가능성은 극히 희박했다. 이 아이디어를 통해서 그들은 (anchor, neighbor) 쌍에 대응하는 distant 타일이 총 \(3N\)개 정도였고 이를 활용하여 data augmentation 진행했다.
데이터셋은 다음 4가지로부터의 인공위성 이미지를 사용한다.
실험은 unsupervised와 supervised model들 각각에 대해서 진행했는데 모두 Tile2Vec이 아주 좋은 성능을 내었다고 말한다.
사실 해당 논문에 실험부분이 상세하게 적혀있지를 않아 논문을 읽는데 많은 의문이 생겼었다.
재미있는 논문이긴 했지만 또한 어리둥절한 부분이 많기 때문에 트레이닝 부분까지만 블로그에 정리를 하고 마친다.
Comments