논문 세미나를 하지않고 그냥 읽은 논문은 간단히 핵심만 쓰기로 했다.

 

- Unsupervised Domain Adaptation 기법을 Object Detection 에 적용하다. 

- Intermidiate domain을 생성하여 점진적으로 Adaptation 한다. 

Method

 

1. Object Detection Network 

 

사용한 네트워크 : Faster R-CNN, Encoder Network E로 정의 

이미지를 I로 정의할 때 feature map E(I)는 RPN과 ROI classifier에 입력된다. 

loss function은 Faster R-CNN과 동일.

 

2. Domain Discrimonator 

 

일반적인 Unsupervised Domain Adaptation 방법들과 같이, Domain Discriminator를 붙였다. 

입력 featuremap이 source에서 왔는지 target 에서 왔는지 분류하는 module로 objective는 source 인지 target인지 분류할 수 없는 random classifier가 되는 것이다. 그렇게 된다면 domain invariant feature를 featur extractor가 생성할 수 있다. 

분류 네트워크와는 다른것은, Object detection 문제이기 때문에 픽셀레벨 BCE loss를 적용했다는 점이다. 

D는 Discriminator를 의미하며, 입력 featuremap과 동일한 spatial size의 피처맵을 생성한다. activation 은 sigmoid.

기존 domain discriminator의 loss를 그대로 픽셀레벨로 확장하였다. 단순히 모두 더한다. 

d는 domain label로서, source일 때에는 0, target일 때에는 1이다. 

목표는 random classifier, P=0.5.

domain을 너무 잘 분류하게 되면. target일 때는 D(E(I))=1, D(E(I))=0 이 된다.

target에 대한 예측값은 낮춰야 되고, source에 대한 예측값은 높여야 한다.

 

입력 데이터가 target일 때 

 

입력 데이터가 source일 때 

adversarial learning을 위해서 GRL(Gradient Reversal Layer)을 추가한다.  

Discrimination loss를 maximization 하는 방향으로 gradients를 역전 시킴으로 써 adversarial learning의 목적함수를 최적화 한다. 

 

Unsupervised 이기 때문에, Source 에 대해서만 Detection loss를 준다. 거기에 Source-Target pair에 대한 discrimination loss가 추가된다. 

 

크게 별다른 건 없다. 논문의 메인 아이디어는 아니다.

 

3. Progressive Adaptation 

논문의 메인 아이디어 2개의 stage 로 구성되어 있다.

 

Intermediate domain 샘플을 생성한다. 

 

[Adaptation Process]

 

CycleGAN을 이용해 Intermediate domain 샘플을 생성한다.

 

- Stage 1

 

S -> F(합성된 데이터) 로의 pixel level discrepancy minimization

 

- Stage 2 

 

F-> T 로의 pixel level discrepancy minimization

 

[Weighted Supervision]

 

생성된 이미지의 퀄리티는 좋을수도 있고 나쁠수도 있다.

outlier들 때문에 domain discrepancy가 더 커질 수도 있다.

 

> F와 T간의 distribusion distance를 기반으로 한 weighting 전략을 통해 부정적인 효과를 상쇄하려 시도.

Target과 먼 distribution을 가진 F의 outlier들에 대해서는 적은 가중치를 준다. 

weight는 또 다른 domain discriminator의 output score를 사용했다. 

 

Dcycle은 CycleGAN에서 생성된 이미지의 Domain 을 분류하는 또 다른 discriminator다. 

I가 CycleGAN에서 생성한 이미지이며 Pt는 target으로 예측한 score, Ps는 source로 예측한 score 이다. 

전체확률에 대한 Target일 확률의 비이다. 

 

최종 weight는 위와 같이 정의된다. 

 

정의된 weight를 추가하면 최종 objective를 다시 쓸 수 있다.

 

 

Synthetic augment 로 대단한 성능향상이 있음을 알 수 있다. 

progressive process의 효과는 미미한듯 하다 

+ Recent posts