controlpro

Image Super-Resolution Using Deep Convolutional Networks 본문

카테고리 없음

Image Super-Resolution Using Deep Convolutional Networks

controlpro 2021. 10. 27. 17:03
728x90

딥러닝 기반의 초해상화 알고리즘은 가장 일반화된 합성곱 신경망을 통해 다양한 연구가 진행 중이고 기존 알고리즘 대비 높은 성능을 보여주고 있다. 

 

0. Image Super-Resolution 기존

단일 이미지를 기준으로 Super-Resolution하는 기법

1. edge based methods

2. image statistical methods

3. pastch based methods

4. prediction methods 

 

2. Deep learning for image Restoration 

 

[22] , [3] : 자연 이미지의 노이즈를 줄인다. 

 

3. 실험 

 

 - 전처리 : 바이큐빅 보간 법을 이용해서 원하는 사이즈로 upscale 시킴 

Y : interploation image  , lower image , X랑 크기가 똑같다.

Goal : Y -> F(Y) {high-resolution image X랑 최대한 비슷한 것}

 

 

1. Patch extraction and representation 

 - Y에서 patches들을 뽑아내는 과정

 - patches는 각 high-dimensional vector를 이루고 있다. 

 -이러한 vector은 특징맵을 이루고 있다. 

 

2. Non-linear mapping 

 - 이과정은 1. 과정에서 뽑았던 vector들을 다른 high-dimension에 mapping 시키는 과정이다. 

 - 각각의 mapping된 vector들은 high-resolution patch에 대응 된다. 

 - 여기서 생선된 vector들도 특징맵을 이루고 있다. 

 

3. Reconstruction 

 - 여기서는 앞서 두 과정들에서 생성된 patch들을 하나의 high-resolution이미지로 만들기 위해서 모은다. 

 - 생선된 이미지는 X와 비슷하다. 

 

여기서 설명된 과정들을 Deep learning ,즉 Convolution layer로 구현을 했다. 

 

 

4. Patch extraction and represetation 

 

- 일단 patches를 뽑는 가장 유명한 방법은 PCA, DCT , Haar 등이 있다. 

- 앞서 말한 유명한 방법을 하나의 Convolution layer가 담당하게 된다. 

- 다음의 공식으로 간단히 만들 수 있는데, 여기서 W와 B는 각각 filter와 bias값을 나타내고 *은 convolution operation을 의미한다. 

- W는 여기서 c* f1 *f1 filter에 대응 되는 것이다 .

- kernel size 는 c * f1 *f1이다. 

- n1개의 feature map으로 설정이된다.

 

5. Non-linear mapping

- 첫번째 layer에서 n1-dimensional feature각각의 patch에서 뽑아냈다. 

- 첫번째 layer에서 넘어온 n1-dimensional feature을 n2-dimensional으로 대응 하기 편하다. 

- n2 filter는 n1 *f2 *f2 사이즈로 징행이된다. 

 

6. Reconstruction 

- 각각의 patch들의 평균을 내서 하나의 이미지를 만드는 과정이다. 

- flatten과정이랑 유사하다. 

- 이것의 영향을 받아서 새로운 convolutional layer를 정의 했다. 

 

7. 실험 결론 

중요한 건 위의 3가지 과정들이 전부다 다른 과정임에도 불구하고 모두다 Convolution layer로 구현이 된다는 것이다. 

 

8. Training

여기서 n은 trainging data의 수이고 L은 Loss function 는 F와 Y ,X는 위에서 정의한 것 과 같다. 

여기서 세타는 각 layer에서 사용되는 파라미터들의 집합을 말한다.

Loss 함수는 MSE를 사용하고, 이 Loss 함수를 사용하면 PSNR을 높게 얻을 수 있다. 

PSNR은 최대 신호 대 잡음비로 신호가 가질 수 있는 최대 전력에 대한 잡음의 전력을 나타 낸이다. 주리 동영상 손실 압출에서 화질 손실 정보를 평가할 때 사용 한다. 

 

 

위의 실험에서 학습시킬 저 파라미터들은 처음에 Gaussian 분포로 초기화 되고 첫번째, 두번째 layer은 0.001 세번째 layer은 0.0001으로 설정을 했다. padding 설정 X

 

 

728x90
반응형