IndexFiguresTables |
In-su Jo† , Yunhee Kang†† , Dong-bin Choi††† and Young B. Park††††Clustering Performance Analysis of Autoencoder with Skip ConnectionAbstract: In addition to the research on noise removal and super-resolution using the data restoration (Output result) function of Autoencoder, research on the performance improvement of clustering using the dimension reduction function of autoencoder are actively being conducted. The clustering function and data restoration function using Autoencoder have common points that both improve performance through the same learning. Based on these characteristics, this study conducted an experiment to see if the autoencoder model designed to have excellent data recovery performance is superior in clustering performance. Skip connection technique was used to design autoencoder with excellent data recovery performance. The output result performance and clustering performance of both autoencoder model with Skip connection and model without Skip connection were shown as graph and visual extract. The output result performance was increased, but the clustering performance was decreased. This result indicates that the neural network models such as autoencoders are not sure that each layer has learned the characteristics of the data well if the output result is good. Lastly, the performance degradation of clustering was compensated by using both latent code and skip connection. This study is a prior study to solve the Hanja Unicode problem by clustering. Keywords: Skip Connection , Autoencoder , Clustering , Superresolution 조인수† , 강윤희†† , 최동빈†††, 박용범††††스킵연결이 적용된 오토인코더 모델의 클러스터링 성능 분석요 약: 오토인코더의 데이터 복원(Output result) 기능을 이용한 노이즈 제거 및 초해상도와 같은 연구가 진행되는 가운데 오토인코더의 차원 축소 기능을 이용한 클러스터링의 성능 향상에 대한 연구도 활발히 진행되고 있다. 오토인코더를 이용한 클러스터링 기능과 데이터 복원 기능은 모두 동일한 학습을 통해 성능을 향상시킨다는 공통점이 있다. 본 논문은 이런 특징을 토대로, 데이터 복원 성능이 뛰어나도록 설계된 오토인코더 모델이 클러스터링 성능 또한 뛰어난지 알아보기 위한 실험을 진행했다. 데이터 복원 성능이 뛰어난 오토인코더를 설계하기 위해서 스킵연결(Skip connection) 기법을 사용했다. 스킵연결 기법은 기울기 소실(Vanishing gradient)현상을 해소해주고 모델의 학습 효율을 높인다는 장점을 가지고 있을 뿐만 아니라, 데이터 복원 시 손실된 정보를 보완해 줌으로써 데이터 복원 성능을 높이는 효과도 가지고 있다. 스킵연결이 적용된 오토인코더 모델과 적용되지 않은 모델의 데이터 복원 성능과 클러스터링 성능을 그래프와 시각적 추출물을 통해 결과를 비교해 보니, 데이터 복원 성능은 올랐지만 클러스터링 성능은 떨어지는 결과를 확인했다. 이 결과는 오토인코더와 같은 신경망 모델이 출력된 결과 성능이 좋다고 해서 각 레이어들이 데이터의 특징을 모두 잘 학습했다고 확신할 수 없음을 알려준다. 마지막으로 클러스터링의 성능을 좌우하는 잠재변수(latent code)와 스킵연결의 관계를 분석하여 실험 결과의 원인에 대해 파악하였고, 파악한 결과를 통해 잠재변수와 스킵연결의 특징정보를 이용해 클러스터링의 성능저하 현상을 보완할 수 있다는 사실을 보였다. 이 연구는 한자 유니코드 문제를 클러스터링 기법을 이용해 해결하고자 클러스터링 성능 향상을 위한 선행연구이다. 키워드: 스킵연결, 오토인코더, 클러스터링, 초해상도 1. 서 론원시데이터(Raw data)들을 그룹핑하기 위해 비지도 학습 을 이용한 클러스터링(Clustering) 연구가 활발히 이루어지 고 있다[23,25,34]. 클러스터링의 성능을 높이기 위해 데이 터를 구분하는 주된 특징을 추출해야 한다는 사실이 알려지 면서[1], 데이터의 주요 특징을 추출하기 위한 많은 알고리즘 들이 등장하기 시작했다[2-4]. 그 중 오토인코더는 심층신경 망 모델로서, 데이터의 주요 특징들을 학습하고 쉽게 추출할 수 있다는 장점을 가지고 있다[5-7]. 오토인코더는 데이터의 주요 특징을 가진 잠재변수를 이용 해 클러스팅하는 기능 외에도 데이터 복원 기능을 이용한 노 이즈 제거 및 초해상도를 위한 목적으로도 많이 이용되고 있 다[8-11]. 오토인코더를 구성하는 인코더와 디코더는 각각 데이터 함축 기능과 데이터 복원 기능을 가지고 있다. 두 영 역은 서로 다른 기능을 가지고 있지만, 두 기능 모두 같은 목표값 과 비용함수를 가지고 학습한다는 공통점이 있다. 따라서, 데이터 복원 성능을 높이기 위한 학습은 데이터의 특징을 더 잘 함축하 기 위한 학습결과로 이어질 수 있음을 의미한다[12]. 인코더와 디코더를 대칭적으로 연결한 스킵연결 기법은 인 코더 과정에서 손실된 데이터 정보를 디코더에 전달해 줌으 로써 데이터의 복원 성능을 높여 주었다[13,14]. 또한 2016 년에 제안된 ResNet은 스킵연결을 사용하여 이전보다 더 깊 은 신경망으로 모델의 성능을 향상시키는 방법을 제시하면서 [15], 오토인코더를 비롯한 많은 신경망 모델들이 스킵연결을 사용한 연구를 활발히 진행하고 있다. 하지만 정작 스킵연결 기법이 잠재변수가 데이터의 특징을 학습하는데 있어 어떤 영향을 끼치는지 정확히 제시하고 있지 않다. 본 논문은 스킵 연결의 사용이 잠재변수 학습에 미치는 영향을 실험을 통해 보여준다. 스킵연결 기법을 적용한 오토인코더 모델과 적용 하지 않은 모델을 가지고 데이터 복원 성능과 클러스터링 성 능을 비교하는 실험을 통해 두 성능이 반드시 비례하지 않음 을 실험결과를 통해 밝혔다. 이는 곧, 심층신경망 모델의 데 이터 복원 성능이 좋다는 의미가 반드시 모델의 각 레이어들 이 모두 데이터특징을 잘 학습했다고 말하기 어려움을 증명 한다. 또한 스킵연결을 적용한 모델의 클러스터링 성능저하 현상을 보완하기 위해, 클러스터링 수행 시 잠재변수와 스킵 연결의 특징정보를 함께 사용하는 방법을 제안한다. 이 논문은 하나의 라벨 내에 여러 이미지를 포함하는 한자 유니코드의 문제를 클러스터링 기법으로 해결하기 위한 선행 논문으로써[16], 클러스터링 성능이 높은 오토인코더 모델을 설계하는데 기여한다. 논문에 관련된 연구는 2장에서 설명하고, 3장에서 스킵연 결을 적용하기 전과 후의 복원결과와 클러스터링 성능의 변화 를 비교하는 실험에 대해 서술한다. 4장에서는 잠재변수와 스킵 연결의 특징 정보를 이용하여 클러스터링 성능 저하 현상을 보 완하는 방법에 대해 설명하고 5장에서 결론을 서술했다. 2. 관련 연구2.1 Denoising Autoencoder[17]Denoising Autoencoder (DA)는 기본적은 오토인코더 모 델을 노이즈가 적용된 입력데이터에 대해 견고함(Robust)을 갖도록 수정한 모델이다. 노이즈가 적용된 데이터 x’를 만들기 위해 초기 입력값 x에 노이즈를 강제로 추가함으로써 학습데이 터를 생성한다. Fig. 1는 이 과정을 보인 것이다. 인코더 부분 을 [TeX:] $$\mathrm{f} \theta$$ 라 하고 디코더부분을 [TeX:] $$\mathrm{f} \theta$$ 라 했을 때, 수식(1)이 성립한다.
(1)[TeX:] $$\begin{array}{l} y=f_{\theta}\left(x^{\prime}\right)=s\left(w x^{\prime}+b\right) \\ z=g_{\theta}(y)=s\left(w^{\prime} y+b^{\prime}\right) \end{array}$$Equation (1)의 y는 인코더 [TeX:] $$\mathrm{f} \theta$$ 가 출력한 잠재변수값이 되 고, 이 잠재변수는 디코더 [TeX:] $$\mathrm{f} \theta$$의 입력값으로 들어가 복원된 데이터 값 z를 출력한다. 일반 오토인코더 모델처럼 목표값은 노이즈가 적용되기 전 입력값 x 와 동일하다. 단 DA의 경우 모델에 들어가는 실제 입력값은 노이즈가 추가된 x’값이 되므로 모델에 들어가는 입력값과 목표값이 다르다는 차이점이 있다.
(1)[TeX:] $$\underset{\theta, \theta '}{\operatorname{argmin}} E_{q\left(x, x^{\prime}\right)}\left[L_{H}\left(x, g_{\theta^{\prime}}\left(f_{\theta}\left(x^{\prime}\right)\right)\right)\right]$$Equation (2)는 입력값 x’와 목표값 x의 차이를 비용함수로 하여 두 값의 차이를 최소화하는 방향으로 학습이 이루어짐을 나타낸다. 이는 노이즈를 가진 데이터가 노이즈를 가지지 않은 데이터를 목표로 학습이 진행되는 것을 의미하며, 노이즈가 적 용된 패턴을 노이즈가 적용되기 전으로 되돌리려는 학습이 이루 어진다. 이를 위해 입력값을 강제로 붕괴시켜 종속적인 데이터 x’에서 안정적인 구조의 데이터 x 를 추출하는 것이 DA 모델의 핵심이다. 그러나 DA 모델은 다른 오토인코더 모델들에 비해 데이터 복원 성능이 상대적으로 저조하다는 특징이 있다. 2.2 Skip Connection스킵연결은 이미지를 좀더 선명하게 복원하는데 사용되며, resnet에서는 이 기법을 이용해 기울기 소실 문제를 해소하고 학 습의 효율을 높였다. Resnet과 Fully convolution network (FCN)에서 사용된 스킵연결 기법은 차원 축소 시 발행하는 정보 손실 현상으로 이미지 복원 시에 해상도가 떨어지는 문 제를 해결하였다[14,15]. 축소된 차원을 복구할 때, 정보가 손실되기 이전의 값 즉, 차원이 축소되기 전의 값을 스킵연결을 사용하여 축소된 데 이터와 결합한 상태로 데이터를 복원한다. 이 과정을 반복하 게 되며, Fig. 2은 해당 과정을 보인 것이다. 이렇게 복원된 이미지의 품질을 높인 결과는 의미 세그먼테이션(Semantic segmentation)을 하는데 사용할 수 있다[18]. Resnet에서 사용된 스킵연결은 심층신경망의 근본적인 문 제에 대해 공헌을 하였다. 심층신경망은 망이 깊어 질수록 기 울기 소실 현상이 심해져, 역전파학습 시 앞단의 레이어가 제 대로 학습이 이루어지지 않는 문제가 발생한다[22]. Resnet 은 기존 모델이 출력값 [TeX:] $$H(x)$$와 목표값 와의 차이를 최소화 하는 방향으로 학습하는 방법을, Equation (3)처럼 [TeX:] $$H(x)$$와 입력값 x와이 차이를 최소화하는 방향으로 달리하여 Equation (4)와 같은 비용함수를 형성한다. 이 식을 만족하 는 모델은 복잡성이 줄어들어 학습의 효율성을 높인다는 연 구 결과가 있다[19].
(3)[TeX:] $$\begin{aligned} \text { Loso function } &=L\left(y, H_{\theta}(x)\right) \\ &=L\left(x, H_{\theta}(x)\right) \end{aligned}$$
Equation (3), (4)를 만족하기 위해서 스킵연결을 사용한다. 스킵연결을 이용하여 은닉계층(Hidden layer)의 입력값 x를 은 닉계층의 출력값 [TeX:] $$F(x)$$와 더하여 최종 출력값 [TeX:] $$H(x)$$를 생성한다.
Equation (5)에서 말하는 [TeX:] $$F(x)$$는 잔차함수(Residual function)를 말하며, 최종 출력값 [TeX:] $$H(x)$$와 x의 차이를 말한 다. 결국 손실함수(Loss function)은 잔차함수 [TeX:] $$F(x)$$가 0이 되는 것을 목표로 한다. 따라서 최종 목표함수는 Equation (6)이 된다.
Resnet에서는 손실함수가 [TeX:] $$F(x)=0$$으로 미리 정해져 있 기 때문에 학습이 더 효율적으로 이루어 진다고 주장한다. 또 한 Fig. 3에서 보이는 것처럼 스킵연결은 은닉계층를 건너뛰 어서 연결되기 때문에 역전파학습시 전달되는 신호가 지나치 는 레이어 수가 줄어들어 기울기 소실현상이 줄어들게 되고 더 깊은 망의 학습이 가능하게 된다고 주장한다. 2.3 T-SNET-Stochastic Nearest Neighbor Embedding (T-SNE)는 에 서 제안된 차원 축소 기법이다[3]. 기존에 많이 사용되던 주 성분분석(Principal Component Analysis, PCA) 기법은 빠르게 차원을 축소시킬수 있는 장점이 있으나 선형변환행렬 을 얻어 차원을 축소하기 때문에 비선형 데이터에 대해서는 데이터의 특징을 잘 추출하지 못하는 제약점을 갖는다[2]. T-SNE 기법을 이용하여 차원축소를 할 경우, 이러한 문제를 해 결하는게 가능하다. 2000년도에 소개된 Stochastic Nearest Neighbor Embedding (SNE)는 데이터 X의 이웃간 거리를 최대한 보존하는 저차원 Y를 학습하는 방법을 사용하며 거리 정보를 확률적(Stochastic)으로 나타낸다[4].
(7)[TeX:] $$p_{j i}=\frac{\exp \left(-|| x_{i}-x_{j}||^{2} / 2 \sigma_{i}^{2}\right)}{\sum_{k \neq i} \exp \left(-|| x_{i}-x_{k}||^{2} / 2 \sigma_{i}^{2}\right)}$$Equation (7)의 [TeX:] $$p_{i j}$$ 는 고차원 데이터인 [TeX:] $$x_{i}$$ 에대한 [TeX:] $$x_{j}$$ 의 유 사도를 의미하고, [TeX:] $$\sigma$$는 [TeX:] $$x_{i}$$ 에 대한 가우시안 분포의 분산을 나 타낸다. Equation (8)의 [TeX:] $$q_{i j}$$ 는 저차원 데이터의 대한 유사 도 표현 한다.
(8)[TeX:] $$q_{j i}=\frac{\exp \left(-|| y_{i}-y_{j}||^{2}\right)}{\sum_{k \neq i} \exp \left(-|| y_{i}-y_{k}||^{2}\right)}$$SNE은 [TeX:] $$p_{i j} \text { 과 } q_{i j}$$ 간의 Kullback leibler(KL)거리를 최소화 하도록 학습을 진행한다. Equation (9)에서 쓰이는 KL은 두 확률분포의 차이를 계산하는데 사용하는 함수이다.
(9)[TeX:] $$C=\sum_{i} K L\left(P_{i} \mid Q_{i}\right)=\sum_{i} \sum_{j} p_{i j} \log \frac{p_{i j}}{q i j}$$하지만 가우시안 분포를 기반으로한 SNE는 가까운 이웃과 멀리 있는 이웃간의 차이가 크지 않다는 문제(Crowding problem)가 발생하게 된다. 이를 해결하고자 가우시안 분포 대신 꼬리가 더 두꺼운 T분포를 사용하게 되는데 이 기법이 T-SNE 기법이다. Equation (10)은 T-SNE에서 사용한 변 경된 [TeX:] $$p_{i j} \text { 과 } q_{i j}$$의 식을 보인 것이다.
(10)[TeX:] $$\begin{array}{l} p_{i j}=\frac{p_{i j}+p_{i j}}{2 n} \\ q_{j i}=\frac{\left(1+|| y_{i}-y_{j}|\quad|^{2}\right)^{-1}}{\sum_{k \neq i}\left(1+|| y_{i}-y_{k}||^{2}\right)^{-1}} \end{array}$$T 분포를 기반으로 한 T-SNE은 공간상 두점간의 유사도 식이 Equation (10)와 같이 변하게 되고, 이 변화는 크라우 딩 문제를 해소하였다. T-SNE 기법으로 데이터 차원을 축소하여 데이터를 시각화 하는 방식은 많은 복잡한 데이터에 대해서 좋은 결과를 보여주 고 있다. PCA기법과 달리 T-SNE 기법을 사용하면 군집된 데 이터들이 중복되지 않지만, 이 기법은 학습하는데 시간이 오래 걸린다는 단점이 존재한다. 이러한 이유 때문에 매우 복잡한 고차원 데이터의 경우 먼저 PCA기법나 오토인코더를 이용하 여 어느 정도 차원을 축소시킨 후 T-SNE 기법을 사용한다. 3. 데이터 복원과 클러스터링 성능 비교Convolution autoencoder (CA)와 Denoising autoencoder (DA) 모델에 각각 3가지 데이터셋을 가지고 학습을 진행한 다. 스킵연결을 적용한 모델 3개와 적용하지 않은 모델 3개 를 가지고 데이터 복원 성능과 클러스터링 성능을 비교한다. 오토인코더는 인코더와 디코더로 이루어진 심층신경망 모 델이다. 데이터를 함축하는 인코더영역은 클러스터링을 하기 위해 필요한 주요특징을 추출하기 위해 주로 사용되며, 디코 더영역은 인코더에서 추출한 잠재변수를 이용하여 원래의 데 이터 형태로 복원하는 역할을 통해, 노이즈 제거 및 초해상도 를 위해 주로 사용된다. 모두 다른 기능을 목적으로 하는 모 델이지만, 각각의 목적을 위해 사용하는 목표값와 비용함수 는 모두 동일하다는 공통점이 있다. 이는 결국 데이터 복원과 클러스터링 성능은 상당히 비례할 수 밖에 없다는 것을 의미 한다. Fig. 4에서는 일반 오토인코더 모델을 가지고 실험하 여, 데이터 복원 성능이 증가하면 클러스터링 성능도 같이 증 가함을 보였다. 이 결과를 통해서 데이터 복원 성능을 높이는 것을 목표로 설계한 오토인코더 모델이 클러스터링 성능도 향상시킬 수 있을 것이라는 가정을 세우고 실험을 진행했다. 따라서 한자 유니코드 문제와 같은 클러스터링기법이 필 요한 현상에[16], 데이터 복원 성능을 향상시키도록 설계된 오토인코더 모델을 사용하는 것은 타당한 방법이다. 이 가정 을 증명하기 위한 실험을 3.3장과 3.5장에서 다룬다. 스킵연결 기법을 사용한 오토인코더 모델은 데이터 복원 성 능이 높다는 연구 결과가 있다[14]. 이 논문에서는 스킵연결 기법을 적용한 모델과 적용하지 않은 모델을 활용하여 각각 클 러스터링 성능과 데이터 복원 성능을 비교하는 실험을 통해, 앞에서 전재로 한 가정의 사실여부를 확인하였다. Table 1은 실험에 쓰인 컴퓨팅파워와 오픈플랫폼 정보를 나타낸다. 3.1 모델 구조실험에 사용한 모델은 Convolution을 적용한 오토인코더 모델인 CA와 입력데이터에 노이즈를 강제로 추가하여 학습 하는 DA를 사용하였다. 두 모델의 구조는 거의 동일하며 DA 의 경우 입력단에 노이즈를 추가한다. CA모델의 전반적인 구 Table 1.
조는 Fig. 5를 통해 알 수 있다. CA는 영상 이미지데이터에 주로 이용되는 오토인코더 모 델로서 기본구조의 인코더와 디코더 형태를 가진 일반적인 모델이다. CA를 사용하여 먼저 기본적인 오토인코더 모델에 서의 실험결과를 확인했다. DA는 데이터 복원 성능이 다른 모델에 비해 상대적으로 저조하다는 특징을 가진 모델로서, 일반적이 CA모델과는 다르게 결과에 영향을 줄 수 있는 변수 를 두어 일반적이지 않은 상황에서의 결과를 보여준다. 3.2 데이터셋이 실험에서 사용하는 데이터셋은 여러 데이터에 대한 보 편화된 결과를 위해 3종류의 다른 데이터들을 선정하였다. 오픈 데이터셋으로서는 MNIST에서 제공하는 손글씨이미 지와 FashisionMnist라 불리는 의류이미지를 사용했다 [21,20]. 또한 클러스터링 기법을 통한 한자 유니코드의 문제 해결에 도움을 주고자 고서(지촌집)에서 추출한 12종의 한자 Table 2.
이미지를 나머지 하나의 실험 데이터셋으로 사용했다. Table 2 는 데이터에 크기와 개수에 관한 정보를 보인 것이다. 3.3 데이터 복원 비교스킵연결 기법을 적용한 CA와 DA모델이 기법을 적용하지 않았을 때 보다 데이터 복원 성능이 얼마나 달라졌는지 보기 위한 실험이다. 이 실험은 Resnet에서 실행한 실험과는 달리 깊은 신경망을 사용하지 않아 더 세밀한 특징 학습이 불가능 한 상태이다. 따라서 이 실험은 깊은 학습과 관계없이 스킵연 결을 이용해 인코더와 디코더와의 대칭적 연결을 함으로써 데이터 복원 성능의 변화를 보고자 하는 실험이다. 3.4 데이터 복원 결과데이터 복원 성능을 비교하기 위해서 최대신호잡음비(Peak Signal-to-noise ratio, PSNR)를 척도로 사용하였다. PSNR은 영상 이미지 품질평가에 주로 사용되는 척도로써, 비교하는 두 이미지간의 차이가 적을수록 수치가 증가한다. Fig. 6은 스킵연결 기법을 적용한 모델의 PSNR은 적용하지 않은 모델에 비해 평균적으로 5이상의 더 높은 수치를 보인다. Table 3을 통해 한자 이미지의 데이터 복원 결과를 시각적으 로 살펴본 결과, 스킵연결을 적용하지 않은 모델은 블러효과가 심한 것을 확인할 수 있다. 인코더와 디코더에 스킵연결을 대 칭적으로 연결함으로써, 인코더에서 차원이 점차 축소되면서 손실된 정보를 디코더에서 차원이 점차 증가하면서 보완한다. 이는 결국 데이터 복원 성능을 개선하는 결과를 가져왔다. 3.5 클러스터링 성능 비교앞에서 실험한 동일한 모델을 가지고 클러스터링의 성능을 비교하였다. 인코더의 결과로 추출한 30차원의 잠재변수를 가지고 T-SNE 기법을 이용해 2차원으로 구성한 후, 거리기 반 클러스터링 기법인 K-means를 이용해 결과를 도출 했 다. 주요 특징 추출을 이용해 오토인코더 모델을 사용하였지 만, T-SNE을 이용해 차원 축소를 추가로 함으로써 클러스터 링 성능을 개선한다. T-SNE은 가까운 요소를 더 가까이 있 게 하고 멀리있는 요소를 더 멀어지게 함으로써 거리기반 클 러스터링 성능을 높여준다. 3.6 클러스터링 성능 결과클러스터링 성능을 비교하기 위해 Normalized Mutual information(NMI) 척도를 사용하였다. NMI은 확률계산을 이용하여 K-means를 통해 얻은 클러스터링 값이 정답과 얼 마나 유사한지 평가하는 척도이다. Fig. 7에서 클러스터링의 성능 결과를 확인할 수 있다. CA 와 DA모델에 각각 스킵연결이 적용된 모델과 적용하지 않은 모델로 나누어 총 4개의 모델의 클러스터링 성능을 비교해본 결과, 스킵연결을 적용한 모델이 적용하지 않은 모델보다 성 능이 떨어지는 결과를 보였다. 평균적으로 40이상의 수치가 더 감소하였다. Fig. 8은 스킵연결 기법이 클러스터링 성능을 저하시킨다는 것을 시각적으로 보인다. CA를 통해 한자 이미지를 클러스터 링 했을 때, 12종류 클래스 모두 정확히 그룹화가 이루어진 것 을 확인했다. 그에 반해 스킵연결을 적용한 CA의 클러스터링 결과는 전체적으로 그룹화가 잘 안되어있는 결과를 보인다. 실험을 통해 얻은 데이터 복원 성능 결과와 클러스터링 성 능 결과는 서로 반대되는 모습을 보였다. 앞에서 살펴봤던 클 러스터링 성능과 데이터 복원 성능 결과가 비례하다는 결과 와는 상반되는 결과다. 이는 스킵연결 기법이 데이터 복원 성 능을 높이는 기능은 있지만, 잠재변수 학습을 방해하는 효과 도 있음을 증명한다. 4. 스킵연결 기법과 잠재변수의 관계스킵연결 기법은 특정 히든 레이어의 입력값을 그 이후에 있는 레이어의 입력값과 합쳐서 신호를 전달한다. 또한 학습 신호를 역전파로 전달할 때에도 스킵연결을 통해 신호가 분 산되어 일정 레이어를 건너뛰어 전달하게 된다. 이런 효과는 깊은 망에서 발생하는 기울기 소실 문제를 해소하는데 공헌 하였다. 하지만 스킵연결에 의해 전달받는 신호가 분산되면 서 레이어들의 학습률도 줄어들 것이라 평가된다. 스킵연결이 적용된 CA와 적용되지 않은 CA를 가지고 특 징맵을 분석해 봄으로써 평가에 대한 사실 여부를 확인했다. 스킵연결을 통해 정보를 받는 마지막 레이어의 위치를 기반 으로 각 모델에서 특징맵를 추출해 보았다. 이 특징맵은 잠재 변수로부터 차원이 복구된 형태이므로 잠재변수가 학습된 정 도를 반영한다. Fig. 9는 스킵연결이 적용된 모델이 적용되지 않은 모델보다 데이터에 대한 학습이 덜 이루어진 것을 보여 준다. 특징맵에 한자 이미지의 형태가 보이는지의 여부가 이 사실을 증명한다. 스킵연결에 의해 학습 신호를 분산하는 방 법은 내부 레이어의 학습역량을 감소시키는 결과를 초래했 다. 하지만 스킵연결 경로의 특징맵은 반대로 매우 선명한 한 자 이미지 형태를 보인다. 이 결과는 정보가 손실되기 전의 데이터를 가진 스킵연결 경로에 의해 데이터를 복원하기 위한 충분한 정보를 얻으면 서, 학습하는 동안 비용함수를 통해 전달되는 값이 상당히 줄 어들었을 뿐만 아니라, 스킵연결 경로에 의해 전달되는 값이 분산된다. 잠재변수가 역전파를 통해 전달받은 학습 신호가 줄어들면서 잠재변수의 학습 효과도 감소하게 된다. 결국, 잠 재변수의 정보는 데이터를 복원하는 역할에 있어서 영향력이 저조하기 때문에 스킵연결로부터 받은 정보가 복원되는 것을 보조하는 역할 밖에 하지 못한다. 이를 바탕으로 스킵연결을 보조하는 정도로 학습된 잠재변수에 스킵연결의 특징 정보가 합쳐진 상태로 클러스터링을 수행한다면 클러스터링의 성능 이 올라갈 것인지 실험했다. Fig. 10은 이 실험의 전체적인 구조를 간략히 보여준다. 스킵연결에 의해 전달받지 못한 학 습정보를 스킵연결의 정보를 잠재변수에 직접적으로 추가하 여 클러스터링하는 방식이다. Fig. 11는 스킵연결이 적용되지 않은 모델이(회색) 적용된 모델보다(주황, 파랑) 여전히 클러스터링 성능이 좋음을 보인 다. 하지만 스킵연결이 적용된 모델의 잠재변수는 스킵연결 의 정보가 더해지면서 클러스터링 성능이 좋아졌다는 결과 또한 보인다.(주황) 스킵연결이 적용되지 않은 모델과의 클러 스터링 성능 차이는 스킵연결 정보를 이용한 모델이 그렇지 않은 모델보다 50%이상 낮았다. 스킵연결이 잠재변수와 합 쳐지는 과정에서 차원이 축소되어 정보 손실이 일어난다. 이 런 이유로 스킵연결을 적용하기 전보다 클러스터링 성능이 떨어질 수밖에 없다. 그렇지만 이 실험결과는 스킵연결을 이 용해 데이터 복원 성능과 클러스터링 성능 모두 높일 수 있다 는 가능성을 제시한다. 5. 결 론오토인코더에 스킵연결 기법을 적용한 모델은 데이터 복원 성능을 PSNR척도를 기준으로 5이상 높이는 결과를 보였지 만, 레이어가 데이터의 특징을 학습하는데 있어 방해 효과를 발생시키기 때문에 클러스터링 성능은 NMI 척도를 기준으로 40 이상의 수치가 감소하는 결과를 보였다. 이런 사실은 오토인코더 와 같은 신경망모델이 출력된 결과 성능이 좋다고 해서 모든 레 이어들이 데이터의 특징을 잘 학습했다고 확신할 수 없다는 것을 증명한다. 따라서 주요특징을 잘 학습했는지 여부가 성능을 결 정짓는 클러스터링과 같은 기법은 출력된 결과(데이터 복원 결 과)를 보고 성능을 정확하게 판단할 수 없음을 의미한다. 스킵 연결과 잠재변수의 정보를 같이 사용하여 클러스터링 성능저 하 현상을 50% 이상 보완한 것처럼, 연구를 통해 스킵연결과 레이어들의 학습 관계를 분석하여 데이터 복원 성능뿐만 아니 라 클러스터링 성능도 올리는 방법도 제안할만한 과제이다. 본 논문에서 작업한 코드는 github을 통해 공유되어 있다. (https://github.com/Join-su/Autoencoder_skipconnection) BiographyBiographyBiographyBiographyReferences
|
StatisticsCite this articleIEEE StyleI. Jo, Y. Kang, D. Choi, Y. B. Park, "Clustering Performance Analysis of Autoencoder with Skip Connection," KIPS Transactions on Software and Data Engineering, vol. 9, no. 12, pp. 403-410, 2020. DOI: https://doi.org/10.3745/KTSDE.2020.9.12.403.
ACM Style In-su Jo, Yunhee Kang, Dong-bin Choi, and Young B. Park. 2020. Clustering Performance Analysis of Autoencoder with Skip Connection. KIPS Transactions on Software and Data Engineering, 9, 12, (2020), 403-410. DOI: https://doi.org/10.3745/KTSDE.2020.9.12.403.
TKIPS Style In-su Jo, Yunhee Kang, Dong-bin Choi, Young B. Park, "Clustering Performance Analysis of Autoencoder with Skip Connection," KIPS Transactions on Software and Data Engineering, vol. 9, no. 12, pp. 403-410, 12. 2020. (https://doi.org/https://doi.org/10.3745/KTSDE.2020.9.12.403)
|