문제정의
아래 2가지 이유로 model overfitting 발생할 수 있음. 이로인해 model이 suprious relations을 학습하여 예측성능 하락함.
- Data에 유사한 Feature가 존재 (exist Inter-correlation or multicollinearity on data)
- Labeled sample 부족 (absence of sufficient labeled samples)
Method
Self-supervision Enhanced Feature Selection (SEFS)
- propose Gate vector generation process
- Feature selection 하는 Gate vector 사용
- Feature 간 correlation 관계가 반영된 multivariate bernoulli distribution 사용
- Two step training procedure (both labeled and unlabeled sample)
- Self-Supervision Phase
- supervision Phase
Gate Vector
Feature 간 Correlation 구조를 반영해 Feature selection을 할 수 있도록 gate vector를 정의함. U_k ~ Uniform(0,1)인 random variable, R이 Feature p개 사이의 Correlation matrix 일 때, Gaussian copula를 다음과 같이 정의함.
즉, Gaussian(0, R)을 따르는 확률변수의 측정값의 CDF value가 된다. (in [0,1]) Gaussian copula를 따르는 확률변수의 Correlation Matrix는 input feature간 Correlation matrix R과 동일함. (Correlated R.V)
실제로 Feature selection (masking) 하는 Gate vector m을 생성해야 한다. Multivariate Bernoulli distribution을 따르는 확률변수 Gate vector m은 1)Selection probability \pi와 2) Gaussian copula C_R을 사용해 생성할 수 있다. Correlated 확률변수 U-k 에 대해,
이렇게 input feature들의 Correlation structure를 반영한 feature selection은 아래 두 가지 장점이 있음.
- Self-supervision Phase에서, Correlated Feature selection은 model이 trivial signal에 의존하지 않도록 방지.
- Supervision Phase에서, correlated feature들이 같이 선택되어, 이들간 경쟁(?)을 통해 모델이 most relevant feature를 선택할 수 있도록 해줌.
이렇게 생성된 Gate vector m (\in (0,1))를 사용해, Feature selection을 아래처럼 수행.
Self-Supervision Phase
unlabed sample을 사용해 (weak) supervisory signal을 생성할 수 있게 Self-supervision Phase 사용. 이렇게 학습된 representations은 downstream task (predict y)에 사용할 수 있음. 이를 위해 다음 2가지 pretext task 진행.
- Gate Vector m을 사용해 Randomly selected 된 subset of input Feature x로, Original input X를 재구성.
- 이와 동시에 Gate Vector m 추정.
이를 위해, 3가지 model 구조 도입한다.
- Encoder f_\theta (X → Z) : where Z are latent representation from original feature vector X
- Feature vector estimator h_\psi_1 (Z → X)
- Gate vector estimator h_\psi_2 (Z → [0,1]^p) : feature selector m의 추정값 \hat{m}을 출력.
Encoder와 두 가지 estimator에 대한 loss를 아래와 같이 정의한다.
where
and
l_M (m, \hat{m})은 Bernoulli distribution의 log likelihood.
Supervision Phase
(정리중)