출처 :
이 논문에서는 ABSTLAY 라는 flexible한 layer와, 이 layer를 stack한 DANETs(Deep Abstrac Network)을 제안한다. 또한, 이를 re-parametrization 하여 효율적으로 계산할 수 있는 방법을 제시한다.
배경 및 가정
일반적으로 Tabular data의 feature들은(이미지 데이터 등에 비해) 비정칙적이기 때문에, Tabular data에서 Neural Network의 inductive biases는 낮다. 본 연구에서는 tabular data 내부에 (1) 서로 correlation된 feature들로 이루어진 group들이 존재하고, (2) 각 group에 속한 feature들을 통해 higher-level feature들을 뽑아낼 수 있다고 가정한다.
Figure1 예시 data를 살펴보면, (height, weight), (globulin, albumin), (Na+, K+) group이 있다고 생각할 수 있다. 이들 group 내 feature들은 서로 상관성이 높으며, 이들을 조합해 higher-level features (physique, liver health, kedney health)를 뽑아낼 수 있다. 그리고 새롭게 추출한 higher-level feature에 대해서 동일한 sequence를 한 번 더 수행해 또다른 feature(health condition)을 추출할 수 있다.
Notations
Tabular data structure
F : specifies the raw feature type space
X : feasible instance space. x $in$ X^{n} is n-element vector representing n scalar raw feature in F (|F| = n)
y : target space
Model 구조
ABSTLAY Layer
앞서 소개한 가정 (1), (2)에 맞춰 feature selection(grouping)과 feature abstraction을 수항하는 Layer 구조. 아래처럼 3가지 step을 가진다.
1. Feature selection
m차원 input vector f에 대해 개별 group에 포함될 feature를 선택하는 Mask M을 생각할 수 있다. 이 Mask M을 다음과 같이 학습가능한 m차원 vector W_{mask}에 Entmax sparsity mapping 통과한 값으로 정의할 수 있다. selected feature f′은 M과 f의 elementwise multiplication이 된다.

2.Feature abstracting function
앞에서 수행된 selected feature f′을 대상으로 feature abstracting function q^{*}을 아래 순서에 따라 정의한다.
W_{c} ∈ R^{d×m}, where c=1,2
q : computed attention vector
d차원 vector f^{*}를 (동일한 group에서 추출된) independent scalar features representing various semantics이라 할 수 있다.


3. Parallel processing and output fusion

4. ABSTLAY Complexity Reduction
reparameterization을 통해 계산복잡도를 줄일 수 있다. 식 (1)을 식 (2)에 대입하면 아래와 같은
ㅇㅇ
Deep Abstract Networks
1. A Basic Block

2.Network Architectures and Training
Experiments
ㅇㅇ


