aspe

ML - ANN 본문

카테고리 없음

ML - ANN

aspe 2021. 12. 14. 03:44

Vanising Gradient

  • Sigmoid를 사용한 Backpropagation을 하면 값이 점점 0에 수렴하여 학습의 효율이 떨어진다. -> ReLU가 등장해 해결하였다.

Fitting

Overfitting

  • 더 많은 Training data를 사용하거나, Regularization feature의 수를 줄인다.

Underfitting

  • 더 많은 학습을 시킨다.

Regularization

  • Cost function 값이 작아지는 방향으로 학습하는 과정에서 특정 가중치가 너무 커져 일반화 성능이 떨어지는 것을 막는다.

L1

  • sparse vector가 되는 경향이 있다 -> 0이 되는 w가 생긴다.
  • Feature selection -> Sparse Model에 적합하다.

L2

  • 모든 가중치를 균등하고 작게 유지하려고 한다.
  • 전체 W의 크기가 작아지는 방향으로 학습한다.
  • weight decay

Early Stopping

  • Dev set에서 성능이 더 이상 증가하지 않을 때 학습을 일찍 끝내는 것

Dropout

  • 학습 과정 중에서 지정된 비율로 임의의 연결을 끊음으로써 일반화 성능을 개선하는 방법이다.

model = nn.Sequential(
	nn.Linear(2, 10, bias=True), nn.ReLU(), nn.Dropout(0.1),
    nn.Linear(10, 10, bias=True), nn.ReLU(), nn.Dropout(0.1),
    nn.Linear(10, 10, bias=True), nn.ReLU(), nn.Dropout(0.1),
    nn.Linear(10, 10, bias=True), nn.ReLU(), nn.Dropout(0.1),
    nn.Linear(10, 10, bias=True), nn.ReLU(), nn.Dropout(0.1),
    nn.Linear(10, 10, bias=True), nn.ReLU(), nn.Dropout(0.1),
    nn.Linear(10, 1, bias=True), nn.Sigmoid()
    )

Residual Connection

  • 가중층을 우회하여 상위 층으로 연결하는 것이다.
  • 추상화 정도를 적절히 섞어주어 Ensemble 효과를 통해 성능을 개선한다.

 


wikidocsl.net의 사진을 제외한 모든 사진의 출처는 건국대학교 컴퓨터공학부 김학수 교수님의 강의자료 일부입니다.

 

Comments