본문 바로가기

릿지(Ridge)와 라쏘(Lasso), 엘라스틱넷(Elastic Net)

선형 모형은 해석 측면에서 확실한 이점이 있고 종종 우수한 예측 성능을 보인다. 그러나 변수의 개수가 많아질수록 과적합 등의 문제가 발생할 수 있어 유의해야 한다. 규제화(Regularization)란 머신러닝이나 통계 모형에서 과적합을 방지하고 모형의 일반화 성능을 향상시키기 위해 사용하는 기법을 통칭한다. 선형 회귀 모형에서는 회귀 계수가 너무 커지지 않도록 제약을 가함으로써 모형의 복잡도를 줄이고, 더 일반화된 모델을 만들 수 있다. 대표적인 규제화된 회귀 모형으로 릿지 회귀(Ridge Regression)와 라쏘 회귀(Lasso Regression), 엘라스틱넷(Elastic Net)이 있다. 

 

선형 회귀 모형의 목표는 잔차제곱합(오차제곱합)을 최소화하는 회귀 계수 $\beta$를 구하는 것이다. 다시 말해, 선형 회귀 모형의 비용 함수(Cost Function)는 잔차제곱합(오차제곱합)이다. 규제화된 회귀 모형의 경우, 잔차제곱합에 '규제항'을 추가한 새로운 비용 함수를 설정한다. 선형 회귀에 대한 자세한 설명은 아래 포스팅에서 확인할 수 있다. 

 

 

선형 회귀(Linear Regression)

선형 회귀는 선형 모형(Linear Model)의 한 종류이다. 모든 선형 회귀는 선형 모형이지만, 모든 선형 모형이 선형 회귀는 아님에 유의해야 한다. 선형 모형은 모형식이 파라미터들의 선형 함수로 주

ndyakwon.tistory.com

 

 

릿지 회귀(Ridge Regression)

릿지 회귀는 L2 규제를 사용해 회귀 계수들의 크기에 패널티를 부여한다. 일반적인 선형 회귀의 비용 함수에 모든 회귀 계수의 제곱합을 추가로 더하여 큰 계수를 억제하는 방식이다. 회귀 계수를 0에 가깝게 만들지만 정확히 0이 되지는 않는다. 따라서 변수 선택보다는 모든 변수들을 사용하면서 계수 값을 작게 만드는 역할이라고 볼 수 있다. 

 

$$ \sum_{i=1}^{n}(y_{i}-x_{i}^\top\beta)^2+\lambda\sum_{j=1}^{p}\beta_{j}^2 $$

 

여기서 $\lambda$는 규제 강도를 조절하는 하이퍼파라미터이며, 값이 클수록 규제의 강도가 높아짐을 의미한다. 보통 교차 검증을 통해 최적의 값을 찾는다. 한편, 위 식은 아래와 같이 다시 표현할 수 있다.

 

$$ l(\beta) = (y-X\beta)^\top(y-X\beta) + \lambda\beta^\top\beta $$

$$ \frac{\partial l(\beta)}{\partial\beta}= -2X^\top y+2X^\top X\beta+2\lambda\beta=0 $$

$$ \hat\beta_{Ridge} = (X^\top X+\lambda I)^{-1}X^\top y $$

 

다중공선성이 있을 때 회귀 계수들이 비정상적으로 커지기 쉬운데, 릿지 회귀는 이를 억제해 안정적인 추정치를 제공한다. 그러나 변수의 스케일에 의존하므로 모형 적합에 앞서 표준화 과정이 선행되어야 한다.

 

 

라쏘 회귀(Lasso Regression)

라쏘 회귀는 L1 규제화를 사용해 회귀 계수의 절대값에 패널티를 부여하며, 불필요한 변수를 모델에서 제거하는 변수 선택(Feature Selection) 기능을 제공한다. 

 

$$ \sum_{i=1}^{n}(y_{i}-x_{i}^\top\beta)^2 + \lambda\sum_{j=1}^{p}|\beta_{j}| $$

 

릿지와 달리 절대값을 사용하므로 미분이 불가능하고 명시적 해를 가지지 않는다. 따라서 볼록 최적화(Convex Optimization) 방법을 이용해 $\beta$를 추정한다. 변수 간 공선성이 높은 경우, 라쏘는 불안정한 추정치를 제공할 수 있다. 예를 들어, 두 개의 상관관계가 높은 독립 변수가 있을 때, 라쏘 회귀는 둘 중 임의의 변수의 계수를 0으로 만들어 변수 선택을 하게 된다. 계수를 0으로 근사할 뿐 완전히 0으로 만들지는 않는 릿지 회귀와 달리, 라쏘 회귀는 계수를 0으로 만들 수 있다.

 

이미지 출처 : datacamp.com

 

위 그림에서 각 축은 변수의 계수(기울기)를 의미하며 빨간 등고선은 잔차제곱합을 나타내는 선이다. 그리고 초록색 마름모와 초록색 원은 각각 라쏘와 릿지 모형의 제약 범위를 의미한다. 각 모형은 제약 범위 내에서 가능한 작은 잔차제곱합을 갖는 값으로 계수를 추정한다. 기하학적으로 두 원이 접할 때 접선의 기울기는 수평에 가까워질 수 있지만, 완벽하게 수평이 되지는 않는다. 

 

 

엘라스틱 넷(Elastic Net)

릿지와 라쏘를 결합한 하이브리드 방식이다. 두 방법의 장점을 결합하여 변수 선택과 계수의 규제를 동시에 수행할 수 있도록 설계되었다. 비용 함수는 다음과 같고, 아래 식을 최소화하는 $\beta$를 찾는다. 

 

$$ \sum_{i=1}^{n}(y_{i}-x_{i}^\top\beta)^2 + \lambda_{1}\sum_{j=1}^{p}|\beta_{j}| + \lambda_{2}\sum_{j=1}^{p}\beta_{j}^2 $$

 

 

 

Reference

Gared James et al., An Introduction to Statistical Learning with Applications in R