본문 바로가기

전체 글

(11)
K-means 클러스터링 방대한 데이터에서 유의미한 패턴을 발견하기 어려운 경우, 특정 기준에 따라 데이터를 묶어내는 것만으로도 꽤 유용한 인사이트를 얻을 수 있다. 예를 들어, 온라인 쇼핑몰 고객을 구매 빈도나 구매 금액에 따라 세분화하면 각 그룹의 소비 성향을 보다 명확하게 분석할 수 있고, 시간대별 교통량 데이터를 활용하여 지역을 군집화하면 특정 시간대에 교통이 집중되는 구간을 식별할 수 있다. 이처럼 데이터 내 유사한 특성을 가진 개체들을 여러 그룹으로 분류하는 과정을 클러스터링(Clustering)이라고 한다. 그중에서도 가장 널리 사용되는 방법이 바로 K-means 클러스터링이다. K-means 알고리즘은 비교적 단순한 수학적 원리에 기반하여 계산 효율성이 높고, 다양한 도메인에서 안정적으로 작동하기 때문에 폭넓게 활.. 통계·머신러닝 2025. 2. 4. 23:10
마케팅 믹스 모델링(MMM) 마케팅 믹스 모델(Marketing Mix Model)은 마케팅 활동이 매출에 미치는 영향을 정량적으로 설명하기 위해 고안된 통계적 방법론이다. 초기에는 주로 전통적 광고 채널(e.g. TV와 라디오, 인쇄 매체 등)에 대한 마케팅 투자와 매출 간의 관계를 모델링하고, 투자 대비 성과(ROI)를 평가하는 데 초점을 두었다. 이는 마케터가 제한된 자원을 효과적으로 배분하고, 마케팅 전략을 개선하는 데 중요한 근거가 되었다. 2000년대 이후 디지털 마케팅 채널이 등장하며 클릭률(CTR)이나 전환율(CVR) 등 실시간 성과 지표를 통해 마케팅 효과를 측정하는 방법이 보편화되었다. 이에 장기간의 데이터를 사후적으로 분석하는 마케팅 믹스 모델은 빠르게 변화하는 디지털 환경에 적합하지 않다는 평가를 받았다. 특히.. 데이터 분석 2024. 12. 28. 10:00
릿지(Ridge)와 라쏘(Lasso), 엘라스틱넷(Elastic Net) 선형 모형은 해석 측면에서 확실한 이점이 있고 종종 우수한 예측 성능을 보인다. 그러나 변수의 개수가 많아질수록 과적합 등의 문제가 발생할 수 있어 유의해야 한다. 규제화(Regularization)란 머신러닝이나 통계 모형에서 과적합을 방지하고 모형의 일반화 성능을 향상시키기 위해 사용하는 기법을 통칭한다. 선형 회귀 모형에서는 회귀 계수가 너무 커지지 않도록 제약을 가함으로써 모형의 복잡도를 줄이고, 더 일반화된 모델을 만들 수 있다. 대표적인 규제화된 회귀 모형으로 릿지 회귀(Ridge Regression)와 라쏘 회귀(Lasso Regression), 엘라스틱넷(Elastic Net)이 있다.  선형 회귀 모형의 목표는 잔차제곱합(오차제곱합)을 최소화하는 회귀 계수 $\beta$를 구하는 것이다... 통계·머신러닝 2024. 10. 9. 20:46
선형 회귀(Linear Regression) 선형 회귀는 선형 모형(Linear Model)의 한 종류이다. 모든 선형 회귀는 선형 모형이지만, 모든 선형 모형이 선형 회귀는 아님에 유의해야 한다. 선형 모형은 모형식이 파라미터들의 선형 함수로 주어지는 모형을 뜻한다. 다시 말해, $y$와 $x$의 관계가 아니라, $y$와 모수 $\beta$의 관계가 선형이다. 따라서 $x$의 n차항을 포함하는 다항 회귀(Polynomial Regression) 또한 선형 모형에 속한다. 선형 회귀(Linear Regression)종속 변수와 하나 이상의 독립 변수 간 관계를 모델링하는 통계 기법으로, 독립 변수가 종속 변수에 미치는 영향을 직선의 형태로 설명한다. 아래 예시 이미지를 보자. 2차원 상에 데이터들이 다음과 같이 퍼져 있을 때, 데이터의 경향성을 가.. 통계·머신러닝 2024. 9. 23. 18:31
주성분 분석(Principal Component Analysis) 이론적으로 차원의 저주를 해결하는 해결책 하나는 훈련 세트의 크기를 키우는 것이다. 데이터의 차원이 높다면 그만큼 많은 샘플을 수집하면 된다. 듣기에는 간단해 보이지만 실상은 그렇지 않다. 차원 수가 커짐에 따라 필요한 샘플 수는 기하급수적으로 늘어나기 때문에, 고차원 데이터에서 이 기준을 맞추기는 불가능에 가깝다. 따라서 우리는 차원 축소라는 방법을 택한다. 차원 축소(Demension Reduction)란 피처의 정보 손실을 최소화하면서 낮은 차원의 새로운 피처로 변환하는 과정을 의미한다. 주성분 분석(Principal Component Analysis)대표적인 차원 축소 기법으로 주성분 분석(Principal Component Analysis; PCA)이 있다. 주성분 분석을 이해하기 위해서는 특이.. 통계·머신러닝 2024. 9. 21. 13:37
특이값 분해(Singular Value Decomposition) 특이값 분해(Singular Value Decomposition; SVD)는 임의의 행렬을 세 개의 다른 행렬로 분해하는 기법으로, 특이값 분해를 살펴보기 앞서 고유값 분해의 개념을 먼저 이해하는 것이 좋다.  고유값 분해(Eigenvalue Decomposition)임의의 벡터 $\mathbf{v}$가 있다고 하자. 임의의 정방 행렬(Square Matrix) $A$는 벡터 $\mathbf{v}$에 대해 함수로서 작용한다. 다시 말해, 행렬은 벡터를 변환시켜 다른 벡터를 출력한다(Linear Transformation).  $$A \mathbf{v} = \mathbf{v}'$$ 행렬 $A$에 의해 변환된 벡터 $\mathbf{v}'$는 대부분 $\mathbf{v}$와 다른 크기와 방향을 가지게 된다. .. 통계·머신러닝 2024. 9. 14. 14:52
서포트 벡터 머신(Support Vector Machine) 서포트 벡터 머신(Support Vector Machine; SVM)은 선형이나 비선형 분류, 회귀, 이상치 탐색 등 다양한 목적으로 활용 가능한 모형이다. 이 글에서는 분류 문제에 초점을 맞추고 서포트 벡터 머신의 작동 원리에 대해 설명한다. 서포트 벡터 머신은 '결정 경계(Decision Boundary)'라는 기준 선을 정의함으로써 클래스를 분류하는 이진 분류 모형이다. 이때 결정 경계에 위치한 샘플이 바로 '서포트 벡터(Support Vector)'이다.   예를 들어, 2차원 상에 데이터가 존재한다고 하자. 왼쪽 그래프를 보면 두 개의 클래스가 직선으로 잘 구분되고 있다. 다만 두 클래스를 구분하는 직선은 무수히 많다. 선형 서포트 벡터 머신은 '어떤 직선이 최적의 구분선일까'라는 질문에서 출발.. 통계·머신러닝 2024. 9. 14. 13:17
의사결정 나무(Decision Tree) 여러 규칙을 순차적으로 적용해 데이터를 분할함으로써 최종 클래스 또는 값을 예측하는 모형. 의사결정을 해 나가는 방식이 나무 줄기에서 가지가 뻗어나가는 모양과 유사해 '의사결정 나무(Decision Tree)'라는 이름을 갖게 됐다. 결정 트리라고도 한다. XGBoost, LightGBM 등 우리가 알고 있는 대부분의 부스팅 알고리즘이 의사결정 나무를 기반으로 한다. $x=(x_{1}, x_{2}, \cdots, x_{d})^T$ 를 d차원상의 m개 셀로 분할한 후 셀의 평균 또는 셀 내에서 높은 비중의 범주로 y를 예측한다. 목표변수 y가 연속형이면 회귀 나무(Regression Tree), 범주형이면 분류 나무(Classification Tree)이다. 분할의 기준이 구체적으로 제시되기 때문에 해석이.. 통계·머신러닝 2024. 9. 12. 15:19