파머완

파이썬 머신러닝 완벽 가이드 - 9. Text Analytics(1) (Encoding, Vectorize)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 9. Text Analytics(1) (Encoding, Vectorize) TA(Text Analytics or Text Mining)비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전 velog.io Text Analytics 텍스트 분석 TA(Text Analytics or Text Mining) 비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립..

파이썬 머신러닝 완벽 가이드 - 8. Clustering(2) (평균 이동, GMM, DBSCAN, 예제 실습)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 8. Clustering(2) (평균 이동, GMM, DBSCAN, 예제 실습) : K-평균과 유사하게, 군집의 중심을 지속적으로 움직이면서 군집화를 수행함: 그러나, K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해,: 평균 이동은 데이터가 모여있는 velog.io 4. 평균 이동 Mean shift : K-평균과 유사하게, 군집의 중심을 지속적으로 움직이면서 군집화를 수행함 : 그러나, K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해, : 평균 이동은 데이터가 모여있는 밀도가 가장 높은 곳..

파이썬 머신러닝 완벽 가이드 - 8. Clustering(1) (K-Mean, Cluster Evaluation)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 8. Clustering(1) (K-Mean, Cluster Evaluation) 분류와 유사해보일 수 있지만 성격이 다르다. 데이터 내에 숨어있는 별도의 그룹을 찾아서 의미를 부여하거나, 동일한 분류값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나, 서로 velog.io Clustering 군집화 분류와 유사해보일 수 있지만 성격이 다르다. 데이터 내에 숨어있는 별도의 그룹을 찾아서 의미를 부여하거나, 동일한 분류값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나, 서로 다른 분류값의 데이터도 더 넓은 군집화 레벨화..

파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(2) (SVD, NMF)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(2) (SVD, NMF) : PCA와 유사. 정방 행렬뿐만 아니라 행과 열의 크기가 다른 행렬에도 적용 가능Full SVD$A = U \\sum V^T$$A$ : 행렬, $U$, $V$: 특이벡터(Singular vector)로 된 행렬, $\\sum$ : 대각행렬$\\sum$ : 대각행렬 velog.io 3. SVD(Singular Value Decomposition, 특이 값 분해) : PCA와 유사. 정방 행렬뿐만 아니라 행과 열의 크기가 다른 행렬에도 적용 가능 Full SVD $A =..

파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(1) (PCA, LDA)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(1) (PCA, LDA) : 매우 많은 피처로 구성된 다차원 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것다차원 데이터 세트의 문제점차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 velog.io Dimension Reduction 차원 축소 : 매우 많은 피처로 구성된 다차원 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것 다차원 데이터 세트의 문제점 차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지고, 희소한Sparse 구조를 가..

파이썬 머신러닝 완벽 가이드 - 6. Regression(2) (규제, 로지스틱회귀, 회귀 트리 및 예제)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 6. Regression(2) (규제, 로지스틱회귀, 회귀 트리 및 예제) : $w^2$에 대해 패널티를 부여하는 방식. 주요 생성 파라미터는 alpha로, alpha가 커질 수록 회귀 계수 값을 작게 만든다.$RSS(w) + alpha\*||w||\_2^2$ 식을 최소화하는 w를 찾는 것: $|w|$에 패널티를 부여하는 velog.io 5. 규제 Regularization 1. 릿지 회귀 Ridge : $w^2$에 대해 패널티를 부여하는 방식. 주요 생성 파라미터는 alpha로, alpha가 커질 수록 회귀 계수 값을 작게 만든다...

파이썬 머신러닝 완벽 가이드 - 6. Regression(1) (경사하강법, 평가지표, 선형회귀)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 6. Regression(1) (경사하강법, 평가지표, 선형회귀) : 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링 하는 기법: 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀계수(Regression coefficients)를 찾아내는 것회귀계수 velog.io Regression 회귀 : 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링 하는 기법 : 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀계수(Regression coefficients)를 찾아내는 것 회귀..

파이썬 머신러닝 완벽 가이드 - 5. Classification(3) (예제 및 스태킹)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 5. Classification(3) (예제 및 스태킹) EDA 중, head, info, describe 사용이상치 발생 ⇒ 제일 많은 걸로 대체하는 방법론도 있음LGBMClassifier( . . . boost_from_average=False) : 레이블값 매우 불균형한 경우 False, if True ⇒ 재현률 및 R velog.io 4. 실전 예시 A. Santander 예시 EDA 중, head, info, describe 사용 이상치 발생 ⇒ 제일 많은 걸로 대체하는 방법론도 있음 B. 신용카드 사기 검출 예시 LGBMC..

파이썬 머신러닝 완벽 가이드 - 5. Classification(1) (결정트리)
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 5. Classification(1) (결정트리) Classification 분류 : 학습 데이터로 주어진 데이터의 피처와 레이블 값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 velog.io Classification 분류 : 학습 데이터로 주어진 데이터의 피처와 레이블 값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 나이브 베이즈 Naive ..

파이썬 머신러닝 완벽 가이드 - 4. Evaluation
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 4. Evaluation 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표$$⁍ $$특히 정확도는 불균형한 레이블 값 분포에서는, 적합한 평가 지표가 아님ex) MNIST 데이터 셋을 다중분류에서 이진분류로 바꾸 velog.io Evaluation 평가 ( in 분류) 1. 평가 지표 1. 정확도 Accuracy 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표 특히 정확도는 불균형한 레이블 값 분포에서는, 적합한 평가 지표가 아님 ex) MNIST 데이터 셋을 다중분류에서 이진분류로 바꾸면 (7을 True, 나머지..

파이썬 머신러닝 완벽 가이드 - 3. Scikit-Learn
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 3. Scikit-Learn Classifier 분류: DecisionTreeClassifier, RandomForestClassifier, GradientBoostingClassifier, GaussianNB, SVCRegressor 회귀: LinearRegression, Ridge, Lasso velog.io Scikit-Learn 사이킷런 1. Estimator 1. Classifier 분류 : DecisionTreeClassifier, RandomForestClassifier, GradientBoostingClassifier,..

파이썬 머신러닝 완벽 가이드 - 2. Pandas
* 티스토리에서 마크다운 적용이 안돼서 깨지는 부분이 많습니다. * 깨지지 않은 파일로 자세히 보기 원하시는 분들은 아래 링크 참고해주세요! 파이썬 머신러닝 완벽 가이드 - 2. Pandas read_csv() : ,, read_table() : \\t, read_fwf() : 고정길이 파일value_counts(): 해당 칼럼 값의 유형과 건수 확인 (Series 객체에만 정의)describe() : agg류 연산 보여줌2차원 이하의 데이터들만 변환 가 velog.io 🗂 Pandas 판다스 1. 데이터 읽기 및 확인 read_csv() : ,, read_table() : \t, read_fwf() : 고정길이 파일 value_counts(): 해당 칼럼 값의 유형과 건수 확인 (Series 객체에만 ..