파이썬에서 등분산성(등분산성) 검증은 두 개 이상의 그룹(데이터 집단)이 동일한 분산을 가지고 있는지 확인하는 통계적 검증 방법입니다. 등분산성 검증은 일반적으로 분산분석(ANOVA) 등의 통계적 가설 검정에 사용되며, 그룹 간에 유의한 차이가 있는지 확인하기 전에 반드시 수행되어야 하는 중요한 단계입니다. T-test할때 첫번째. 정규성 검정(shapiro) 두번째. 등분산성 검정(levene, bartlett) 을 한다. 등분산성 검정 방식 두가지 차이점이 뭘까? 정규분포를 따를때 - 이상치 데이터가 많다 : Levene(이상치가 있어도 안정적) - 이상치 데이터가 적다 : Bartlett(이상치에 민감하게 반응) 정규분포를 따르지 않을 때 - 그냥 Levene 또는 비모수적 방법 ----------..
데이터 표준화가 뭔지는 알겠는데 궁금증이 생긴다. 1. 무조건 표준화를 하면 좋은거 아닌가? - 군집분석(KNN, SVM 등), 인공신경망에는 필수적 2. 어떨때는 fit(), transform()을 나눠쓰고 어떨때는 fit_transform()을 쓰는 것인가? 한번에 fit_transform()으로 가는게 무조건 좋은것인가? - 학습, 테스트 데이터 분리전 처리가 간편함 3. 왜 transform() 이후에 커럼명을 다시 조합해주지? - ndarray로 반환되므로 세 가지의 궁금증에 대한 답을 아래 책에서 확인할 수 있었다. ㅁ 파이썬 머신러닝 완벽가이드 123p ~ 이렇게 가우시안 정규 분포를 가질 수 있도록 데이터를 변환하는 것은 몇몇 알고리즘에서 매우 중요합니다. 특히 사이킷런에서 구현한 RBF ..
import pandas_profiling을 했더니 아래와 같은 오류가 난다. DeprecationWarning: `import pandas_profiling` is going to be deprecated by April 1st. Please use `import ydata_profiling` instead. (사용종료 경고) 대신에 설명된 내용과 같이 ydata_profiling을 쓰면 된다. pip install -U ydata-profiling import ydata_profiling df.profile_report()
from sklearn.metrics import plot_roc_curve plot_roc_curve(clf, x_test, y_test) 실행하면 다음과 같은 에러가 난다. ImportError: cannot import name 'plot_roc_curve' from 'sklearn.metrics' (/usr/local/lib/python3.10/dist-packages/sklearn/metrics/__init__.py) 구글링 해보면 sklearn 버전 1.2부터 plot_roc_curve가 RocCurveDisplay로 바뀌었단다. 호출방식도 바뀌었음 --------------------------- Before sklearn 1.2: --------------------------- from ..
- Total
- Today
- Yesterday
- 뉴질랜드 여행
- 배낭여행
- 토익 공부
- pmp 요약
- 영어 공부
- 해외봉사
- 미국
- 베트남 여행기
- 호주여행기
- 베트남
- 영어공부
- unv
- pmp 시험
- pmp 공부
- 베트남 여행
- 시드니
- 미국 여행기
- undp
- pmp 자격
- 뉴질랜드
- Volunteer
- UN
- 인턴
- PMP
- 2020 보안전망
- 토익 요점
- 자원봉사
- 뉴질랜드 여행기
- 호주
- PMP 자격증
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |