티스토리 뷰


파이썬에서 등분산성(등분산성) 검증은 두 개 이상의 그룹(데이터 집단)이 동일한 분산을 가지고 있는지 확인하는 통계적 검증 방법입니다.
등분산성 검증은 일반적으로 분산분석(ANOVA) 등의 통계적 가설 검정에 사용되며, 그룹 간에 유의한 차이가 있는지 확인하기 전에 반드시 수행되어야 하는 중요한 단계입니다.

T-test할때
첫번째. 정규성 검정(shapiro)
두번째. 등분산성 검정(levene, bartlett)
을 한다.

등분산성 검정 방식 두가지 차이점이 뭘까?

정규분포를 따를때
- 이상치 데이터가 많다 : Levene(이상치가 있어도 안정적)
- 이상치 데이터가 적다 : Bartlett(이상치에 민감하게 반응)

정규분포를 따르지 않을 때
- 그냥 Levene 또는 비모수적 방법

-------------------------------

1. Levene의 등분산성 검정:

장점:
- 이상치(Outlier)에 민감하지 않습니다. 이상치가 있는 경우에도 비교적 안정적으로 동작합니다.
- 데이터가 정규분포를 따르지 않아도 비모수적인 방법보다 robust합니다.
- 데이터가 정규분포를 따르지 않는 경우에도 적용할 수 있습니다.

단점:
- 데이터가 정규분포를 따르는 것을 가정하고 있기 때문에, 정규성 가정에 민감할 수 있습니다. 만약 데이터가 크게 비대칭이거나 첨도가 높은 경우에는 부정확할 수 있습니다.
- 샘플 크기가 작을 경우에는 성능이 감소할 수 있습니다.

2. Bartlett의 등분산성 검정:

장점:
- 데이터가 정규분포를 따를 때 더 정확한 검정 결과를 제공합니다. 이상치가 없고, 정규성을 충족하는 경우에 강력한 검정 방법입니다.
- 샘플 크기가 크거나 정규성 가정에 잘 부합하는 경우에 유용합니다.

단점:
- 이상치에 민감하게 반응합니다. 이상치가 있는 경우 검정 결과가 왜곡될 수 있습니다.
- 정규성 가정에 따르기 때문에, 데이터가 정규분포를 따르지 않으면 부정확한 결과를 낼 수 있습니다.

두 방법의 선택은 데이터의 특성과 가정을 고려하여 결정해야 합니다. 일반적으로는 Levene의 등분산성 검정을 먼저 시도하는 것이 좋습니다. 데이터가 정규분포를 따르지 않는다고 의심되거나 이상치가 있을 때는 Bartlett의 등분산성 검정을 고려하거나 비모수적인 방법을 사용하는 것이 더 적절할 수 있습니다. 또한, 두 검정 모두 유의미한 결과를 얻지 못한 경우에는 데이터를 변환하거나 다른 분석 방법을 사용해야 할 수도 있습니다.

(src : ChatGPT)

댓글