[Pandas] DataFrame column 간 상관관계 계산하기

|

plot 을 나타내기 위해 Matplotlib.pyplot 도 불러온다.

변수 (column)사이의 상관계수(correlation)

corr함수를 통해 상관계수 연산(-1, 1 사이의 결과)

1에 가까울수록 양의 상관관계가 강하다 (= 하나가 증가하면 다른 하나도 증가)

-1에 가까울수록 음의 상관관계가 강하다 (= 하나가 증가하면 다른 하나는 감소)

연속성(숫자형)데이터에 대해서만 연산

인과관계를 의미하진 않음.

diagonal 값(대각선값)은 항상 다 1임.

대각선을 기준으로 대칭임.

우리가 궁극적으로 알고자하는 값이 Survived인데

이 때 위의 corr( ) 결과를 보면

Pclass와 Fare가 가장 뚜렷한 관계를 가지고 있음을 확인할 수 있다.

pyplot 의 matshow 함수를 통해 행렬을 가시화하면

다음과 같은 이미지를 볼 수 있다.

위 내용은 fastcampus 강의 내용을 정리한 것입니다.

Comments