In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 데이터 생성
data = {'Age': [25, 30, 24, 29, 40, 50, 35], 'Salary': [50000, 54000, 58000, 62000, 70000,
80000, 65000]}
df = pd.DataFrame(data)

1. describe() 함수 (Pandas)
개념
describe() 함수는 데이터프레임의 기술 통계량을 계산하여 반환합니다.
수치형 데이터를 대상으로 기본 통계 정보를 제공합니다.

주요 통계 정보
count: 데이터 개수

mean: 평균

std: 표준편차

min: 최소값

25%: 1사분위값 (Q1)

50%: 중앙값 (Q2)

75%: 3사분위값 (Q3)

max: 최대값


활용 목적
데이터 요약: 전체 데이터의 기초 통계를 확인하여 데이터의 분포를 파악

이상치 탐지: min과 max 값을 통해 값의 범위 확인

중앙 경향성: 평균과 중앙값을 통해 데이터의 중심 확인

In [None]:
# 기술통계량
print("기술통계량:\n", df.describe())
# 결과 해석:
# count: 총 데이터 수 (7개)
# mean: 평균 값 (Age: 33.29, Salary: 62714.29)
# std: 표준편차 (Age: 9.28, Salary: 10949.87)
# min: 최소값 (Age: 24, Salary: 50000)
# 25%, 50%, 75%: 각 사분위 수를 나타냄 (중앙값은 50%)
# max: 최대값 (Age: 50, Salary: 80000)
# 데이터 분포가 고르게 퍼져 있으며, 평균과 중앙값이 크게 차이 나지 않아 큰 왜곡이 없는 데이터임


2. sns (Seaborn)
개념
Seaborn은 Python의 시각화 라이브러리로, Matplotlib를 기반으로 더 편리하고 직관적인 시각화를 제공합니다.
데이터프레임과 잘 호환되어 데이터 분석과 시각화에 많이 사용됩니다.

주요 특징
고급 그래프 제공: 히트맵, 박스플롯, 산점도 등 다양한 시각화

통계적 시각화: 데이터의 분포와 관계를 쉽게 시각화

미관 개선: 기본 Matplotlib보다 디자인이 세련됨


활용 목적
데이터 분포 파악: 히스토그램, 커널 밀도 추정(KDE)

변수 간 관계 분석: 산점도, 페어플롯

상관 행렬 시각화: 히트맵

고급 시각화: 박스플롯, 바이올린 플롯 등

In [None]:
# 히스토그램
sns.histplot(df['Age'])
plt.title('Age Distribution')
plt.show()
# 결과 해석:
# 히스토그램을 통해 Age의 분포를 시각화함
# 20대 중후반(25~30세)와 40대, 50대에 데이터가 집중되어 있음
# 상대적으로 30대 데이터가 적음 (35세 한 건)

In [None]:
# 박스플롯
sns.boxplot(x=df['Age'])
plt.title('Age Box Plot')
plt.show()
# 결과 해석:
# 박스플롯으로 Age의 분포와 이상치를 확인함
# 중앙값(30세)이 박스의 중앙에 위치하여 대체로 대칭적인 분포를 가짐
# 이상치 없음: 모든 값이 사분위 범위 내에 존재

In [None]:
# 산점도
sns.scatterplot(x='Age', y='Salary', data=df)
plt.title('Age vs Salary Scatter Plot')
plt.show()
# 결과 해석:
# Age와 Salary 간의 관계를 산점도로 표현함
# 산점도에서 오른쪽 위로 상승하는 경향을 보여 양의 상관관계가 있음
# 나이가 많을수록 급여가 높아지는 경향이 있음 (연령 증가에 따라 급여 증가)

3. corr() 함수 (Pandas)
개념
corr() 함수는 데이터프레임의 수치형 열들 간 상관계수를 계산하여 행렬 형태로 반환합니다.
상관계수는 두 변수 간 선형 관계를 나타내며, -1에서 1 사이의 값을 가집니다.

상관계수 해석
1: 완전 양의 상관관계

0: 상관관계 없음

-1: 완전 음의 상관관계


활용 목적
변수 간 관계 분석: 두 변수의 양/음의 상관관계 파악

예측 변수 선정: 상관계수가 큰 변수를 모델에 사용

다중 공선성 탐지: 상관계수가 0.9 이상인 변수 조합은 다중 공선성 문제 발생 가능



4. annot (Seaborn Heatmap)
개념
Seaborn에서 heatmap() 함수의 annot 매개변수는 각 셀에 데이터 값을 표시하도록 설정합니다.
기본적으로는 False로 되어 있어 값이 표시되지 않습니다.

출력 설명
각 셀에 상관계수 값이 직접 표시되어 직관적으로 이해할 수 있습니다.

True로 설정하면 셀에 숫자 값이 표시됩니다.

annot=True와 함께 소수점 자릿수 설정이 가능합니다.

활용 목적
상관 분석: 변수 간의 상관계수를 시각적으로 쉽게 파악

값 확인: 색상과 함께 상관계수 값을 확인하여 해석 용이성 증가

5. heatmap (Seaborn)
개념
heatmap() 함수는 행렬 형태의 데이터를 색상으로 표현하여 직관적으로 비교할 수 있는 시각화 방법입니다.
주로 상관 행렬 시각화에 많이 사용됩니다.

주요 매개변수
data: 상관 행렬 또는 2차원 배열

annot: 각 셀에 값을 표시할지 여부 (True/False)

cmap: 색상 팔레트 (coolwarm, viridis 등)

fmt: 숫자 형식 지정 (소수점 자리수)

활용 목적
변수 간 관계 분석: 상관계수를 시각화하여 데이터 간의 상관성을 파악

이상치 탐지: 색상 차이를 통해 상관도가 낮은 변수를 찾을 수 있음

데이터 탐색: 많은 변수를 한눈에 확인할 수 있어 **탐색적 데이터 분석(EDA)**에 유용

In [None]:
# 상관 분석
correlation = df.corr()
print("상관계수:\n", correlation)
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()
# 결과 해석:
# Age와 Salary 간 상관계수: 0.93 (양의 상관관계)
# 0.93이라는 높은 수치는 나이와 급여 사이에 강한 양의 선형 관계가 있음을 의미함
# 나이가 증가할수록 급여도 증가하는 경향을 암시함
# 상관계수가 +1에 가까울수록 두 변수 간의 선형 관계가 강함

결론
describe(): 데이터의 기초 통계량을 요약하여 제공하여 데이터 이해를 돕습니다.

sns(Seaborn): 데이터를 시각적으로 표현하여 분포와 관계를 쉽게 파악합니다.

corr(): 수치형 변수 간 상관관계를 계산하여 변수 간 선형 관계를 확인합니다.

annot: 히트맵에서 각 셀의 값을 표시하여 직관적 해석을 돕습니다.

heatmap(): 상관 행렬을 색상으로 표현하여 데이터 간 관계를 한눈에 파악할 수 있습니다.