In [None]:
# 시각화 준비하기: 
## 1. 라이브러리 설치: matplotlib, seaborn, koreanize-matplotlib (uv add matplotlib seaborn koreanize-matplotlib) 
## 2. 라이브러리 불러오기 
import matplotlib.pyplot as plt 
import seaborn as sns 
import koreanize_matplotlib

# 1. 데이터 불러오기

* 데이터 설명: 웹 기반 서비스 사용자 행동과 설문 기반 사용자 특성 데이터

In [None]:
# sample_data.csv 파일 열기
import pandas as pd

df = pd.read_csv(
    "./data/sample_data.csv"
)
df.head()

# 2. 데이터 전처리하기

## 1) 데이터 정보 확인하기

In [None]:
# 데이터 정보 확인: df.info()
df.info()

In [None]:
# 만약에 자녀 수 dtype이 object라면?
# df["자녀 수"].astype(int)

## 2) 결측치 확인하기

In [None]:
# 결측치인지 아닌지 판단하는 함수 .isna()
# 각 셀마다 결측치 이면 True, 아니면 False
df.isna()

In [None]:
# 열마다의 결측치 개수
df.isna().sum()

In [None]:
print("결측치가 없습니다.")

# 3. 데이터 요약하기

In [None]:
# 요약: 데이터의 평균, 분포를 한번에 파악한다.
df.describe()

# 4. 데이터 분석하기

In [None]:
# 1) 열마다 특징 파악하기
# 2) 그룹별로 특징 파악하기 
# 3) 열과 열 간의 관계 파악하기

## 1) 열마다 특징 파악하기

In [None]:
# 범주형 변수 - 카테고리
## 어떤 종류가 있나요? df[변수].unique()
## 종류는 총 몇 개인가요? df[변수].nunique()
## 카테고리별 데이터 개수를 파악해주세요. df[변수].value_counts()

# 수치형 변수 - 정수, 실수
## 열끼리 연산은 어떻게 하나요? df[변수] + df[변수]

# 정렬
## 열 기준으로 정렬하려면 어떻게 하나요? 
## df.sort_values(by=[정렬기준변수], ascending=True) # 내림차순: False

# 새로운 열 생성
## 조건마다 다르게 설정하려면 어떻게 해야 하나요?
## 1) 조건식을 새로운 변수로 만든다. -> replace로 대체
## df["total"] > total_mean -> df["new"].replace({True: "pass", False: "fail"})
## 2) np.where(조건식, True일 때 값, False일 때 값)
## 3) df[변수].apply(함수)

In [None]:
df.head()

### (1) '지역' 목록과 그 개수를 출력해주세요.

In [None]:
# unique()
print(df["지역"].unique())
print(f"총 {df['지역'].nunique()}개의 지역이 있습니다.")

### (2) 성별 데이터 개수를 출력해주세요.

In [None]:
# value_counts()
df["성별"].value_counts()

In [None]:
df["성별"].value_counts().sort_index()

In [None]:
# 시각화
plt.figure(figsize=(3, 3)) # 그림 크기 지정
df["성별"].value_counts().plot(kind="bar")
plt.title("성별에 대한 막대그래프")
plt.show()

In [None]:
plt.figure(figsize=(3,3))
sns.countplot(data=df, x="성별")
plt.title("성별에 대한 막대그래프")
plt.show()

### (3) 만족도별 데이터 개수를 출력해주세요.

In [None]:
# value_counts()
df["만족도"].value_counts()

In [None]:
df["만족도"].value_counts().sort_index()

In [None]:
# 시각화
plt.figure(figsize=(3,3))
sns.countplot(data=df, x="만족도")
plt.title("만족도에 대한 막대그래프")
plt.show()

In [None]:
# 성별 만족도 시각화
plt.figure(figsize=(3,3))
sns.countplot(data=df, x="만족도", hue="성별")
plt.title("성별 만족도에 대한 막대그래프")
plt.show()

### (4) 평균 체류 시간(분)을 기준으로 가장 오래 체류한 상위 5개 데이터를 출력해주세요.

In [None]:
# 정렬 sort_values()
df.sort_values(by=["평균 체류 시간(분)"], ascending=False).head()

In [None]:
# 히스토그램 시각화 
plt.figure(figsize=(3,3))
plt.hist(df["평균 체류 시간(분)"], bins=20, edgecolor="black")
plt.title("평균 체류 시간(분) 히스토그램")
plt.show()

In [None]:
# 박스플롯 시각화 
plt.figure(figsize=(3,3))
plt.boxplot(x=df["평균 체류 시간(분)"])
plt.title("평균 체류 시간(분) 박스플롯")
plt.show()

In [None]:
# 성별 평균 체류 시간(분)의 박스플롯
plt.figure(figsize=(3,3))
sns.boxplot(data=df, x="성별", y="평균 체류 시간(분)")
plt.title("성별 평균 체류 시간(분)")
plt.show()

### (5) 월 수입(만원)을 기준으로 가장 낮은 수입을 가진 하위 5개 데이터를 출력해주세요.

In [None]:
# 정렬 sort_values
df.sort_values(by=["월 수입(만원)"]).head()

### (6) 평균 체류 시간(분)의 전체 평균을 계산한 후, 평균 이상이면 "체류시간 김", 평균 미만이면 "체류기간 짧음"의 새로운 열을 생성해주세요.

In [None]:
# 평균 체류 시간(분)의 전체 평균
total_mean = df["평균 체류 시간(분)"].mean()
print(f"평균 체류 시간(분)의 평균은 {total_mean}분 입니다.")

In [None]:
# 평균 체류 시간(분)의 데이터 하나하나를 x라고 하자.
# 조건: x >= total_mean , "체류시간 김" , 아니면 "체류기간 짧음"

#### 1번째 방법

In [None]:
# 1번째 방법
## 조건을 새로운 열로 만든다. 
## 대체한다. 
df["message"] = df["평균 체류 시간(분)"] >= total_mean
df.head()

In [None]:
df["message"] = df["message"].replace({True: "체류기간 김", False: "체류기간 짧음"})
df

#### 2번째 방법

In [None]:
# np.where()
import numpy as np 

df["message2"] = np.where(df["평균 체류 시간(분)"] >= total_mean, "체류기간 김", "체류기간 짧음")
df.head()

#### 3번째 방법

In [None]:
# apply(함수)
# "체류기간 김" if x >= total_mean else "체류기간 짧음" # 한줄코드
df["message3"] = df["평균 체류 시간(분)"].apply(lambda x: "체류기간 김" if x >= total_mean else "체류기간 짧음")
df.head()

### (7) 이산형 변수를 시각화해주세요.

In [None]:
df.head(3)

In [None]:
# 이산형 변수: 방문 페이지 수
plt.figure(figsize=(3,3))
sns.countplot(data=df, x="방문 페이지 수")
plt.title("방문 페이지 수에 대한 막대그래프")
plt.show()

In [None]:
# 이산형 변수: 자녀 수 
plt.figure(figsize=(3,3))
sns.countplot(data=df, x="자녀 수")
plt.title("자녀 수에 대한 막대그래프")
plt.show()

### (8) 시계열 변수를 시각화해주세요.

In [None]:
df.head(3)

In [None]:
# 시계열 변수: 날짜
df["날짜"] = pd.to_datetime(df["날짜"])

plt.figure(figsize=(10,3))
plt.plot(df["날짜"], df["평균 체류 시간(분)"], marker="o", linestyle="-")
plt.title("날짜별 평균 체류 시간(분) 변화 그래프")
plt.show()

### (9) 연속형 변수들의 pair plot을 그려주세요.

In [None]:
sns.pairplot(df, height=2)
plt.show()

### (10) 수치형 변수들의 상관관계를 히트맵으로 나타내주세요

In [None]:
select_columns = ["월 수입(만원)", "평균 체류 시간(분)", "방문 페이지 수", "자녀 수"]

corr = df[select_columns].corr()

plt.figure(figsize=(4,3))
sns.heatmap(
    corr,
    annot=True,
    cmap="coolwarm",
    vmax=1,
    vmin=-1
)
plt.title("수치형 변수들의 히트맵")
plt.show()