# 시각화

```
uv add matplotlib seaborn
```

# 1. 데이터 불러오기

웹 기반 서비스의 사용자 행동, 설문 기반 사용자 특성 데이터

In [4]:
import pandas as pd

# sample_data.csv 파일을 불러와주세요
data = pd.read_csv("data/sample_data.csv")
data.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data/sample_data.csv'

In [None]:
data.info()

# 2. 시각화

```
uv add koreanize-matplotlib
```

## 1) 범주형 데이터

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import koreanize_matplotlib

In [None]:
data.head()

In [None]:
data["성별"]

In [None]:
plt.figure(figsize=(3, 7))
sns.countplot(data=data, x="성별")
plt.title("성별에 대한 막대그래프")
plt.show()

In [None]:
plt.figure(figsize=(3, 3))
gender_data = data["성별"].value_counts()
gender_data.plot(kind="bar")
plt.title("성별에 대한 막대그래프")

## 2) 순서형 데이터

In [None]:
# 만족도에 대한 막대 그래프를 그려주세요
plt.figure(figsize=(3,3))
sns.countplot(data=data, x="만족도", order=["하", "중", "상"])
plt.title("만족도에 대한 막대그래프")
plt.show()

In [None]:
# 성별에 따른 만족도 막대그래프를 그려주세요
plt.figure(figsize=(3,3))
sns.countplot(data=data, x="만족도", order=["하", "중", "상"], hue="성별")
plt.title("만족도에 대한 막대그래프")
plt.show()

## 3) 연속형 데이터

In [None]:
# "월 수입(만원)"열에 대한 히스토그램
plt.figure(figsize=(3, 3))
plt.hist(data["월 수입(만원)"], bins=10, edgecolor="black")
plt.title("월 수입(만원) 히스토그램")
plt.show()

In [None]:
plt.figure(figsize=(3,3))
plt.boxplot(x=data["월 수입(만원)"])
plt.title("월 수입(만원)에 대한 Box Plot")
plt.xlabel("월 수입(만원)")
plt.show()

In [None]:
plt.figure(figsize=(3,3))
# sns.boxplot(data=data, y="월 수입(만원)")
sns.boxplot(data=data, x="월 수입(만원)")
plt.title("월 수입(만원)에 대한 Box Plot")
plt.show()

In [None]:
plt.figure(figsize=(3,3))
sns.boxplot(data=data, y="월 수입(만원)")
plt.title("월 수입(만원)에 대한 Box Plot")
plt.show()

In [None]:
# 성별에 따른 월 수입 상자도표 그리기
plt.figure(figsize=(3,3))
sns.boxplot(data=data, x="성별", y="월 수입(만원)")
plt.title("성별 월 수입(만원) Box Plot")
plt.show()

## 4) 이산형 데이터

In [None]:
# 방문 페이지 수
## 구글링: ax를 이용한 시각화 도전
fig, ax = plt.subplots(figsize=(3,3))
sns.countplot(data=data, x="방문 페이지 수", ax=ax)
ax.set_title("방문 페이지 수에 대한 막대그래프")
plt.show()

## 5) 시계열 데이터

* 날짜에 대한 데이터 타입은 `datetime`이다.

### 날짜를 datatime으로 인식하는 방법 I

In [None]:
# sample_data.csv를 불러와주세요
data = pd.read_csv("data/sample_data.csv", parse_dates=["날짜"])
data

In [None]:
data.info()

### 날짜 열을 datetime으로 바꾸는 방법 II

In [None]:
data = pd.read_csv("data/sample_data.csv")
data.info()

In [None]:
data["날짜"] = pd.to_datetime(data["날짜"])
data.info()

In [None]:
fig, ax = plt.subplots(figsize=(10, 4))
ax.plot(data["날짜"], data["평균 체류 시간(분)"], marker="o")
ax.set_title("날짜별 평균 체류 시간 변화 그래프")
ax.set_xlabel("날짜")
ax.set_ylabel("평균 체류 시간(분)")
plt.show()

In [None]:
# 날짜, 평균 체류 시간(분) 열만 추출하세요
data[["날짜", "평균 체류 시간(분)"]]

# matplotlib와 seaborn의 차이

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 성별에 대한 막대그래프 만들기
# ["남", "여", "남", "남", ......]
# 막대그래프는 어떻게 그릴까? 남자는 몇 명이고 여자는 몇 명인지 카운트 해야 한다.
gender_data = data["성별"].value_counts()
gender_data

In [None]:
plt.figure(figsize=(3,3))
gender_data.plot(kind="bar")
plt.title("성별에 대한 막대그래프")
plt.show()

In [None]:
plt.figure(figsize=(3,3))
sns.countplot(data=data, x="성별")
plt.title("성별에 대한 막대그래프")
plt.show()

# subplots

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
plt.subplots(figsize=(3,3))

In [None]:
plt.subplots(1, 3, figsize=(10,3))

In [None]:
fig, ax = plt.subplots(1, 3, figsize=(10,3))
# 첫번째 그래프: 자녀 수에 대한 막대 그래프
sns.countplot(data=data, x="자녀 수", ax=ax[0])
ax[0].set_title("자녀 수에 대한 막대그래프")
# 두번째 그래프: 평균 체류 시간(분)에 대한 히스토그램
ax[1].hist(data["평균 체류 시간(분)"], edgecolor="black")
ax[1].set_title("평균 체류 시간(분)에 대한 히스토그램")
# 세번째 그래프: 월 수입(만원)에 대한 상자그림
# ax[2].boxplot(x=data["월 수입(만원)"], vert=False)
sns.boxplot(y=data["월 수입(만원)"], ax=ax[2])
ax[2].set_title("월 수입(만원)에 대한 Box Plot")
ax[2].set_xlabel("월 수입(만원)")
plt.show()