In [None]:
# 시각화의 중요성
# 데이터셋이 가진 기초 통계량만 가지고 데이터 셋을 판단하는 것은 무리가 있다.
# 데이터 전처리 과정 중에 시각화를 통해서 실제 데이터셋의 모양을 살펴보는 것이 좋다.
import seaborn as sns
# 샘플 데이터셋 확인
print(sns.get_dataset_names())

In [None]:
# anscombe 데이터셋 불러오기
anscombe = sns.load_dataset('anscombe')
print(type(anscombe))  # 출력값 : <class 'pandas.core.frame.DataFrame'>
                       # DataFrame
from IPython.display import display
display(anscombe)

In [None]:
# 데이터셋 확인
anscombe.head()

In [None]:
anscombe.tail()

In [None]:
anscombe.shape  # 출력값 : (44, 3)
                # 44행 3열짜리 데이터프레임

In [None]:
# 이 자료의 데이터셋은 'dataset' 컬럼으로 구분되어 있음
# 총 몇 개의 데이터셋이 있는가?
anscombe['dataset'].nunique()  # dataset 컬럼의 중복 제외한 요소의 갯수
# 출력값 : 4

In [None]:
# boolean 연산으로 데이터셋을 분할
ds1 = anscombe[anscombe['dataset'] == 'I']
ds2 = anscombe[anscombe['dataset'] == 'II']
ds3 = anscombe[anscombe['dataset'] == 'III']
ds4 = anscombe[anscombe['dataset'] == 'IV']

In [None]:
# I 데이터셋의 기초 통계량
ds1.describe()

In [None]:
ds2.describe()
# ds1, ds2의 기초통계량이 거의 비슷

In [None]:
# ds1의 그래프
import matplotlib.pyplot as plt
plt.plot(ds1['x'], ds1['y'], 'o')
# 마커의 종류 : o(점), *(별모양), ^(삼각형모양), -(라인그래프), +(+모양)

# 점그래프, 선그래프는 plot 함수로 그린다.

In [None]:
# ds2를 시각화
plt.plot(ds2['x'], ds2['y'], '*')

In [None]:
# anscombe의 4분할 그래프
# 기본 틀 생성 : figure
fig =  plt.figure()
# 기본 틀에 격자 추가 : add_subplot
axe1 = fig.add_subplot(2, 2, 1)  # 2 * 2 격자 중 1번째 위치
axe2 = fig.add_subplot(2, 2, 2)
axe3 = fig.add_subplot(2, 2, 3)
axe4 = fig.add_subplot(2, 2, 4)

# 서브 플롯에 플롯 그리기
axe1.plot(ds1['x'], ds1['y'], 'o')
axe2.plot(ds2['x'], ds2['y'], '+', color="orange")
axe3.plot(ds3['x'], ds3['y'], '*', color="green")
axe4.plot(ds4['x'], ds4['y'], 'o', color="red")

# 서브 플롯의 타이틀
axe1.set_title("dataset I")
axe2.set_title("dataset II")
axe3.set_title("dataset III")
axe4.set_title("dataset IV")

# 전체 타이틀
fig.suptitle("Anscombe Dataset")

# 레이아웃 조정
fig.tight_layout()
plt.show()

# 플롯의 저장
fig.savefig("./data/anscombe.png")

# 플롯 보여주기
plt.show()

In [None]:
# scatter plot
# mtcars 데이터셋
import pandas as pd
mtcars = pd.read_csv("./data/mtcars.csv")

# 형태 확인
print(mtcars.shape)  # 32행 12열
print(mtcars.head())
print(mtcars.tail())

# 기초 통계량 확인
mtcars.describe()

In [None]:
# 연비(mpg), 중량(wt)으로 산점도 그리기
scatter_fig = plt.figure()
scatter_axe = scatter_fig.add_subplot(1, 1, 1)
# 산점도 그리기
scatter_axe.scatter(mtcars['wt'], mtcars['mpg'])  # x -> 중량, y -> 연비
scatter_axe.set_title("mtcars wt vs mpg")
scatter_axe.set_xlabel("Weight")
scatter_axe.set_ylabel("Miles per Gallon")
plt.show()

In [None]:
# 상관계수
mtcars.corr()  # 상관계수표
# mpg, wt의 상관계수 : -0.867659
# 중량이 증가 -> 연비 감소

# 중량과 연비의 상관계수
print("상관계수(wt vs mpg):", mtcars.wt.corr(mtcars.mpg))  # 역상관 관계

In [None]:
# 상자 그림(Boxplot)
# 한 변수의 데이터 분포를 시각화
# mtcars의 연비 정보(mpg)
boxplot = plt.figure()
boxplot_axe = boxplot.add_subplot(1, 1, 1)
boxplot_axe.boxplot([mtcars['mpg'], mtcars['wt']])
plt.show()

In [None]:
# 분위수 확인
quart = mtcars.quantile([0.25, 0.50, 0.75])  # 25%, 50%, 75%

first_quartile = mtcars['mpg'].quantile(0.25)  # mpg의 제 1사분위수
third_quartile = mtcars['mpg'].quantile(0.75)  # mpg의 제 3사분위수

print("mpg의 1사분위수={}, 3사분위수={}".format(first_quartile, third_quartile))
# IQR(Inter Quartile Range) : 3사분위수 - 1사분위수
iqr = third_quartile - first_quartile
print("mpg의 IQR:", iqr)

In [None]:
# 중앙값과 IQR을 이용, 극단치 구하기
# 상단 극단치 경계 : Q3(3사분위값) + 1.5 * IQR
# 하단 극단치 경계 : Q1(1사분위값) - 1.4 * IQR
top_border = third_quartile + 1.5 * iqr
bottom_border = first_quartile - 1.5 * iqr
print("상단 극단치 경계:", top_border)
print("하단 극단치 경계:", bottom_border)

In [None]:
# 상단 극단치 경계를 넘는 자동차 추출
mpg_outlier = mtcars[mtcars['mpg'] > top_border] # boolean 추출
mpg_outlier

In [None]:
# 히스토그램
# 단일 변수의 데이터 분포를 구간으로 확인
ws_df = pd.read_csv("./data/wstudents.csv")
ws_df.head()

In [None]:
# hist 함수
fig = plt.figure()
height_axe = fig.add_subplot(1, 1, 1)

# 반도 구간의 정의
bins = height_axe.hist(ws_df["height"],
                      rwidth = 0.88,  # 바 너비
                      bins = range(140, 175, 5))  # 140 ~ 170사이를 5 간격으로 분할
print(bins)

print("빈도 구간:", bins[1])
print("도수 빈도표:", bins[0])

height_axe.set_xlabel("Height")
height_axe.set_ylabel("Frequency")
plt.show()

In [None]:
# 파이 차트 : pie
# 전체 중의 비율을 시각화
labels = ["A", "B", "C", "D", "F"]
data = [4, 12, 11, 3, 1]

fig = plt.figure()
pie_axe = fig.add_subplot(1, 1, 1)

# pie_axe.pie(data)
pie_axe.pie(data,                      # 파이차트에 표시할 데이터 목록(리스트)
           labels=labels,              # 데이터의 라벨
            autopct="%.3f%%",          # 데이터의 비율 표시
            startangle=90,             # 시작 각도
            explode=(0.2, 0, 0, 0, 0), # 항목별 돌출 정도(강조할 때 사용)
            shadow=True,              # 그림자 표시
            colors=["red", "lightblue", "green", "yellow", "gray"]
           )

plt.show()

In [None]:
# plt 초기화 : plt.clf() // clear a figure