# SECTION 01. 지표로 데이터 탐색하기

## 1. 일변량 비시각화 탐색하기

### 1) 요약통계량 확인하기

In [1]:
# 판다스 불러오기
import pandas as pd

# 데이터 읽어오기
df=pd.read_csv("Clean_Dataset.csv")

# 지정 인덱스인 첫번째 칼럼 삭제하기
df.drop([df.columns[0]], axis=1, inplace=True)

FileNotFoundError: [Errno 2] No such file or directory: 'Clean_Dataset.csv'

In [None]:
# 수치형 데이터의 요약통계량 확인하기
df.describe()

In [None]:
# 전체 칼럼의 요약통계량 확인하기
df.describe(include='all')

### 2) 빈도표 확인하기

In [None]:
# airline, source_city, destination_city의 빈도표 확인하기
print(df["airline"].value_counts())
print(df["source_city"].value_counts())
print(df["destination_city"].value_counts())

## 2. 다변량 비시각화 탐색하기

### 1) 상관계수 확인하기

In [None]:
# 데이터의 상관계수 확인하기
df.corr()

In [None]:
# class를 Economy로 한정하여 새로운 데이터프레임 df_eco 생성하기
df_eco=df[(df['class']=='Economy')]

# df_eco의 상관계수 확인하기
df_eco.corr()

### 2) 교차표 확인하기

In [None]:
# source_city와 departure_time 두 범주형 변수의 변수간의 관계 확인하기
pd.crosstab(df['source_city'], df['departure_time'])

# SECTION 02. 시각화로 데이터 탐색하기

##  1. 일변량 시각화 탐색(Maplotlib)하기

### 1) 선 그래프 (line plot)

In [None]:
# days_left별 평균 데이터 만들기
days_left=df.groupby('days_left').mean()
days_left.head()

In [None]:
# 시각화 라이브러리 불러오기
import matplotlib.pyplot as plt

# 시각화 영역(figure) 지정하기
plt.figure()

# days_left의 price 데이터로 선 그래프 그리기
plt.plot(days_left['price'])

# X축 이름 지정하기
plt.xlabel("Days_left")

# Y축 이름 지정하기
plt.ylabel("Price")

# 시각화 표기하기
plt.show()

### 2) 막대 그래프(bar plot)

In [None]:
# airline별 평균 데이터 만들기
airline=df.groupby(['airline']).mean()
airline

In [None]:
# 인덱스를 리스트로 만들기
label = airline.index

plt.figure()

# 인덱스를 X, 평균가격을 Y로 하는 막대 그래프 그리기
plt.bar(label, airline['price'])
plt.xlabel("Airline")
plt.ylabel("Price")
plt.show()

### 3) 파이 그래프(pie plot)

In [None]:
# departure_time 빈도표 데이터 만들기
departure_time=df['departure_time'].value_counts()

plt.figure(figsize=(10,6))

# departure_time 빈도표 데이터로 파이 그래프 그리기
plt.pie(departure_time, labels=departure_time.index, autopct='%.1f%%')
plt.show()

### 4) 도수분포표(histogram)

In [None]:
plt.figure()

# duration을 20개 구간으로 나눠서 히스토그램 그리기
plt.hist(df['duration'], bins=10)

# duration을 10개 구간으로 나눠서 히스토그램 그리기
plt.hist(df['duration'], bins=20)
plt.xlabel("Duration")
plt.ylabel("Flights")

# 동시에 2개의 그래프를 하나의 시각화 영역에 그려 범례 지정하기
plt.legend(("Bin 10", "Bin 20"))
plt.show()

### 5) 상자 그래프(box plot)

In [None]:
plt.figure()

# Price 칼럼에 대한 상자 그래프 그리기
plt.boxplot(list(df['price']))
plt.ylabel("price")
plt.show()

In [None]:
# departure_time별로 price에 대한 상자 그래프 그리기
df.boxplot(by="departure_time", column="price", figsize=(10,8))

## 2. 다변량 시각화 탐색하기

### 1) 산점도(scatter plot)

In [None]:
plt.figure(figsize=(16,8))

# price와 dration간의 산점도 그리기
plt.scatter(y=df["price"], x=df["duration"])
plt.xlabel("Duration")
plt.ylabel("Price")
plt.show()

In [None]:
plt.figure(figsize=(16,6))

# "Economy" Class에 대한 price와 duration간의 산점도 그리기
plt.scatter(y=df_eco["price"], x=df_eco["duration"])
plt.xlabel("Duration")
plt.ylabel("Price")
plt.show()

### 2) 히트맵(heatmap)

In [None]:
# numpy 불러오기
import numpy as np

# 상관계수 데이터 만들기
heat=df_eco.corr()

# 상관계수로 heatmap그리기
plt.pcolor(heat)

# x축 항목 정보 표기하기
plt.xticks(np.arange(0.5, len(heat.columns), 1), heat.columns)

# y축 항목 정보 표기하기
plt.yticks(np.arange(0.5, len(heat.index), 1), heat.index)

# 히트맵 확인을 위한 컬러바 표기하기
plt.colorbar()
plt.show()

## 3. maplotlib 활용하기

## 4. seaborn시각화 라이브러리 활용하기

### 1) 범주형 산점도(categorical plot)

In [None]:
# seaborn이 기본 설치 되어있지 않은 작업 환경에서는 아래 줄의 #을 삭제 후 seaborn설치
#%pip install seaborn

# seaborn 불러오기
import seaborn as sns

# airline별 price를 class로 구분하여 시각화 하기
sns.catplot(y="airline", x="price", col='class', data=df)

### 2) 선형회귀 모델그래프 (linear model plot)

In [None]:
# duration과 price의 회귀선을 빨간색으로 표시해서 시각화 하기
sns.lmplot(x='duration', y='price', data=df_eco, line_kws={'color': 'red'})

### 3) 빈도 그래프(count plot)

In [None]:
# 항공권 데이터의 빈도를 airline으로 구분하여 class별로 시각화 하기
sns.countplot(x="airline", hue="class", data=df)

### 4) 조인트 그래프(joint plot)

In [None]:
# price와 duration간의 관계를 joint plot으로 시각화 하기
sns.jointplot(y="price", x="duration", data=df_eco)

### 5) 히트맵(heatmap)

In [None]:
# 상관계수로 heatmap그리기
sns.heatmap(df_eco.corr())

### [확인문제] 정답 및 해설

##### 문제 02. 정답

In [None]:
df_eco=df[(df['class']=='Economy')]
plt.figure()
sns.heatmap(df_eco.corr())