# 데이터 탐색하기

----------------------

**(코랩에서)한글 폰트 지정하는 방법**

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 코랩에서 위 코드를 실행시킨 후  반드시 코랩 메뉴: "런타임>세션 다시 시작" 합니다.

In [None]:
import matplotlib.pyplot as plt
plt.rc('font', family='NanumGothic')       # (코랩)한글 폰트



---



# **1.지표로 데이터 탐색하기**

## 1-1. 일변량 비시각화 탐색하기

### 1) 요약통계량 확인하기

In [None]:
# 판다스 불러오기
import numpy as np
import pandas as pd

# 데이터 읽어오기
df = pd.read_csv('Clean_Dataset.csv', encoding='cp949')

# 지정 인덱스인 첫번째 칼럼 삭제하기 (unnamed~ 삭제)
# df.drop('Unnamed: 0', axis=1, inplace=True)
df = df.drop('Unnamed: 0', axis=1)
df.head(2)

In [None]:
# 수치형 데이터의 요약통계량 확인하기
df.info()
df.describe()

In [None]:
# 전체 칼럼의 요약통계량 확인하기 (include='all')
df.describe(include='all')


### 2) 빈도표 확인하기

In [None]:
# df에서 'object' 컬럼 데이터 출력
df.select_dtypes('object')

# df에서 'object' 컬럼명 출력
df.columns
df.select_dtypes('object').columns

# df 요약 통계량 확인
df.describe()


In [None]:
# 컬럼의 고유값 확인하기(unique) : airline, source_city, destination_city 각각의
print( df['airline'].unique() )
print( df['source_city'].unique() )
print( df['destination_city'].unique() )

In [None]:
# 컬럼의 빈도표 확인하기(value_counts) : airline, source_city, destination_city
print( df['airline'].value_counts() )
print( df['source_city'].value_counts() )
print( df['destination_city'].value_counts() )

## 1-2. 다변량 비시각화 탐색하기

### 1) 상관계수 확인하기

In [None]:
# 데이터의 상관계수 확인하기(corr)
df.corr(numeric_only=True)


In [None]:
# class를 Economy로 한정하여 새로운 데이터프레임 df_eco 생성하기
df_eco = df[ df['class'] == 'Economy' ]
df_eco.head(2)

# df_eco의 상관계수 확인하기
df_eco.corr(numeric_only=True)


In [None]:
# 특정 컬럼(또는 서로 다른 데이터프레임의 에 대한)에 대한 상관관계 표현(corrwith)
df_eco.corrwith(df_eco['price'], numeric_only=True)
# df.corrwith(df_eco, numeric_only=True)


### 2) 교차표 확인하기
두 범주형 변수 간의 상관관계를 확인하는 방법

In [None]:
# 범주형 컬럼 확인
df.select_dtypes('object').columns

# 두 범주형 컬럼의 고유값 확인하기 : source_city와 departure_time
print( df['source_city'].unique() )
print( df['departure_time'].unique() )

In [None]:
# 두 범주형 변수간의 관계 확인하기(crosstab): source_city와 departure_time
pd.crosstab(df['source_city'], df['departure_time'])


-----------------------

# **02.시각화로 데이터 탐색하기**

##  2-1. 일변량 시각화 탐색(Maplotlib)하기

### 1) 선 그래프 (line plot)

In [None]:
df['days_left'].unique()

In [None]:
# days_left별 평균 데이터 만들기
days_left = df.groupby('days_left').mean(numeric_only=True)
days_left.head(2)

### 기본 그래프 구성

In [None]:
days_left['price'][0:10]

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(4,3))     # 시각화 영역(figure) : figsize=(4,3)
plt.plot(days_left['price'])  # (선)그래프 그리기 : days_left['price']
plt.show()

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(4,3))     # 시각화 영역(figure) : figsize=(4,3)
plt.plot(days_left['price'], color='red', marker='o', linestyle='dashed')  # (선)그래프 그리기 : days_left['price']
plt.title('Days_left별 가격')   # 제목
plt.grid(True)                # 그래에 격자 그리기 True/False
plt.xlabel('Days_left')
plt.ylabel('Price')
plt.show()                    # 시각화 표기하기 : show

### 기본 그래프 속성 설정

In [None]:
# 기본 그래프 속성 설정
plt.rcParams["font.family"] = 'NanumGothic'  # AppleGothic, NanumGothic, Malgun Gothic
plt.rcParams["font.size"] = 10
plt.rcParams["figure.figsize"] = (5,2)
plt.rcParams['axes.unicode_minus'] = False

In [None]:
# 시각화 라이브러리 불러오기 : matplotlib.pyplot
import matplotlib.pyplot as plt

# 시각화 영역(figure) 지정하기
plt.figure(figsize=(4,3))

# days_left의 price 데이터로 선 그래프 그리기
data = days_left['price']   # days_left['price'] --> days_left.price
plt.plot(data)

# X축 이름 지정하기 (xlabel)
plt.xlabel('Days left')

# Y축 이름 지정하기 (ylabel)
plt.ylabel('Price')

# 시각화 표기하기
plt.show()

### 2) 막대 그래프(bar plot)

In [None]:
# airline별 평균 데이터 만들기
airline=df.groupby(['airline']).mean(numeric_only=True)
airline

In [None]:
# 인덱스를 리스트로 만들기
label = airline.index
print(label)

# plt.figure()

# 인덱스를 X, 평균가격을 Y로 하는 막대 그래프 그리기
plt.bar(label, airline['price'])
plt.plot(airline['price'], c='r')
plt.xlabel("Airline")
plt.ylabel("Price")
plt.show()

### 3) 파이 그래프(pie plot)

In [None]:
# departure_time 빈도표 데이터 만들기
departure_time=df['departure_time'].value_counts()
print(departure_time)

plt.figure(figsize=(5,3))

# departure_time 빈도표 데이터로 파이 그래프 그리기
# - labels=departure_time.index,
# - autopct='%.1f%%'
plt.pie(departure_time,
        labels=departure_time.index,
        autopct='%.1f%%')

plt.show()

### 4) 히스토그램(histogram)

In [None]:
plt.figure(figsize=(5,3))

# duration을 20개 구간으로 나눠서 히스토그램 그리기
plt.hist(df['duration'], bins=20, label='Bins 20')

# duration을 10개 구간으로 나눠서 히스토그램 그리기
plt.hist(df['duration'], bins=10, label='Bins 10')

plt.xlabel("Duration")
plt.ylabel("Flights")

# 동시에 2개의 그래프를 하나의 시각화 영역에 그려 범례 지정하기
# plt.legend(("Bin 10", "Bin 20"))
plt.legend()
plt.show()

### 5) 상자 그래프(box plot)

In [None]:
plt.figure(figsize=(3,3))

# Price 칼럼에 대한 상자 그래프 그리기
plt.boxplot(df['price'])
plt.ylabel("price")
plt.show()

In [None]:
# departure_time별로 price에 대한 상자 그래프 그리기
box = df.boxplot(by="departure_time", column="price", figsize=(10,5))

## 2-2. 다변량 시각화 탐색하기

### 1) 산점도(scatter plot)

In [None]:
plt.figure(figsize=(10,6))

# price와 dration간의 산점도 그리기
plt.scatter(df['duration'], df['price'], alpha=0.5)

plt.xlabel("Duration")
plt.ylabel("Price")
plt.show()

In [None]:
plt.figure(figsize=(16,6))

# "Economy" Class에 대한 price와 duration간의 산점도 그리기
plt.scatter(df_eco['duration'], df_eco['price'])
plt.xlabel("Duration")
plt.ylabel("Price")
plt.show()

### 2) 히트맵(heatmap)

In [None]:
# numpy 불러오기
import numpy as np

# 상관계수 데이터 만들기 : df_eco의 상관계수
heat=df_eco.corr(numeric_only=True)

# 상관계수로 heatmap그리기
plt.pcolor(heat)

# # x축 항목 정보 표기하기
plt.xticks(np.arange(0.5, len(heat.columns), 1), heat.columns)

# # y축 항목 정보 표기하기
plt.yticks(np.arange(0.5, len(heat.index), 1), heat.index)

# # 히트맵 확인을 위한 컬러바 표기하기
plt.colorbar()
plt.show()

## 2-3. maplotlib 활용하기

## 2-4. seaborn시각화 라이브러리 활용하기

### 1) 범주형 산점도(categorical plot)

In [None]:
# seaborn이 기본 설치 되어있지 않은 작업 환경에서는 아래 줄의 #을 삭제 후 seaborn설치
#%pip install seaborn

# seaborn 불러오기
import seaborn as sns

# airline(y)별 price(x)를 class(col)로 구분하여 시각화 하기 : catplot
sns.catplot(x="price", y="airline", col='class',
            data=df)

### 2) 선형회귀 모델그래프 (linear model plot)

In [None]:
# df_eco: duration과 price의 회귀선을 빨간색으로 표시해서 시각화 하기
sns.lmplot(x='duration', y='price',
           data=df_eco, line_kws={'color': 'red'})

In [None]:
sns.regplot(x='duration', y='price',
           data=df_eco, line_kws={'color': 'red'})

### 3) 빈도 그래프(count plot)

In [None]:
# 항공권 데이터의 빈도를 airline으로 구분하여 class별로 시각화 하기
sns.countplot(x="airline", hue="class", data=df)

### 4) 조인트 그래프(joint plot)

In [None]:
# price와 duration간의 관계를 joint plot으로 시각화 하기
sns.jointplot(x="duration",
              y="price",
              data=df_eco)

### 5) 히트맵(heatmap)

In [None]:
plt.rcParams["font.size"] = 10
plt.rcParams["figure.figsize"] = (5,3)
plt.rcParams['axes.unicode_minus'] = False

In [None]:
# 상관계수로 heatmap그리기
sns.heatmap(df_eco.corr(numeric_only=True))

-----------------------

## [실습] 확인문제

- **문제**. Class 'Economy'에 한정하여 '항공권 가격 예측 데이터'의 상관계수를 활용해 히트맵을 그리는 코드를 작성하세요.

In [None]:
df_eco=df[(df['class']=='Economy')]
plt.figure()
sns.heatmap(df_eco.corr(numeric_only=True))
plt.show()

