# **Lesson 5. 데이터 탐색과 분석_예제**

## **(1) 환경준비**

### 1) 라이브러리 불러오기

In [None]:
# jupyter lite에서 패키지 설치
import piplite
await piplite.install("seaborn")

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# mosaic plot
from statsmodels.graphics.mosaicplot import mosaic

### 2) 데이터 불러오기

* **[air quality 데이터 셋 정보]**

|	변수	|	설명	|
|----|----|
|Ozone| 오존 농도 |
|Solar.R| 태양복사량|
|Wind| 풍속|
|Temp| 기온|
|Date| 연,월,일|

In [None]:
air = pd.read_csv('air.csv')
air['Date'] = pd.to_datetime(air['Date']) # 날짜 타입으로 변환
air.dropna(axis = 0, inplace = True) #
air.head()

* **[titanic 데이터 셋 정보]**

|	변수	|	설명	|	값 설명	|
|----|----|----|
|	**PassengerId**	|	승객ID	|	일련번호	|
|	**Survived**	|	생존여부	|	0 - 사망, 1- 생존	|
|	**Pclass**	|	Ticket class	|	1 = 1st, 2 = 2nd, 3 = 3rd	|
|	**Name**	|	탑승객 이름	|		|
|	**Sex**	|	성별	|		|
|	**Age**	|	연령	|		|
|	**Fare**	|	운임	|		|
|	**Embarked**	|	승선지	|	C = Cherbourg, Q = Queenstown, S = Southampton	|


In [None]:
titanic = pd.read_csv('titanic.csv')
titanic.dropna(inplace = True)
titanic.head()

----

## **(2) Topic 1. 하나의 정보 탐색하기**

### **1) 수치형 정보 분석하기**

* ①기초 통계량

In [None]:
# 평균
titanic['Fare'].mean()

In [None]:
# 중앙값
titanic['Fare'].median()

In [None]:
# 최빈값
titanic['Pclass'].mode()

* ② 기초 통계량 한꺼번에 조회 : .describe()

In [None]:
titanic.describe()

* ③ 시각화1 : 히스토그램(histogram)

In [None]:
plt.hist(titanic['Fare'], bins = 30,edgecolor = 'gray')
plt.grid()
plt.show()

* ④ 시각화2 : 밀도함수 그래프(kde plot)

In [None]:
sns.kdeplot(titanic['Fare'])
plt.grid()
plt.show()

* ⑤ 시각화3 : 박스 플롯(box plot)

In [None]:
plt.figure(figsize = (8, 3))
plt.subplot(1,2,1)
plt.boxplot(titanic['Fare'])
plt.grid()

plt.subplot(1,2,2)
plt.boxplot(titanic['Fare'], vert = False)
plt.grid()


plt.show()

### **2) 범주형 정보 분석하기**

* ① 기초 통계량

In [None]:
# 범주별 빈도수
titanic['Embarked'].value_counts()

In [None]:
# 범주별 비율
titanic['Embarked'].value_counts(normalize = True)

* ② 시각화1 : 막대 그래프

In [None]:
# 범주별 빈도수 - 막대 그래프
sns.countplot(x = 'Embarked', data = titanic)
plt.grid()
plt.show()

* ③ 시각화2 : 파이 차트

In [None]:
# 범주별 비율 - 파이 차트

# 1) 먼저 집계
temp = titanic['Embarked'].value_counts()

# 2) 파이 차트
plt.pie(temp.values, labels = temp.index, autopct = '%.2f%%')
plt.show()

## **(3) Topic 2. 두 정보 비교하기**

### **1) 수치형 vs 수치형**

* **① 산점도**

In [None]:
plt.scatter(x= 'Temp', y = 'Ozone', data = air)
plt.grid()
plt.show()

In [None]:
sns.scatterplot(x= 'Temp', y = 'Ozone', data = air)
plt.grid()
plt.show()

* **② 상관분석(상관계수 비교)**

In [None]:
air.corr()

#[안내] warning 메시지는 향후 버전에서 기본값이 'False'가 된다는 내용으로 무시하셔도 좋습니다.
#경고 메시지를 없애려면 numeric_only 매개변수를 True나 False로 지정하면 됩니다.

### **2) 범주형 vs 범주형**

* **① 교차표(pd.crosstab)**

In [None]:
# 교차표1 : count
pd.crosstab(titanic['Survived'], titanic['Sex'])

In [None]:
# 교차표2 : normalize(비율)
pd.crosstab(titanic['Survived'], titanic['Sex'], normalize = 'columns')

* **② 시각화 : 모자익플롯**

In [None]:
# 모자익플롯
mosaic(titanic, ['Sex', 'Survived'])

# 전체 평균선 추가
plt.axhline(1-titanic['Survived'].mean(), color = 'red')
plt.show()

### **3) 수치형 vs 범주형**

* **① 시각화 : 평균 비교 막대 그래프**

In [None]:
sns.barplot(x = 'Survived', y = 'Age', data = titanic)
plt.grid()
plt.show()