# 데이터 분석을 위한 전처리와 시각화 with 파이썬

![Alt text](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTKPePf0eI9lrP20Ym-P0v-_B2yB6IHRoQiWw&s)

# 6장. 판다스 활용

## 학습 목표

* 판다스로 데이터를 처리하는 과정을 익힌다.
* 판다스 라이브러리를 활용하여 붓꽃 데이터 셋을 분석하는 방법을 익힌다.
* 판다스 라이브러리를 활용하여 타이타닉 데이터 셋을 분석하는 방법을 익힌다.
* 판다스로 데이터 시각화하는 방법을 익힌다.

## 1. 붓꽃 데이터 분석

### [데이터 설명]
* 통계학자 Fisher가 정리
* sklearn(사이킷런), Seaborn 라이브러리에 붓꽃(iris) 데이터셋을 내장하고 있음
* 붓꽃의 3가지 종(Setosa, Versicolor, Virginica)을 특성에 맞게 분류
* 꽃잎 각 부분의 너비와 길이 등을 측정한 데이터로 150개의 레코드로 구성

![image.png](attachment:687f8630-18fd-488c-90dc-ac9ca0ecf436.png)

### [필드의 이해]
* 총 5개의 필드로 구성되어 있음

![image.png](attachment:376e7f6c-ed7b-4b3a-a067-922dc03471b1.png)


### 1.1 붓꽃 데이터 읽어와서 확인

#### 실습 코드 6-1. '붓꽃' 파일 읽어오기

**(1) Seaborn 라이브러리에서 붓꽃 데이터셋 읽어들이기**

In [None]:
import seaborn as sns
iris_seaborn =sns.load_dataset('iris')
iris_seaborn.head()

**(2) sklearn 패키지에서 붓꽃 데이터셋 읽어들이기**

In [None]:
from sklearn.datasets import load_iris
iris_data = load_iris()
iris_data.keys()

In [None]:
import pandas as pd
iris_sklearn = pd.DataFrame(iris_data.data, columns = iris_data['feature_names'])
iris_sklearn.head()

**(3) 교재에서 제공하는 iris.csv 파일에서 붓꽃 데이터셋 읽어들이기**

In [None]:
import pandas as pd
filename = 'iris.csv'
iris = pd.read_csv(filename)
iris.head()

#### 실습 코드 6-2. 데이터의 기본 정보 출력

* **df.info()** : 클래스의 유형, 행 인덱스의 구성, 열 이름의 종류와 개수, 각 열의 자료형과 개수, 메모리 할당량 출력

In [None]:
iris.info()

#### 실습 코드 6-3. 데이터의 기초 통계량 출력

* **df.describe()** : 산술(숫자) 데이터를 갖는 열에 대한 주요 기술통계정보를 요약하여 출력

In [None]:
iris.describe()

#### 실습 코드 6-4. 품종별 개수 구하기

* **df['열 이름'].value_counts()** : 시리즈 객체의 고유값(unique value) 개수 계산
   - **dropna = True** : NaN을 제외하고 개수를 계산

In [None]:
import pandas as pd
count = pd.DataFrame(iris['species'].value_counts())
count

### 1.2 붓꽃 데이터 전처리

* 데이터를 분석하는 과정에서 결측 데이터 또는 중북된 데이터가 사용된다면 분석 결과에 문제를 일으킬 수 있음

### [결측치 확인하기]

* 5장에서 결측 데이터를 처리하는 방법 학습
  - 결측 데이터 확인 : **isnull(), isna(), notnull()**
  - 결측 데이터 삭제 : **dropna()**
  - 결측 데이터 대체 : **fillna()**

#### 실습 코드 6-5. 결측치 확인

In [None]:
# 1. isnull() 함수 : 결측 데이터를 파악 (결측 데이터 : True, 정상 데이터 : False)
# 2. sum() 함수 : 각 컬럼별 결측 데이터의 합계를 계산
iris.isnull().sum()

### [중복 데이터 확인하기]

#### 실습 코드 6-6. 중복 데이터 확인

* **duplicated()** : 각 행의 중복 여부를 나타내는 시리즈 객체 반환
   - 전에 나온 행들과 비교하여 중복되는 행이면 True, 처음 나오는 행이면 False 설정

In [None]:
iris.duplicated()

In [None]:
iris.duplicated().sum()

#### 실습 코드 6-7. 실제 중복 데이터 확인

In [None]:
index = iris.duplicated()
# 중복된 행인 True로 설정되어 있는 행만 선택 출력 (열은 모든 열 대상)
iris.loc[index, :]

### [중복 데이터를 모두 확인하기]

#### 실습 코드 6-8. 중복 데이터 모두 확인

In [None]:
# 142번 행과 중복되는 행을 찾기 위해 논리 인덱싱을 이용해서 해당 되는 행을 모두 찾음
result = (iris['SepalLength'] == 5.8) & (iris['PetalWidth'] == 1.9)
iris.loc[result, :]

### [중복 데이터 삭제하기]

#### 실습 코드 6-9. 중복 데이터 삭제

* **drop_duplicate()** : 중복되는 행을 제거하고 고유한 관측값을 가진 행들만 남김

In [None]:
iris = iris.drop_duplicates()
result = (iris['SepalLength'] == 5.8) & (iris['PetalWidth'] == 1.9)

# 중복된 142번째 행을 삭제하고 101번 행만 남아 있음
iris.loc[result, :]

### 1.3 붓꽃 데이터 그룹핑

#### 실습 코드 6-10. '품종' 열을 기준으로 합계 구하기

* **groupby()** : 지정한 열을 기준으로 그룹으로 분할 하여 통계량을 출력
  - 통계량 관련 함수 : sum(합계), mean(평균), std(표준편차), var(분산), max(최대값), min(최소값), mode(최빈값) 등

In [None]:
iris.groupby('Species').sum()

#### 실습 코드 6-11. '품종' 열을 기준으로 평균 구하기

In [None]:
iris.groupby('Species').mean()

### 1.4. 판다스의 데이터 시각화

* 판다스의 시리즈와 데이터프레임은 'plot'이라는 시각화 메소드를 내장하고 있음 (Matplotlib 라이브러리의 일부 기능 내장)
* plot() 메소드의 kind 인수의 값을 바꿔서 그래프 종류를 설정할 수 있음

![image.png](attachment:20d58b8c-1b1e-4736-bd81-1367a43cb1f2.png)

### [막대 그래프 그리기]

* **pd.plot(kind = 'bar')** : kind 옵션을 bar로 설정

#### 실습 코드 6-12. 꽃 받침 길이의 시각화

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

iris.SepalLength[:10].plot(kind='bar', rot=0)
plt.title("꽃받침의 길이 시각화")
plt.xlabel("Data")
plt.ylabel("꽃받침의 길이")
plt.show()

---
#### **Matplotlib 한글 폰트 오류 해결**
* matplotlib 라이브러리에서는 한글을 제대로 출력하지 못함 ==> 한글 폰트 지정 필요

#### 1) 미리 알려진 (설치된) 폰트 사용
* 윈도우 OS : Malgun Gothic
* 맥 OS : AppleGothic

In [None]:
import matplotlib as mpl

mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['font.size'] = 12

iris.SepalLength[:10].plot(kind='bar', rot=0)
plt.title("꽃받침의 길이 시각화")
plt.xlabel("Data")
plt.ylabel("꽃받침의 길이")
plt.show()

#### 2) 폰트 파일 지정하여 사용

In [None]:
import matplotlib.font_manager as fm

font_path = './NanumSquareRoundL.ttf'
fe = fm.FontEntry(fname = font_path, name = 'NanumSquareRoundL')
fm.fontManager.ttflist.insert(0, fe)
plt.rcParams.update({'font.size' : 12, 'font.family':'NanumSquareRoundL'})

iris.SepalLength[:10].plot(kind='bar', rot=0)
plt.title("꽃받침의 길이 시각화")
plt.xlabel("Data")
plt.ylabel("꽃받침의 길이")
plt.show()

#### 3) 특정 부분의 폰트만 변경

In [None]:
path = './NanumBrush.ttf'
fp = fm.FontProperties(fname = path)

iris.SepalLength[:10].plot(kind='bar', rot=0)
plt.title("꽃받침의 길이 시각화", fontproperties=fp, fontsize=20)
plt.xlabel("Data")
plt.ylabel("꽃받침의 길이")
plt.show()

---

#### 6-13. 붓꽃 종류별 꽃 받침 길이의 평균에 대한 시각화

In [None]:
df2 = iris.groupby(iris['Species']).mean()
df2

In [None]:
df2.SepalLength[:].plot(kind='bar', rot=0)
plt.title('품종별 SelpalLength 그래프')
plt.xlabel('Data')
plt.ylabel('꽃받침 길이의 평균값')
plt.show()

### [히스토그램 그래프 그리기]
* **pd.plot(kind = 'hist')** : kind 옵션을 hist로 설정
  - x축은 일정한 간격을 갖는 구간으로 나누고, y축은 각 구간의 빈도수를 막대 그래프로 표시

#### 실습 코드 6-14. 각 특징 값들의 빈도수 그래프 그리기

In [None]:
iris.plot(kind='hist')
#iris.plot.hist()
plt.title('각 특징 값들의 빈도수 히스토그램')
plt.show()

### [상자 그래프 그리기]
* **df.plot(kind = 'box')** : kind 옵션을 box로 설정
  - 특정 변수의 데이터 분포와 분산 정도에 대한 정보 제공
 
![image.png](attachment:dbbc290b-f869-4ce2-b4a1-6ad5a4cb65ca.png)

1. 중앙값(median): 말그대로 중앙값 50%의 위치이다.

   - 중앙 값은 짝수일 경우 2개가 될 수도 있고, 그것의 평균이 중앙값이 될 수도 있다.

   - 홀수일 경우, 중앙값은 1개가 된다.

1. 박스(Box): 25%(Q1) ~75%(Q3) 까지 값들을 박스로 둘러 쌓는다.

1. 수염 (whiskers): 박스의 각 모서리 (Q1, Q3)로 부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터 점까지 이어져 있는 것이 수염이다.

1. 이상치(Outlier): 수염(whiskers)보다 바깥쪽에 데이터가 존재한다면, 이것은 이상치로 분류 된다.


---

Inter Quartile range (IQR) 이란?

  Q3 - Q1의 값이다.



출처: https://goodtogreate.tistory.com/entry/이상치-제거-Boxplot-해석을-통한 [GOOD to GREAT]

#### 실습 코드 6-15. 각 특징 값들의 빈도수 그래프 그리기

In [None]:
iris.plot(kind='box')
plt.title('각 특징 값들의 빈도수에 대한 Box Plot')
plt.xlabel('특징')
plt.ylabel('데이터 값')
plt.show()

### [산점도 그래프 그리기]

* **pd.plot(kind = 'scatter')** : kind 옵션을 scatter로 설정
  - 두 변수의 관계를 2차원 좌표평면에 점으로 표현

#### 실습 코드 6-16. 산점도 그래프 그리기

In [None]:
iris.plot(x='SepalLength', y='PetalLength', kind='scatter')
plt.show()

## 2. 타이타닉 데이터 분석

### [데이터 설명]
* 데이터 사이언스, 머신러닝 분야에서 입문자용으로 가장 많이 사용하는 예제 중 하나
* 타이타닉 호 침몰 사건 당시 사망자와 생존자를 구분하는 요인 분석을 통해 승객들의 생존 여부 예측에 활용할 수 있음

### [필드의 이해]
* 891명의 탑승객의 정보를 12개의 변수로 표현

![image.png](attachment:2d63cd17-48a4-41bb-8cd5-920f4ee31bc4.png)
![image.png](attachment:9a940795-9c84-4272-8f0f-1fe45fbd86cb.png)

### 2.1 타이타닉 데이터 읽어와서 확인

#### 실습 코드 6-17. '타이타닉' 파일 읽어오기

**(1) Seaborn 라이브러리에서 타이타닉 데이터셋 읽어들이기**

In [None]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

titanic.head()

**(2) 교재에서 제공하는 train.csv 파일에서 타이타닉 데이터셋 읽어들이기**

In [None]:
import pandas as pd
titanic = pd.read_csv('train.csv')
titanic.head()

#### 실습 코드 6-18. 데이터의 기본 정보 출력

In [None]:
titanic.info()

#### 실습 코드 6-19. 데이터의 기초 통계량 출력

In [None]:
titanic.describe()

#### 실습 코드 6-20. 요금(Fare) 기준 내림차순 정렬

In [None]:
titanic.sort_values('Fare', ascending=False)

#### 실습 코드 6-21. 생존자별 인원수 출력

In [None]:
pd.DataFrame(titanic['Survived'].value_counts())

### 2.2 타이타닉 데이터 전처리

* 결측데이터가 포함된 컬럼을 삭제하고 결측데이터를 다른 값으로 대체

### [결측치 확인하기]

#### 실습 코드 6-22. 결측치 확인

In [None]:
titanic.isnull().sum()

### [객실번호(Cabin) 컬럼 삭제]

* Age, Cabin, Embarked 컬럼에 결측 데이터가 존재함
* Cabin 컬럼은 전체 891명의 탑승객 데이터 중 687개가 결측데이터로 거의 모든 데이터가 결측 데이터
  - 결측 데이터가 너무 많으면 데이터 분석에 의미가 없으므로 삭제

#### 실습 코드 6-23. 결측데이터가 포함된 컬럼 삭제

In [None]:
titanic.drop(['Cabin'], axis=1, inplace=True)
titanic.columns

### [결측데이터 최빈값으로 대체하기]

* 탑승 항구(Embarked)는 2개의 결측 데이터가 있어 컬럼 삭제는 적절한 방법이 아님 ==> 특정 값으로 대체
* 최빈값으로 결측 데이터를 대체

#### 실습 코드 6-24. 최빈값 찾기

In [None]:
# Embarked 열의 각 범위 데이터별 개수 계산
titanic['Embarked'].value_counts()

#### 실습 코드 6-25. 최빈값 대체

In [None]:
# 실습 코드 6-24에서 찾은 최빈값으로 결측 데이터 대체
titanic['Embarked'] = titanic['Embarked'].fillna('S')
titanic.isnull().sum()

### [결측데이터 평균값으로 대체하기]

* 나이(Age)는 결측 데이터가 많지만 남아 있는 데이터가 많고 생존 여부와 상관 있을 것으로 판단
* 데이터를 평균값으로 대체

#### 실습 코드 6-26. 평균값 대체

In [None]:
avg = titanic['Age'].mean()
titanic['Age'] = titanic['Age'].fillna(avg)
titanic.isnull().sum()

### 2.3 타이타닉 데이터 그룹핑하기

#### 실습 코드 6-27. 항구별(Embarked) Pclass 컬럼의 평균값을 출력

In [None]:
titanic['Pclass'].groupby(titanic['Embarked']).mean()

#### 실습 코드 6-28. Pclass, Sex 컬럼 열을 기준으로 평균 구하기

In [None]:
df = titanic.loc[:, ['Pclass', 'Sex', 'PassengerId', 'Survived', 'Age', 'SibSp', 'Parch', 'Fare']]
df.groupby(['Pclass', 'Sex']).mean()

In [None]:
grouped_two = df.groupby(['Pclass', 'Sex'])

for key, group in grouped_two:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n')

### 2.4 판다스의 데이터 시각화

### [좌석 등급별 생존자 확인]

#### 실습 코드 6-29. 시본(Seaborn) 모듈로 막대 그래프 그리기

In [None]:
import seaborn as sns
sns.countplot(x='Pclass', hue='Survived', data=titanic)

### [상관관계 확인]

#### 실습 코드 6-30. 시본 모듈로 히트맵 그래프 그리기

In [None]:
df2 = titanic.loc[:, ['PassengerId', 'Survived', 'Age', 'SibSp', 'Parch', 'Fare']]

sns.heatmap(df2.corr(), 
            annot=True, fmt='.2f',
            cmap='Blues',
            linewidth=.5,
            cbar=False)

### [상관 분석에 대한 이해]

#### 상관 분석 개념
* 두 변수가 어떤 선형적 관계에 있는지를 분석하는 방법 - 두 변수는 서로 독립적이거나 상관된 관계일 수 있는데, 두 변수의 관계의 강도를 상관관계라고 함
* 단순 상관 분석 - 두 변수가 어느 정도 강한 관계에 있는지 측정

#### [피어슨 상관계수](https://ko.wikipedia.org/wiki/%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98) 계산 (-1, 1 사이의 결과값)
> **양의 값** : 두 변수가 같은 방향으로 변화 (하나가 증가하면 다른 하나도 증가)   
> **음의 값** : 두 변수가 반대 방향으로 변화 (하나가 증가하면 다른 하나는 감소)   
> **0** : 두 변수가 독립 (한 변수의 변화로 다른 변수의 변화를 예측하지 못함)

* **df.corr()** : 두 열간의 상관계수 계산. 산술 데이터를 갖는 모든 열에 대해서 상관계수 계산
* **df[열 이름 리스트].corr()** : '열 이름 리스트'에 있는 열 간의 상관계수 계산

#### 상관 분석 결과의 시각화
* 두 변수의 관계를 보여 주는 산점도나 히트맵을 많이 사용

In [None]:
df2.corr()