# 파이썬을 활용한 데이터 처리

- 기본적으로 파이썬의 pandas 라이브러르리를 사용하여 진행한다.

###### 목차
0. 데이터 전처리 Overview
1. 데이터 프레임 변경
2. 데이터 프레임 결합
3. 시계열 데이터 처리
4. 데이터 분석 방법론
5. 시각화 라이브러리
6. 다변량 분석 - 숫자형
7. 다변량 분석 - 범주형

In [2]:
# 기본 라이브러리 import 하기
import pandas as pd
import numpy as np

## 0. 데이터 전처리 Overview
1. 데이터 구조 만들기
2. 모델링을 위한 전처리
---
##### 1. 데이터 구조 만들기
행 : 분석 단위  
열 : 정보, 변수

즉, 행을 어떻게 결정하느냐가 중요한 포인트가 된다.

##### 2. 모델링을 위한 전처리
모든 셀은 값이 있어야한다.  
모든 값은 숫자여야 한다  
필요시, 숫자의 범위를 맞춰야 한다.

## 1. 데이터 프레임 변경
- 열 추가 : 새로운 열 이름에 값을 지정하면, 새 열이 추가 된다.
- 열 이름 변경 : rename()
- 열 삭제 : drop()
    - axis = 0 : 행 삭제(기본값)
    - axis = 1 : 열 삭제
    - inplace = False : 삭제한 것처럼 보여줘, True: 진짜 삭제하기
- map() : 기존 값을 다른 값으로 매핑(변경)
- pd.map() : 기존 값을 다른 값으로 매핑(변경)

In [59]:
df = pd.DataFrame() # 데이터 프레임 만들기


# 열 추가 : '성별' 컬럼 추가하기
df["성별"] = ['남성','여성','여성','여성','남성']
df["나이"] = [17, 22, 21, 8, 22] 
df["값변경"]=[1, 2, 3, 4, 5]
df["값들"]=[1.2, 2.6, 3.3, 4.9, 5]
df["테스트"]=[0,0,0,0,0]
df["테스트2"]=[0,0,0,0,0]
df["테스트3"]=[0,0,0,0,0]
df

Unnamed: 0,성별,나이,값변경,값들,테스트,테스트2,테스트3
0,남성,17,1,1.2,0,0,0
1,여성,22,2,2.6,0,0,0
2,여성,21,3,3.3,0,0,0
3,여성,8,4,4.9,0,0,0
4,남성,22,5,5.0,0,0,0


In [60]:
# 열 이름 변경 : rename()
df.rename(columns={'성별' : 'Sex',
                    '나이' : 'Age'}, inplace=True)
df

Unnamed: 0,Sex,Age,값변경,값들,테스트,테스트2,테스트3
0,남성,17,1,1.2,0,0,0
1,여성,22,2,2.6,0,0,0
2,여성,21,3,3.3,0,0,0
3,여성,8,4,4.9,0,0,0
4,남성,22,5,5.0,0,0,0


In [61]:
# 열 삭제 : drop()
df.drop('테스트',axis=1, inplace=True)
df

Unnamed: 0,Sex,Age,값변경,값들,테스트2,테스트3
0,남성,17,1,1.2,0,0
1,여성,22,2,2.6,0,0
2,여성,21,3,3.3,0,0
3,여성,8,4,4.9,0,0
4,남성,22,5,5.0,0,0


In [62]:
# 열 삭제 : drop()
df.drop(['테스트2','테스트3'],axis=1, inplace=True)
df

Unnamed: 0,Sex,Age,값변경,값들
0,남성,17,1,1.2
1,여성,22,2,2.6
2,여성,21,3,3.3
3,여성,8,4,4.9
4,남성,22,5,5.0


In [63]:
# 열 전체 값 변경
df['값변경']=0
df

Unnamed: 0,Sex,Age,값변경,값들
0,남성,17,0,1.2
1,여성,22,0,2.6
2,여성,21,0,3.3
3,여성,8,0,4.9
4,남성,22,0,5.0


In [64]:
# 조건에 의한 값 변경 1
df.loc[df['Age']< 10, '값변경'] = 10 # 'Age' 컬럼에서 값이 10 미만일 경우, '값변경' 컬럼의 값을 10으로 변경
df

Unnamed: 0,Sex,Age,값변경,값들
0,남성,17,0,1.2
1,여성,22,0,2.6
2,여성,21,0,3.3
3,여성,8,10,4.9
4,남성,22,0,5.0


In [65]:
# 조건에 의한 값 변경 2
df['값변경'] = np.where(df['Age'] == 22, 5, 1) # 'Age'의 값이 22이면 '값변경'컬럼의 값을 5로, 아닐경우 1로 변경
df

Unnamed: 0,Sex,Age,값변경,값들
0,남성,17,1,1.2
1,여성,22,5,2.6
2,여성,21,1,3.3
3,여성,8,1,4.9
4,남성,22,5,5.0


In [66]:
# pd.map() : 기존 값을 다른 값으로 매핑(변경)
df['Sex'] = df['Sex'].map({'남성':'Male',
                            '여성':'Female'})
df

Unnamed: 0,Sex,Age,값변경,값들
0,Male,17,1,1.2
1,Female,22,5,2.6
2,Female,21,1,3.3
3,Female,8,1,4.9
4,Male,22,5,5.0


In [67]:
# cut() : 값 크기를 기준으로 지정한 개수의 범위로 나눠어 범주 값 지정하기

# '값들'컬럼의 숫자형 값을 2개의 범위로 나눠 '값들범주'라는 컬럼 추가한다.
df['값들범주'] = pd.cut(df['값들'], 2, labels=['1구간','2구간']) 
df

Unnamed: 0,Sex,Age,값변경,값들,값들범주
0,Male,17,1,1.2,1구간
1,Female,22,5,2.6,1구간
2,Female,21,1,3.3,2구간
3,Female,8,1,4.9,2구간
4,Male,22,5,5.0,2구간


## 2. 데이터 프레임 결합
- pd.concat
    - 매핑 기준 : 인덱스(행), 컬럼이름(열)
    - 방향 : axis
    - 방법 : join  
        join의 경우 'outer' : 모든 행과 열 합치기(기본값), 'inner' : 같은 행과 열만 합치기
- pd.merge
    - 매핑기준 : 특정 컬럼(key)의 값 기준으로 결합
    - 데이터베이스 테이블 조인과 같음
    - 방법
        - inner : 같은 값만
        - outer : 모두
        - left : 왼쪽 df는 모두, 오른쪽 df는 같은 값만
        - right : 오른쪽 df는 모두, 왼쪽 df는 같은 값만
- pivot
    - Pivot 함수를 이용하여 집계된 데이터를 재구성할 수 있다.
    - 문법 : dataframe.pivot(index, column, values)
---
### 정리하자면 . . .
- concat : 인덱스, 열 이름 기준 => **데이터 프레임 구조**에 맞게 합치기
- merge : 특정 열의 값 기준 => **데이터 값 기준**으로 합치기
- pivot : 먼저 groupby로 집계하고, pivot(index, column, value)

## 3. 시계열 데이터 처리
시계열 데이터란 행과 행에 시간의 순서(흐름)가 있고  
행과 행의 시간 간격이 동일한 데이터를 말한다.
- 날짜 데이터 요소
![날짜요소뽑기](../img/날짜요소뽑기.png)
- shift() : 시계열 데이터에서 시간의 흐름 전후로 정보를 이동시킬 때 사용
- rolling().mean() : 시간의 흐름에 따라 일정 기간 동안 평균을 이동하면서 구하기
- diff() : 특정 시점 데이터, 이전 시점 데이터와의 차이 구하기

## 4. 데이터 분석 방법론

## 5. 시각화 라이브러리
- matplotlib
- seaborn

## 6. 다변량 분석 - 숫자형

## 7. 다변량 분석 - 범주형