# 데이터 탐색

## 1. 데이터 탐색

### 1.1 데이터 탐색의 정의

#### - 데이터 전처리 요소 중 하나로 데이터 분석을 위한 다양한 관점 제공
#### - 데이터 재구조화 및 그룹 분석, 시계열 데이터 탐색

In [1]:
import pandas as pd

In [2]:
import numpy as np

In [3]:
file_path = './data/exam_sample.csv'
df = pd.read_csv(file_path)

In [4]:
df

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [8]:
df.describe()

Unnamed: 0,student_no,science,english,math
count,10.0,10.0,10.0,10.0
mean,5.5,53.9,90.7,56.5
std,3.02765,24.09449,7.498889,23.810595
min,1.0,15.0,78.0,20.0
25%,3.25,45.0,86.75,46.25
50%,5.5,54.0,91.5,50.0
75%,7.75,63.75,97.75,75.0
max,10.0,98.0,98.0,90.0


### 1.2 그룹분석
#### - 특정한 조건에 맞는 데이터가, 데이터 그룹을 이루는 경우 그룹의 특성을 보여주는 것 
#### - 주로 번주형 데이터를 묶은 후 사용

In [11]:
df1 = df.groupby(['class'])
df1

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001FDCB899580>

In [14]:
df1.head()

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


#### - 반별 그룹화 확인하기

In [19]:
df1.head(1)

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
4,5,B,65,80,90,w
8,9,C,15,98,20,w


각 그룹별 가장 상위에 있는 데이터를 조회 - head(1)이기 때문

In [21]:
df1.head(2)

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
4,5,B,65,80,90,w
5,6,B,98,89,50,m
8,9,C,15,98,20,w
9,10,C,45,93,50,w


#### - 특정 그룹의 데이터를 조회

In [87]:
df1.get_group('A')

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m


#### - 그룹별 평균
단, 숫자값이 있는 컬럼에 대해서만 실행

In [28]:
df.groupby('class').mean()

Unnamed: 0_level_0,student_no,science,english,math
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,2.5,61.5,94.75,46.25
B,6.5,58.25,84.25,77.5
C,9.5,30.0,95.5,35.0


In [40]:
df2 = df.groupby(['sex'])

In [53]:
df2.head(1)

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w


In [54]:
df2.mean()

Unnamed: 0_level_0,student_no,science,english,math
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
m,4.5,62.75,93.75,52.5
w,6.166667,48.0,88.666667,59.166667


In [43]:
df3 = df.groupby(['class', 'sex'])

In [46]:
df3.head(1)

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
4,5,B,65,80,90,w
5,6,B,98,89,50,m
8,9,C,15,98,20,w


In [56]:
df3.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,student_no,science,english,math
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,m,2.5,54.0,98.0,40.0
A,w,2.5,69.0,91.5,52.5
B,m,6.5,71.5,89.5,65.0
B,w,6.5,45.0,79.0,90.0
C,w,9.5,30.0,95.5,35.0


In [58]:
df3.get_group(('A', 'm'))

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
3,4,A,58,98,30,m


In [68]:
df.groupby('class')[['math']].mean()

Unnamed: 0_level_0,math
class,Unnamed: 1_level_1
A,46.25
B,77.5
C,35.0


In [70]:
df.groupby(['class'])[['math']].count()

Unnamed: 0_level_0,math
class,Unnamed: 1_level_1
A,4
B,4
C,2


In [72]:
df.groupby(['sex'])[['math']].mean()

Unnamed: 0_level_0,math
sex,Unnamed: 1_level_1
m,52.5
w,59.166667


In [76]:
sex_group = df.groupby(['sex'])
print(sex_group.head(1))

   student_no class  science  english  math sex
0           1     A       50       98    50   m
1           2     A       60       97    60   w


#### - 실제 데이터가 어떻게 구성되어 있는지 확인

In [78]:
sex_group.groups

{'m': [0, 3, 5, 6], 'w': [1, 2, 4, 7, 8, 9]}

In [89]:
sex_group.get_group('m')

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
3,4,A,58,98,30,m
5,6,B,98,89,50,m
6,7,B,45,90,80,m


In [92]:
sex_group.get_group('m')[['math']]

Unnamed: 0,math
0,50
3,30
5,50
6,80


## 2. 재구조화
#### - 데이터의 구조가 분석 기법에 맞지 않아 행과 열의 위치를 바꾸는 것
#### - pd.cut(), pd.qcut() 데이터 구간화
#### - pd.get_dummies 원-핫 인코딩
#### - T 데이터 전치
#### - pivot(), pd.pivot_table() 피벗 테이블
#### - melt() 열, 행 전환
#### - stack(), unstack() 행,열 인덱스 전환

### 2.1 데이터 구간화
### pd.cut(), pd.qcut()
#### - 연속형 변수를 바로 사용하기 보다 일정구간(bin)으로 작업하는 경우
#### - 연속형 변수를 범주형 변수로 만드는 방법
#### - 특별한 원칙이 존재하는 것은 아님

#### - pd.cut(): 임의의 3 구간을 설정함(동일한 길이)

In [96]:
df1 = pd.cut(df['math'], 3)
df1

0    (43.333, 66.667]
1    (43.333, 66.667]
2    (43.333, 66.667]
3     (19.93, 43.333]
4      (66.667, 90.0]
5    (43.333, 66.667]
6      (66.667, 90.0]
7      (66.667, 90.0]
8     (19.93, 43.333]
9    (43.333, 66.667]
Name: math, dtype: category
Categories (3, interval[float64, right]): [(19.93, 43.333] < (43.333, 66.667] < (66.667, 90.0]]

In [98]:
df2 = df['math'].groupby(df1)

In [100]:
df2.head()

0    50
1    60
2    45
3    30
4    90
5    50
6    80
7    90
8    20
9    50
Name: math, dtype: int64

In [102]:
df3 = df2.agg(['count', 'mean', 'std', 'min', 'max'])
print(df3)

                  count       mean       std  min  max
math                                                  
(19.93, 43.333]       2  25.000000  7.071068   20   30
(43.333, 66.667]      5  51.000000  5.477226   45   60
(66.667, 90.0]        3  86.666667  5.773503   80   90


#### - qcut(): 동일한 개수로 나눔

In [117]:
pd.qcut(df['math'], 3)

0    (19.999, 50.0]
1      (50.0, 60.0]
2    (19.999, 50.0]
3    (19.999, 50.0]
4      (60.0, 90.0]
5    (19.999, 50.0]
6      (60.0, 90.0]
7      (60.0, 90.0]
8    (19.999, 50.0]
9    (19.999, 50.0]
Name: math, dtype: category
Categories (3, interval[float64, right]): [(19.999, 50.0] < (50.0, 60.0] < (60.0, 90.0]]

#### - labels = False: 범주의 번호 표시

In [118]:
df4 = pd.qcut(df['math'], 3, labels = False)

In [119]:
df4

0    0
1    1
2    0
3    0
4    2
5    0
6    2
7    2
8    0
9    0
Name: math, dtype: int64

In [120]:
df5 = pd.qcut(df['math'], 3, labels = np.arange(3, 0, -1))

In [122]:
df5

0    3
1    2
2    3
3    3
4    1
5    3
6    1
7    1
8    3
9    3
Name: math, dtype: category
Categories (3, int64): [3 < 2 < 1]

In [124]:
df6 = df['math'].groupby(df5)

In [126]:
df6.head(1)

0    50
1    60
4    90
Name: math, dtype: int64

In [129]:
df7 = df6.agg(['count', 'mean', 'std', 'min', 'max'])
df7

Unnamed: 0_level_0,count,mean,std,min,max
math,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
3,6,40.833333,12.812754,20,50
2,1,60.0,,60,60
1,3,86.666667,5.773503,80,90


### 2.2 원-핫 인코딩
#### - 기계가 이해할 수 있는 형태로 데이터 변환
#### - 범주형 데이터를 원-핫 인코딩 형태로 변환하는 것
#### - 조건에 맞는 하나의 데이터만 1로 변경하고 나머지는 0(dummy)로 변경하는 과정

In [131]:
df.dtypes

student_no     int64
class         object
science        int64
english        int64
math           int64
sex           object
dtype: object

#### - 범주형 컬럼에 대해서만 가능
#### - get_dummies(): 숫자값을 제외한 object 데이터 타입만 가능
#### - 해당 one-hot 인코딩 되는 원본 컬럼은 없어지고, 해당 컬럼명_범주명으로 컬럼이 만들어짐

In [134]:
df_onehot = pd.get_dummies(df)

In [136]:
df_onehot

Unnamed: 0,student_no,science,english,math,class_A,class_B,class_C,sex_m,sex_w
0,1,50,98,50,1,0,0,1,0
1,2,60,97,60,1,0,0,0,1
2,3,78,86,45,1,0,0,0,1
3,4,58,98,30,1,0,0,1,0
4,5,65,80,90,0,1,0,0,1
5,6,98,89,50,0,1,0,1,0
6,7,45,90,80,0,1,0,1,0
7,8,25,78,90,0,1,0,0,1
8,9,15,98,20,0,0,1,0,1
9,10,45,93,50,0,0,1,0,1


In [138]:
df_onehot2 = pd.get_dummies(df['sex'])
df_onehot2

Unnamed: 0,m,w
0,1,0
1,0,1
2,0,1
3,1,0
4,0,1
5,1,0
6,1,0
7,0,1
8,0,1
9,0,1


### 2.3 데이터 전치
#### - 행과 열의 기준을 바꾸는 방법

In [139]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
student_no,1,2,3,4,5,6,7,8,9,10
class,A,A,A,A,B,B,B,B,C,C
science,50,60,78,58,65,98,45,25,15,45
english,98,97,86,98,80,89,90,78,98,93
math,50,60,45,30,90,50,80,90,20,50
sex,m,w,w,m,w,m,m,w,w,w


### 2.4 피벗 테이블
#### - 많은 양의 데이터에서 필요한 자료만 뽑아 데이터를 새롭게 재구성
#### - 첫 번째 인수로는 행 인덱스로 사용할 열 이름
#### - 두 번째 인수로는 열 인덱스로 사용할 열 이름
#### - 마지막으로는 데이터로 사용할 열 이름

In [6]:
df

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [11]:
pd.pivot_table(df, index = 'class', columns = 'sex', values = 'science')

sex,m,w
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,54.0,69.0
B,71.5,45.0
C,,30.0


In [12]:
pd.pivot_table(df, index = 'sex', columns = 'class', values = 'science')

class,A,B,C
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
m,54.0,71.5,
w,69.0,45.0,30.0


### 2.5 멜트
#### - 열을 행으로 변경하는 재구조화 과정
#### - 열이 행으로 흘러 열이 짧아지고 행이 길어 지는 것

### 2.6 stack, unstack
#### - 행 인덱스와 열 인덱스 교환 시 사용하는 기능
#### - stack: 열을 행으로 변화시키는데 열 인덱스가 반시계 방향으로 90도 회전한 것과 같은 모양이 됨
#### - unstack: stack으로 쌓은 것을 옆으로 늘여 놓은 것

### 2.7 시계열 데이터
#### - 날짜나 시간 유형 데이터