# 1. 데이터 그룹분석

### 그룹분석
- 특정한 조건에 맞는 데이터가, 하나 이상 데이터 그룹을 이루는 경우에는 그룹의 특성을
  보여주는 그룹 분석을 자주 사용
  (주로 범주형 데이터를 그룹으로 묶은 후 사용)
- 그룹 분석은 분석 대상 (범주형)변수(컬럼)를 그룹별로 데이터를 집계하여 진행하는
  분석으로 데이터분석에서 자주 사용하기 때문에 반드시 알아야할 필수적 방법
###### 
- 몇몇 기준(범주형)에 따라 여러 그룹으로 데이터 분할(spliitting) 
  : 반별 그룹으로 분할
- 각 그룹에 독립적으로 함수를 적용(aplying)
  : 반별로 평균 산정(적용)
- 결과물들을 하나의 데이터 구조로 결합(combining)
  : 반별 평균을 결합

### 그룹분석 기준
1. 그룹 분석은 대부분 '범주형 변수(컬럼)'가 그룹 연산 기준이 됩니다.
2. 많은 분석이 범주형(그룹)과 연속형이 결합된 그룹 분석으로 진행됩니다.

# 2. 데이터 재구조화

### 데이터 재구조화
- 분석 과정에서 원본 데이터의 구조가 분석 기법에 맞지 않아 행과 열의 위치를 바꾼다거나
  특정 요인에 따라 집계 해서 구조를 바꿔야 하는 경우 자주 발생
- 재구조화라고 하며 판다스는 아래와 같이 재그룹화 기능 제고
    - pd.cut(), pd.qcut()        : 데이터 구간화
    - pd.get_dummies             : 원-핫 인코딩
    - T                          : 데이터 전치
    - pivot(), pd.pivot_table()  : 피봇 테이블
    - melt()                     : 열,행 전환
    - stack(), unstack()         : 행, 열 인덱스 전환

### 데이터 구간화
- 데이터 분석을 진행할 때 연속형 변수를 바로 사용하는 경우보다 일정 구간
  (bin이라고도 한다)으로 작업하는 경우가 많다
- 연속형 변수를 범주형 변수로 만드는 방법을 데이터구간화(Data Bining)이라 한다.
- 데이터 구간화에는 특별한 원칙이 있는 것이 아니기 때문에
  데이터사이언티스트의 업무 이해도에 따라 창의적인 방법으로 할 수 있다
    - pd.cut() : 동일길이로 나누기
    - pd.qcut() : 동일개수로 나누기

#### 원-핫 인코딩
- 딥러닝 알고리즘은 수치 데이터만 사용
- 기계가 이해할 수 있는 형태로 데이터를 변환해야 하는데,
  이때 범주형 데이터를 원-핫 인코딩 형태로 변환 합니다.
  (원-핫 인코딩 -> 범주형 데이터를 0 또는 1의 값으로 변환하는 방법)
- 조건에 맞는 하나의 데이터만 1로 변경해주고 나머지는 0(dummy)으로 변경하는 과정

#### 데이터 전치
- 데이터프레임 행과 열의 기준(축)을 바꾸는 방법을 데이터 전치라고 한다.
- df.T : 전치(Transpose)

#### 피봇 테이블
- 피봇 테이블이란 많은 양의 데이터에서 필요한 자료만을 뽑아 
  새롭게 데이터를 재구성하는 기능
- 피봇 테이블을 사용하면 사용자가 원하는 대로 데이터를 정렬하고 필터링할 수 있다
- 판다스는 피봇테이블을 만들기 위한 pivot() 함수를 제공
- 첫번째 인수로는 행 인덱스로 사용할 열 이름, 두번째 인수로는 열 인덱스로 사용할 열 이름,
  그리고 마지막으로 데이터로 사용할 열 이름을 지정
- df.pivot_table(data,index,colums,values,aggfunc)

#### 멜트
- 멜트라는 의미처럼 녹으면 흘러내린다
- 열을 행으로 변경하는 재구조화
- 데이터프레임에서는 열이 행으로 흘러 열이 짧아지고 행이 길어 진다

#### 스택/언스택
- 행 인덱스와 열 인덱스 교환 시 사용하는 기능
- 스택(stack) 명령을 사용하면 열을 행으로 변하는데
  열 인덱스가 반 시계 방향으로 90도 회전한 것과 같은 모양이 된다
- 언스택(Unstack)은 스택으로 쌓은 것을 옆으로 늘여 놓은 것
  둘 다 인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용 할 수 있습니다
- df.stack() : 인덱스를 기준으로 컬럼단위
- df.unstack() : 컴럼을 기준으로 인덱슬 단위

# 3. 시계열 데이터

### 시계열 데이터
- 범주, 연속 이외 다른 변수 유형이 있는데 날짜나 시간 유형 데이터
- 시간 변수는 시계열이라고 하며 데이터 분석에서 중요한 역할을 한다

#### 기간 함수

# 데이터 탐색하기

### 1. 데이터 그룹분석하기

In [1]:
# 데이터 가져오기
# exam_sample.csv
import pandas as pd
import numpy as np

In [2]:
file_path = './data/exam_sample.csv'
df = pd.read_csv(file_path)

In [3]:
df

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [4]:
# 기초통계
# 숫자데이터만 나옴
df.describe()

Unnamed: 0,student_no,science,english,math
count,10.0,10.0,10.0,10.0
mean,5.5,53.9,90.7,56.5
std,3.02765,24.09449,7.498889,23.810595
min,1.0,15.0,78.0,20.0
25%,3.25,45.0,86.75,46.25
50%,5.5,54.0,91.5,50.0
75%,7.75,63.75,97.75,75.0
max,10.0,98.0,98.0,90.0


In [5]:
# 반별 그룹화 하기
df1 = df.groupby(["class"])

In [6]:
# 그룹 데이터를 확인하기 위해서는 head()를 사용합니다.
# 그룹화한 데이터 전체 확인하기
df1.head()

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [7]:
# 반별 그룹화 확인하기
# 그룹별로 첫번째 1개씩 -> head(1)
df1.head(1)

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
4,5,B,65,80,90,w
8,9,C,15,98,20,w


In [8]:
df1.head(2)

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
4,5,B,65,80,90,w
5,6,B,98,89,50,m
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [9]:
# 특정 그룹의 데이터를 조회하기
df1.get_group("A")

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m


In [10]:
len(df1.get_group("A"))

4

In [11]:
# 그룹별 평균
# 단, 숫자값이 있는 컬럼에 대해서만 실행됩니다
df.groupby("class").mean()

Unnamed: 0_level_0,student_no,science,english,math
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,2.5,61.5,94.75,46.25
B,6.5,58.25,84.25,77.5
C,9.5,30.0,95.5,35.0


In [12]:
# 성별로 그룹화 해주세요
df.groupby("sex")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000027546288130>

In [13]:
# 반별 및 성별로 그룹화 해주세요
# class & sex 같은 행이 있으면 그룹으로 묶어요
df.groupby(["sex","class"]).head(1)

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
4,5,B,65,80,90,w
5,6,B,98,89,50,m
8,9,C,15,98,20,w


In [14]:
# 성별 평균
df.groupby("sex").mean()

Unnamed: 0_level_0,student_no,science,english,math
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
m,4.5,62.75,93.75,52.5
w,6.166667,48.0,88.666667,59.166667


In [15]:
# 반별 및 성별 평균
df.groupby(["sex","class"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,student_no,science,english,math
sex,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
m,A,2.5,54.0,98.0,40.0
m,B,6.5,71.5,89.5,65.0
w,A,2.5,69.0,91.5,52.5
w,B,6.5,45.0,79.0,90.0
w,C,9.5,30.0,95.5,35.0


In [16]:
df_temp = df.groupby(['class','sex'])
df_temp.head()

# 여러개 그룹 조회하기
# get_group()을 통해 그룹별 조회를 하기 위해
# 값을 넘겨 줄 때는 튜플 형태로 괄호()안에
# 그룹 변수를 지정합니다
df_temp.get_group(("A","m"))

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
3,4,A,58,98,30,m


In [17]:
# df 전체 데이터를 사용
# 반별 수학점수의 평균 구하기

#(방법1)
df.groupby('class')['math'].mean()

class
A    46.25
B    77.50
C    35.00
Name: math, dtype: float64

In [18]:
# (방법2)
df['math'].groupby(df['class']).mean()

class
A    46.25
B    77.50
C    35.00
Name: math, dtype: float64

In [19]:
# (방법3)
df.groupby(['class']).mean()[['math']]

Unnamed: 0_level_0,math
class,Unnamed: 1_level_1
A,46.25
B,77.5
C,35.0


In [20]:
# 반별로 수학 응시생의 수를 조회해 주세요
# (방법1)
df.groupby('class')['math'].count()

class
A    4
B    4
C    2
Name: math, dtype: int64

In [21]:
# (방법2)
df['math'].groupby(df['class']).count()

class
A    4
B    4
C    2
Name: math, dtype: int64

In [22]:
# (방법3)
df.groupby(['class']).count()[['math']]

Unnamed: 0_level_0,math
class,Unnamed: 1_level_1
A,4
B,4
C,2


In [23]:
# 성별 수학점수 평균 조회

In [24]:
df.groupby('sex')['math'].count()

sex
m    4
w    6
Name: math, dtype: int64

In [25]:
df['math'].groupby(df['sex']).mean()

sex
m    52.500000
w    59.166667
Name: math, dtype: float64

In [26]:
df.groupby(['sex']).mean()[['math']]

Unnamed: 0_level_0,math
sex,Unnamed: 1_level_1
m,52.5
w,59.166667


In [27]:
sex_group = df.groupby('sex')

In [28]:
sex_group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000275462CA7C0>

In [29]:
sex_group.head()

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w


In [30]:
# 실제 데이터가 어떻게 구성되어 있는지 확인
sex_group.groups

{'m': [0, 3, 5, 6], 'w': [1, 2, 4, 7, 8, 9]}

In [31]:
# 성별 그룹중에 남학생만 조회
sex_group.get_group(('m'))

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
3,4,A,58,98,30,m
5,6,B,98,89,50,m
6,7,B,45,90,80,m


In [32]:
len(sex_group.get_group(('m')))

4

In [33]:
# 성별 그룹중에 여학생만 조회
sex_group.get_group(('w'))

Unnamed: 0,student_no,class,science,english,math,sex
1,2,A,60,97,60,w
2,3,A,78,86,45,w
4,5,B,65,80,90,w
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [34]:
# 위에 성별 그룹을 기준으로
# 남학생에 대한 수학점수 조회
# sex_group.get_group(('m'))[['math','sex']]
m = sex_group.get_group(('m'))
m[['math','sex']]

Unnamed: 0,math,sex
0,50,m
3,30,m
5,50,m
6,80,m


In [35]:
df

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


# 2. 재구조화

In [36]:
# cut() : 동일한 길이(값의 범위)로 3구간으로 나눈다
df1 = pd.cut(df['math'],3)

In [37]:
df1

0    (43.333, 66.667]
1    (43.333, 66.667]
2    (43.333, 66.667]
3     (19.93, 43.333]
4      (66.667, 90.0]
5    (43.333, 66.667]
6      (66.667, 90.0]
7      (66.667, 90.0]
8     (19.93, 43.333]
9    (43.333, 66.667]
Name: math, dtype: category
Categories (3, interval[float64, right]): [(19.93, 43.333] < (43.333, 66.667] < (66.667, 90.0]]

In [38]:
df2 = df['math'].groupby(df1)

In [39]:
df2.head(1)

0    50
3    30
4    90
Name: math, dtype: int64

In [40]:
# df2에 대한 기초 통계 : agg() 함수 사용
df3 = df2.agg(['count','mean','std','min','max'])

In [41]:
df3

Unnamed: 0_level_0,count,mean,std,min,max
math,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"(19.93, 43.333]",2,25.0,7.071068,20,30
"(43.333, 66.667]",5,51.0,5.477226,45,60
"(66.667, 90.0]",3,86.666667,5.773503,80,90


In [42]:
# qcut
df

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [43]:
pd.qcut(df['math'],3)

0    (19.999, 50.0]
1      (50.0, 60.0]
2    (19.999, 50.0]
3    (19.999, 50.0]
4      (60.0, 90.0]
5    (19.999, 50.0]
6      (60.0, 90.0]
7      (60.0, 90.0]
8    (19.999, 50.0]
9    (19.999, 50.0]
Name: math, dtype: category
Categories (3, interval[float64, right]): [(19.999, 50.0] < (50.0, 60.0] < (60.0, 90.0]]

In [44]:
# labels =False : 범주의 번호 표시하기
df4 = pd.qcut(df['math'],3, labels =False)

In [45]:
df4

0    0
1    1
2    0
3    0
4    2
5    0
6    2
7    2
8    0
9    0
Name: math, dtype: int64

In [46]:
df5 = pd.qcut(df['math'],3,labels = np.arange(3, 0 , -1))

In [47]:
# 첫번째값 : 시작값
# 두번째값 : 끝값 - 1
# 세번째값 : 증가값 or 감소값
for i in range(0,3,1):
    print(i)
    
print("--------------")

# 증가값을 감소 시킬때는 두번째값은 +1
for j in range(3,0,-1):
    print(j)

0
1
2
--------------
3
2
1


In [48]:
# 첫번째값 : 시작값
# 두번째값 : 끝값 - 1
# 세번째값 : 증가값 or 감소값
for i in np.arange(0,3,1):
    print(i)
    
print("--------------")

# 증가값을 감소 시킬때는 두번째값은 +1
for j in np.arange(3,0,-1):
    print(j)

0
1
2
--------------
3
2
1


In [49]:
df5

0    3
1    2
2    3
3    3
4    1
5    3
6    1
7    1
8    3
9    3
Name: math, dtype: category
Categories (3, int64): [3 < 2 < 1]

In [50]:
df6 = df['math'].groupby(df5)

In [51]:
df6.head(1)

0    50
1    60
4    90
Name: math, dtype: int64

In [52]:
# 기초통계 조회
df7 = df6.agg(['count','mean','std','min','max'])

In [53]:
df7

Unnamed: 0_level_0,count,mean,std,min,max
math,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
3,6,40.833333,12.812754,20,50
2,1,60.0,,60,60
1,3,86.666667,5.773503,80,90


### 3. 원-핫 인코딩

In [54]:
# df의 데이터 타입을 확인해 보세요
df.dtypes

student_no     int64
class         object
science        int64
english        int64
math           int64
sex           object
dtype: object

In [55]:
# 범주형 컬럼에 대해서만 가능합니다
# 범주형이 아닌 컬럼에 대해서 범주형 만들면 가능
# get_dummies() : 숫자값을 제외한 object 데이터 타입만 가능
# 해당 one-hot 인코딩 되는 원본 컬럼은 없어지고,
# 해당 "컬럼명_범주명" 으로 컬럼이 만들어진다.

df_onehot = pd.get_dummies(df)

In [56]:
df_onehot

Unnamed: 0,student_no,science,english,math,class_A,class_B,class_C,sex_m,sex_w
0,1,50,98,50,1,0,0,1,0
1,2,60,97,60,1,0,0,0,1
2,3,78,86,45,1,0,0,0,1
3,4,58,98,30,1,0,0,1,0
4,5,65,80,90,0,1,0,0,1
5,6,98,89,50,0,1,0,1,0
6,7,45,90,80,0,1,0,1,0
7,8,25,78,90,0,1,0,0,1
8,9,15,98,20,0,0,1,0,1
9,10,45,93,50,0,0,1,0,1


In [57]:
df_onehot2 = pd.get_dummies(df['sex'])

In [58]:
df_onehot2

Unnamed: 0,m,w
0,1,0
1,0,1
2,0,1
3,1,0
4,0,1
5,1,0
6,1,0
7,0,1
8,0,1
9,0,1


# 4. 데이터 전치

In [59]:
# 전치 : 행과 열의 위치를 바꿉니다

# 컬럼 -> 행 인덱스로 바뀌고,
# 행인덱스 번호 -> 컬럼명 바뀝니다

df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
student_no,1,2,3,4,5,6,7,8,9,10
class,A,A,A,A,B,B,B,B,C,C
science,50,60,78,58,65,98,45,25,15,45
english,98,97,86,98,80,89,90,78,98,93
math,50,60,45,30,90,50,80,90,20,50
sex,m,w,w,m,w,m,m,w,w,w


In [60]:
## --- 피봇 테이블 부터 시작...

In [61]:
df

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [63]:
pd.pivot_table(df, index = 'class',
                    columns = 'sex',
                    values = 'science')

sex,m,w
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,54.0,69.0
B,71.5,45.0
C,,30.0


In [64]:
# 피봇은 그룹별 집계를 낸다
pd.pivot_table(df, index = 'sex',
                    columns = 'class',
                    values = 'science')

class,A,B,C
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
m,54.0,71.5,
w,69.0,45.0,30.0
