<a href="https://colab.research.google.com/github/leesolhahaha/data-analysis-ta/blob/main/8_%ED%95%A8%EC%88%98%EB%A7%A4%ED%95%91.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1 함수 매핑
- <u>**`함수 매핑`**은 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정</u>을 뜻한다.
- 사용자가 직접 만든 함수를 적용할 수 있기 때문에 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 데이터프레임 등 판다스 객체에 적용하는 것이 가능하다.

## 1.1 시리즈 원소에 함수 매핑

<b>`시리즈객체.apply(매핑 함수)`</b>

- 시리즈 객체에 apply() 메소드를 적용하면 인자로 전달하는 <u>매핑 함수에 시리즈의 모든 원소를 하나씩 입력</u>하고 함수의 리턴값을 돌려받는다.
- <u>시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체 반환</u>한다.

In [None]:
# pandas 임포트

import pandas as pd

In [None]:
# 각 도시의 여름 온도를 정보를 가진 시리즈 객체 s 생성

s = pd.Series([20, 21, 12], index=['London', 'New York', 'Helsinki'])
s

London      20
New York    21
Helsinki    12
dtype: int64

In [None]:
# 각 도시의 온드를 두배로 바꾼다.(연산자이용)

s * 2

London      40
New York    42
Helsinki    24
dtype: int64

In [None]:
# 각 도시의 온도를 제곱한다. - 사용자 정의 함수 정의(square)

def square(x):
  return x ** 2

In [None]:
# 시리즈의 원소가 하나씩 매개변수로 전달되고 제곱한 값을 리턴
# 리턴받은 값들을 시리즈로 구성하여 반환

s.apply(square)

London      400
New York    441
Helsinki    144
dtype: int64

In [None]:
# decorat함수 정의

def decorate(item):
  return str(item) + '도'

In [None]:
# s에 decorate함수 매핑

s.apply(decorate)

London      20도
New York    21도
Helsinki    12도
dtype: object

## 1.2 데이터프레임의 각 열에 함수 매핑

<b>`데이터프레임객체.apply(매핑 함수, axis=0)`</b>

- 데이터프레임에 apply(axis=0) 메소드를 적용하면 <u>모든 열을 하나씩 분리하여 매핑 함수의 인자로 각 열(시리즈)이 전달</u>된다.
- 매핑 함수에 따라 <u>반환되는 객체의 종류가 다르다.</u>

In [None]:
# {'국어':[51, 65, 78], '수학':[80, 90, 100]}, index=['홍길동', '사오정', '저팔계']을 이용하여 데이터프레임 객체 df를 생성

df1 = pd.DataFrame({'국어':[51, 65, 78], '수학':[80, 90, 100]}, index=['홍길동', '사오정', '저팔계'])
df1

Unnamed: 0,국어,수학
홍길동,51,80
사오정,65,90
저팔계,78,100


In [None]:
# 사용자 정의함수 sqrt정의

def sqrt(series):
  return series ** 2

In [None]:
# df1의 각열 시리즈가 함수의 매개변수로 전달된다.
# df1.국어 열이 처음 매개변수로 전달됨 : 국어열의 모든 원소를 제곱하고 그열을 리턴
# df1.수학 열이 두번째 매개변수로 전달됨 : 수학열의 모든 원소를 제곱하고 그열을 리턴
# 리턴받은 시리즈 두개을 하나의 데이터프레임으로 완성하여 리턴

df1.apply(sqrt, axis=0)

Unnamed: 0,국어,수학
홍길동,2601,6400
사오정,4225,8100
저팔계,6084,10000


In [None]:
# 사용자 정의함수 max_of_subject정의

def max_of_subject(series):
  return series.max()

In [None]:
# df1에 max_of_subject를 적용한다. 매개변수로 컬럼을 전달한다.

df1.apply(max_of_subject)

국어     78
수학    100
dtype: int64

## 1.3 데이터프레임의 각 행에 함수 매핑

<b>`데이터프레임객체.apply(매핑 함수, axis=1)`</b>

- 데이터프레임 객체에 apply(axis=1) 메소드를 적용하면 <u>데이터프레임의 각 행을 매핑 함수의 인자</u>로 전달한다.
- <u>매핑 함수의 결과로 시리즈가 반환</u>된다.
    - 기존 데이터프레임의 행 인덱스가 매핑 결과로 반환되는 시리즈의 인덱스가 된다.
    - 반환되는 시리즈의 인덱스에 매칭되는 데이터 값에는 각 행의 데이터를 함수에 적용한 리턴값을 가져온다

In [None]:
# df1 확인

df1

Unnamed: 0,국어,수학
홍길동,51,80
사오정,65,90
저팔계,78,100


In [None]:
# 각 행의 국어, 수학 점수의 총점을 리턴하는 사용자 정의함수 get_total정의

def get_total(row):
  return row['국어'] + row['수학']

In [None]:
# df1에 get_total함수 적용한다. 매개변수로 향을 전달한다.

df1.apply(get_total, axis=1)

홍길동    131
사오정    155
저팔계    178
dtype: int64

In [None]:
def pass1(row):
  avg = (row['국어'] + row['수학']) / 2
  if avg >= 80:
    return '합격'
  else:
    return '불합격'

df1.apply(pass1, axis=1)


홍길동    불합격
사오정    불합격
저팔계     합격
dtype: object

# Tidy Data

- Tidy Data의 특징  <b><br>
   1. 각 변수는 개별의 열로 존재한다.<br>
   2. 각 관측치는 행을 구성한다.<br>  
   3. 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다.<br>  
   4. 여러개의 표가 존재한다면, 적어도 하나이상의 열이 공유되어야 한다.<br>  
</b>


- Messy Data의 특징  <b><br>
   1. 열 이름이 값을 가지고 있는 경우<br>
   2. 하나의 열이 여러 의미를 가지고 있는 경우<br>  
   3. 변수가 행과 열에 모두 포함되어 있는 경우<br>  
   4. 하나의 표에 다양한 관측단위가 있는 경우<br>
   5. 하나의 관측 단위가 여러 파일에 나누어져 있는 경우<br>  
</b>

## 열 이름이 값을 가지고 있는 경우

### 예제1

* 퓨 리서치 센터에서 조사한 '미국의 소득과 종교'라는 데이이터 셋을 이용한다.

In [None]:
# pandas 라이브러리 불러오기

import pandas as pd

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# 'pew.csv'파일을 읽어서 pew에 대입하기

pew = pd.read_csv('/content/drive/MyDrive/데이터 분석 특강/ data/pew.csv')
pew

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116
5,Evangelical Prot,575,869,1064,982,881,1486,949,723,414,1529
6,Hindu,1,9,7,9,11,34,47,48,54,37
7,Historically Black Prot,228,244,236,238,197,223,131,81,78,339
8,Jehovah's Witness,20,27,24,24,21,30,15,11,6,37
9,Jewish,19,19,25,25,30,95,69,87,151,162


In [None]:
# 앞쪽 데이터 살펴보기

pew.head()

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116


In [None]:
# 행,열 확인하기

pew.shape

(18, 11)

In [None]:
# 요약정보 확인하기

pew .info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   religion            18 non-null     object
 1   <$10k               18 non-null     int64 
 2   $10-20k             18 non-null     int64 
 3   $20-30k             18 non-null     int64 
 4   $30-40k             18 non-null     int64 
 5   $40-50k             18 non-null     int64 
 6   $50-75k             18 non-null     int64 
 7   $75-100k            18 non-null     int64 
 8   $100-150k           18 non-null     int64 
 9   >150k               18 non-null     int64 
 10  Don't know/refused  18 non-null     int64 
dtypes: int64(10), object(1)
memory usage: 1.7+ KB


* <b><u>컬럼을 확인해보면 소득정보($10k, $10k-20k,...)가 열이름을 구성하고 있음을 알 수 있다.</u></b>

In [None]:
# 컬럼 확인하기

pew.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k', '$75-100k', '$100-150k', '>150k', 'Don't know/refused'],
      dtype='object')

* melt()메소드를 이용하여 소득 정보를 나타내는 12개들을 정리해야 한다.

In [None]:
# 'religion'컬럼만 남겨두고 나머지 컬럼들은 melt로 정리하기

pew.melt(id_vars='religion')

Unnamed: 0,religion,variable,value
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


In [None]:
# 'religion'컬럼만 남겨두고 나머지 컬럼들은 melt로 정리하기
# 변수가 들어갈 컬럼의 이름은 'income', 값이 들어갈 컬럼의 이름은 'count'로 설정함
# melt한 결과를 pew_long변수에 대입하기

pew_long = pew.melt(id_vars=['religion'], var_name='income' , value_name='count')
pew_long

Unnamed: 0,religion,income,count
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


In [None]:
# melt로 정리된 pew_long의 행,열의 수 확인하기

pew_long.shape

(180, 3)

* melt로 길어진 데이터프레임을 pivot_table을 이용하여 원래대로 복구할 수 있음
* 즉, melt한다고 해서 기존의 데이터가 없어지지 않음

In [None]:
# index='religion', columns='income', values='count', aggfunc='mean'으로 pivot_table만들기
# 결과를 pew_wide변수에 대입

pew_wide = pew_long.pivot_table(index='religion', columns='income', values='count', aggfunc='mean')
pew_wide

income,$10-20k,$100-150k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,<$10k,>150k,Don't know/refused
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Agnostic,34,109,60,81,76,137,122,27,84,96
Atheist,27,59,37,52,35,70,73,12,74,76
Buddhist,21,39,30,34,33,58,62,27,53,54
Catholic,617,792,732,670,638,1116,949,418,633,1489
Don’t know/refused,14,17,15,11,10,35,21,15,18,116
Evangelical Prot,869,723,1064,982,881,1486,949,575,414,1529
Hindu,9,48,7,9,11,34,47,1,54,37
Historically Black Prot,244,81,236,238,197,223,131,228,78,339
Jehovah's Witness,27,11,24,24,21,30,15,20,6,37
Jewish,19,87,25,25,30,95,69,19,151,162


In [None]:
# pew_wide를 reset_index()해서 pew_wide에 대입

pew_wide = pew_wide.reset_index()
pew_wide

income,religion,$10-20k,$100-150k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,<$10k,>150k,Don't know/refused
0,Agnostic,34,109,60,81,76,137,122,27,84,96
1,Atheist,27,59,37,52,35,70,73,12,74,76
2,Buddhist,21,39,30,34,33,58,62,27,53,54
3,Catholic,617,792,732,670,638,1116,949,418,633,1489
4,Don’t know/refused,14,17,15,11,10,35,21,15,18,116
5,Evangelical Prot,869,723,1064,982,881,1486,949,575,414,1529
6,Hindu,9,48,7,9,11,34,47,1,54,37
7,Historically Black Prot,244,81,236,238,197,223,131,228,78,339
8,Jehovah's Witness,27,11,24,24,21,30,15,20,6,37
9,Jewish,19,87,25,25,30,95,69,19,151,162


In [None]:
# pew_wide의 행, 열의 수 확인

pew_wide.shape

(18, 11)

In [None]:
# 컬럼명 income을 삭제

pew_wide = pew_wide.rename_axis(None, axis=1)
pew_wide

Unnamed: 0,religion,$10-20k,$100-150k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,<$10k,>150k,Don't know/refused
0,Agnostic,34,109,60,81,76,137,122,27,84,96
1,Atheist,27,59,37,52,35,70,73,12,74,76
2,Buddhist,21,39,30,34,33,58,62,27,53,54
3,Catholic,617,792,732,670,638,1116,949,418,633,1489
4,Don’t know/refused,14,17,15,11,10,35,21,15,18,116
5,Evangelical Prot,869,723,1064,982,881,1486,949,575,414,1529
6,Hindu,9,48,7,9,11,34,47,1,54,37
7,Historically Black Prot,244,81,236,238,197,223,131,228,78,339
8,Jehovah's Witness,27,11,24,24,21,30,15,20,6,37
9,Jewish,19,87,25,25,30,95,69,19,151,162


### 예제2

* 2000년도 빌보드차트 주간 변동순위 데이터셋을 이용한다.

In [None]:
# 'billboard.csv'파일을 읽어서 billboard에 대입하기

billboard = pd.read_csv('/content/drive/MyDrive/데이터 분석 특강/ data/billboard.csv')
billboard

Unnamed: 0,year,artist,track,time,date.entered,wk1,wk2,wk3,wk4,wk5,...,wk67,wk68,wk69,wk70,wk71,wk72,wk73,wk74,wk75,wk76
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,87,82.0,72.0,77.0,87.0,...,,,,,,,,,,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87.0,92.0,,,...,,,,,,,,,,
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,81,70.0,68.0,67.0,66.0,...,,,,,,,,,,
3,2000,3 Doors Down,Loser,4:24,2000-10-21,76,76.0,72.0,69.0,67.0,...,,,,,,,,,,
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,57,34.0,25.0,17.0,17.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
312,2000,Yankee Grey,Another Nine Minutes,3:10,2000-04-29,86,83.0,77.0,74.0,83.0,...,,,,,,,,,,
313,2000,"Yearwood, Trisha",Real Live Woman,3:55,2000-04-01,85,83.0,83.0,82.0,81.0,...,,,,,,,,,,
314,2000,Ying Yang Twins,Whistle While You Tw...,4:19,2000-03-18,95,94.0,91.0,85.0,84.0,...,,,,,,,,,,
315,2000,Zombie Nation,Kernkraft 400,3:30,2000-09-02,99,99.0,,,,...,,,,,,,,,,


In [None]:
# 앞쪽 데이터 확인하기

billboard.head()

Unnamed: 0,year,artist,track,time,date.entered,wk1,wk2,wk3,wk4,wk5,...,wk67,wk68,wk69,wk70,wk71,wk72,wk73,wk74,wk75,wk76
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,87,82.0,72.0,77.0,87.0,...,,,,,,,,,,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87.0,92.0,,,...,,,,,,,,,,
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,81,70.0,68.0,67.0,66.0,...,,,,,,,,,,
3,2000,3 Doors Down,Loser,4:24,2000-10-21,76,76.0,72.0,69.0,67.0,...,,,,,,,,,,
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,57,34.0,25.0,17.0,17.0,...,,,,,,,,,,


In [None]:
# 행, 열 수 확인하기

billboard.shape

(317, 81)

In [None]:
# 요약정보 확인하기

billboard.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 317 entries, 0 to 316
Data columns (total 81 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   year          317 non-null    int64  
 1   artist        317 non-null    object 
 2   track         317 non-null    object 
 3   time          317 non-null    object 
 4   date.entered  317 non-null    object 
 5   wk1           317 non-null    int64  
 6   wk2           312 non-null    float64
 7   wk3           307 non-null    float64
 8   wk4           300 non-null    float64
 9   wk5           292 non-null    float64
 10  wk6           280 non-null    float64
 11  wk7           269 non-null    float64
 12  wk8           260 non-null    float64
 13  wk9           253 non-null    float64
 14  wk10          244 non-null    float64
 15  wk11          236 non-null    float64
 16  wk12          222 non-null    float64
 17  wk13          210 non-null    float64
 18  wk14          204 non-null    

* <b><u>컬럼을 확인해보면 열이름이 몇주인지 데이터로 있음을 알 수 있다.</u></b>




In [None]:
# 컬럼명 확인하기

billboard.columns

Index(['year', 'artist', 'track', 'time', 'date.entered', 'wk1', 'wk2', 'wk3',
       'wk4', 'wk5', 'wk6', 'wk7', 'wk8', 'wk9', 'wk10', 'wk11', 'wk12',
       'wk13', 'wk14', 'wk15', 'wk16', 'wk17', 'wk18', 'wk19', 'wk20', 'wk21',
       'wk22', 'wk23', 'wk24', 'wk25', 'wk26', 'wk27', 'wk28', 'wk29', 'wk30',
       'wk31', 'wk32', 'wk33', 'wk34', 'wk35', 'wk36', 'wk37', 'wk38', 'wk39',
       'wk40', 'wk41', 'wk42', 'wk43', 'wk44', 'wk45', 'wk46', 'wk47', 'wk48',
       'wk49', 'wk50', 'wk51', 'wk52', 'wk53', 'wk54', 'wk55', 'wk56', 'wk57',
       'wk58', 'wk59', 'wk60', 'wk61', 'wk62', 'wk63', 'wk64', 'wk65', 'wk66',
       'wk67', 'wk68', 'wk69', 'wk70', 'wk71', 'wk72', 'wk73', 'wk74', 'wk75',
       'wk76'],
      dtype='object')

* melt()메소드를 이용하여 몇주차인지 정보를 나타내는 컬럼들을 정리해야 한다.

In [None]:
# 'year', 'artist', 'track', 'time', 'date.entered'만 남겨두고 나머지 컬럼들을 정리해야 함
# 'year', 'artist', 'track', 'time', 'date.entered'를 columns변수에 대입

columns = billboard.iloc[:, 0:5].columns
columns

Index(['year', 'artist', 'track', 'time', 'date.entered'], dtype='object')

In [None]:
# 변수 columns에 있는 컬럼들만 남겨두고 나머지 컬럼들은 melt로 정리하기
# 변수가 들어갈 컬럼의 이름은 'week', 값이 들어갈 컬럼의 이름은 'rating'로 설정함
# melt한 결과를 billboard_long변수에 대입하기

billboard_long = billboard.melt(id_vars=columns, var_name='week' , value_name='rating')
billboard_long

Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0
...,...,...,...,...,...,...,...
24087,2000,Yankee Grey,Another Nine Minutes,3:10,2000-04-29,wk76,
24088,2000,"Yearwood, Trisha",Real Live Woman,3:55,2000-04-01,wk76,
24089,2000,Ying Yang Twins,Whistle While You Tw...,4:19,2000-03-18,wk76,
24090,2000,Zombie Nation,Kernkraft 400,3:30,2000-09-02,wk76,


## 하나의 열이 여러 의미를 가지고 있는 경우

### 예제1

* ebola 데이터셋을 이용한다.

In [None]:
# 'country_timeseries.csv'파일을 읽어서 ebola에 대입하기

ebola = pd.read_csv('/content/drive/MyDrive/데이터 분석 특강/ data/country_timeseries.csv')
ebola

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,3/27/2014,5,103.0,8.0,6.0,,,,,,66.0,6.0,5.0,,,,,
118,3/26/2014,4,86.0,,,,,,,,62.0,,,,,,,
119,3/25/2014,3,86.0,,,,,,,,60.0,,,,,,,
120,3/24/2014,2,86.0,,,,,,,,59.0,,,,,,,


In [None]:
# 행, 열 수 확인하기

ebola.shape

(122, 18)

In [None]:
# 요약 정보 확인하기

ebola.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122 entries, 0 to 121
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Date                 122 non-null    object 
 1   Day                  122 non-null    int64  
 2   Cases_Guinea         93 non-null     float64
 3   Cases_Liberia        83 non-null     float64
 4   Cases_SierraLeone    87 non-null     float64
 5   Cases_Nigeria        38 non-null     float64
 6   Cases_Senegal        25 non-null     float64
 7   Cases_UnitedStates   18 non-null     float64
 8   Cases_Spain          16 non-null     float64
 9   Cases_Mali           12 non-null     float64
 10  Deaths_Guinea        92 non-null     float64
 11  Deaths_Liberia       81 non-null     float64
 12  Deaths_SierraLeone   87 non-null     float64
 13  Deaths_Nigeria       38 non-null     float64
 14  Deaths_Senegal       22 non-null     float64
 15  Deaths_UnitedStates  18 non-null     flo

* <u><b>컬럼을 확인하면 하나의 열이 여러 가지 정보를 가지고 있다는 것을 알 수 있다.</b></u>
* Cases_Liberia : 발병자수_나라이름
* Deaths_Liberia : 사망자수_나라이름

In [None]:
# 컬럼명 확인 하기

ebola.columns

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')

* melt() 메소드로 'Date'와 'Day'를 제외한 모든 열들을 정리한다.

In [None]:
# 'Date','Day' 컬럼만 남겨두고 나머지 컬럼들은 melt로 정리하기
# melt한 결과를  ebola_long변수에 대입하기

ebola_long = ebola.melt(id_vars=['Date','Day'])
ebola_long

Unnamed: 0,Date,Day,variable,value
0,1/5/2015,289,Cases_Guinea,2776.0
1,1/4/2015,288,Cases_Guinea,2775.0
2,1/3/2015,287,Cases_Guinea,2769.0
3,1/2/2015,286,Cases_Guinea,
4,12/31/2014,284,Cases_Guinea,2730.0
...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,
1948,3/26/2014,4,Deaths_Mali,
1949,3/25/2014,3,Deaths_Mali,
1950,3/24/2014,2,Deaths_Mali,


* Cases_Liberia와 같이 두개 이상의 의미를 가지고 있는 열의 데이터를 밑줄(_)을 기준으로 'Cases', "Liberia'와 같은 방법으로 분리한다.
* 분리한 'Cases'와 'Deaths'는 상태를 의미하므로 새로운 'Status'열을 만들어 대입한다.
* 분리한 'Liberia'와 같은 나라이음은 새로운 'Country'열을 만들어 대입한다.

In [None]:
# 'variable'컬럼의 데이터 중 '_'의 왼쪽부분을 분리하여 'Status'컬럼을 만들어 대입한다.

ebola_long['Status'] = ebola_long['variable'].str.split('_').str.get(0)

In [None]:
# 'variable'컬럼의 데이터 중 '_'의 왼쪽부분을 분리하여 'Country'컬럼을 만들어 대입한다.

ebola_long['Country'] = ebola_long['variable'].str.split('_').str.get(1)

In [None]:
# ebola_long 확인

ebola_long

Unnamed: 0,Date,Day,variable,value,Country,Status
0,1/5/2015,289,Cases_Guinea,2776.0,Guinea,Cases
1,1/4/2015,288,Cases_Guinea,2775.0,Guinea,Cases
2,1/3/2015,287,Cases_Guinea,2769.0,Guinea,Cases
3,1/2/2015,286,Cases_Guinea,,Guinea,Cases
4,12/31/2014,284,Cases_Guinea,2730.0,Guinea,Cases
...,...,...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,,Mali,Deaths
1948,3/26/2014,4,Deaths_Mali,,Mali,Deaths
1949,3/25/2014,3,Deaths_Mali,,Mali,Deaths
1950,3/24/2014,2,Deaths_Mali,,Mali,Deaths


In [None]:
# 'variable'컬럼을 삭제한다.

ebola_long= ebola_long.drop('variable', axis=1)
ebola_long

Unnamed: 0,Date,Day,value,Country,Status
0,1/5/2015,289,2776.0,Guinea,Cases
1,1/4/2015,288,2775.0,Guinea,Cases
2,1/3/2015,287,2769.0,Guinea,Cases
3,1/2/2015,286,,Guinea,Cases
4,12/31/2014,284,2730.0,Guinea,Cases
...,...,...,...,...,...
1947,3/27/2014,5,,Mali,Deaths
1948,3/26/2014,4,,Mali,Deaths
1949,3/25/2014,3,,Mali,Deaths
1950,3/24/2014,2,,Mali,Deaths


### 예제2

* WHO에서 조사한 결핵환자 데이터셋을 이용한다.

In [None]:
# 'tb-raw.csv.csv'파일을 읽어서 tb에 대입하기

tb = pd.read_csv('/content/drive/MyDrive/데이터 분석 특강/ data/tb-raw.csv')
tb

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


In [None]:
# 행, 열 수 확인하기

tb.shape

(10, 11)

In [None]:
# 요약 정보 확인하기

tb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   country  10 non-null     object 
 1   year     10 non-null     int64  
 2   m014     9 non-null      float64
 3   m1524    9 non-null      float64
 4   m2534    9 non-null      float64
 5   m3544    9 non-null      float64
 6   m4554    10 non-null     int64  
 7   m5564    10 non-null     int64  
 8   m65      9 non-null      float64
 9   mu       0 non-null      float64
 10  f014     8 non-null      float64
dtypes: float64(7), int64(3), object(1)
memory usage: 1008.0+ bytes


* <u><b>컬럼을 확인하면 하나의 열이 여러 가지 정보를 가지고 있다는 것을 알 수 있다.</b></u>
* 열의 이름에 적혀있는 "m"이나 "f"는 성별을 뜻함
* 열의 이름에 적혀있는 숫자는 나이대("0-14","15-24", "25-34", "45-54", "55-64", "65", "unknown")를 뜻함


* melt() 메소드로 'country'와 'year'를 제외한 모든 열들을 정리한다.

In [None]:
# 'country','year' 컬럼만 남겨두고 나머지 컬럼들은 melt로 정리하기
# 변수가 들어갈 컬럼의 이름은 'demographic', 값이 들어갈 컬럼의 이름은 'count'로 설정함
# melt한 결과를 tb_long변수에 대입하기

tb_long = tb.melt(id_vars=['country','year'], var_name='demographic' , value_name='count')
tb_long

Unnamed: 0,country,year,demographic,count
0,AD,2000,m014,0.0
1,AE,2000,m014,2.0
2,AF,2000,m014,52.0
3,AG,2000,m014,0.0
4,AL,2000,m014,2.0
...,...,...,...,...
85,AM,2000,f014,1.0
86,AN,2000,f014,0.0
87,AO,2000,f014,247.0
88,AR,2000,f014,121.0


* 'demographic'열의 데이터를 분리한다.
* 'demographic'열의 'm','f'는 성별을 의미하므로 분리해서 'gender'열을 만들어 대입한다.
* 새로 생성된 'gender'열의 데이터 중 'm'->'Male', 'f'->'Female'로 변경한다.
* 'demographic'열의 나머지부분은 나이를 의미하므로 새로운 'age'열을 만들어 대입한다.

In [None]:
# 'gender'컬럼을 만든다.

tb_long['gender'] = tb_long['demographic'].str[0]

In [None]:
# 'age'컬럼을 만든다.

tb_long['age'] = tb_long['demographic'].str[1:]

In [None]:
# tb_long 확인

tb_long

Unnamed: 0,country,year,demographic,count,gender,age
0,AD,2000,m014,0.0,m,014
1,AE,2000,m014,2.0,m,014
2,AF,2000,m014,52.0,m,014
3,AG,2000,m014,0.0,m,014
4,AL,2000,m014,2.0,m,014
...,...,...,...,...,...,...
85,AM,2000,f014,1.0,f,014
86,AN,2000,f014,0.0,f,014
87,AO,2000,f014,247.0,f,014
88,AR,2000,f014,121.0,f,014


In [None]:
# m->Male, f->Female로 변경하기 전에 'gender'열의 고유데이터수를 확인한다.

tb_long['gender'].value_counts()

m    80
f    10
Name: gender, dtype: int64

In [None]:
# m->Male, f->Female로 변경

tb_long['gender'] =  tb_long['gender'].str.replace('m','Male').str.replace('f','Female')
tb_long['gender']

0       Male
1       Male
2       Male
3       Male
4       Male
       ...  
85    Female
86    Female
87    Female
88    Female
89    Female
Name: gender, Length: 90, dtype: object

In [None]:
# m->Male, f->Female로 변경한 후에 'gender'열의 고유데이터수를 확인한다.

tb_long['gender'].value_counts()

Male      80
Female    10
Name: gender, dtype: int64

In [None]:
# age열의 고유 데이터수를 확인

tb_long['age'].value_counts()

014     20
1524    10
2534    10
3544    10
4554    10
5564    10
65      10
u       10
Name: age, dtype: int64

In [None]:
# 'age'열의 각 항목의 데이터를 변경하는 함수를 정의한다.

def change(x):
  if len(x) == 4:
    return x[0:2] + '-' + x[2:]
  elif x == 'u':
    return 'unknown'
  elif x == '014':
    return x[1:]
  else:
    return

In [None]:
# 'age'열에 change함수를 적용하고 그 결과를 age_temp변수에 대입한다.

age_temp = tb_long['age'].apply(change)

In [None]:
# age_temp의 고유값 개수를 확인

age_temp.value_counts()

14         20
15-24      10
25-34      10
35-44      10
45-54      10
55-64      10
unknown    10
Name: age, dtype: int64

In [None]:
# 'age'열에 age_temp를 대입한다.

tb_long['age'] = age_temp

In [None]:
# tb_long 확인

tb_long

Unnamed: 0,country,year,count,gender,age
0,AD,2000,0.0,Male,14
1,AE,2000,2.0,Male,14
2,AF,2000,52.0,Male,14
3,AG,2000,0.0,Male,14
4,AL,2000,2.0,Male,14
...,...,...,...,...,...
85,AM,2000,1.0,Female,14
86,AN,2000,0.0,Female,14
87,AO,2000,247.0,Female,14
88,AR,2000,121.0,Female,14


In [None]:
# 'demographic'열을 삭제한다.

# tb_long = tb_long.drop('demographic', axis=1)
tb_long

Unnamed: 0,country,year,count,gender,age
0,AD,2000,0.0,Male,14
1,AE,2000,2.0,Male,14
2,AF,2000,52.0,Male,14
3,AG,2000,0.0,Male,14
4,AL,2000,2.0,Male,14
...,...,...,...,...,...
85,AM,2000,1.0,Female,14
86,AN,2000,0.0,Female,14
87,AO,2000,247.0,Female,14
88,AR,2000,121.0,Female,14


## 변수가 행과 열에 모두 포함되어 있는 경우

* 멕시코 기상청(MX17004)에서 2010년 5개월 동안 측정한 기상 데이터셋을 이용한다.

In [None]:
# 'weather.csv'파일을 읽어서 weather에 대입하기



Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,


* <u><b>데이터와 컬럼을 확인해보면 온도정보가 행(tmin, tmax)와 열(d1, d2,...)에 모두 포함되어 있음을 알수 있다.</b></u>

In [None]:
# weather의 마지막부분 데이터확인



Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
17,MX17004,2010,10,tmin,,,,,14.0,,...,,,,,,,15.0,,,
18,MX17004,2010,11,tmax,,31.3,,27.2,26.3,,...,,,,,28.1,27.7,,,,
19,MX17004,2010,11,tmin,,16.3,,12.0,7.9,,...,,,,,12.1,14.2,,,,
20,MX17004,2010,12,tmax,29.9,,,,,27.8,...,,,,,,,,,,
21,MX17004,2010,12,tmin,13.8,,,,,10.5,...,,,,,,,,,,


In [None]:
# weather의 행, 열확인



(22, 35)

In [None]:
# weather의 컬럼 확인



Index(['id', 'year', 'month', 'element', 'd1', 'd2', 'd3', 'd4', 'd5', 'd6',
       'd7', 'd8', 'd9', 'd10', 'd11', 'd12', 'd13', 'd14', 'd15', 'd16',
       'd17', 'd18', 'd19', 'd20', 'd21', 'd22', 'd23', 'd24', 'd25', 'd26',
       'd27', 'd28', 'd29', 'd30', 'd31'],
      dtype='object')

* melt() 메소드를 이용해 날짜정보를 가지고 있는 열이름(d1, d2,...,)들을 정리한다.

In [None]:
# 'id', 'year', 'month', 'element'컬럼만 남겨두고 나머지 컬럼들은 melt로 정리하기
# 변수가 들어갈 컬럼의 이름은 'day', 값이 들어갈 컬럼의 이름은 'temp'로 설정함
# melt한 결과를 weather_long변수에 대입하기



Unnamed: 0,id,year,month,element,day,temp
0,MX17004,2010,1,tmax,d1,
1,MX17004,2010,1,tmin,d1,
2,MX17004,2010,2,tmax,d1,
3,MX17004,2010,2,tmin,d1,
4,MX17004,2010,3,tmax,d1,
...,...,...,...,...,...,...
677,MX17004,2010,10,tmin,d31,
678,MX17004,2010,11,tmax,d31,
679,MX17004,2010,11,tmin,d31,
680,MX17004,2010,12,tmax,d31,


In [None]:
# 2010년 1월 d30 데이터를 확인



Unnamed: 0,id,year,month,element,day,temp
638,MX17004,2010,1,tmax,d30,27.8
639,MX17004,2010,1,tmin,d30,14.5


In [None]:
# 년월일 별로 최대,최소 온도를 볼수 있게 피벗테이블 작성
# 변수 weather_pivot에 대입



Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,element,tmax,tmin
id,year,month,day,Unnamed: 4_level_1,Unnamed: 5_level_1
MX17004,2010,1,d30,27.8,14.5
MX17004,2010,2,d11,29.7,13.4
MX17004,2010,2,d2,27.3,14.4
MX17004,2010,2,d23,29.9,10.7
MX17004,2010,2,d3,24.1,14.4
MX17004,2010,3,d10,34.5,16.8
MX17004,2010,3,d16,31.1,17.6
MX17004,2010,3,d5,32.1,14.2
MX17004,2010,4,d27,36.3,16.7
MX17004,2010,5,d27,33.2,18.2


In [None]:
# 위에 작성된 피벗 테이블을 reset_index한다.
# 결과를 weather_tidy에 대입



element,id,year,month,day,tmax,tmin
0,MX17004,2010,1,d30,27.8,14.5
1,MX17004,2010,2,d11,29.7,13.4
2,MX17004,2010,2,d2,27.3,14.4
3,MX17004,2010,2,d23,29.9,10.7
4,MX17004,2010,2,d3,24.1,14.4


In [None]:
# 컬럼축이름 'element'를 삭제한다.



Unnamed: 0,id,year,month,day,tmax,tmin
0,MX17004,2010,1,d30,27.8,14.5


In [None]:
# 각 행의 데이터중 year, month, day을 읽어 날짜데이터로 변경하는 함수 정의



In [None]:
# weather데이터프레임의 각 행별로 위에 정의한 change_date함수를 적용한다.
# 리턴된 결과를 새로운 열 'date'를 생성해 대입한다.



Unnamed: 0,id,year,month,day,tmax,tmin,date
0,MX17004,2010,1,d30,27.8,14.5,2010-01-30
1,MX17004,2010,2,d11,29.7,13.4,2010-02-11
2,MX17004,2010,2,d2,27.3,14.4,2010-02-02
3,MX17004,2010,2,d23,29.9,10.7,2010-02-23
4,MX17004,2010,2,d3,24.1,14.4,2010-02-03


In [None]:
# wether의 모든 열의 데이터 타입 확인



id               object
year              int64
month             int64
day              object
tmax            float64
tmin            float64
date     datetime64[ns]
dtype: object

In [None]:
# 새로운 날짜 열 'date'가 생성되었으므로 'year', 'month', 'day'열은 삭제한다.



Unnamed: 0,id,tmax,tmin,date
0,MX17004,27.8,14.5,2010-01-30
1,MX17004,29.7,13.4,2010-02-11
2,MX17004,27.3,14.4,2010-02-02
3,MX17004,29.9,10.7,2010-02-23
4,MX17004,24.1,14.4,2010-02-03


In [None]:
# 데이터들을 정리하기 위헤 'id', 'date'를 인덱스로 'tmax', 'tmin'을 값으로 하는 피벗테이블을 만든다.



Unnamed: 0_level_0,Unnamed: 1_level_0,tmax,tmin
id,date,Unnamed: 2_level_1,Unnamed: 3_level_1
MX17004,2010-01-30,27.8,14.5
MX17004,2010-02-02,27.3,14.4
MX17004,2010-02-03,24.1,14.4
MX17004,2010-02-11,29.7,13.4
MX17004,2010-02-23,29.9,10.7


In [None]:
# 위 결과를 생성된 피벗테이블을 reset_index()한다.



Unnamed: 0,id,date,tmax,tmin
0,MX17004,2010-01-30,27.8,14.5
1,MX17004,2010-02-02,27.3,14.4
2,MX17004,2010-02-03,24.1,14.4
3,MX17004,2010-02-11,29.7,13.4
4,MX17004,2010-02-23,29.9,10.7
