### 넓은 데이터를 위한 melt 메서드

In [None]:
# melt 메서드는 지정한 열의 데이터를 모두 행으로 정리함
# 메서드의 인자는 총 4가지
# id_vars, value_vars, var_name, value_name

# 1개의 열만 고정하고 나머지 열을 행으로 바꾸기

In [8]:
# 퓨 리서치 센터에서 조사한 '미국의 소득과 종교'라는 데이터 사용

import pandas as pd
pew = pd.read_csv('../data/pew.csv')
print(pew.head())

# 6개 열만 추출해보자
print(pew.iloc[:, 0:6])

# 소득 정보 열을 행으로 옮기는 id_vars 인자
# 'religion 열을 고정하여 피벗했다'라고 표현
pew_long = pd.melt(pew, id_vars='religion')
print(pew_long.head())

# 자동으로 부여된 variable, value 열의 이름 변경
pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
print(pew_long.head())

             religion  <$10k  $10-20k  $20-30k  $30-40k  $40-50k  $50-75k  \
0            Agnostic     27       34       60       81       76      137   
1             Atheist     12       27       37       52       35       70   
2            Buddhist     27       21       30       34       33       58   
3            Catholic    418      617      732      670      638     1116   
4  Don’t know/refused     15       14       15       11       10       35   

   $75-100k  $100-150k  >150k  Don't know/refused  
0       122        109     84                  96  
1        73         59     74                  76  
2        62         39     53                  54  
3       949        792    633                1489  
4        21         17     18                 116  
                   religion  <$10k  $10-20k  $20-30k  $30-40k  $40-50k
0                  Agnostic     27       34       60       81       76
1                   Atheist     12       27       37       52       35
2           

# 2개 이상의 열을 고정하고 나머지 열을 행으로 바꾸기

In [10]:
billboard = pd.read_csv('../data/billboard.csv')
print(billboard.iloc[0:5, 0:16])

# year, artist, track, time, date.entered 열을 모두 고정하고 나머지 열 피벗
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'],
                         var_name='week', value_name='rating')
print(billboard_long.head())

   year        artist                    track  time date.entered  wk1   wk2  \
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26   87  82.0   
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02   91  87.0   
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08   81  70.0   
3  2000  3 Doors Down                    Loser  4:24   2000-10-21   76  76.0   
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15   57  34.0   

    wk3   wk4   wk5   wk6   wk7   wk8   wk9  wk10  wk11  
0  72.0  77.0  87.0  94.0  99.0   NaN   NaN   NaN   NaN  
1  92.0   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN  
2  68.0  67.0  66.0  57.0  54.0  53.0  51.0  51.0  51.0  
3  72.0  69.0  67.0  65.0  55.0  59.0  62.0  61.0  61.0  
4  25.0  17.0  17.0  31.0  36.0  49.0  53.0  57.0  64.0  
   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000      

# ebola 데이터 집합 살펴보기

In [18]:
# 하나의 열이 여러 의미를 가지고 있는 경우가 존재
# 예) '사망자 수'와 '나라 이름'을 합쳐 만든 컬럼이 있을수도

ebola = pd.read_csv('../data/country_timeseries.csv')
print(ebola.columns)

# 임의로 몇개의 컬럼만 확인
print(ebola.iloc[:5, [0, 1, 2, 3, 10, 11]])

# 나라별 사망자 수를 행으로 보고 싶다면?
# Date와 Day를 고정하고 나머지를 피벗
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
print(ebola_long.head())


Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')
         Date  Day  Cases_Guinea  Cases_Liberia  Deaths_Guinea  Deaths_Liberia
0    1/5/2015  289        2776.0            NaN         1786.0             NaN
1    1/4/2015  288        2775.0            NaN         1781.0             NaN
2    1/3/2015  287        2769.0         8166.0         1767.0          3496.0
3    1/2/2015  286           NaN         8157.0            NaN          3496.0
4  12/31/2014  284        2730.0         8115.0         1739.0          3471.0
         Date  Day      variable   value
0    1/5/2015  289  Cases_Guinea  2776.0
1    1/4/2015  288  Cases_Guinea  2775.0
2    1/3/2015  287  Cases_Guinea  2769.0
3  

# 열 이름 나누고 데이터 프레임에 추가하기

In [27]:
# split 메서드로 열 이름 분리하기. 기본값은 공백을 기준으로 문자열을 자름
# 위 결과에 variable 컬럼명을 선택. str 접근자는 사용하면 시리즈 각 요소에 작동하게 해줌
# 숫자는 접근자 필요 없음ㅋㅋ
variable_split = ebola_long.variable.str.split('_')
print(variable_split[:5])

# variable_split에 저장된 type은 시리즈이고 각 값은 리스트임
print(type(variable_split))
print(type(variable_split[0]))

# get 메서드를 사용하여 인덱스에 맞는 데이터를 한 번에 추출
status_values = variable_split.str.get(0)
country_values = variable_split.str.get(1)

print(status_values[:5])
print(status_values[-5:])

print(country_values[:5])
print(country_values[-5:])

# 분리한 문자열을 컬럼으로 df에 추가하는 과정
ebola_long['status'] = status_values
ebola_long['country'] = country_values
print(ebola_long.head())

0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: variable, dtype: object
<class 'pandas.core.series.Series'>
<class 'list'>
0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: variable, dtype: object
1947    Deaths
1948    Deaths
1949    Deaths
1950    Deaths
1951    Deaths
Name: variable, dtype: object
0    Guinea
1    Guinea
2    Guinea
3    Guinea
4    Guinea
Name: variable, dtype: object
1947    Mali
1948    Mali
1949    Mali
1950    Mali
1951    Mali
Name: variable, dtype: object
         Date  Day      variable   value status country
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea


# concat 메서드를 응용하여 데이터프레임에 열 추가하기

In [28]:
variable_split = ebola_long.variable.str.split('_', expand=True)
variable_split.columns = ['status', 'country']

# status, country 열이 한번 더 추가된걸 확인 할 수 있음
ebola_parsed = pd.concat([ebola_long, variable_split], axis=1)

print(ebola_parsed.head())

         Date  Day      variable   value status country status country
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea  Cases  Guinea


# 기상 데이터의 여러 열을 하나로 정리하기

In [36]:
# 비슷한 성질의 데이터를 관리하기 위해 분리되어 있는 열을 정리
# di에는 월별 최고, 최저 온도 데이터가 존재

weather = pd.read_csv('../data/weather.csv')
print(weather.head())

# melt 메서드로 'id', 'year', 'month', 'element'열을 고정하여 피벗
weather_melt = pd.melt(weather, id_vars=['id', 'year', 'month', 'element'],
                       var_name='day', value_name='temp')
print(weather_melt.head())

# pivot_table 메서드는 행과 열의 위치를 다시 바꿔 정리해줌
# index 인자에 위치를 유지할 열 이름을 전달
# columns 인자에 피벗할 열 이름을 전달
# values 인자에 새로운 열의 데이터가 될 열의 이름을 전달
weather_tidy = weather_melt.pivot_table(
    index=['id', 'year', 'month', 'day'],
    columns='element',
    values='temp',
    dropna=False # 결측값이 있는 행을 유지
)

print(weather_tidy)

# 위 과정에서 구한 df의 인덱스를 재정렬하는 메서드 reset_index
weather_tidy_flat = weather_tidy.reset_index()
print(weather_tidy_flat.head())

        id  year  month element  d1    d2    d3  d4    d5  d6  ...  d22   d23  \
0  MX17004  2010      1    tmax NaN   NaN   NaN NaN   NaN NaN  ...  NaN   NaN   
1  MX17004  2010      1    tmin NaN   NaN   NaN NaN   NaN NaN  ...  NaN   NaN   
2  MX17004  2010      2    tmax NaN  27.3  24.1 NaN   NaN NaN  ...  NaN  29.9   
3  MX17004  2010      2    tmin NaN  14.4  14.4 NaN   NaN NaN  ...  NaN  10.7   
4  MX17004  2010      3    tmax NaN   NaN   NaN NaN  32.1 NaN  ...  NaN   NaN   

   d24  d25  d26  d27  d28  d29   d30  d31  
0  NaN  NaN  NaN  NaN  NaN  NaN  27.8  NaN  
1  NaN  NaN  NaN  NaN  NaN  NaN  14.5  NaN  
2  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  
3  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  
4  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  

[5 rows x 35 columns]
        id  year  month element day  temp
0  MX17004  2010      1    tmax  d1   NaN
1  MX17004  2010      1    tmin  d1   NaN
2  MX17004  2010      2    tmax  d1   NaN
3  MX17004  2010      2    tmin  d1   NaN
4  MX17004

# 빌보드 차트의 중복 데이터 처리하기

In [44]:
# billboard 데이터는 여러열의 데이터가 반복된다
billboard = pd.read_csv('../data/billboard.csv')
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], 
                         var_name='week', value_name='rating')
print(billboard_long.shape)
print(billboard_long.head())

# track 열에 중복 데이터가 꽤 많더라
# 통계적 분석, 모델 학습 시 결과의 정확도가 떨어지고 저장공간 많이 먹어
# artist는 고유한 값이므로 따로 관리하는것이 데이터의 일관성을 유지하는데 도움이 돼
print(billboard_long[billboard_long.track == 'Loser'].head())

# 중복 데이터를 가진 컬럼만 추출(artist 고유값이라며ㅋㅋ)
billboard_songs = billboard_long[['year', 'artist', 'track', 'time']]
print(billboard_songs.shape)

# drop_duqlicates 메서드로 df의 중복 데이터를 제거
billboard_songs = billboard_songs.drop_duplicates()
print(billboard_songs.shape)
print(billboard_songs.head())

# merge 메서드를 통해 billboard_long과 songs을 합친 것 = 중복을 제거하고 교집합으로 연결
billboard_ratings = billboard_long.merge(billboard_songs, on=['year', 'artist', 'track', 'time'])
print(billboard_ratings.shape)
print(billboard_ratings.head())


(24092, 7)
   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1    91.0
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1    81.0
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1    76.0
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1    57.0
      year        artist  track  time date.entered week  rating
3     2000  3 Doors Down  Loser  4:24   2000-10-21  wk1    76.0
320   2000  3 Doors Down  Loser  4:24   2000-10-21  wk2    76.0
637   2000  3 Doors Down  Loser  4:24   2000-10-21  wk3    72.0
954   2000  3 Doors Down  Loser  4:24   2000-10-21  wk4    69.0
1271  2000  3 Doors Down  Loser  4:24   2000-10-21  wk5    67.0
(24092, 4)
(317, 4)
   year        artist                    track  time
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22
1  20

# 뉴욕 택시 데이터 준비

In [3]:
# 지금까지는 한 덩어리의 데이터를 불러왔음
# 여러 개로 나누어진 데이터를 신속하게 불러오자
# 택시 데이터는 13억 대의 정보와 140개의 파일을 가지고 있음. 5개만 불러오자
import os
import urllib.request

# with 구문을 사용하면 resource 사용 후 자동으로 해제 되므로, 자원 누수 문제 방지가능
with open('../data/raw_data_urls.txt', 'r') as data_urls:
    for line, url in enumerate(data_urls):
        if line == 5:
            break
        fn = url.split('/')[-1].strip() # 맨 뒤의 파일명을 가져오고 앞뒤 공백을 .strip()으로 제거
        fp = os.path.join('', '../data', fn)
        print(url)
        print(fp)
        urllib.request.urlretrieve(url, fp)


https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-01.csv

../data\fhv_tripdata_2015-01.csv


HTTPError: HTTP Error 403: Forbidden

In [None]:
import glob

# glob 메서드는 특정한 패턴의 이름을 가진 파일을 한 번에 불러옴
nyc_taxi_data = glob.glob('../data/fhv_*')
print(nyc_taxi_data)

# 각 파일을 pandas의 read_csv로 읽어들여 변수에 저장
taxi1 = pd.read_csv(nyc_taxi_data[0])
taxi2 = pd.read_csv(nyc_taxi_data[1])
taxi3 = pd.read_csv(nyc_taxi_data[2])
taxi4 = pd.read_csv(nyc_taxi_data[3])
taxi5 = pd.read_csv(nyc_taxi_data[4])

# 불러온 데이터프레임들을 확인
print(taxi1.head())
print(taxi2.head())
print(taxi3.head())
print(taxi4.head())
print(taxi5.head())

## 꽤 큰 데이터라는 것을 알 수 있음

# 반복문으로 데이터 준비하기

In [None]:
list_taxi_df = []

# 반복문으로 앞의 택시 데이터를 리스트(list_taxi_df)에 담자
for csv_filename in nyc_taxi_data:
    df = pd.read_csv(csv_filename)
    list_taxi_df.append(df)

print(len(list_taxi_df))
print(type(list_taxi_df[0]))
print(list_taxi_df[0].head()) # [0]은 df중 첫번째 인덱스인 df만 사용하겠다는 것

taxi_loop_concat = pd.concat(list_taxi_df)
print(taxi_loop_concat.shape)
