## 깔끔한 데이터
- melt 메서드
    - id_vars : 위치를 그대로 유지할 열의 이름을 지정합니다
    - value_vars : 행으로 위치를 변경할 열의 이름을 지정합니다
    - var_name : value_vars로 위치를 변경한 열의 이름을 지정합니다
    - value_name : var_name으로 위치를 변경한 열의 데이터를 지정한 열의 이름을 지정합니다.

In [1]:
import pandas as pd

## 1. melt 메서드 사용하기

In [2]:
# 미국의 소득과 종교 데이터 불러오기
pew = pd.read_csv('data/pew.csv')
print(pew)

                   religion  <$10k  $10-20k  $20-30k  $30-40k  $40-50k  \
0                  Agnostic     27       34       60       81       76   
1                   Atheist     12       27       37       52       35   
2                  Buddhist     27       21       30       34       33   
3                  Catholic    418      617      732      670      638   
4        Don’t know/refused     15       14       15       11       10   
5          Evangelical Prot    575      869     1064      982      881   
6                     Hindu      1        9        7        9       11   
7   Historically Black Prot    228      244      236      238      197   
8         Jehovah's Witness     20       27       24       24       21   
9                    Jewish     19       19       25       25       30   
10            Mainline Prot    289      495      619      655      651   
11                   Mormon     29       40       48       51       56   
12                   Muslim      6    

In [3]:
# 6개의 열만 출력
print(pew.iloc[:,:6])

                   religion  <$10k  $10-20k  $20-30k  $30-40k  $40-50k
0                  Agnostic     27       34       60       81       76
1                   Atheist     12       27       37       52       35
2                  Buddhist     27       21       30       34       33
3                  Catholic    418      617      732      670      638
4        Don’t know/refused     15       14       15       11       10
5          Evangelical Prot    575      869     1064      982      881
6                     Hindu      1        9        7        9       11
7   Historically Black Prot    228      244      236      238      197
8         Jehovah's Witness     20       27       24       24       21
9                    Jewish     19       19       25       25       30
10            Mainline Prot    289      495      619      655      651
11                   Mormon     29       40       48       51       56
12                   Muslim      6        7        9       10        9
13    

In [4]:
# 소득정보 열을 행 데이터로 옮기기 'religion' 제외
# melt(id_vars ='인잣값') => 인잣값을 제외하고 나머지 열을 variable열로 정리, 원래 값은 value 열로 정리
# religion 열을 고정하여 피벗하였다.
pew_long=pd.melt(pew, id_vars='religion')
print(pew_long.head(125))


                  religion  variable  value
0                 Agnostic     <$10k     27
1                  Atheist     <$10k     12
2                 Buddhist     <$10k     27
3                 Catholic     <$10k    418
4       Don’t know/refused     <$10k     15
..                     ...       ...    ...
120                 Muslim  $75-100k     16
121               Orthodox  $75-100k     38
122        Other Christian  $75-100k     18
123           Other Faiths  $75-100k     46
124  Other World Religions  $75-100k      3

[125 rows x 3 columns]


In [5]:
# variable, value 이름 변경
pew_long=pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
print(pew_long.head())

             religion income  count
0            Agnostic  <$10k     27
1             Atheist  <$10k     12
2            Buddhist  <$10k     27
3            Catholic  <$10k    418
4  Don’t know/refused  <$10k     15


In [6]:
# 2개 이상의 열을 고정하고 나머지 열을 행으로 바꾸기
billboard = pd.read_csv('data/billboard.csv')
print(billboard.iloc[:5,:16])

   year        artist                    track  time date.entered  wk1   wk2  \
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26   87  82.0   
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02   91  87.0   
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08   81  70.0   
3  2000  3 Doors Down                    Loser  4:24   2000-10-21   76  76.0   
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15   57  34.0   

    wk3   wk4   wk5   wk6   wk7   wk8   wk9  wk10  wk11  
0  72.0  77.0  87.0  94.0  99.0   NaN   NaN   NaN   NaN  
1  92.0   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN  
2  68.0  67.0  66.0  57.0  54.0  53.0  51.0  51.0  51.0  
3  72.0  69.0  67.0  65.0  55.0  59.0  62.0  61.0  61.0  
4  25.0  17.0  17.0  31.0  36.0  49.0  53.0  57.0  64.0  


In [7]:
# year, artist, track, time, date.entered 열을 고정하고 나머지 열을 피벗
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name='rating')
print(billboard_long.head()) 

   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1    91.0
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1    81.0
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1    76.0
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1    57.0


## 2. 열 이름 관리하기

In [8]:
# 데이터 불러오기
ebola = pd.read_csv('data/country_timeseries.csv')
print(ebola.columns)

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')


In [9]:
print(ebola.iloc[:5,[0,1,2,3,10,11]])

         Date  Day  Cases_Guinea  Cases_Liberia  Deaths_Guinea  Deaths_Liberia
0    1/5/2015  289        2776.0            NaN         1786.0             NaN
1    1/4/2015  288        2775.0            NaN         1781.0             NaN
2    1/3/2015  287        2769.0         8166.0         1767.0          3496.0
3    1/2/2015  286           NaN         8157.0            NaN          3496.0
4  12/31/2014  284        2730.0         8115.0         1739.0          3471.0


In [10]:
# Date와 Day를 고정하고 나머지를 행으로 피벗
ebola_long = pd.melt(ebola, id_vars=['Date','Day'])
print(ebola_long.head())

         Date  Day      variable   value
0    1/5/2015  289  Cases_Guinea  2776.0
1    1/4/2015  288  Cases_Guinea  2775.0
2    1/3/2015  287  Cases_Guinea  2769.0
3    1/2/2015  286  Cases_Guinea     NaN
4  12/31/2014  284  Cases_Guinea  2730.0


#### split 메서드로 열 이름 분리하기

In [11]:
# 열 이름 분리하고 데이터프레임에 추가하기
# expand = False -> 리스트 형
# expand = True -> 데이터프레임형

variable_split = ebola_long.variable.str.split('_', expand=False)
print(type(variable_split.head()))
print(variable_split.head())

<class 'pandas.core.series.Series'>
0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: variable, dtype: object


In [12]:
# get 메서드 사용하여 인덱스의 데이터를 한번에 추출
status_values = variable_split.str.get(0)
country_values = variable_split.str.get(1)

In [13]:
# 데이터프레임에 값 넣기
ebola_long['status'] = status_values
ebola_long['country'] = country_values
print(ebola_long.head())

         Date  Day      variable   value status country
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea


In [14]:
# concat 메서드로 데이터프레임에 열 추가하기
variable_split = ebola_long['variable'].str.split('_', expand=True)
variable_split.columns = ['status','country'] # 컬럼명 설정
# print(variable_split)
ebola_parsed = pd.concat([ebola_long,variable_split], axis=1) # axis=1 열로 결합
ebola_parsed

Unnamed: 0,Date,Day,variable,value,status,country,status.1,country.1
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea,Cases,Guinea
...,...,...,...,...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,,Deaths,Mali,Deaths,Mali
1948,3/26/2014,4,Deaths_Mali,,Deaths,Mali,Deaths,Mali
1949,3/25/2014,3,Deaths_Mali,,Deaths,Mali,Deaths,Mali
1950,3/24/2014,2,Deaths_Mali,,Deaths,Mali,Deaths,Mali


## 3. 여러 열을 하나로 정리하기

#### 기상 데이터의 여러 열을 하나로 정리하기

In [15]:
weather = pd.read_csv('data/weather.csv')
print(weather.iloc[:5,: ])

        id  year  month element  d1    d2    d3  d4    d5  d6  ...  d22   d23  \
0  MX17004  2010      1    tmax NaN   NaN   NaN NaN   NaN NaN  ...  NaN   NaN   
1  MX17004  2010      1    tmin NaN   NaN   NaN NaN   NaN NaN  ...  NaN   NaN   
2  MX17004  2010      2    tmax NaN  27.3  24.1 NaN   NaN NaN  ...  NaN  29.9   
3  MX17004  2010      2    tmin NaN  14.4  14.4 NaN   NaN NaN  ...  NaN  10.7   
4  MX17004  2010      3    tmax NaN   NaN   NaN NaN  32.1 NaN  ...  NaN   NaN   

   d24  d25  d26  d27  d28  d29   d30  d31  
0  NaN  NaN  NaN  NaN  NaN  NaN  27.8  NaN  
1  NaN  NaN  NaN  NaN  NaN  NaN  14.5  NaN  
2  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  
3  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  
4  NaN  NaN  NaN  NaN  NaN  NaN   NaN  NaN  

[5 rows x 35 columns]


In [18]:
# 날짜열을 행 데이터로 피벗
weather_long = pd.melt(weather, id_vars=['id','year','month','element'], var_name='day', value_name='temp')
print(weather_long.head())

        id  year  month element day  temp
0  MX17004  2010      1    tmax  d1   NaN
1  MX17004  2010      1    tmin  d1   NaN
2  MX17004  2010      2    tmax  d1   NaN
3  MX17004  2010      2    tmin  d1   NaN
4  MX17004  2010      3    tmax  d1   NaN


In [None]:
# pivot_table 메서드 사용
# index 인자에는 위치를 그대로 유지할 열 이름을 지정
# columns 인자에는 피벗할 열 이름을 지정
# values 인자에는 새로운 열의 데이터가 될 열 이름 지정

In [23]:
weather_tidy = weather_long.pivot_table(
    index=['id','year','month','day'],
    columns='element',
    values='temp',
    dropna=False # Nan 값도 표시
)
print(weather_tidy)

element                 tmax  tmin
id      year month day            
MX17004 2010 1     d1    NaN   NaN
                   d10   NaN   NaN
                   d11   NaN   NaN
                   d12   NaN   NaN
                   d13   NaN   NaN
...                      ...   ...
             12    d5    NaN   NaN
                   d6   27.8  10.5
                   d7    NaN   NaN
                   d8    NaN   NaN
                   d9    NaN   NaN

[341 rows x 2 columns]


In [24]:
# reset_index 메서드로 컬럼 새로 지정
weather_tidy_flat = weather_tidy.reset_index()
print(weather_tidy_flat.head())

element       id  year  month  day  tmax  tmin
0        MX17004  2010      1   d1   NaN   NaN
1        MX17004  2010      1  d10   NaN   NaN
2        MX17004  2010      1  d11   NaN   NaN
3        MX17004  2010      1  d12   NaN   NaN
4        MX17004  2010      1  d13   NaN   NaN


## 4. 중복 데이터 처리하기

In [27]:
# 빌보드 차트의 중복 데이터 처리하기
billboard = pd.read_csv('data/billboard.csv')
billboard_long = pd.melt(billboard, id_vars=['year','artist','track','time','date.entered'], var_name='week',value_name='rating')
print(billboard_long.shape) # 24092행, 7열
print(billboard_long.head())


(24092, 7)
   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1    91.0
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1    81.0
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1    76.0
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1    57.0


In [28]:
# 노래 제목이 Loser인 데이터
print(billboard_long[billboard_long['track'] == 'Loser'].head())

      year        artist  track  time date.entered week  rating
3     2000  3 Doors Down  Loser  4:24   2000-10-21  wk1    76.0
320   2000  3 Doors Down  Loser  4:24   2000-10-21  wk2    76.0
637   2000  3 Doors Down  Loser  4:24   2000-10-21  wk3    72.0
954   2000  3 Doors Down  Loser  4:24   2000-10-21  wk4    69.0
1271  2000  3 Doors Down  Loser  4:24   2000-10-21  wk5    67.0


In [30]:
# 중복된 데이터 열을 따로 모아 새로운 데이터프레임 저장
billboard_songs = billboard_long[['year','artist','track','time']]
print(billboard_songs.shape)

(24092, 4)


In [31]:
# drop_duplicates 메서드로 중복 데이터를 제거
billboard_songs = billboard_songs.drop_duplicates()
print(billboard_songs.shape)

(317, 4)


In [39]:
# 중복을 제거한 데이터프레임에 id 추가
billboard_songs['id'] = range(len(billboard_songs))
print(billboard_songs.head())

   year        artist                    track  time  id
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   1
2  2000  3 Doors Down               Kryptonite  3:53   2
3  2000  3 Doors Down                    Loser  4:24   3
4  2000      504 Boyz            Wobble Wobble  3:35   4


In [43]:
# merge 메서드를 노래 정보와 주간 순위 데이터
billboard_ratings = billboard_long.merge(billboard_songs, on=['year','artist','track','time'])
print(billboard_ratings.shape)
print(billboard_ratings.head())

(24092, 8)
   year artist                    track  time date.entered week  rating  id
0  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0   0
1  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk2    82.0   0
2  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk3    72.0   0
3  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk4    77.0   0
4  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk5    87.0   0


## 5. 대용량 데이터 처리하기
- 뉴욕 택시 데이터 준비


In [24]:
import os
import urllib.request
import pandas as pd

In [22]:
import os
import urllib.request
import pandas as pd

# 파일 안에 url 주소 데이터를 불러옴
with open('data/raw_data_urls.txt', 'r') as data_urls:
    for line, url in enumerate(data_urls):
        # 5개의 데이터만 이용
        if line == 5:
            break
        fn = url.split('/')[-1].strip() # url 데이터를 '/'로 나누고 끝값을 가져와 공백제거
        fp = os.path.join('','data',fn) # 앞쪽에 경로를 fn 값과 붙여주기 위한 작
        print(url)
        print(fp)
        urllib.request.urlretrieve(url, fp) # (데이터내용의 값, 파일이름)으로 저장

https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-01.csv

data/fhv_tripdata_2015-01.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-02.csv

data/fhv_tripdata_2015-02.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-03.csv

data/fhv_tripdata_2015-03.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-04.csv

data/fhv_tripdata_2015-04.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-05.csv

data/fhv_tripdata_2015-05.csv


In [20]:
# glob 메서드로 파일 불러오기
import glob

nyc_taxi_data = glob.glob('data/fhv_*') # fhv_ 로 시작하는 파일이름 리스트로 가져오기
print(nyc_taxi_data)

['data/fhv_tripdata_2015-05.csv', 'data/fhv_tripdata_2015-04.csv', 'data/fhv_tripdata_2015-01.csv', 'data/fhv_tripdata_2015-03.csv', 'data/fhv_tripdata_2015-02.csv']


In [27]:
# 각각의 파일을 데이터프레임으로 저장
taxi1 = pd.read_csv(nyc_taxi_data[0])
taxi2 = pd.read_csv(nyc_taxi_data[1])
taxi3 = pd.read_csv(nyc_taxi_data[2])
taxi4 = pd.read_csv(nyc_taxi_data[3])
taxi5 = pd.read_csv(nyc_taxi_data[4])


In [28]:
# 데이터 크기 확인
print(taxi1.shape)
print(taxi2.shape)
print(taxi3.shape)
print(taxi4.shape)
print(taxi5.shape)

(4296067, 3)
(3917789, 3)
(2746033, 3)
(3281427, 3)
(3126401, 3)


In [29]:
# 데이터 처리를 위해 데이터프레임 연결 (concat 메서드 활용)
taxi = pd.concat([taxi1, taxi2, taxi3, taxi4, taxi5])
print(taxi.shape)

(17367717, 3)
