In [None]:
import pandas as pd
pew = pd.read_csv('./data/pew.csv')

In [None]:
pew.head()

In [None]:
pew.iloc[:, :5].head()

# 1개의 열만 고정하고 나머지 열을 행으로 바꾸기

In [None]:
pew_long = pd.melt(pew, id_vars='religion')
pew_long

In [None]:
pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
pew_long

# 2개 이상의 열을 고정하고 나머지 열을 행으로 바꾸기

In [None]:
billboard = pd.read_csv('./data/billboard.csv')
billboard.iloc[:5, :10]

In [None]:
pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name='rating').head()

# ebola 데이터 집합 살펴보기

In [None]:
ebola = pd.read_csv('./data/country_timeseries.csv')
ebola.iloc[:5, [0, 1, 2, 3, 10, 11]]

In [None]:
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
ebola_long.head()

In [None]:
ebola_long.groupby('variable')['value'].sum()

# 열 이름 나누고 데이터 프레임에 추가하기

In [None]:
variable_split = ebola_long.variable.str.split('_')
variable_split[:5]

In [None]:
status_values = variable_split.str.get(0)
country_values = variable_split.str.get(1)

In [None]:
status_values[:5]

In [None]:
country_values[:5]

In [None]:
ebola_long['status'] = status_values
ebola_long['country'] = country_values
ebola_long.head()

# concat 메서드를 응용하여 데이터프레임에 열 추가하기

In [None]:
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
ebola_long.head()

In [None]:
variable_split = ebola_long.variable.str.split('_', expand=True)
variable_split.head(5)

In [None]:
variable_split.columns = ['status', 'country']
variable_split.head()

In [None]:
pd.concat([ebola_long, variable_split], axis=1)

# 기상 데이터의 여러 열을 하나로 정리하기

In [None]:
weather = pd.read_csv('./data/weather.csv')
weather.iloc[:5, :8]

In [None]:
weather_melt = pd.melt(weather, id_vars=['id', 'year', 'month', 'element'], var_name='day', value_name='temp')
weather_melt

In [None]:
weather_tidy = weather_melt.pivot_table(
    index=['id', 'year', 'month', 'day'],
    columns='element',
    values='temp'
)
weather_tidy

In [None]:
weather_tidy_flat = weather_tidy.reset_index()
weather_tidy_flat

# 빌보드 차트의 중복 데이터 처리하기

In [None]:
billboard = pd.read_csv('./data/billboard.csv')
billboard.iloc[:5, :10]

In [None]:
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name='rating')
billboard_long.head()

In [None]:
billboard_long[billboard_long['track'] == 'Loser'].head()

In [None]:
billboard_songs = billboard_long[['year', 'artist', 'track', 'time']]
billboard_songs

In [None]:
billboard_songs = billboard_songs.drop_duplicates()
billboard_songs.head()

In [None]:
billboard_songs['id'] = range(len(billboard_songs))
billboard_songs.head(n=10)

In [None]:
billboard_ratings = billboard_long.merge(billboard_songs, on=['year', 'artist', 'track', 'time'])
billboard_ratings.head()

# 뉴욕 택시 데이터 준비

In [None]:
import os
import urllib.request

In [None]:
with open('./data/raw_data_urls.txt', 'r') as data_urls:
    for line, url in enumerate(data_urls):
        if line == 5:
            break
        
        fn = url.split('/')[-1].strip()
        fp = os.path.join('', './data', fn)
        print(url)
        print(fp)
        urllib.request.urlretrieve(url, fp)

In [None]:
import glob

nyc_taxi_data = glob.glob('./data/fhv_*')
nyc_taxi_data

In [None]:
taxi1 = pd.read_csv(nyc_taxi_data[0])
taxi2 = pd.read_csv(nyc_taxi_data[1])
taxi3 = pd.read_csv(nyc_taxi_data[2])
taxi4 = pd.read_csv(nyc_taxi_data[3])
taxi5 = pd.read_csv(nyc_taxi_data[4])

print(taxi1.head())

# 반복문으로 데이터 준비하기

In [None]:
list_taxi_df = []

for csv_fileName in nyc_taxi_data:
    df = pd.read_csv(csv_fileName)
    list_taxi_df.append(df)

len(list_taxi_df)

In [None]:
list_taxi_df[0].head()

In [None]:
taxi_loop_concat = pd.concat(list_taxi_df)
taxi_loop_concat.shape