# 직접 해보세요!
## 뉴욕 택시 데이터 준비(166쪽)

- 여러 개로 나누어진 데이터 불러오기
- 데이터는 필요에 따라 나누어 저장하기도 한다. 데이터를 나누어 저장하면 용량이 작아져 데이터를 저장하거나 다른 사람에게 공유할 때 유용하다. 또 어떤 경우에는 처음부터 크기가 작은 데이터가 생성되는 경우도 있다.
- 예를 들어 주식 정보를 매일 수집한다면 일 단위로 데이터가 생성된다. 지금까지는 한 덩어리의 데이터를 불러와 여러 가지 실습을 진행했었다.
- 그러면 여러 개로 나누어진 데이터를 신속하게 불러오려면 어떻게 해야 할까

- 뉴욕 택시 데이터는 13억 대의 뉴욕 택시에 대한 정보를 가지고 있다. 파일의 개수도 140개나 된다. 이번 실습에서는 이 중 5개의 데이터만 사용해보자.

In [2]:
import os 
import urllib.request

# 네트워크 상태에 따라 5 ~ 15분이 소요됩니다.
with open('../data/raw_data_urls.txt', 'r') as data_urls:
    for line, url in enumerate(data_urls):
        if line == 5:
            break 
        fn = url.split('/')[-1].strip()
        fp = os.path.join('', '../data', fn)
        print(url)
        print(fp)
        urllib.request.urlretrieve(url, fp)

https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-01.csv

../data\fhv_tripdata_2015-01.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-02.csv

../data\fhv_tripdata_2015-02.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-03.csv

../data\fhv_tripdata_2015-03.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-04.csv

../data\fhv_tripdata_2015-04.csv
https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-05.csv

../data\fhv_tripdata_2015-05.csv


- 내려받은 데이터는 data폴더에 'fhv_tripdata_YYYY_MM.csv'라는 이름으로 저장된다.
- 이제 판다스로 데이터를 불러오면 된다. glob 라이브러리에 포함된 glob 메서드는 특정한 패턴의 이름을 가진 파일을 한 번에 읽어 들일 수 있다.
- glob 메서드로 5개의 파일을 불러온다.

In [30]:
import glob 
nyc_taxi_data = glob.glob('../data/fhv_*') 
print(nyc_taxi_data)

['../data\\fhv_tripdata_2015-01.csv', '../data\\fhv_tripdata_2015-02.csv', '../data\\fhv_tripdata_2015-03.csv', '../data\\fhv_tripdata_2015-04.csv', '../data\\fhv_tripdata_2015-05.csv']


- 그런 다음 각각의 파일을 데이터프레임으로 저장한다.

In [31]:
taxi1 = pd.read_csv(nyc_taxi_data[0]) 
taxi2 = pd.read_csv(nyc_taxi_data[1]) 
taxi3 = pd.read_csv(nyc_taxi_data[2]) 
taxi4 = pd.read_csv(nyc_taxi_data[3]) 
taxi5 = pd.read_csv(nyc_taxi_data[4])

- 데이터를 잘 불러왔는지 확인한다.

In [32]:
print(taxi1.head(n=2)) 
print(taxi2.head(n=2)) 
print(taxi3.head(n=2)) 
print(taxi4.head(n=2)) 
print(taxi5.head(n=2))

  Dispatching_base_num          Pickup_date  locationID
0               B00013  2015-01-01 00:30:00         NaN
1               B00013  2015-01-01 01:22:00         NaN
  Dispatching_base_num          Pickup_date  locationID
0               B00013  2015-02-01 00:00:00         NaN
1               B00013  2015-02-01 00:01:00         NaN
  Dispatching_base_num          Pickup_date  locationID
0               B00029  2015-03-01 00:02:00       213.0
1               B00029  2015-03-01 00:03:00        51.0
  Dispatching_base_num          Pickup_date  locationID
0               B00001  2015-04-01 04:30:00         NaN
1               B00001  2015-04-01 06:00:00         NaN
  Dispatching_base_num          Pickup_date  locationID
0               B00001  2015-05-01 04:30:00         NaN
1               B00001  2015-05-01 05:00:00         NaN


- 각 데이터의 구조, 즉 행과 열을 확인해보자. 데이터가 꽤 크다는 것을 알 수 있다.

In [34]:
print(taxi1.shape) 
print(taxi2.shape) 
print(taxi3.shape) 
print(taxi4.shape) 
print(taxi5.shape)

(2746033, 3)
(3126401, 3)
(3281427, 3)
(3917789, 3)
(4296067, 3)


- 이제 데이터 처리를 위해 각 데이터프레임을 연결해야 한다. 다음은 concat 메서드로 모든 데이터프레임(taxi1~5)을 연결한 것이다.

In [38]:
taxi = pd.concat([taxi1, taxi2, taxi3, taxi4, taxi5])

print(taxi.shape)

(17367717, 3)


# 알아두면 좋아요!
## 반복문으로 데이터 준비하기(169쪽)

- 반복문을 응용하면 단 몇 줄의 코드로 데이터를 준비할 수 있다.
- 앞에서 생성한 파일 목록(nyc_taxi_data)을 반복문으로 읽어 들인 다음 리스트(list_taxi_df)에 이어붙이면 된다. 그러면 리스트에 데이터프레임이 순서대로 저장된다.

In [39]:
list_taxi_df = [] 

for csv_filename in nyc_taxi_data:
    # print(csv_filename)
    df = pd.read_csv(csv_filename)
    list_taxi_df.append(df) 

print(len(list_taxi_df))

5


In [40]:
print(type(list_taxi_df[0]))

<class 'pandas.core.frame.DataFrame'>


In [41]:
print(list_taxi_df[0].head())

  Dispatching_base_num          Pickup_date  locationID
0               B00013  2015-01-01 00:30:00         NaN
1               B00013  2015-01-01 01:22:00         NaN
2               B00013  2015-01-01 01:23:00         NaN
3               B00013  2015-01-01 01:44:00         NaN
4               B00013  2015-01-01 02:00:00         NaN


In [42]:
taxi_loop_concat = pd.concat(list_taxi_df) 
print(taxi_loop_concat.shape)

(17367717, 3)


In [43]:
print(taxi.equals(taxi_loop_concat))

True
