# pandas DataFrames으로 CSV 파일 읽고 쓰기

CSV 파일의 데이터를 DataFrame로 로드합니다.

In [4]:
import pandas as pd

## CSV 파일을 Pandas DataFrame으로 로드

**read_csv**를 사용하면, CSV 파일의 내용을 DataFrame으로 로드할 수 있습니다.

airports.csv에 포함된 내용:  

Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan

In [6]:
airports_df = pd.read_csv('airports.csv')
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## 오류가 있는 row 처리
기본적으로 콤마(,)가 더 많거나 기타 문제가 있는 row로 인해 오류가 발생합니다.

airportsInvalidRows.csv의 Heathrow London row에서 잘못 입력된 콤마를 확인하세요.


Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan  

In [7]:
airports_df = pd.read_csv('airportsInvalidRows.csv')
airports_df

ParserError: Error tokenizing data. C error: Expected 3 fields in line 4, saw 4


**error_bad_lines=False**를 지정해 오류를 발생하는 row를 skip 할 수 있습니다.

In [9]:
airports_df = pd.read_csv(
                          'airportsInvalidRows.csv', 
                           error_bad_lines=False
                           )
airports_df

b'Skipping line 4: expected 3 fields, saw 4\n'


Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Schiphol,Amsterdam,Netherlands
3,Changi,Singapore,Singapore
4,Pearson,Toronto,Canada
5,Narita,Tokyo,Japan


## column header를 포함하고 있지 않은 파일 처리
파일의 첫 번째 row에 column header가 없는 경우, 데이터의 첫 번째 row가 header로 처리됩니다.

airportsNoHeaderRows.csv에는 공항 데이터가 포함되어 있지만 column header를 지정하는 row가 없습니다.


Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan  

In [11]:
airports_df = pd.read_csv('airportsNoHeaderRows.csv')
airports_df

Unnamed: 0,Seattle-Tacoma,Seattle,USA
0,Dulles,Washington,USA
1,Heathrow,London,United Kingdom
2,Schiphol,Amsterdam,Netherlands
3,Changi,Singapore,Singapore
4,Pearson,Toronto,Canada
5,Narita,Tokyo,Japan


header row가 없는 경우 **header=None**을 지정하여, 데이터의 첫 번째 row가 header row로 처리되지 않도록 합니다.


In [12]:
airports_df = pd.read_csv(
                          'airportsNoHeaderRows.csv', 
                           header=None
                           )
airports_df

Unnamed: 0,0,1,2
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


header row가 없는 경우에는 **names** 파라미터를 사용하여, 데이터가 로드 될 때 column 이름을 지정할 수 있습니다.


In [13]:
airports_df = pd.read_csv(
                          'airportsNoHeaderRows.csv', 
                          header=None, 
                          names=['Name', 'City', 'Country']
                          )
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## 데이터 파일의 누락된 값(missing value)
누락 된 값은 DataFrame에 **NaN**으로 표시됩니다.

airportsBlankValues.csv에 Schiphol 공항으로 표시된 도시가 누락되어 있습니다.


Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan

In [14]:
airports_df = pd.read_csv('airportsBlankValues.csv')
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## CSV 파일에 DataFrame 을 쓰기
**to_csv**는 pandas DataFrame의 내용을 CSV 파일에 씁니다.


In [15]:
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


In [16]:
airports_df.to_csv('MyNewCSVFile.csv')

색인 column이 csv 파일에 기록됩니다.

**index=False**을 지정하면, CSV 파일에 index column을 추가하지 않습니다.

In [17]:
airports_df.to_csv(
                   'MyNewCSVFileNoIndex.csv', 
                    index=False
                    )