# pandas DataFrames를 이용한 CSV 파일 읽고 쓰기

pandas DataFrame으로 당신은 CSV 파일 디렉토리로부터 데이터를 로드할 수 있습니다.

In [1]:
import pandas as pd

## pandas DataFrame으로 CSV 파일 읽기
**read_csv** 는 DataFrame으로 csv 파일의 내용을 읽을 수 있습니다.

airports.csv는 다음의 정보를 담고 있습니다.

Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan

In [2]:
airports_df = pd.read_csv('Data/airports.csv')
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## 오류가 있는 행 다루기
기본적으로 문제가 있는 행에 의해 에러가 발생합니다.

airportsInvalidRows.csv의 Heathrow London 행에서 오류를 확인하세요

Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan  

In [3]:
airports_df = pd.read_csv('Data/airportsInvalidRows.csv')
airports_df

ParserError: Error tokenizing data. C error: Expected 3 fields in line 4, saw 4


에러가 발생한 행을 건너뛰기 위해서는 **error_bad_lines=False**를 지정하세요.

In [4]:
airports_df = pd.read_csv(
                          'Data/airportsInvalidRows.csv', 
                           error_bad_lines=False
                           )
airports_df

b'Skipping line 4: expected 3 fields, saw 4\n'


Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Schiphol,Amsterdam,Netherlands
3,Changi,Singapore,Singapore
4,Pearson,Toronto,Canada
5,Narita,Tokyo,Japan


## 열의 헤더를 포함하지 않은 파일 다루기
기본적으로 파일에 열 헤더가 포함되지 않았다면 파일의 첫 행이 헤더로 처리됩니다.

airportsNoHeaderRows.csv는 항공사 데이터를 가지고 있지만 열 헤더를 지정하는 행을 가지고 있지 않습니다:

Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan  

In [5]:
airports_df = pd.read_csv('Data/airportsNoHeaderRows.csv')
airports_df

Unnamed: 0,Seattle-Tacoma,Seattle,USA
0,Dulles,Washington,USA
1,Heathrow,London,United Kingdom
2,Schiphol,Amsterdam,Netherlands
3,Changi,Singapore,Singapore
4,Pearson,Toronto,Canada
5,Narita,Tokyo,Japan


헤더 행이 없더라도 첫번째 행이 헤더 행으로 처리되는 것을 막기 위해서는 **header=None**을 지정하세요

In [6]:
airports_df = pd.read_csv(
                          'Data/airportsNoHeaderRows.csv', 
                           header=None
                           )
airports_df

Unnamed: 0,0,1,2
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


파일이 헤더 행을 가지고 있지 않다면 열 이름을 데이터를 불러올 때 지정하는 **names** 인자를 사용할 수 있습니다.

In [7]:
airports_df = pd.read_csv(
                          'Data/airportsNoHeaderRows.csv', 
                          header=None, 
                          names=['Name', 'City', 'Country']
                          )
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## 데이터 파일에서 누락된 값
누락된 값은 DataFrames에서 **NaN**이라고 표시합니다.

airportsBlankValues.csv에는 Schiphol 항공사에 city가 나열되지 않았습니다.:

Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan

In [8]:
airports_df = pd.read_csv('Data/airportsBlankValues.csv')
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## CSV 파일로 DataFrame의 내용 쓰기
**to_csv**은 pandas DataFrame에서 CSV 파일로 내용을 작성합니다.

In [9]:
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


In [10]:
airports_df.to_csv('Data/MyNewCSVFile.csv')

인덱스 열은 CSV 파일에 기록됩니다.

인덱스 열이 csv 파일에 포함되는 것을 원하지 않다면 **index=False**를 지정하세요.

In [11]:
airports_df.to_csv(
                   'Data/MyNewCSVFileNoIndex.csv', 
                    index=False
                    )