# Leer y escribir archivos CSV con pandas DataFrames

Puede cargar datos de un archivo CSV directamente en un DataFrame pandas

In [5]:
import pandas as pd

## Leyendo un archivo CSV en un DataFrame pandas
**read_csv** le permite leer el contenido de un archivo csv en un DataFrame

aeropuertos.csv contiene lo siguiente:  

Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan

In [2]:
airports_df = pd.read_csv('data/airports.csv')
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## Manejo de filas con errores
Por defecto las filas con un extra , u otros problemas causan un error

Tenga en cuenta el extra , en la fila para Heathrow Londres en aeropuertos InvalidRows.csv:  

Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan  

In [3]:
airports_df = pd.read_csv('data/airportsInvalidRows.csv')
airports_df

ParserError: Error tokenizing data. C error: Expected 3 fields in line 4, saw 4


Specify **error_bad_lines=False** to skip any rows with errors

In [6]:
airports_df = pd.read_csv(
                          'data/airportsInvalidRows.csv', 
                           error_bad_lines=True
                           )
airports_df

ParserError: Error tokenizing data. C error: Expected 3 fields in line 4, saw 4


## Manejo de archivos que no contienen encabezados de columna
Si su archivo no tiene los encabezados de columna en la primera fila de forma predeterminada, la primera fila de datos se trata como encabezados

airportsNoHeaderRows.csv contiene datos de aeropuertos, pero no tiene una fila que especifique los encabezados de las columnas:

Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,Amsterdam,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan  

In [5]:
airports_df = pd.read_csv('data/airportsNoHeaderRows.csv')
airports_df

Unnamed: 0,Seattle-Tacoma,Seattle,USA
0,Dulles,Washington,USA
1,Heathrow,London,United Kingdom
2,Schiphol,Amsterdam,Netherlands
3,Changi,Singapore,Singapore
4,Pearson,Toronto,Canada
5,Narita,Tokyo,Japan


Especifique **header=None** si no tiene una fila de encabezado para evitar que la primera fila de datos se trate como una fila de encabezado

In [7]:
airports_df = pd.read_csv(
                          'data/airportsNoHeaderRows.csv', 
                           header=None
                           )
airports_df

Unnamed: 0,0,1,2
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


Si no tiene una fila de encabezado, puede usar el parámetro **names** para especificar los nombres de las columnas cuando se cargan los datos

In [8]:
airports_df = pd.read_csv(
                          'data/airportsNoHeaderRows.csv', 
                          header=None, 
                          names=['Name', 'City', 'Country']
                          )
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,Amsterdam,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## Valores que faltan en los archivos de datos
Los valores que faltan aparecen en DataFrames como **NaN**

No hay ninguna ciudad listada para Schiphol aeropuerto en aeropuertos BlankValues.csv :

Name,City,Country  
Seattle-Tacoma,Seattle,USA  
Dulles,Washington,USA  
Heathrow,London,United Kingdom  
Schiphol,,Netherlands  
Changi,Singapore,Singapore  
Pearson,Toronto,Canada  
Narita,Tokyo,Japan

In [9]:
airports_df = pd.read_csv('data/airportsBlankValues.csv')
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


## Escribir contenido DataFrame en un archivo CSV
**to_csv** escribirá el contenido de un pandas DataFrame en un archivo CSV

In [9]:
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Heathrow,London,United Kingdom
3,Schiphol,,Netherlands
4,Changi,Singapore,Singapore
5,Pearson,Toronto,Canada
6,Narita,Tokyo,Japan


In [12]:
airports_df.to_csv('data/MyNewCSVFile.csv')

La columna índice se escribe en el archivo csv

Especifique **index=False** si no desea que la columna de índice se incluya en el archivo csv

In [16]:
df_airport=airports_df.to_csv(
                   'data/MyNewCSVFileNoIndex.csv', 
                    index=False
                    )

In [17]:
df_airport