
# Importar y exportar datos

Aunque otras librerías de Python proporcionan herramientas para importar y exportar datos, __pandas__ aporta una gran potencia a la hora de leer y/o escribir ficheros de datos. 
* Pandas es capaz de leer datos de ficheros en formatos:
     * csv, 
     * txt,
     * excel, 
     * json, 
     * html,
     * xml, 
     * ...

In [1]:
import pandas as pd
import numpy as np

## Ficheros en formato de texto

Las funciones  más utilizadas en pandas para leer datos en formato texto son __read_csv__ y __read_table__. 
Estas funciones ofrecen una gran flexibilidad a la hora de leer un fichero de texto plano.

* __read_csv__: datos delimitados por comas
* __read_table__:  datos delimitados por tabulador '\t'
* __read_fwf__: datos donde las columnas tienen tamaño fijo

> Todas esta funciones transforman datos en DataFrames.

__Ejemplo 1__:

El fichero [Animals2.csv](./datos/Animals2.csv) recoge información del peso medio del cuerpo y cerebro de 62 especies de animales.

In [2]:
tabla = pd.read_csv('datos/Animals2.csv', 
                    skiprows = 1,
                    names = ['Especie', 'Peso_cuerpo', 'Peso_cerebro']
                               )
tabla.iloc[:10]    # muestro solo las 10 primeras entradas

Unnamed: 0,Especie,Peso_cuerpo,Peso_cerebro
0,Lesser short-tailed shrew,0.005,0.14
1,Little brown bat,0.01,0.25
2,Big brown bat,0.023,0.3
3,Mouse,0.023,0.4
4,Musk shrew,0.048,0.33
5,Star-nosed mole,0.06,1.0
6,E. American mole,0.075,1.2
7,Ground squirrel,0.101,4.0
8,Tree shrew,0.104,2.5
9,Golden hamster,0.12,1.0


* __skiprows__ : indica el número de filas al comienzo del fichero que queremos ignorar.
* __names__: indica el nombre de las columnas.

El resultado es un DataFrame.

Podemos cargar los datos indicando que la columna de índices será la columna 0, es decir, los nombres de las especies.

In [3]:
tabla = pd.read_csv('./datos/Animals2.csv',
                                    skiprows = 1,   
                                    names = ['Peso_cuerpo', 'Peso_cerebro'],
                                    index_col = 0
                               )

tabla.head()    # muestro solo las 5 primeras entradas

Unnamed: 0,Peso_cuerpo,Peso_cerebro
Lesser short-tailed shrew,0.005,0.14
Little brown bat,0.01,0.25
Big brown bat,0.023,0.3
Mouse,0.023,0.4
Musk shrew,0.048,0.33


La función __read_table__ ofrece las mismas opciones que __read_csv__ y se usa cuando el delimitador es distinto de ','.

__Ejemplo 2__:

El fichero [pedidos.csv](./datos/pedidos.csv) recoge la información de pedidos de ciertos productos, con la cantidad pedida y el precio de cada producto.

In [4]:
tabla_pedidos = pd.read_csv('./datos/pedidos.csv')
tabla_pedidos.head()

Unnamed: 0,Numero_pedido,producto,cantidad,precio,linea_de_pedido
0,10105,S700_2610,31,65.77,3
1,10105,S700_3505,39,81.14,6
2,10105,S700_3962,22,116.19,7
3,10105,S72_3212,25,56.78,8
4,10106,S18_1662,36,146.65,12


En este caso, podemos cargar los datos en un DataFrame donde los índices sean un __índice multinivel__ compuesto por el número de pedido y la línea de pedido.

In [5]:
# indicando columnas de índices mediante lista de enteros
tabla_pedidos = pd.read_csv('./datos/pedidos.csv', 
                            index_col = [0,4])

tabla_pedidos.iloc[:10]    # muestro solo las 10 primeras entradas

Unnamed: 0_level_0,Unnamed: 1_level_0,producto,cantidad,precio
Numero_pedido,linea_de_pedido,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10105,3,S700_2610,31,65.77
10105,6,S700_3505,39,81.14
10105,7,S700_3962,22,116.19
10105,8,S72_3212,25,56.78
10106,12,S18_1662,36,146.65
10106,2,S18_2581,34,90.39
10106,18,S18_3029,41,83.44
10106,17,S18_3856,41,116.46
10106,4,S24_1785,28,88.63
10106,13,S24_2841,49,74.68


In [6]:
# Acceso a los datos del pedido 10105
tabla_pedidos.loc[10105]

Unnamed: 0_level_0,producto,cantidad,precio
linea_de_pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,S700_2610,31,65.77
6,S700_3505,39,81.14
7,S700_3962,22,116.19
8,S72_3212,25,56.78


### Tratamiento de valores perdidos (missing values)

El término valores perdidos (missing values) se refiere a los valores que no aparecen o que se encuentran marcados con un valor por defecto.

Por defecto pandas permite el tratamiento de varios valores por defecto: __NA__, __NULL__ y __-1.#IND__(indeterminación).

__Ejemplo 4__:

El fichero [actor.csv](./datos/actor.csv) recoge cierta información personal de actores: nombre, apellido y teléfono. En algunos casos el dato de teléfono no se conoce, por lo que es NULL en unos casos y está vacío en otros.

In [7]:
tabla_actores = pd.read_csv('./datos/actor.csv')
primeros = tabla_actores.iloc[:10]    # muestro solo las 10 primeras entradas
primeros

Unnamed: 0,actor_id,first_name,last_name,last_update,tlf
0,61,CHRISTIAN,NEESON,2006-02-15 04:34:33,4784.0
1,62,JAYNE,NEESON,-1,5555.0
2,63,CAMERON,WRAY,-1,
3,64,RAY,JOHANSSON,2006-02-15 04:34:33,1234.0
4,65,ANGELA,HUDSON,2006-02-15 04:34:33,8976.0
5,66,MARY,TANDY,2006-02-15 04:34:33,2356.0
6,67,JESSICA,BAILEY,-1,
7,68,RIP,WINSLET,2006-02-15 04:34:33,
8,69,KENNETH,PALTROW,2006-02-15 04:34:33,
9,70,MICHELLE,MCCONAUGHEY,2006-02-15 04:34:33,


* En el ejemplo anterior, cuando no se conoce la fecha de la columna __last_update__ aparece el valor __-1__. 

* La función __read_csv__ se puede utilizar con la opción __na_values__ junto con una lista de valores por defecto (por columna) que han de ser sustituidos por __NaN__.

En el ejemplo anterior, queremos sustituir los valores __-1__ de la columna __last_update__ por __NaN__.

In [8]:
tabla_actores = pd.read_csv('./datos/actor.csv', 
                            na_values = {'last_update': [ -1]} )

primeros = tabla_actores.iloc[:10]    # muestro solo las 10 primeras entradas
primeros

Unnamed: 0,actor_id,first_name,last_name,last_update,tlf
0,61,CHRISTIAN,NEESON,2006-02-15 04:34:33,4784.0
1,62,JAYNE,NEESON,,5555.0
2,63,CAMERON,WRAY,,
3,64,RAY,JOHANSSON,2006-02-15 04:34:33,1234.0
4,65,ANGELA,HUDSON,2006-02-15 04:34:33,8976.0
5,66,MARY,TANDY,2006-02-15 04:34:33,2356.0
6,67,JESSICA,BAILEY,,
7,68,RIP,WINSLET,2006-02-15 04:34:33,
8,69,KENNETH,PALTROW,2006-02-15 04:34:33,
9,70,MICHELLE,MCCONAUGHEY,2006-02-15 04:34:33,


### Exportando datos

Pandas ofrece diferentes funciones para exportar datos en diferentes formatos.

* Para exportar un DataFrame a un fichero con extensión __csv__  utilizamos la función [__to_csv__](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html):

In [9]:
tabla_actores.to_csv('./datos/tabla_actores_procesed.csv')

Admite una gran cantidad de parámetros. Opcionalmente podemos generar un fichero csv con cabeceras o sin ellas, con índices o sin ellos.

In [10]:
tabla_actores.to_csv('./datos/tabla_actores_procesed.csv',
                      header = False, index = False)

* Para exportar un DataFrame a un fichero con extensión xls utilizamos la función __to_excel__:

In [11]:
tabla_actores.to_excel('./datos/tabla_actores_procesed.xls')

## Importando ficheros en formato Excel

Tenemos varias opciones para leer datos de una hoja de cálculo en formato xls. La función [__read_excel__](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) permite leer una tabla en formato excel y convertirla en un objeto DataFrame.

Por defecto lee la primera hoja dentro del libro, pero se puede indicar que lea otra hoja con el parámetro __sheetname__.

In [12]:
import pandas as pd
tabla = pd.read_excel('./datos/clientes.xlsx')  

In [13]:
tabla.tail()          # muestra las 5 últimas filas

Unnamed: 0,CODCLI,NOMCLI,FONOCLI,SEXO,CODDIS
15,CLI-0016,MARIA ISABEL,6302104,F,DIS-08
16,CLI-0017,RAUL ANDRES,8574123,M,DIS-20
17,CLI-0018,SAULO ANDRE,5874123,M,DIS-07
18,CLI-0019,LUCIA MILAGROS,6875210,F,DIS-20
19,CLI-0020,MONICA LISSET,6301478,F,DIS-11


Si el documento excel tiene varias hojas, es posible cargar una de ellas indicando el nombre de dicha hoja.

In [14]:
tabla= pd.read_excel('./datos/clientes.xlsx', 
                   sheetname = "Enero")    
tabla.tail()

Unnamed: 0,CODCLI,NOMCLI,FONOCLI,SEXO,CODDIS
15,CLI-0016,MARIA ISABEL,6302104,F,DIS-08
16,CLI-0017,RAUL ANDRES,8574123,M,DIS-20
17,CLI-0018,SAULO ANDRE,5874123,M,DIS-07
18,CLI-0019,LUCIA MILAGROS,6875210,F,DIS-20
19,CLI-0020,MONICA LISSET,6301478,F,DIS-11


La función __read_excel__ admite muchas opciones (saltar cabeceras, ignorar pies de página, aplicar conversiones en columnas, etc).

## References



* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)

------