<img src="../logo/logo.jpg">

# Table of Contents
* [Importar y exportar datos](#Importar-y-exportar-datos)
	* [Ficheros de texto o CSV](#Ficheros-de-texto-o-CSV)
		* [Lectura de ficheros de texto o CSV](#Lectura-de-ficheros-de-texto-o-CSV)
			* [Lectura de un subconjunto de datos](#Lectura-de-un-subconjunto-de-datos)
		* [Escritura de datos en ficheros CSV](#Escritura-de-datos-en-ficheros-CSV)
	* [Ficheros en formato Microsoft Excel](#Ficheros-en-formato-Microsoft-Excel)
		* [Lectura de ficheros Excel](#Lectura-de-ficheros-Excel)
		* [Escritura en ficheros Excel](#Escritura-en-ficheros-Excel)


# Importar y exportar datos

In [1]:
from bs4 import BeautifulSoup

import json

def listings(file):
    print(file.split('/')[-1])
    print('------------')
    print(open( file, 'r').read())
    
def printingXML(file):
    bs = BeautifulSoup(open(file), 'xml')
    print(bs.prettify())
    
import codecs   

def listingjson(file):
    with open(file) as json_data:
        d = json.load(json_data, encoding="utf-8")
    print( json.dumps(d, indent=4)     )
        


La sección anterior recoge una gran parte de las funcionalidades que proporciona la librería pandas para el análisis de datos, junto con las principales estructurasde datos:  `Series` y  `Dtaframe`.

Aunque otras librerías de Python proporcionan herramientas para importar y exportar datos, Pandas aporta una gran potencia a la hora de leer y/o escribir ficheros de datos. 
En esta sección abordamos el tema de cómo leer y almacenar datos en diferentes formatos, ya sea en ficheros o en bases de datos. Pandas proporciona una amplia colección de funciones para realizar la lectura de datos como un objeto de tipo `DataFrame`  de una forma sencilla y flexible.

Comenzamos la sección con el tratamiento de ficheros de texto, ficheros en formato Excel y ficheros en formato binario. Posteriormente abordamos el caso de la lectura de datos que se encuentrar almacenados en Bases de datos tanto SQL como NoSQL. 

In [2]:
import pandas as pd
import numpy as np

La librería Pandas presenta un conjunto de funciones recogidas en lo que se conoce como  el I/O API de Pandas. Estas funciones de dividen en dos categorías totalmente simétricas: funciones de lectura y funciones de escritura.


| Funciones de lectura | Funciones de escritura |
|----------------------|------------------------|
|read_csv              |   to_csv                     |
| read_excel| to_excel|
|read_sql | to_sql |
|read_json | to_json|
| read_html | to_html |

## Ficheros de texto o CSV

En muchas ocasiones los datos en encuentran almacenados en ficheros de texto y representados en forma de tabla. El formato más popular es el CSV , donde los valores de cada una de las filas están separados por el símbolo coma (`,`).  En otras ocasiones, los valores de cada fila están separados por otro símbolo, un tabulador o  un espacio. Este tipo de ficheros normalmente tienen extensión `.txt`. 

Las funciones más utilizadas en pandas para leer de forma flexible ficheros de texto plano son  `pd.read_csv` y  `pd.read_table`. La escritura de los datos contenidos en un dataframe o una serie se realiza mediante el método `to_csv` de las clases `Series` y `DataFrame`.

### Lectura de ficheros de texto o CSV

El fichero [animals1.csv](./datos/animals1.csv) contiene información del peso medio del cuerpo y cerebro de 8 especies de animales:

In [3]:
listings('datos/animals1.csv')    

animals1.csv
------------
Especie,Peso cuerpo,Peso cerebro
Big brown bat,0.023,0.3
Mouse,0.023,0.4
Ground squirrel,0.101,4
Tree shrew,0.104,2.5
Golden hamster,0.12,1
Mole,0.122,3
Galago,0.2,5
Rat,0.28,1.9



La función `pd.read_csv` permite crear un objeto de tipo `DataFrame` a partir de los datos contenidos en un fichero en formato CSV.

In [4]:
dfcsv = pd.read_csv('datos/animals1.csv')
dfcsv

Unnamed: 0,Especie,Peso cuerpo,Peso cerebro
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


Como podemos ver, la creación de dataframes a partir de un fichero CSV es bastante sencilla. En realidad, los ficheros CSV son ficheros de texto, por lo que también podremos utilizar la función `pd.read_table` para crear dataframes indicando el separador de los  valores de cada una de las filas en el argumento `delimiter`:

In [5]:
dfcsv = pd.read_table('datos/animals1.csv', delimiter = ',')
dfcsv

Unnamed: 0,Especie,Peso cuerpo,Peso cerebro
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


Cuando los datos almacenados en el fichero no contienen la información acerca del nombre de cada una de las columnas, es decir, los datos aparecen en la primera fila del fichero (ver tabla xx), podemos indicar mediante el argumento `header` la ausencia de cabeceras. 

Todo: poner aqui un fichero son cabeceras

In [6]:
listings("./datos/animals2.csv")   # fichero sin cabeceras

animals2.csv
------------
Big brown bat,0.023,0.3
Mouse,0.023,0.4
Ground squirrel,0.101,4
Tree shrew,0.104,2.5
Golden hamster,0.12,1
Mole,0.122,3
Galago,0.2,5
Rat,0.28,1.9



Las columnas del dataframe se indexan de forma automática con valores de tipo `int` comenzando por el valor `0`.

In [7]:
dfcsv = pd.read_csv('datos/Animals2.csv', 
                    header = None)
dfcsv

Unnamed: 0,0,1,2
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


Usando el argumento `names` de la función `pd.read_csv` es posible asignar un nombre más significativo a cada una de las columnas:

In [8]:
dfcsv = pd.read_csv('datos/animals2.csv', 
                    header = None, 
                    names = ['Especie', 'Peso Cuerpo', 'Peso cerebro'])
dfcsv

Unnamed: 0,Especie,Peso Cuerpo,Peso cerebro
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


En algunas ocasiones las primeras líneas del fichero no se corresponden con datos propiamente dichos, si no que símplemente aportan una descripción de los datos que contiene (ver tabla xx).

In [9]:
listings('datos/peliculas.csv')

peliculas.csv
------------
Cine de los 90
*********************************
Extreno: Fecha de extreno
Nombre: Título de la película
Cat: Género de la película
*********************************
Extreno,Nombre,Cat
1982,E.T. the ExtraTerrestrial,Fantasy
1982,Poltergeist,Horror
1992,Alien,Action
1992,The Crying Game,War
1995,Toy Story,Animation
1995,GoldenEye,Action
1995,Four Rooms,Thriller



El argumento `skiprows` permite omitir la lectura de un número determinado de filas al comienzo del fichero. 

In [10]:
dfcsv = pd.read_csv('datos/peliculas.csv', 
                    skiprows = 6)
dfcsv

Unnamed: 0,Extreno,Nombre,Cat
0,1982,E.T. the ExtraTerrestrial,Fantasy
1,1982,Poltergeist,Horror
2,1992,Alien,Action
3,1992,The Crying Game,War
4,1995,Toy Story,Animation
5,1995,GoldenEye,Action
6,1995,Four Rooms,Thriller


Para crear objetos de tipo  `DataFrame` donde los valores de una de las columnas en el fichero se van a convertir en el índice del dataframe, usamos el argumento `index_col`:

In [11]:
dfcsv = pd.read_csv('datos/peliculas.csv', 
                    skiprows = 6, 
                    index_col = ['Extreno'])
dfcsv

Unnamed: 0_level_0,Nombre,Cat
Extreno,Unnamed: 1_level_1,Unnamed: 2_level_1
1982,E.T. the ExtraTerrestrial,Fantasy
1982,Poltergeist,Horror
1992,Alien,Action
1992,The Crying Game,War
1995,Toy Story,Animation
1995,GoldenEye,Action
1995,Four Rooms,Thriller


También es posible crear dataframes con multiíndices a partir de los datos contenidos en un fichero. Por ejemplo, podemos usar el argumento `index_col` con la lista de columnas en el  fichero serán los índices del dataframe:

In [12]:
dfcsv = pd.read_csv('datos/peliculas.csv', 
                    skiprows = 6, 
                    index_col = [0, 1])
dfcsv

Unnamed: 0_level_0,Unnamed: 1_level_0,Cat
Extreno,Nombre,Unnamed: 2_level_1
1982,E.T. the ExtraTerrestrial,Fantasy
1982,Poltergeist,Horror
1992,Alien,Action
1992,The Crying Game,War
1995,Toy Story,Animation
1995,GoldenEye,Action
1995,Four Rooms,Thriller


#### Lectura de un subconjunto de datos


Cuando los ficheros de datos que queremos procesar son muy grandes, pandas ofrece la posibilidad de realizar una lectura por partes. Esta opción permite procesar solo una parte de los datos. El argumento `nrows` permite procesar un numero determinado de filas del fichero, mientras que el argumento `skiprows` permite indicar las filas que no queremos procesar.

In [13]:
dfcsv = pd.read_csv('datos/peliculas.csv', 
                    skiprows = 6, 
                    nrows =2)
dfcsv

Unnamed: 0,Extreno,Nombre,Cat
0,1982,E.T. the ExtraTerrestrial,Fantasy
1,1982,Poltergeist,Horror


### Escritura de datos en ficheros CSV

Los datos almacenados en las estructuras de datos de Pandas, ya sea en `Series` o `DataFrames`, pueden ser almacenados en ficheros. Esta es una operación se realiza de forma habitual después del procesamiento de datos, limpieza, etc.
Por ejemplo, para escribir los datos incluídos en un DataFrame en un fichero CSV utilizamos el método [`to_csv`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) con el nombre del fichero como argumento.

In [14]:
dfcsv = pd.read_csv('datos/peliculas2.csv', index_col = ['Extreno'])
dfcsv

Unnamed: 0_level_0,Nombre,Minutos
Extreno,Unnamed: 1_level_1,Unnamed: 2_level_1
1982,E.T. the ExtraTerrestrial,114
1982,Poltergeist,91
1992,Alien,144
1992,The Crying Game,113
1995,Toy Story,81
1995,GoldenEye,130
1995,Four Rooms,94


Admite una gran cantidad de parámetros. Opcionalmente podemos generar un fichero csv con cabeceras o sin ellas, con índices o sin ellos.

In [15]:
dfcsv.to_csv('./datos/datos.csv')

In [16]:
listings('./datos/datos.csv')

datos.csv
------------
Extreno,Nombre,Minutos
1982,E.T. the ExtraTerrestrial,114
1982,Poltergeist,91
1992,Alien,144
1992,The Crying Game,113
1995,Toy Story,81
1995,GoldenEye,130
1995,Four Rooms,94



Como se puede ver en el ejemplo, tanto el índice como las columnas del DataFrame se escriben en el fichero. Los argumentos `index` y `header` permiten cambiar el comportamiento por defecto:

In [17]:
dfcsv.to_csv('./datos/datos.csv', header = True, index = False)

In [18]:
listings('./datos/datos.csv')

datos.csv
------------
Nombre,Minutos
E.T. the ExtraTerrestrial,114
Poltergeist,91
Alien,144
The Crying Game,113
Toy Story,81
GoldenEye,130
Four Rooms,94



## Ficheros en formato Microsoft Excel

Otra forma muy habitual para guardar datos en forma tabular es mediante hojas de cálculo en un libro o fichero de Microsoft Excel. Pandas incluye la función `pd.read_excel` para realizar la lectura de datos y crear dataframes, mientras que el método `to_excel` de la clase `Dataframe` permite escribir los datos en una hoja de cálculo de Microsoft Excel.

### Lectura de ficheros Excel

La función [`pd.read_excel`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) permite crear objetos de tipo `DataFrame` a partir de los datos contenidos en ficheros con extensión `.xls` y `.xlsx`. La figura muestra el contenido de dos hojas contenidas en el fichero [clientes.xlsx](./datos/clientes.xlsx).

<img src="./images/imagenExcel.jpg">


Por defecto, la función `pd.read_excel` lee los datos de la primera hoja dentro del libro, pero se puede indicar que lea los datos de otra hoja usando el argumento `sheetname`.

In [19]:
dfexcel = pd.read_excel('./datos/clientes.xlsx') 
dfexcel

Unnamed: 0,CODCLI,NOMCLI,SEXO
0,CLI-0001,ROSA ELVIRA,F
1,CLI-0003,MIGUEL ANGEL,M
2,CLI-0004,ANA MARIA,F
3,CLI-0013,BRIGGITTE,F
4,CLI-0018,SAULO ANDRE,M
5,CLI-0020,MONICA,F


In [20]:
dfexcel = pd.read_excel('./datos/clientes.xlsx', 
                        sheetname = "Hoja2") 
dfexcel

Unnamed: 0,CODCLI,EUROS,MAX
0,CLI-0001,89574,100000
1,CLI-0019,68752,80000
2,CLI-0020,63014,70000


La función `pd.read_excel` es tan flexible como lo pueda ser la función `pd.read_csv` para ficheros de texto. Es posible saltar cabeceras, leer un número determinado de filas, leer solo algunas de las columnas contenidas en la hoja de cálculo, etc. Su funcionamiento varía dependiendo de los valores de los argumentos cuando se invoca la función. 

En el siguiente ejemplo aplicamos una función de conversión  a los valores contenidos en la columna `NOMCLI` de la primera hoja del fichero.

In [21]:
dfexcel = pd.read_excel('./datos/clientes.xlsx', 
                      converters = {'NOMCLI': lambda x: x.title() }) 
dfexcel

Unnamed: 0,CODCLI,NOMCLI,SEXO
0,CLI-0001,Rosa Elvira,F
1,CLI-0003,Miguel Angel,M
2,CLI-0004,Ana Maria,F
3,CLI-0013,Briggitte,F
4,CLI-0018,Saulo Andre,M
5,CLI-0020,Monica,F


El argumento `converters` recibe como valor un diccionario, cuyas claves son las columnas sobre las que se va a aplicar una función de conversión. El valor asociado a cada clave es la función a aplicar.

El argumento `na_values` permite sustituir valores contenidos en la hoja de cálculo por `NaN`.  Dicho argumento recibe un diccionario, cuyas claves son las columnas sobre las que se va a aplicar la sustitución, y el valor de cada clave es la lista de valores que han de ser sustituidos por NaN. Observar la hoja de cálculo de la figura XX.


<img src="./images/imagenExcel2.jpg">


La columna `TLF` tiene valor `-` en aquellas celdas donde no se conoce el dato, mientras  que la columna `SEXO` tiene celdas con valor `Desconocido`. También podemos observar que la columna `NOMCLI` tiene una celda vacía. En el siguienTe ejemplo mostramos cómo manejar estas situaciones:

In [22]:
dfexcel = pd.read_excel('./datos/clientes1.xlsx', 
                      na_values = {'SEXO': ['Desconocido'],
                                   'TLF' : ['-'] } ) 
dfexcel

Unnamed: 0,CODCLI,NOMCLI,SEXO,TLF
0,CLI-0001,ROSA ELVIRA,F,7578.0
1,CLI-0003,MIGUEL ANGEL,,
2,CLI-0004,ANA MARIA,,
3,CLI-0013,BRIGGITTE,F,
4,CLI-0018,SAULO ANDRE,M,
5,CLI-0020,,F,7600.0


Las celdas vacías en la hoja de cálculo se transforman automáticamente en `NaN` en el dataframe.

### Escritura en ficheros Excel

Pandas también ofrece la posibilidad de escribir los datos incluídos en un DataFrame en
una hoja de un fichero Excel. Para ello usamos el método `to_excel` de la clase `DataFrame` indicando el nombre del fichero. Los argumentos `header` e `index` , discutidos en el caso del método `to_csv`, también están disponibles aquí.

In [23]:
dfexcel.to_excel('clientes4.xlsx', index = False)

En la figura se puede observar que los valores `NAN` del dataframe pasan a ser celdas vacías en la hoja de cálculo, pudiéndose usar el argumento `na_rep` para cambiar el comportamiento.

<img src="./images/imagenExcel3.jpg">

En el siguiente ejemplo usamos el argumento `sheet_name` para asignar un nombre a la hoja de cálculo creada entro del fichero y el argumento `columns` para indicar el subconjunto de columnas que queremos llevar a la hoja de cálculo. El resultado puede verse en la figura XX.

In [24]:
dfexcel.to_excel('clientes5.xlsx', index = False, 
                   sheet_name='mis datos', 
                   columns = ['NOMCLI', 'SEXO'],
                   na_rep='--')

<img src="./images/imagenExcel4.jpg">

## References



* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)


------