<div id="navegacion" prev="../Tema_7/t7_pandas_02.html" next="../Tema_7/t7_pandas_013.html"></div>

<div class="section-title">Sección 4.4</div>

In [1]:
from bs4 import BeautifulSoup

import json

def listings(file):
    print(file.split('/')[-1])
    print('------------')
    print(open( file, 'r').read())
    
def printingXML(file):
    bs = BeautifulSoup(open(file), 'xml')
    print(bs.prettify())
    
import codecs   

def listingjson(file):
    with open(file) as json_data:
        d = json.load(json_data, encoding="utf-8")
    print( json.dumps(d, indent=4)     )
        


# Importar y exportar datos

Aunque otras librerías de Python proporcionan herramientas para importar y exportar datos, Pandas aporta una gran potencia a la hora de leer y/o escribir ficheros de datos. 
En esta sección abordamos el tema de cómo leer y almacenar datos en diferentes formatos, ya sea en ficheros o en bases de datos. Pandas proporciona una amplia colección de funciones para realizar la lectura de datos como un objeto de tipo `DataFrame`  de una forma sencilla y flexible.

Comenzamos la Sección con el tratamiento de ficheros de texto, ficheros en formato Excel y ficheros en formato binario. Posteriormente abordamos el caso de la lectura de datos que se encuentrar almacenados en Bases de datos tanto SQL como NoSQL. 

In [2]:
import pandas as pd
import numpy as np

## Ficheros de texto o CSV

En muchas ocasiones los datos en encuentran almacenados en ficheros de texto y representados en forma de tabla. El formato más popular es el CSV , donde los valores de cada una de las filas están separados por el símbolo coma (`,`).  En otras ocasiones, los valores de cada fila están separados por otro símbolo, un tabulador o  un espacio. Este tipo de ficheros normalmente tienen extensión `.txt`. 

Las funciones más utilizadas en pandas para leer de forma flexible ficheros de texto plano son  `pd.read_csv` y  `pd.read_table`. La escritura de los datos contenidos en un dataframe o una serie se realiza mediante el método `to_csv` de las clases `Series` y `DataFrame`.

### Lectura de ficheros de texto o CSV

El fichero [animals1.csv](./datos/animals1.csv) contiene información del peso medio del cuerpo y cerebro de 8 especies de animales:

```
animals1.csv
------------
Especie,Peso cuerpo,Peso cerebro
Big brown bat,0.023,0.3
Mouse,0.023,0.4
Ground squirrel,0.101,4
Tree shrew,0.104,2.5
Golden hamster,0.12,1
Mole,0.122,3
Galago,0.2,5
Rat,0.28,1.9
```

La función `pd.read_csv` permite crear un objeto de tipo `DataFrame` a partir de los datos contenidos en un fichero en formato CSV.

In [4]:
dfcsv = pd.read_csv('datos/animals1.csv')
dfcsv

Unnamed: 0,Especie,Peso cuerpo,Peso cerebro
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


Como podemos ver, la creación de dataframes a partir de un fichero CSV es bastante sencilla. En realidad, los ficheros CSV son ficheros de texto, por lo que también podremos utilizar la función `pd.read_table` para crear dataframes indicando el separador de los  valores de cada una de las filas en el argumento `delimiter`:

In [5]:
dfcsv = pd.read_table('datos/animals1.csv', delimiter = ',')
dfcsv

Unnamed: 0,Especie,Peso cuerpo,Peso cerebro
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


Cuando los datos almacenados en el fichero no contienen la información acerca del nombre de cada una de las columnas, es decir, los datos aparecen en la primera fila del fichero, podemos indicar mediante el argumento `header` la ausencia de cabeceras. 

```
animals2.csv
------------
Big brown bat,0.023,0.3
Mouse,0.023,0.4
Ground squirrel,0.101,4
Tree shrew,0.104,2.5
Golden hamster,0.12,1
Mole,0.122,3
Galago,0.2,5
Rat,0.28,1.9
```


Las columnas del dataframe se indexan de forma automática con valores de tipo `int` comenzando por el valor `0`.

In [7]:
dfcsv = pd.read_csv('datos/Animals2.csv', header = None)
dfcsv

Unnamed: 0,0,1,2
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


Usando el argumento `names` de la función `pd.read_csv` es posible asignar un nombre más significativo a cada una de las columnas:

In [8]:
dfcsv = pd.read_csv('datos/animals2.csv', 
                    header = None, 
                    names = ['Especie', 'Peso Cuerpo', 'Peso cerebro'])
dfcsv

Unnamed: 0,Especie,Peso Cuerpo,Peso cerebro
0,Big brown bat,0.023,0.3
1,Mouse,0.023,0.4
2,Ground squirrel,0.101,4.0
3,Tree shrew,0.104,2.5
4,Golden hamster,0.12,1.0
5,Mole,0.122,3.0
6,Galago,0.2,5.0
7,Rat,0.28,1.9


En algunas ocasiones las primeras líneas del fichero no se corresponden con datos propiamente dichos, si no que símplemente aportan una descripción de los datos que contiene.

```
peliculas.csv
------------
Cine de los 90
*********************************
Extreno: Fecha de extreno
Nombre: Título de la película
Cat: Género de la película
*********************************
Extreno,Nombre,Cat
1982,E.T. the ExtraTerrestrial,Fantasy
1982,Poltergeist,Horror
1992,Alien,Action
1992,The Crying Game,War
1995,Toy Story,Animation
1995,GoldenEye,Action
1995,Four Rooms,Thriller
```

El argumento `skiprows` permite omitir la lectura de un número determinado de filas al comienzo del fichero. 

In [10]:
dfcsv = pd.read_csv('datos/peliculas.csv', skiprows = 6)
dfcsv

Unnamed: 0,Extreno,Nombre,Cat
0,1982,E.T. the ExtraTerrestrial,Fantasy
1,1982,Poltergeist,Horror
2,1992,Alien,Action
3,1992,The Crying Game,War
4,1995,Toy Story,Animation
5,1995,GoldenEye,Action
6,1995,Four Rooms,Thriller


También es posible omitir la lectura de ciertas filas indicándolo mediante una lista de filas en el argumentos `skiprows`.

In [11]:
dfcsv = pd.read_csv('datos/peliculas.csv', 
                    skiprows = [0, 1, 2, 3, 4 , 5, 6, 7, 8, 9])
dfcsv

Unnamed: 0,1992,The Crying Game,War
0,1995,Toy Story,Animation
1,1995,GoldenEye,Action
2,1995,Four Rooms,Thriller


Para crear objetos de tipo  `DataFrame` donde los valores de una de las columnas en el fichero se van a convertir en el índice del dataframe, usamos el argumento `index_col`:

In [12]:
dfcsv = pd.read_csv('datos/peliculas.csv', skiprows = 6, 
                    index_col = ['Extreno'])
dfcsv

Unnamed: 0_level_0,Nombre,Cat
Extreno,Unnamed: 1_level_1,Unnamed: 2_level_1
1982,E.T. the ExtraTerrestrial,Fantasy
1982,Poltergeist,Horror
1992,Alien,Action
1992,The Crying Game,War
1995,Toy Story,Animation
1995,GoldenEye,Action
1995,Four Rooms,Thriller


También es posible crear dataframes con multiíndices a partir de los datos contenidos en un fichero. Por ejemplo, podemos usar el argumento `index_col` con la lista de columnas en el  fichero serán los índices del dataframe:

In [13]:
dfcsv = pd.read_csv('datos/peliculas.csv', skiprows = 6, 
                    index_col = [0, 1])
dfcsv

Unnamed: 0_level_0,Unnamed: 1_level_0,Cat
Extreno,Nombre,Unnamed: 2_level_1
1982,E.T. the ExtraTerrestrial,Fantasy
1982,Poltergeist,Horror
1992,Alien,Action
1992,The Crying Game,War
1995,Toy Story,Animation
1995,GoldenEye,Action
1995,Four Rooms,Thriller


El proceso de lectura de datos en los ejemplos anteriores ha sido una taréa sencilla, pero esta taréa se puede complicar cuando, por ejemplo, el separador no es un símbolo fijo como la coma, si no que es una secuencia indefinida de espacios, un tabulador, etc. Para estos casos, podemos utilizar *expresiones regulares* en el argumento `sep`.

```
islas.txt
------------
Nombre		Superficie    Densidad
Borneo		748168		26,3
Madagascar	587713		34,1
Cuba		105806		103,3
Taiwan		35753		371
```

In [15]:
dfcsv = pd.read_table('datos/islas.txt', sep = '\s*', engine = 'python');


  yield pat.split(line.strip())
  yield pat.split(line.strip())


In [16]:
dfcsv

Unnamed: 0,Nombre,Superficie,Densidad
0,Borneo,748168,263
1,Madagascar,587713,341
2,Cuba,105806,1033
3,Taiwan,35753,371


En el ejemplo anterior, la expresión regular `/s*` sirve para indidar que el separador de valores de cada fila del fichero puede ser el tabulador y/o varios espacios en blanco.


Cuando los ficheros de datos que queremos procesar son muy grandes, pandas ofrece la posibilidad de realizar una lectura por partes. Esta opción permite procesar solo una parte de los datos. El argumento `nrows` permite procesar un numero determinado de filas del fichero, mientras que el argumento `skiprows` permite indicar las filas que no queremos procesar.

In [3]:
dfcsv = pd.read_csv('datos/peliculas.csv', skiprows = 6, nrows =2)
dfcsv

Unnamed: 0,Extreno,Nombre,Cat
0,1982,E.T. the ExtraTerrestrial,Fantasy
1,1982,Poltergeist,Horror


Si queremos leer el fichero completo en trozos, usamos el argumento `chunksize` para especificar el número de filas que componen cada trozo.

```

peliculas2.csv
------------
Extreno,Nombre,Minutos
1982,E.T. the ExtraTerrestrial,114
1982,Poltergeist,91
1992,Alien,144
1992,The Crying Game,113
1995,Toy Story,81
1995,GoldenEye,130
1995,Four Rooms,94
```

En el siguiente ejemplo, leemos el fichero por trozos y procesamos cada uno de ellos.

In [19]:
trozos = pd.read_csv('./datos/peliculas2.csv', chunksize = 3) 
for t in trozos:                        
    print(len(t), t.Minutos.max())   

3 144
3 130
1 94


En el ejemplo anterior, se realiza una lectura del fichero en porciones de tres filas, excepto la última porción que consta solo de una fila. El iterador `for` permite iterar sobre cada uno de los trozos y procesarlos.

### Escritura de datos en ficheros CSV

Los datos almacenados en las estructuras de datos de Pandas, ya sea en `Series` o `DataFrames`, pueden ser almacenados en ficheros. Esta es una operación se realiza de forma habitual después del procesamiento de datos, limpieza, etc.
Por ejemplo, para escribir los datos incluídos en un DataFrame en un fichero CSV utilizamos el método [`to_csv`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) con el nombre del fichero como argumento.

In [20]:
dfcsv = pd.read_csv('datos/peliculas2.csv', index_col = ['Extreno'])
dfcsv

Unnamed: 0_level_0,Nombre,Minutos
Extreno,Unnamed: 1_level_1,Unnamed: 2_level_1
1982,E.T. the ExtraTerrestrial,114
1982,Poltergeist,91
1992,Alien,144
1992,The Crying Game,113
1995,Toy Story,81
1995,GoldenEye,130
1995,Four Rooms,94


Admite una gran cantidad de parámetros. Opcionalmente podemos generar un fichero csv con cabeceras o sin ellas, con índices o sin ellos.

In [21]:
dfcsv.to_csv('./datos/datos.csv')

```
datos.csv
------------
Extreno,Nombre,Minutos
1982,E.T. the ExtraTerrestrial,114
1982,Poltergeist,91
1992,Alien,144
1992,The Crying Game,113
1995,Toy Story,81
1995,GoldenEye,130
1995,Four Rooms,94

```


Como se puede ver en el ejemplo, tanto el índice como las columnas del DataFrame se escriben en el fichero. Los argumentos `index` y `header` permiten cambiar el comportamiento por defecto:

In [23]:
dfcsv.to_csv('./datos/datos.csv', header = True, index = False)

```

datos.csv
------------
Nombre,Minutos
E.T. the ExtraTerrestrial,114
Poltergeist,91
Alien,144
The Crying Game,113
Toy Story,81
GoldenEye,130
Four Rooms,94
```

En éste punto nos preguntamos qué sucede con los valores `NaN` existentes en un dataframe. Por defecto, los valores `NaN` se muestran como campos vacíos en el fichero. 

In [25]:
col = [ 1, 2, np.nan, 4, np.nan, np.nan, np.nan]

dfcsv.insert(1, 'Nueva Columna', value = col)
dfcsv

Unnamed: 0_level_0,Nombre,Nueva Columna,Minutos
Extreno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1982,E.T. the ExtraTerrestrial,1.0,114
1982,Poltergeist,2.0,91
1992,Alien,,144
1992,The Crying Game,4.0,113
1995,Toy Story,,81
1995,GoldenEye,,130
1995,Four Rooms,,94


In [26]:
dfcsv.to_csv('./datos/datos.csv', header = True, index = False)

```
datos.csv
------------
Nombre,Nueva Columna,Minutos
E.T. the ExtraTerrestrial,1.0,114
Poltergeist,2.0,91
Alien,,144
The Crying Game,4.0,113
Toy Story,,81
GoldenEye,,130
Four Rooms,,94
```

El argumento `na_rep` permite reemplazar los valores `NaN` del dataframe por otros que elija el usuario.

In [28]:
dfcsv.to_csv('datos.csv', header = True, index = False, na_rep = 0)

```
datos.csv
------------
Nombre,Nueva Columna,Minutos
E.T. the ExtraTerrestrial,1.0,114
Poltergeist,2.0,91
Alien,0,144
The Crying Game,4.0,113
Toy Story,0,81
GoldenEye,0,130
Four Rooms,0,94
```

Aunque los ejemplos anteriores solo tratan con dataframes, el comportamiento es análogo si tratamos con series.

## Ficheros en formato Microsoft Excel

Otra forma muy habitual para guardar datos en forma tabular es mediante hojas de cálculo en un libro o fichero de Microsoft Excel. Pandas incluye la función `pd.read_excel` para realizar la lectura de datos y crear dataframes, mientras que el método `to_excel` de la clase `Dataframe` permite escribir los datos en una hoja de cálculo de Microsoft Excel.

### Lectura de ficheros Excel

La función [`pd.read_excel`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) permite crear objetos de tipo `DataFrame` a partir de los datos contenidos en ficheros con extensión `.xls` y `.xlsx`. La figura XX muestra el contenido de dos hojas contenidas en el fichero [clientes.xlsx](./datos/clientes.xlsx).

<img src="./images/imagenExcel.jpg">


Por defecto, la función `pd.read_excel` lee los datos de la primera hoja dentro del libro, pero se puede indicar que lea los datos de otra hoja usando el argumento `sheetname`.

In [34]:
dfexcel = pd.read_excel('./datos/clientes.xlsx') 
dfexcel

Unnamed: 0,CODCLI,NOMCLI,SEXO
0,CLI-0001,ROSA ELVIRA,F
1,CLI-0003,MIGUEL ANGEL,M
2,CLI-0004,ANA MARIA,F
3,CLI-0013,BRIGGITTE,F
4,CLI-0018,SAULO ANDRE,M
5,CLI-0020,MONICA,F


In [35]:
dfexcel = pd.read_excel('./datos/clientes.xlsx', sheetname = "Hoja2") 
dfexcel

Unnamed: 0,CODCLI,EUROS,MAX
0,CLI-0001,89574,100000
1,CLI-0019,68752,80000
2,CLI-0020,63014,70000


La función `pd.read_excel` es tan flexible como lo pueda ser la función `pd.read_csv` para ficheros de texto. Es posible saltar cabeceras, leer un número determinado de filas, leer solo algunas de las columnas contenidas en la hoja de cálculo, etc. Su funcionamiento varía dependiendo de los valores de los argumentos cuando se invoca la función. 

En el siguiente ejemplo aplicamos una función de conversión (función `funtitle` previamente definida) a los valores contenidos en la columna `NOMCLI` de la primera hoja del fichero.

In [36]:
def funtitle(cadena):
    return cadena.title()

dfexcel = pd.read_excel('./datos/clientes.xlsx', converters = {'NOMCLI': funtitle}) 
dfexcel

Unnamed: 0,CODCLI,NOMCLI,SEXO
0,CLI-0001,Rosa Elvira,F
1,CLI-0003,Miguel Angel,M
2,CLI-0004,Ana Maria,F
3,CLI-0013,Briggitte,F
4,CLI-0018,Saulo Andre,M
5,CLI-0020,Monica,F


O lo que es lo mismo, pero usando funciones anónimas:

In [37]:
dfexcel = pd.read_excel('./datos/clientes.xlsx', 
                      converters = {'NOMCLI': lambda x: x.title() }) 
dfexcel

Unnamed: 0,CODCLI,NOMCLI,SEXO
0,CLI-0001,Rosa Elvira,F
1,CLI-0003,Miguel Angel,M
2,CLI-0004,Ana Maria,F
3,CLI-0013,Briggitte,F
4,CLI-0018,Saulo Andre,M
5,CLI-0020,Monica,F


El argumento `converters` recibe como valor un diccionario, cuyas claves son las columnas sobre las que se va a aplicar una función de conversión. El valor asociado a cada clave es la función a aplicar.

El argumento `na_values` permite sustituir valores contenidos en la hoja de cálculo por `NaN`.  Dicho argumento recibe un diccionario, cuyas claves son las columnas sobre las que se va a aplicar la sustitución, y el valor de cada clave es la lista de valores que han de ser sustituidos por NaN. 

<img src="./images/imagenExcel2.jpg">


La columna `TLF` tiene valor `-` en aquellas celdas donde no se conoce el dato, mientras  que la columna `SEXO` tiene celdas con valor `Desconocido`. También podemos observar que la columna `NOMCLI` tiene una celda vacía. En el siguiente ejemplo mostramos cómo manejar estas situaciones:

In [38]:
dfexcel = pd.read_excel('./datos/clientes1.xlsx', 
                      na_values = {'SEXO': ['Desconocido'],
                                   'TLF' : ['-'] } ) 
dfexcel

Unnamed: 0,CODCLI,NOMCLI,SEXO,TLF
0,CLI-0001,ROSA ELVIRA,F,7578.0
1,CLI-0003,MIGUEL ANGEL,,
2,CLI-0004,ANA MARIA,,
3,CLI-0013,BRIGGITTE,F,
4,CLI-0018,SAULO ANDRE,M,
5,CLI-0020,,F,7600.0


Las celdas vacías en la hoja de cálculo se transforman automáticamente en `NaN` en el dataframe.

La clase `ExcelFile` de Pandas tiene un mejor rendimiento cuando se trabaja con varias hojas de cálculo de un fichero Excel, ya que el fichero se carga en memoria una sola vez. En el siguiente ejemplo, mostramos cómo se lee un libro de Microsoft Excel mediante la función `pd.ExcelFile`. Posteriormente, mediante el método `to_excel` creamos tantos dataframes como hojas de cálculo queramos leer.

In [39]:
libro = pd.ExcelFile('./datos/clientes.xlsx')
df1 = pd.read_excel(libro, sheetname= 'Hoja1', index_col = [0])
df2 = pd.read_excel(libro, sheetname= 'Hoja2')

In [40]:
df1

Unnamed: 0_level_0,NOMCLI,SEXO
CODCLI,Unnamed: 1_level_1,Unnamed: 2_level_1
CLI-0001,ROSA ELVIRA,F
CLI-0003,MIGUEL ANGEL,M
CLI-0004,ANA MARIA,F
CLI-0013,BRIGGITTE,F
CLI-0018,SAULO ANDRE,M
CLI-0020,MONICA,F


In [41]:
df2

Unnamed: 0,CODCLI,EUROS,MAX
0,CLI-0001,89574,100000
1,CLI-0019,68752,80000
2,CLI-0020,63014,70000


### Escritura en ficheros Excel

Pandas también ofrece la posibilidad de escribir los datos incluídos en un DataFrame en
una hoja de un fichero Excel. Para ello usamos el método `to_excel` de la clase `DataFrame` indicando el nombre del fichero. Los argumentos `header` e `index` , discutidos en el caso del método `to_csv`, también están disponibles aquí.

In [42]:
dfexcel.to_excel('clientes4.xlsx', index = False)

Se puede observar que los valores `NAN` del dataframe pasan a ser celdas vacías en la hoja de cálculo, pudiéndose usar el argumento `na_rep` para cambiar el comportamiento.

<img src="./images/imagenExcel3.jpg">

En el siguiente ejemplo usamos el argumento `sheet_name` para asignar un nombre a la hoja de cálculo creada entro del fichero y el argumento `columns` para indicar el subconjunto de columnas que queremos llevar a la hoja de cálculo. 

In [43]:
dfexcel.to_excel('clientes5.xlsx', index = False, 
                   sheet_name='mis datos', 
                   columns = ['NOMCLI', 'SEXO'],
                   na_rep='--')

<img src="./images/imagenExcel4.jpg">

El método `to_excel` tiene ciertas limitaciones. Por ejemplo, cuando queremos escribir los datos de distintos dataframes en distintas hojas de cálculo dentro del mismo libro.
La clase `ExcelWriter` de Pandas resuelve éste problema.

En el siguiente ejemplo, mostramos cómo se crea un libro de Microsoft Excel mediante la función `pd.ExcelWriter`. Posteriormente, mediante el método `to_excel` escribimos los datos de distintos dataframes en distintas hojas, dentro del mismo fichero. 

In [44]:
df1 = dfexcel.loc[:, ['NOMCLI', 'SEXO']]
df1

Unnamed: 0,NOMCLI,SEXO
0,ROSA ELVIRA,F
1,MIGUEL ANGEL,
2,ANA MARIA,
3,BRIGGITTE,F
4,SAULO ANDRE,M
5,,F


In [45]:
df2 = dfexcel.loc[:, ['CODCLI', 'TLF']]
df2

Unnamed: 0,CODCLI,TLF
0,CLI-0001,7578.0
1,CLI-0003,
2,CLI-0004,
3,CLI-0013,
4,CLI-0018,
5,CLI-0020,7600.0


In [46]:
libro = pd.ExcelWriter('clientes6.xlsx')
df1.to_excel(libro,'Datos en df1', index = False)
df2.to_excel(libro,'Datos en df2', index = False)
libro.save()

<img src="./images/imagenExcel5.jpg">

## Tratamento de ficheros en formato HTML

Hoy en día existen muchos datos alojados en sitios web. En algunos casos, los datos se encuentran en ficheros (CSV o Excel) y pueden ser descargados libremente para su uso posterior. En otros casos, los datos están integrados en la propia página a través de su código HTML, por lo que resulta muy útil disponer de herramientas capaces de navegar por dicho código en busca de los datos que nos interesen. 

La librería Pandas proporciona herramientas eficientes para manejar documentos en formato HTML. El método `to_html` de la clase `DataFrame` permite transformar dataframes en tablas HTML de forma automática. La operación inversa también es posible; la función `pd.read_html` es  capaz de recorrer el código HTML de una página web en busca de los datos contenidos en tablas. 

### Leer datos de un documento HTML

La función `pd.read_html` de Pandas recorre un documento HTML en busca de elementos de tipo `<table>`.  El valor devuelto por `pd.read_html` es una lista de objetos de tipo `DataFrame`, uno por cada tabla encontrada en el documento. Como argumento de entrada, la función `pd.read_html` recibe un documento HTML alojado localmente o un objeto de tipo `str` que represente el contenido de un documento HTML. 

En el siguiente ejemplo, mostramos cómo extraer la información de la página web con URL "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid". Esta página muestra datos asociados a distintas localidades de la Comunidad de Madrid. Para poder acceder al código HTML de una página web es necesario realizar una petición usando el protocolo HTTP Request/Response.

In [47]:
import requests

url = "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid"
respuesta = requests.get(url)
if respuesta.status_code  == 200:
    print('La petición HTTP ha ido bien')    
else:
    print('Problemas con la petición...')

La petición HTTP ha ido bien


La librería [Requests](http://docs.python-requests.org/en/master/) permite realizar peticiones HTTP de forma muy sentilla. Para usarla es necesario importarla. La función `requests.get` abre una conexión con el servidor donde se encuentra la url y manda la petición. La respuesta del servidor se almacena en un objeto de la clase `Response`. El objeto devuelto almacena muchos datos relacionados con la petición HTTP (cabeceras, cookies, etc.). De momento nos interesa conocer si la petición ha tenido éxito (propiedad `status_code`) y el string que representa el documento HTML de la página (propiedad `text`). 

In [48]:
codigoHTML = respuesta.text
lista_dataframes = pd.read_html(codigoHTML, header=0)

La función  `pd.read_html` devuelve una lista de dataframes, en el caso de que la página asociada a la url contenga algún elemento de tipo `<table>`. En otro caso, la función no devuelve la lista vacía, sino que devuelve un error de ejecución.

In [49]:
len(lista_dataframes)

1

En nuestro ejemplo, la lista devuelta contiene un único dataframe:

In [50]:
lista_dataframes[0].head(7)

Unnamed: 0,Nombre,Población (2014),Superficie (km²)[1],Mapa,Escudo,Capitalidad[1],Altitud (msnm)[a] [2]
0,La Acebeda,67,2206,,,La Acebeda,1271
1,Ajalvir,4339,1962,,,Ajalvir,680
2,Alameda del Valle,224,2501,,,Alameda del Valle,1104
3,El Álamo,8929,2225,,,El Álamo,608
4,Alcalá de Henares,200 768,8772,,,Alcalá de Henares,587
5,Alcobendas,112 188,4498,,,Alcobendas,669
6,Alcorcón,170 336,3373,,,Alcorcón,711


Como se puede observar, la función `pd.read_html` ignora todos los elementos contenidos en el documento HTML que no tengan nada que ver con tablas HTML.

### Escritura de dataframes en código HTML

Una tabla HTML viene representada por una estructura jerárquica donde el elemento principal es el elemento `<table>`. Cada fila de la tabla se representa con un elemento de tipo `<tr>` y cada celda es un elemento de tipo `<th>` para las celdas de cabecera y `<td>` para el resto. El siguiente ejemplo muestra el código de una tabla HTML:

In [51]:
from IPython.display import HTML
s = """
<table>
    <tr>
      <th><strong>Ana</strong></th>
      <th><strong>Pablo</strong></th>
      <th><strong>Jaime</strong></th>
    </tr>
 
    <tr>
      <td>10</td>
      <td>20</td>
      <td>30</td>
    </tr>
 
    <tr>
      <td>40</td>
      <td>50</td>
      <td>60</td>
    </tr>
</table>"""
HTML(s)

Ana,Pablo,Jaime
10,20,30
40,50,60


El método `to_html` de la clase `DataFrame` es capaza de crear una tabla HTML a partir de los datos contenidos en el dataframe de forma automática.

In [52]:
dfcsv = pd.read_csv('datos/peliculas.csv', skiprows = [0, 1, 2, 3, 4 , 5, 6, 7, 8, 9])
dfcsv

Unnamed: 0,1992,The Crying Game,War
0,1995,Toy Story,Animation
1,1995,GoldenEye,Action
2,1995,Four Rooms,Thriller


In [53]:
print(dfcsv.to_html())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>1992</th>
      <th>The Crying Game</th>
      <th>War</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1995</td>
      <td>Toy Story</td>
      <td>Animation</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1995</td>
      <td>GoldenEye</td>
      <td>Action</td>
    </tr>
    <tr>
      <th>2</th>
      <td>1995</td>
      <td>Four Rooms</td>
      <td>Thriller</td>
    </tr>
  </tbody>
</table>


Una vez generada la tabla HTML, podemos integrar el código en cualquier documento HTML para ser interpretado por un navegador.

## Tratamiento de datos en formato XML

Actualmente son muchas las aplicaciones y sistemas que comparten información. Es por ello que se han desarrollado estándares para la representación de datos. Entre los más populares está XML junto con JSON.  
XML es un lenguaje de marcas que permite representar cualquier estructura de datos de forma jerárquica y con atributos variables.  Sin embargo, Pandas no incorpora ninguna función para tratar de forma directa los datos que se encuentran en este formato. Sin embargo existen en Python varias librerías que ofrecen herramientas para leer documentos XML con el fin de extraer información.

A continuación mostramos una de las librerías que permite el tratamiento de documentos en formato XML. Se trata de la librería [`lxml`](http://lxml.de/). Esta librería ofrece una estructura de datos capaz de representar documentos XML y los métodos necesarios para navegar por dichos documentos. Se trata de la clase `tree`.

### Lectura de documentos XML alojados localmente

En la figura XX mostramos un ejemplo de cómo se puede representar la información básica de una colección de canciones mediante una estructura jerárquica usando XML.

In [54]:
printingXML("./datos/songs.xml")

<?xml version="1.0" encoding="utf-8"?>
<canciones>
 <cancion fecha="1992">
  <titulo>
   Nothing Else Matters
  </titulo>
  <interprete>
   Metallica
  </interprete>
 </cancion>
 <cancion fecha="2010">
  <titulo>
   Need you now
  </titulo>
  <interprete>
   Lady Antebellum
  </interprete>
  <estilo>
   Country pop
  </estilo>
 </cancion>
</canciones>


Un documento XML es una colección de elementos.La primera línea es la declaración del documento XML. En este ejemplo, la primera línea contiene información acerca de la versión y la codificación usada. La segunda línea describe el elemento raíz del documento (root element), definido bajo la etiqueta `canciones`.

Los documentos XML se pueden representar mediante una estructura de árbol (ver figura XXX). Bajo el elemento raíz  tenemos dos elementos hijos (child elements). Cada uno de los hijos se representa con la etiqueta `item`. Los elementos XML pueden tener atributos, estos son pares (nombre, valor). En el ejemplo, el  elements `<cancion fecha="2010">` tiene un atributo `fecha` con valor `2010`. La última línea describe el final del documento.

Para leer la información de un documento XML y almacenarla en un objeto de tipo `DataFrame` tenemos que importar el submódulo `objectify` de la librería `lxml`. 

In [55]:
from lxml import objectify

Posteriormente tenemos que crear un objeto de la clase  `tree` mediante la función `objectify.parse`. Para navegar por ésta estructura es necesario definir el elemento raíz del documento mediante el método `getroot` de la clase `tree`. 

In [56]:
xml = objectify.parse("./datos/songs.xml")
root = xml.getroot()
root

<Element canciones at 0x26eb6374b08>

El acceso a los elementos del documento se realiza mediante expresiones de ruta usando la notación usanda habitualmente cuando navegamos por un árbol de directorios con la notación punto. Por ejemplo, para recuperar el nombre de la primera canción escribiremos lo siguiente:


In [57]:
root.cancion.titulo

'\n   Nothing Else Matters\n  '

Cada elemento del documento XML tiene una serie de características que podemos consultar:
* `tag` - Nombre del elemento
* `text` - Texto contenido entre las etiquetas del elemento
* `attrib` - Diccionario de atributos

Por ejemplo si queremos consultar las características del primer hijo del elemento raíz:

In [58]:
c1 = root.cancion

In [59]:
c1.tag, c1.text, c1.attrib

('cancion', None, {'fecha': '1992'})

Con lo anterior, solo podemos acceder al primer elemento del nodo raiz. Para acceder a todos los elementos hijos de un elemento cualquiera del documento, usamos el método `getchildren`.

In [60]:
hijos = root.getchildren()
hijos

[<Element cancion at 0x26eb636b048>, <Element cancion at 0x26eb638a0c8>]

El resultado es una lista de elementos. En nuestro ejemplo, el resultado es una lista de dos elementos, cda uno de los cuales es un elemento del documento XML.
Ahora es posible consultar los títulos de todas las canciones del documento junto con su  fecha.

In [61]:
for elem in hijos:
    print('Título: ', elem.titulo.text, '---', elem.attrib['fecha'])

Título:  
   Nothing Else Matters
   --- 1992
Título:  
   Need you now
   --- 2010


Para construir un dataframe a partir de la información contenida en el documento XML es necesario escribir una función que realize esta tarea. La función variará de un documento a otro, ya que la estructura de los documentos depende de los datos que contiene.

In [62]:
def xml2df(root):
    datos = []
    columnas = ["Titulo", "Fecha", "Intérprete"]
    for elem in hijos:
        titulo = elem.titulo.text
        fecha = elem.attrib['fecha']
        interprete = elem.interprete.text
        tupla = (titulo, fecha, interprete)
        datos.append(tupla)
    df = pd.DataFrame(datos, columns = columnas )
    return df        

In [63]:
xml2df(root)

Unnamed: 0,Titulo,Fecha,Intérprete
0,\n Nothing Else Matters\n,1992,\n Metallica\n
1,\n Need you now\n,2010,\n Lady Antebellum\n


El elemento con etiqueta `estilo` hay que tratarlo un poco diferente porque no se encuentra como hijo de todos los elementos con etiqueta canción. Para recuperarlo podemos hacer lo siguiente:

In [64]:
def xml2df_v2(root):
    datos = []
    columnas = ["Titulo", "Fecha", "Intérprete", "Estilo"]
    for elem in hijos:
        titulo = elem.titulo.text
        fecha = elem.attrib['fecha']
        interprete = elem.interprete.text
        #----
        elem_estilo = elem.find('./estilo')
        if elem_estilo:
            estilo = elem_estilo.text
        else:
            estilo = np.nan
        #---
        tupla = (titulo, fecha, interprete, estilo)
        datos.append(tupla)
    df = pd.DataFrame(datos, columns = columnas )
    return df        

In [65]:
xml2df_v2(root)

Unnamed: 0,Titulo,Fecha,Intérprete,Estilo
0,\n Nothing Else Matters\n,1992,\n Metallica\n,
1,\n Need you now\n,2010,\n Lady Antebellum\n,\n Country pop\n


### Peticiones de documentos XML

Muchos sitios web ofrecen cierta información a través de documentos XML. Por ejemplo, si realizamos una petición usando el protocolo HTTP Request/Response a la página con URL "https://www.esmadrid.com/opendata/alojamientos_v1_es.xml", podemos cargar en memoria un documento XML para su posterior procesamiento. Si abrimos el documento con el navegador, podremos ver la estructura del documento y los datos que contiene. En este caso, contiene información de los alojamientos ubicados en la Comunidad de Madrid (hoteles, hostales, etc).

In [66]:
html = "http://www.esmadrid.com/opendata/alojamientos_v1_es.xml"
response = requests.get(html)
if response.status_code == 200:
    print ('Petición con éxito')
else:
    print ('Petición con error')

Petición con éxito


Para ello utilizaremos la libreria request. En este caso tendremos un documento XML y su "Status Code".

Una vez comprobado que la petición ha tenido éxito, lo que hacemos es obtener el string que representa el documento XML (propiedad text).

In [67]:
data = response.text

Para acceder al elemento raíz del documento usamos la función `objectify.fromstring`. 

In [68]:
root = objectify.fromstring(bytes(bytearray(data, encoding='utf-8')))
root

<Element serviceList at 0x26eb538b6c8>

Si queremos consultar el número de alojamientos que están registrdos en el documento XML, escribimos lo siguiente:

In [69]:
alojamientos = root.getchildren()
print('Número de alojamientos: ', len(alojamientos))

Número de alojamientos:  625


Par consultar el nombre y el email de todos los alojamientos, escribimos lo siguiente:

In [70]:
for aloj in alojamientos:
    nombre = aloj.basicData.name.text
    email = aloj.basicData.email.text            
    print(nombre,'--',  email)

Barcel&oacute; Torre de Madrid -- torredemadrid@barcelo.com
Ibis Madrid Centro Las Ventas -- h7438@accor.com
The Walt Madrid -- info@thewaltmadrid.es
DoubleTree by Hilton -- Madrid_Prado_Info@hilton.com
T&oacute;tem Madrid -- info@totem-madrid.com
Vincci The Mint -- None
Only You Hotel Atocha -- atocha@onlyyouhotels.com
Exe Central -- reservas@execentral.com
Novotel Madrid Center -- nfo@novotelmadridcenter.com
Dear Hotel -- info@dearhotel.com
Castilla II -- info@hostalcastilla.com
DormirDcine -- reservas@dormirdcine.com
NH Madrid Alonso Mart&iacute;nez -- nhalonsomartinez@nh-hotels.com
The Hat -- info@thehatmadrid.com
URSO Hotel &amp; Spa Madrid -- info@hotelurso.com
One Shot 04 -- recoletos04@oneshothotels.com
Hotel Indigo -- info@indigomadrid.com
Hotel Innside Madrid Luchana -- reservas.innside.madrid@melia.com
One Shot 23 -- prado23@oneshothotels.com
U Hostels -- info@uhostels.com
La posada de El Chafl&aacute;n -- posada@laposadadeelchaflan.com
Senator Barajas -- None
NH Collection 

Para crear un dataframe con la información del nombre de los alojamientos actualizados en el año 2016 junto con su ubicación (longitud y latitud), escribimos lo siguiente:

In [71]:
from datetime import datetime, date, time

def xml2df_v3(root):
    datos = []
    columnas = ["Nombre", "Fecha", "Longitud", "Latitud"]
    alojamientos = root.getchildren()
    for aloj in alojamientos:
        fecha = aloj.attrib["fechaActualizacion"] 
        fecha = datetime.strptime(fecha, '%Y-%m-%d')
        if fecha.year == 2016:
            nombre = aloj.basicData.name.text
            long = aloj.geoData.longitude.text
            lat = aloj.geoData.latitude.text
            tupla = (nombre, fecha.date(), long, lat)
            datos.append(tupla)
        else:
            pass
    df = pd.DataFrame(datos, columns = columnas)
    return df

In [72]:
xml2df_v3(root)

Unnamed: 0,Nombre,Fecha,Longitud,Latitud
0,DoubleTree by Hilton,2016-11-16,-3.6967946,40.4151702
1,The Hat,2016-02-24,-3.7071967,40.4142909
2,Conchita II,2016-06-21,-3.7092202,40.4192028
3,Casa de Huespedes Casillas,2016-06-29,-3.7008971,40.4205831
4,Casa de hu&eacute;spedes Amelia,2016-06-23,-3.695339,40.4125961
5,Residencia U. Siervas del Sagrado Coraz&oacute;n,2016-07-05,-3.670696,40.46811
6,Colegio Mayor Xim&eacute;nez de Cisneros,2016-06-21,-3.727911,40.435673
7,Colegio Mayor Zurbar&aacute;n,2016-06-21,-3.672325,40.453297
8,Colegio Mayor Vedruna,2016-06-21,-3.714986,40.445673
9,Par&iacute;s,2016-06-29,-3.702824,40.417694


La librería `lxml` permite el uso de expresiones de camino (XPath) muy sencillas para localizar la información. 

## Datos en Formato JSON

Otro de los estándar para el intercambio de datos en la Webes el formato JSON (JavaScript Object Notation). Al igual que ocurría con XML, permite representar cualquier estructura de datos de una forma jerárquica, la cual puede ser fácilmente representada en forma de árbol.

Pandas dispone de la función `pd.read_json()`  para crear dataframes a partir de un documento JSON. La operación recíproca, el método `to_json()` de la clase `DataFrame` que permite guardar dataframes en formato JSON.

Para entender cómo navegar por este tipo de documentos es necesario conocer su estructura interna.  In my opinion, a useful online application for checking the JSON format is JSONViewer, available at http://jsonviewer.stack.hu/. This web application, once you entered or copied data in JSON format, allows you to see if the format you entered is invalid. Moreover it displays the tree structure so that you can better understand its structure (as shown in Figure 5-4).


Para empezar, veremos cómo crear un documento en formato JSON a partir de un dataframe usando el método `to_json`. 

In [73]:
tabla = pd.DataFrame( [ (1982,"E.T. the ExtraTerrestrial","Fantasy"),
                        (1982,"Poltergeist","Horror"),
                        (1992,"Alien","Action"),
                        (1992,"The Crying Game","War")],
                     columns = ["Extreno","Nombre","Cat"])
tabla

Unnamed: 0,Extreno,Nombre,Cat
0,1982,E.T. the ExtraTerrestrial,Fantasy
1,1982,Poltergeist,Horror
2,1992,Alien,Action
3,1992,The Crying Game,War


In [74]:
tabla.to_json('peliculas.json')

El documento `peliculas.json` se muestra en la figura XX.


In [75]:
listingjson('./peliculas.json')

{
    "Cat": {
        "3": "War",
        "2": "Action",
        "0": "Fantasy",
        "1": "Horror"
    },
    "Nombre": {
        "3": "The Crying Game",
        "2": "Alien",
        "0": "E.T. the ExtraTerrestrial",
        "1": "Poltergeist"
    },
    "Extreno": {
        "3": 1992,
        "2": 1992,
        "0": 1982,
        "1": 1982
    }
}


La función `pd.read_json` permite realizar la operación inversa. Dicha función recibe como argumento la ruta del fichero que contiene los datos en formato JSON.

In [76]:
tabla = pd.read_json('./peliculas.json')
tabla

Unnamed: 0,Cat,Extreno,Nombre
0,Fantasy,1982,E.T. the ExtraTerrestrial
1,Horror,1982,Poltergeist
2,Action,1992,Alien
3,War,1992,The Crying Game


En este caso, el proceso es muy simple porque el contenido del fichero `peliculas.json` tenía una estructura tabular, pero eso no es lo normal. La figura XX muestra el contenido del fichero `canciones.json`.

In [77]:
listingjson('./datos/canciones.json')

[
    {
        "Songs": [
            {
                "Length": "6:29",
                "Date": 1992,
                "Title": "Nothing Else Matters"
            },
            {
                "Length": "4:21",
                "Title": "Hero Of The Day"
            }
        ],
        "Genre": "Metal",
        "Group": {
            "Name": "Metallica"
        }
    },
    {
        "Songs": [
            {
                "Length": "4:37",
                "Date": 2010,
                "Title": "Need you now"
            },
            {
                "Length": "4:17",
                "Date": 2010,
                "Title": "I Run To You"
            },
            {
                "Length": "3:44",
                "Title": "American honey"
            }
        ],
        "Genre": "Country pop",
        "Group": {
            "Name": "Lady Antebellum"
        }
    }
]


La función `json_normalize` de la sublibrería `pandas.io.json` aporta un poco más de potencia. Por ejemplo, para crear un dataframe con la información de las canciones, escribimo lo siguiente:

In [78]:
from pandas.io.json import json_normalize
with open('./datos/canciones.json') as json_data:
    d = json.load(json_data)
json_normalize(d, "Songs") 

Unnamed: 0,Date,Length,Title
0,1992.0,6:29,Nothing Else Matters
1,,4:21,Hero Of The Day
2,2010.0,4:37,Need you now
3,2010.0,4:17,I Run To You
4,,3:44,American honey


La función `json_normalize` recibe como argumentos el objeto de la clase `json` y la clave del documento que contiene los datos que buscamos. Si además queremos añadir al dataframe la información del grupo musical al que pertenece cada canción, tenemos que añadir un tercer argumento que indica la lista de claves que queremos añadir.

In [79]:
from pandas.io.json import json_normalize
with open('./datos/canciones.json') as json_data:
    d = json.load(json_data)
json_normalize(d, "Songs", [["Group", "Name"], "Genre"]) 

Unnamed: 0,Date,Length,Title,Group.Name,Genre
0,1992.0,6:29,Nothing Else Matters,Metallica,Metal
1,,4:21,Hero Of The Day,Metallica,Metal
2,2010.0,4:37,Need you now,Lady Antebellum,Country pop
3,2010.0,4:17,I Run To You,Lady Antebellum,Country pop
4,,3:44,American honey,Lady Antebellum,Country pop


## Acceso a Bases de datos

La gestión de la información mediante estructuras de ficheros no es siempre la forma más adecuada de almacenamiento de datos. Es por todos conocido que se pierden propiedades deseables como son, la integridad, la no redundancia, etc. Son muchas las aplicaciones que usan bases de datos como forma de almacenamiento, ya sean bases de datos relacionales, también conocidas como bases de datos SQL, como las aparecidas recientemente no relacionales o NoSQL. 

En esta sección mostramos cómo interacciona Pandas con una base de datos relacional (MySQL) y con una base de datos NoSQL (MongoDB).

### Bases de datos relacionales. MySQL

En Python existe un mecanismo estándar para el acceso a bases de datos relacionales. En esta sección mostramos el procedimiento a seguir para realizar la conexión, lectura y escritura de datos desde Python. Este procedimiento será similar para otros sistemas gestores de bases de datos, y lo único que cambiará será la librería a utilizar para realizar la conexión.

En el caso de MySQL, utilizaremos la librería `mysql.connector`. Esta librería tiene que ser instalada antes de su importación, ya que no viene incluída en Anaconda.

In [80]:
# conda install -c anaconda mysql-connector-python=2.0.4

A continuación mostramos cómo establecer la conexión con una base de datos MySQL. En primer lugar tenemos que importar la librería  `mysql.connector`.

In [81]:
import mysql.connector as sql

La función `sql.connect`  permite establecer una conexión con la base de datos. Como argumentos de la función es necesario indicar el usuario, la contraseña, el nombre de la base de datos, el nombre del host y puerto.

In [82]:
db_connection = sql.connect(host='127.0.0.1', 
                            port=3306, 
                            database='test', 
                            user='root', 
                            password='')

La creación de un dataframe a partir de los datos almacenados en una base de datos relacional es muy simple utilizando las funciones que proporciona Pandas. La función `read_sql` permite ejecutar una consulta SQL pasada como argumento. El resultado, será un objeto de la clase `DataFrame`, con tantas columnas como atributos haya en la sentencia `select` y tantas tuplas como filas devueltas por la consulta.

In [83]:
df = pd.read_sql('select lastName, salary, projects from employees;', 
                  con=db_connection)
df

Unnamed: 0,lastName,salary,projects
0,Patterson,23000,2
1,Firrelli,30000,3
2,Patterson,25000,1
3,Bondur,35000,4
4,Bow,20000,1
5,Jennings,26000,2


La operación inversa está a cargo del método `to_sql` de la clase `DataFrame`. 

In [84]:
df.salary = df.salary + 500 
df

Unnamed: 0,lastName,salary,projects
0,Patterson,23500,2
1,Firrelli,30500,3
2,Patterson,25500,1
3,Bondur,35500,4
4,Bow,20500,1
5,Jennings,26500,2


In [85]:
df.to_sql('Nueva_tabla', con = db_connection, flavor = 'mysql', if_exists = 'replace')

  chunksize=chunksize, dtype=dtype)


El método `to_sql` recibe como argumento el nombre de la tabla de la base de datos donde se insertarán las tuplas del dataframe `df`. El argumento `if_exists` permite indicar que las filas ya existentes en la tabla han de reemplazarse.

Para finalizar, el método `close` cierra la conexión con la base de datos.

In [86]:
db_connection.close()

### Bases de datos NoSQL. MongoDB

MongoDB es una base de datos NoSQL muy popular, la cual está orientada a documentos. Estos documentos son de tipo JSON, cuyo tratamiento ya hemos visto en secciones anteriores. La librería Pandas cuenta con las herramienta necesarias para, una vez  establecida la conexión con MongoDB, crear dataframes a partir de los datos contenidos en MongoDB, así como para almacenar los datos contenidos en los dataframes de Pandas en  MongoDB.

El primer paso es tener instalado MongoDB y arrancado el servidor de MongoDB . Para establecer la conexión con MongoDB es necesario usar la función `MongoClient` de la librería `pymongo` con los datos del host y el puerto como argumentos. El puerto que utiliza MongoDB en la instalación local por defecto es el 27017. Si MongoDB está instalada en otra máquina, es necesario indicar la IP y el puerto que corresponda.

In [87]:
import pymongo 
client = pymongo.MongoClient('localhost',27017)
type(client)

pymongo.mongo_client.MongoClient

En el servidor MongoDB pueden existir muchas bases de datos independientes y cada base de datos puede tener múltiples colecciones. Así mismo, cada colección puede contener múltiples documentos. Para conocer las bases de datos existentes en nuestro servidor podemos usar el método `database_names` de la clase `MongoClient`.

In [88]:
client.database_names()

['Canciones', 'LadySongs', 'admin', 'datos', 'local']

Para consultar los datos de una de las bases de datos existentes en el servidor usamos el operador punto y el nombre de la base de datos:

In [89]:
db  = client.Canciones
db

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'Canciones')

El método `collection_names`  devuelve una lista con las colecciones de una base de datos.

In [90]:
db.collection_names() 

['Giras', 'Artistas']

Por último, para acceder a una colección concreta de la base de datos usamos la misma notación, el operador punto, junto con el nombre de la colección.

In [91]:
col = db.Artistas
col

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'Canciones'), 'Artistas')

In [92]:
type(col)

pymongo.collection.Collection

Podemos conocer la cantidad de documentos que hay en una colección con el método `count`:

In [93]:
col.count()

4

El método `find_one` permite acceder al primer elemento. Como podemos comprobar, cada documento en la colección es de tipo `dict` (ver figura XX).

In [94]:
doc = col.find_one()
type(doc)

dict

In [95]:
doc

{'Genre': 'Country pop',
 'Group': {'Name': 'Lady Antebellum'},
 'Songs': [{'Date': 2010, 'Length': '4:37', 'Title': 'Need you now'},
  {'Date': 2010, 'Length': '4:17', 'Title': 'I Run To You'},
  {'Date': 2007, 'Length': '3:43', 'Title': 'Never Alone'},
  {'Length': '3:44', 'Title': 'American honey'}],
 '_id': ObjectId('58d50d15bf9c245136c1cbac')}

In [96]:
listingjson('./datos/primero.json')

{
    "Songs": [
        {
            "Length": "4:37",
            "Title": "Need you now",
            "Date": 2010
        },
        {
            "Length": "4:17",
            "Title": "I Run To You",
            "Date": 2010
        },
        {
            "Length": "3:44",
            "Title": "American honey"
        }
    ],
    "Genre": "Country pop",
    "_id": "ObjectId(58d50d15bf9c245136c1cbac)",
    "Group": {
        "Name": "Lady Antebellum"
    }
}


Para recuperar todos los documentos de una colección (los distintos diccionarios) usamos el método `find`. Este método devuelve un cursor sobre el que podremos iterar. Por ejemplo, con la función `list` obtendremos una lista de diccionarios:

In [97]:
cursor = col.find() 
l = list(cursor)
l

[{'Genre': 'Country pop',
  'Group': {'Name': 'Lady Antebellum'},
  'Songs': [{'Date': 2010, 'Length': '4:37', 'Title': 'Need you now'},
   {'Date': 2010, 'Length': '4:17', 'Title': 'I Run To You'},
   {'Date': 2007, 'Length': '3:43', 'Title': 'Never Alone'},
   {'Length': '3:44', 'Title': 'American honey'}],
  '_id': ObjectId('58d50d15bf9c245136c1cbac')},
 {'Genre': 'Rock',
  'Group': {'Name': 'Amy Macdonald'},
  'Songs': [{'Date': 2007, 'Length': '3:05', 'Title': 'This Is the Life'},
   {'Date': 2007, 'Length': '3:28', 'Title': 'Poison Prince'},
   {'Date': 2007, 'Length': '3:50', 'Title': 'Run'}],
  '_id': ObjectId('58d50fe3bf9c245136c1cbfb')},
 {'Genre': 'Folk',
  'Group': {'Name': 'Tina Turner'},
  'Songs': [{'Date': 1988, 'Length': '4:56', 'Title': 'Girls'},
   {'Date': 1999, 'Length': '4:49', 'Title': 'Whatever You Need'},
   {'Date': 1999, 'Length': '3:57', 'Title': 'Rock Me Baby'}],
  '_id': ObjectId('58d50ff6bf9c245136c1cbff')},
 {'Genre': 'Metal',
  'Group': {'Name': 'Metall

La función `json_normalize` con la lista de documentos y la clave `Songs` devuelve el siguiente dataframe:

In [98]:
json_normalize(l, "Songs")

Unnamed: 0,Date,Length,Title
0,2010.0,4:37,Need you now
1,2010.0,4:17,I Run To You
2,2007.0,3:43,Never Alone
3,,3:44,American honey
4,2007.0,3:05,This Is the Life
5,2007.0,3:28,Poison Prince
6,2007.0,3:50,Run
7,1988.0,4:56,Girls
8,1999.0,4:49,Whatever You Need
9,1999.0,3:57,Rock Me Baby


El método `find` puede usarse con un diccionario como argumento, el cuál actuará como filtro, recuperándose así solo aquellos documentos que cumplan el filtro.

In [99]:
cursor = col.find({"Group": {"Name": "Lady Antebellum"}}) 
l = list(cursor)
tabla_lady = json_normalize(l, "Songs")
tabla_lady

Unnamed: 0,Date,Length,Title
0,2010.0,4:37,Need you now
1,2010.0,4:17,I Run To You
2,2007.0,3:43,Never Alone
3,,3:44,American honey


Para crear una nueva base de datos en el servidor de MongoDB utilizamos el operador punto con el nombre de la base de datos que queremos crear:

In [100]:
client.drop_database('LadySongs')
nueva_db = client.LadySongs
nueva_db

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'LadySongs')

Se ha creado una nueva base de datos llamada `LadySongs`. Procedemos de la misma manera para crea una colección en la base de datos.

In [101]:
col = nueva_db.Songs_LA

Para escribir cada una de las filas del dataframe `tabla_lady` en la colección `Songs_LA`, es necesario transformar el dataframe a un objeto de la clase `json`. Para ello usamos el método `to_json` de la clase `DataFrame` seguido de la función `loads` de la librería `json`.

In [102]:
d = tabla_lady.to_json(orient='records')
data_json = json.loads(d)
data_json

[{'Date': 2010.0, 'Length': '4:37', 'Title': 'Need you now'},
 {'Date': 2010.0, 'Length': '4:17', 'Title': 'I Run To You'},
 {'Date': 2007.0, 'Length': '3:43', 'Title': 'Never Alone'},
 {'Date': None, 'Length': '3:44', 'Title': 'American honey'}]

Para finalizar el proceso, el método `insert_many` permite insertar en una colección tantos documentos como diccionarios haya en el objeto de la clase `json`.

In [103]:
col.insert_many(data_json)

<pymongo.results.InsertManyResult at 0x26eb6efec60>

Ahora, si consultamos las bases de datos existente en el servidor, aparecerá la recién creada.

In [104]:
client.database_names()

['Canciones', 'LadySongs', 'admin', 'datos', 'local']

## Conclusiones

En este capítulo hemos mostrado las herramienta con las cuenta la librería Pandas para manejar  datos en diferentes formatos, desde los más habituales como son CSV, txt o Microsoft Excel, hasta las Bases de datos, pasando por los fichero en formato HTML  y los estándares para el intercambio de datos como son  XML o JSON.

En el siguiente capítulo veremos ...

# References



* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)
* [librería request](http://docs.python-requests.org/en/master/)
* [`lxml`](http://lxml.de/)

------