<div id="navegacion" prev="../Tema_7/t7_pandas_033.html" next="../Ejercicios_Tema_7/ej52.html"></div>

<div class="section-title">Sección 5.4</div>

# Acceso a Bases de datos


> Esta Sección tiene como objetivo mostrar las facilidades de Python para conectarse con bases de datos externas. Sin embargo para poder probar y reproducir éstos u otros ejemplos similares es necesario tener conocimientos previos de bases de datos (y en particular de MySQL y el lenguaje SQL), asi como tener acceso a una base de datos MySQL (`usuario/contraseña/puerto/host`). 
> <p style="color:red">Por tanto, __su lectura es opcional__. </p>


La gestión de la información mediante estructuras de ficheros no es siempre la forma más adecuada de almacenamiento de datos. Es por todos conocido que se pierden propiedades deseables como son, la integridad, la no redundancia, etc. Son muchas las aplicaciones que usan bases de datos como forma de almacenamiento, ya sean bases de datos relacionales, también conocidas como bases de datos SQL, como las aparecidas recientemente no relacionales o NoSQL. 

En esta sección mostramos cómo interacciona Pandas con una base de datos relacional (MySQL). 

In [2]:
import pandas as pd
import numpy as np

## Bases de datos relacionales. MySQL

En Python existe un mecanismo estándar para el acceso a bases de datos relacionales. En esta sección mostramos el procedimiento a seguir para realizar la conexión, lectura y escritura de datos desde Python. Este procedimiento será similar para otros sistemas gestores de bases de datos, y lo único que cambiará será la librería a utilizar para realizar la conexión.

En el caso de MySQL, utilizaremos la librería `mysql.connector`. Si esta librería no está incluida con Anaconda, es necesrio instalarla antes de su importación, ya que no viene incluída en Anaconda.

In [1]:
# conda install -c anaconda mysql-connector-python=2.0.4

A continuación mostramos cómo establecer la conexión con una base de datos MySQL. En primer lugar tenemos que importar la librería  `mysql.connector`.

In [2]:
import mysql.connector as sql

La función `sql.connect`  permite establecer una conexión con la base de datos. Como argumentos de la función es necesario indicar el usuario, la contraseña, el nombre de la base de datos, el nombre del host y puerto.

In [82]:
db_connection = sql.connect(host='127.0.0.1', 
                            port=3306, 
                            database='test', 
                            user='root', 
                            password='')

La creación de un dataframe a partir de los datos almacenados en una base de datos relacional es muy simple utilizando las funciones que proporciona Pandas. La función `read_sql` permite ejecutar una consulta SQL pasada como argumento. El resultado, será un objeto de la clase `DataFrame`, con tantas columnas como atributos haya en la sentencia `select` y tantas tuplas como filas devueltas por la consulta.

In [83]:
df = pd.read_sql('select lastName, salary, projects from employees;', 
                  con=db_connection)
df

Unnamed: 0,lastName,salary,projects
0,Patterson,23000,2
1,Firrelli,30000,3
2,Patterson,25000,1
3,Bondur,35000,4
4,Bow,20000,1
5,Jennings,26000,2


La operación inversa está a cargo del método `to_sql` de la clase `DataFrame`. 

In [84]:
df.salary = df.salary + 500 
df

Unnamed: 0,lastName,salary,projects
0,Patterson,23500,2
1,Firrelli,30500,3
2,Patterson,25500,1
3,Bondur,35500,4
4,Bow,20500,1
5,Jennings,26500,2


In [85]:
df.to_sql('Nueva_tabla', con = db_connection, flavor = 'mysql', if_exists = 'replace')

  chunksize=chunksize, dtype=dtype)


El método `to_sql` recibe como argumento el nombre de la tabla de la base de datos donde se insertarán las tuplas del dataframe `df`. El argumento `if_exists` permite indicar que las filas ya existentes en la tabla han de reemplazarse.

Para finalizar, el método `close` cierra la conexión con la base de datos.

In [86]:
db_connection.close()

## Referencias

* [Big Data. Análisis de datos con Python. Sarasa Cabezuelo, Antonio; García Ruiz, Yolanda Aditorial Garceta. ISBN: 978-84-1622-883-6](http://www.garceta.es/libro.php?ISBN=978-84-1622-883-6)

* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)


------