# Python + SQL: MySQL Connector/Python

En esta lecci√≥n vamos a aprender a conectarnos a bases de datos y realizar consultas SQL b√°sicas desde un script de Python gracias al uso de MySQL Connector/Python.


## Conexi√≥n a una base de datos usando MySQL Connector:

A continuaci√≥n vamos a ver c√≥mo podemos conectarnos a una base de datos MySQL existente desde un script de Python usando *connect*.

El constructor de la clase, *connect()* crea una conexi√≥n al servidor MySQL y devuelve un objeto de tipo MySQLConnection. Veamos c√≥mo usarlo mediante un ejemplo:


üö®üö® **NOTA** üö®üö® En caso de que la celda de abajo os de error deber√©is escribir en la terminal: 

```
pip install mysql-connector

y 

pip install mysql-connector-python
```

Para hacer esto fijaos que en la terminal os ponga "base" y que en el jupyter en la parte de arriba a la derecha ponga "base (y la versi√≥n de Python)". Despu√©s de esto, volved a ejecutar la celda. 

### Descripci√≥n de los argumentos de *connect()*

Antes de empezar, vamos a ver algunos de los argumentos principales que usaremos para la conexi√≥n a una base de datos usando el constructor *connect()*. 

- `user`: el nombre de usuario con el que nos queremos autenticar en el servidor MySQL. 

- `password`: la contrase√±a con la que nos queremos autenticar en el servidor MySQL. 

- `database`: el nombre de la base de datos a la que nos queremos conectar.

- `host`: el nombre o la direcci√≥n IP del servidor MySQL. El valor por defecto es "localhost" (o 127.0.0.1 que es lo mismo).

- `port`: el puerto TCP/IP del servidor MySQL. Debe ser un n√∫mero entero. El valor por defecto es el puerto 3306.

Existen m√°s argumentos que son opcionales o que se usar√°n cuando queramos configurar la conexi√≥n de una manera muy concreta. Pod√©is consultar la descripci√≥n de todos los par√°metros [aqu√≠](https://dev.mysql.com/doc/connector-python/en/connector-python-connectargs.html). 

In [1]:
import mysql.connector

cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')

print(cnx)
cnx.close()

<mysql.connector.connection.MySQLConnection object at 0x000002052C32BC40>


En ocasiones podemos sufrir errores de conexi√≥n, por lo que es interesante a√±adir manejo de excepciones al c√≥digo anterior. Usando *errorcode* podemos crear casos para cada tipo de error posible:

In [None]:
# para a√±adir errores deberemos importarnos la siguiente librer√≠a
from mysql.connector import errorcode

# En este c√≥digo estamos haciendo un try except. Si recordamos esto nos permit√≠a hacer un manejo de los errores, para evitar que nuestro c√≥digo se pare. Para eso lo que estamos haciendo es
## intenta hacer la conexi√≥n son la base de datos de tienda 
try:
  cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')
# en caso de que no lo consigas por que hay alg√∫n error entonces ...
except mysql.connector.Error as err:

  # si es un error con la contrase√±a devuelveme un mensaje de acceso denegado ya que tenemos problemas con la contrase√±a
  if err.errno == errorcode.ER_ACCESS_DENIED_ERROR:
    print("Something is wrong with your user name or password")
  
  # si el error no tiene que ver con la contrase√±a, puede ser porque la base de datos no exista, devuelveme un mensaje de que la base de datos no existe
  elif err.errno == errorcode.ER_BAD_DB_ERROR:
    print("Database does not exist")
  
  # si no es por ninguno de los errores anteriores, printeame cual es el error que estoy teniendo en mi conexi√≥n
  else:
    print(err)
else:
  cnx.close()

Otra opci√≥n para pasar los argumentos de conexi√≥n a *connector()* es crear un diccionario que luego se pase como argumento al constructor:

In [None]:
config = {
  'user': 'root',
  'password': 'AlumnaAdalab',
  'host': '127.0.0.1',
  'database': 'tienda',
  'raise_on_warnings': True
}

cnx = mysql.connector.connect(**config)

cnx.close()


## Desconexi√≥n de la base de datos usando MySQLConnector

Una vez hayamos terminado de realizar las consultas o trabajar de cualquier modo con la base de datos a la que nos hemos conectado con el connector, tendremos que desconectarnos usando el m√©todo *close()*:

In [None]:

config = {
  'user': 'root',
  'password': 'AlumnaAdalab',
  'host': '127.0.0.1',
  'database': 'tienda',
  'raise_on_warnings': True
}

cnx = mysql.connector.connect(**config)

cnx.close()

En este fragmente de c√≥digo hemos creado la conexi√≥n cnx a la base de datos "tienda". Usando esa conexi√≥n podr√≠amos por ejemplo realizar consultas sobre los datos almacenados en sus tablas (m√°s adelante veremos como hacerlo). Una vez hayamos terminado y nos queramos desconectar ser√° necesario usar el m√©todo *close()* del objeto connector que hemos definido (en este caso llamado cnx). Este m√©todo no recibe argumentos, por lo que su uso es sencillo.

## Realizaci√≥n de queries usando MySQLConnector:

Para realizar consultas a tablas de la base de datos a la que nos hemos conectado usando *connect()*, podemos usar el m√©todo *cursor()*. Empecemos viendo un ejemplo sencillo:

In [3]:

# realizamos la conexi√≥n con la base de datos que queremos como hemos aprendido hasta ahora
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')

# Iniciamos el cursor y lo almacenamos en una variable llamada "cursor". Con esto estaremos creando un objeto de tipo cursor al que luego llamaremos para ejecutar las consultas SQL, 
## es decir, es el que nos va a permitir comunicarnos con la base de datos de SQL
cursor = cnx.cursor()

# El siguiente paso consiste en definir la consulta (query) que queremos realizar. 
## Para ello usamos todos los conocimientos sobre SQL que hemos adquirido durante el curso. La consulta se define como un string o cadena de texto.
### La consulta SQL de este ejemplo es sencilla y est√°tica, pero podr√≠a incluir variables (lo veremos m√°s adelante). 

query = ("""SELECT city, state FROM customers 
         WHERE customer_number BETWEEN 121 AND 124""")

# Luego llamamos al m√©todo execute() del cursor, al que pasamos como argumento el string que contiene la consulta.
## De esta manera se ejecuta la consulta en la base de datos y si todo va correctamente, el resultado se almacenar√° en el cursor.
cursor.execute(query)

# es el momento de ver los resultados, como dijimos se almacenan en la variable "cursor". Para ello, usaremos un for loop para acceder a los resultados de una forma "humana". 

# Dependiendo del n√∫mero de resultados que devuelva la consulta, ser√° m√°s interesante usar un m√©todo de acceso a los mismos u otro. 
## En el ejemplo anterior, hemos decidido usar el objeto cursor como un iterable e ir accediendo a cada registro mediante un bucle for. 
### Cada llamada al iterable de esta manera nos ha ido devolviendo un valor para cada atributo seleccionado en la consulta.
####  M√°s adelante veremos opciones alternativas para acceder a los resultados de las consultas.
for ciudad, estado in cursor:
  print(f"La ciudad {ciudad} pertenece al estado  {estado}")

cursor.close()
cnx.close()

MySQLCursor: SELECT city, state FROM customers 
     ..
La ciudad Stavern pertenece al estado  None
La ciudad San Rafael pertenece al estado  CA


Imaginemos ahora que nuestro jefe esta interesado en buscar el n√∫mero de cliente, su estatus, la fecha en la que se realiz√≥ y el n√∫mero de la factura de los pedidos que tenemos en nuestra base de datos. Pero no nos interesa para todas las fechas, solo queremos esta informaci√≥n para los pedidos realizados entre las siguientes fechas: 

- 1 Enero 2003
- 31 Marzo 2003. 

Para esto lo primero que vamos a necesitar son las fechas, pero para esto recordemos que SQL necesita un formato espec√≠fico (AAAA-MM-DD). Podr√≠amos pasar las fechas a mano, pero esto es muy poco eficaz. Para sacar las fechas en el formato que necesitamos usaremos la librer√≠a `datetime`

In [7]:
import datetime

hire_start = datetime.date(2003, 1, 1)
hire_end = datetime.date(2003, 3, 31)

print(f"La fecha de inicio es {hire_start} y la de final es {hire_end}")

La fecha de inicio es 2003-01-01 y la de final es 2003-03-31


`datetime` es una librer√≠a suuuper √∫til cuando queremos trabajar con fechas. [Aqu√≠](https://www.programiz.com/python-programming/datetime) os dejamos m√°s documentaci√≥n sobre esta librer√≠a.

Genial! Ya tenemos nuestras fechas en el formato que necesitamos. Ahora es el momento de ponernos a construir el c√≥digo que necesitamos como aprendimos hasta ahora. 

In [18]:

# realizamos la conexi√≥n con la BBDD que queremos
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')

# iniciamos el cursor                               
cursor = cnx.cursor()

# escribimos la query con los datos que querremos extraer. Aqu√≠, si nos fijamos hay una cosa que nos debe llamar la atenci√≥n, y es la sintaxis que usamos en el WHERE, en conreto el s√≠mbolo "%s". 
## esto nos servir√° para hacer queries din√°micas. En este caso, al poner estos s√≠mbolos lo que hacemos es decirle a SQL que ser√° un valor que puede cambiar. ¬øNuestra duda ahora puede ser, como le pasamos esos valores?
### esto lo haremos cuando ejecutemos en el comando execute, como vemos en la siguiente l√≠nea. 
query = ("SELECT customer_number, status, order_date, order_number FROM orders "
         "WHERE order_date BETWEEN %s AND %s")

# si nos fijamos aqu√≠ la cosa ha cambiado un poco respecto al ejemplo anterior, y es que vemos que hemos a√±adido una tupla con las variables de las fechas sobre las que queremos buscar. As√≠ es como especificaremos cuales
## son los valores espec√≠ficos de nuestra b√∫squeda.  
cursor.execute(query, (hire_start, hire_end))

# por √∫ltimo mostramos los resultados de la misma forma que en el ejemplo anterior. 
for customer_number, status, order_date, order_number in cursor:
  print(f"El numero de orden {order_number}, esta en estado {status} con fecha {order_date}")

cursor.close()
cnx.close()

El numero de orden 10100, esta en estado Shipped con fecha 2003-01-06
El numero de orden 10101, esta en estado Shipped con fecha 2003-01-09
El numero de orden 10102, esta en estado Shipped con fecha 2003-01-10
El numero de orden 10103, esta en estado Shipped con fecha 2003-01-29
El numero de orden 10104, esta en estado Shipped con fecha 2003-01-31
El numero de orden 10105, esta en estado Shipped con fecha 2003-02-11
El numero de orden 10106, esta en estado Shipped con fecha 2003-02-17
El numero de orden 10107, esta en estado Shipped con fecha 2003-02-24
El numero de orden 10108, esta en estado Shipped con fecha 2003-03-03
El numero de orden 10109, esta en estado Shipped con fecha 2003-03-10
El numero de orden 10110, esta en estado Shipped con fecha 2003-03-18
El numero de orden 10111, esta en estado Shipped con fecha 2003-03-25
El numero de orden 10112, esta en estado Shipped con fecha 2003-03-24
El numero de orden 10113, esta en estado Shipped con fecha 2003-03-26



C√≥mo detalle, hasta ahora al `cursor` no le hemos pasado ning√∫n par√°metro, pero lo podemos hacer. Los argumentos que podemos usar para inicializarlo y algunos m√©todos √∫tiles que podemos llamar desde nuestro c√≥digo Python:

```python
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')
cursor = cnx.cursor([arg=value[, arg=value]...])
```

Los argumentos que se pueden pasar al m√©todo *cursor()* son:

- **buffered**: si es True, el cursor recupera (fetch) todas las filas de la base de datos cuando se ejecuta la query. Este tipo de cursors es √∫til cuando las consultas devuelven un n√∫mero peque√±o de resultados, o cuando queremos combinar el resultado de m√∫ltiples queries. En el caso de que lo configuremos como False, las filas de la base de datos se ir√°n recuperando seg√∫n se vayan solicitando (por ejemplo cuando usamos el cursor como un iterable). De esta manera no llenaremos la memoria de la m√°quina cuando las consultas devuelvan un n√∫mero muy elevado de registros.
 
- **raw**: si lo configuramos como True, el cursor no realizar√° las conversiones autom√°ticas entre tipos de datos de MySQL y Python (como s√≠ hac√≠a en el caso de las fechas en los ejemplos que hemos visto anteriormente). Un cursor de tipo raw es interesante cuando queremos m√°xima velocidad o cuando queremos hacer alguna otra conversi√≥n diferente a la por defecto.

- **dictionary**: si lo configuramos como True, el cursor devolver√° las filas de los resultados como diccionarios. 

- **named_tuple**: si lo configuramos como True, el cursor devolver√° las filas de los resultados como named tuples (tuplas con un nombre por el que podemos llamarlas para recuperar su contenido).

- **prepared**: si este argumento tiene el valor True, el cursor se configurar√° para ejecutar sentencias ‚Äúprepared‚Äù.<!--¬øSIGNIFICADO DE ESTO?-->

- **cursor_class**: un argumento que se puede usar para indicar que subclase queremos usar para instanciar el nuevo cursor. Hay varias clases que heredan de MySQLCursor como MySQLCursor Buffered, MySQLCursorRaw, etc. Dependiendo de la combinaci√≥n de argumentos que pasemos a *cursor()* crearemos un cursor de una u otra de esas clases. Sin embargo, la clase final puede forzarse usando este argumento.


## Conocer las bases de datos del servidor

Si queremos conocer qu√© bases de datos existen en un servidor concreto, podemos hacerlo con el comando `SHOW DATABASES`, veamos como hacerlo:

In [20]:
# conectamos con la BBDD
mydb = mysql.connector.connect(
                  user='root', password='AlumnaAdalab',
                  host='127.0.0.1',
                  database='tienda')
# iniciamos el cursor
mycursor = mydb.cursor()

# ejecutamos nuestra query para que nos muestre las BBDD que tenemos en nuestro servidor
mycursor.execute("SHOW DATABASES")

for x in mycursor:
  print(x)


('adalabers_promob',)
('bd_pruebas',)
('clima',)
('clima2',)
('clima_ataques',)
('information_schema',)
('leccion-1-sql',)
('leccion-10-sql',)
('leccion-12-sql',)
('leccion-14-sql',)
('leccion-2-sql',)
('leccion-3-sql',)
('leccion-4-sql',)
('leccion-5-sql',)
('leccion-6-sql',)
('leccion-7-sql',)
('leccion-8-sql',)
('leccion-9-sql',)
('mi_primerita_bbdd',)
('mi_primerita_bbdd_python',)
('mysql',)
('netflix',)
('newschema',)
('northwind',)
('performance_schema',)
('pisos',)
('sakila',)
('spoti_adalab',)
('sys',)
('tiburones',)
('tienda',)
('world',)


Normalmente en todos los servidores MySQL tendremos las bases de datos que hemos creado, y adicionalmente otras bases de datos adicionales llamadas 'mysql', 'sys' 'information_schema' y 'performance_schema'. Esas bases de datos contienen tablas con informaci√≥n acerca del propio servidor, las otras bases de datos y sus tablas, etc. En la siguiente secci√≥n por ejemplo usaremos 'information_schema' para conocer las tablas que componen una base de datos concreta.

## Conocer las tablas que componen una base de datos:

Tambi√©n podemos mostrar por pantalla los nombres de las tablas de una de las bases de datos del servidor. Para ello se usar√° la sentencia` SHOW TABLES`. De esta manera conoceremos mejor la estructura de la base de datos y si las tablas que queremos consultar se encuentran en ella.

In [21]:
# conectamos con el servidor
mydb = mysql.connector.connect(
              user='root', password='AlumnaAdalab',
              host='127.0.0.1',
              database='tienda'
)

# creamos el servidor
mycursor = mydb.cursor()

# ejecutamos la query para ver las tablas de la BBDD que hemos indicado en la conexi√≥n
mycursor.execute("SHOW TABLES")

for x in mycursor:
  print(x)

('customers',)
('employees',)
('offices',)
('order_details',)
('orders',)
('payments',)
('product_lines',)
('products',)


## Conocer las columnas que componen una tabla:

Tambi√©n podemos mostrar por pantalla la informaci√≥n de las columnas que componen una tabla espec√≠fica. Podremos realizar esta tarea gracias a la existencia de la base de datos information_schema, cuyo objetivo es contener informaci√≥n acerca de el resto de las bases de datos del servidor y de sus tablas. La consulta que tendremos que realizar ser√° la siguiente:

In [24]:

# conectamos con el servidor
mydb = mysql.connector.connect(
  host="localhost",
  user="root",
  password="AlumnaAdalab",
  database="INFORMATION_SCHEMA" # en este caso tendremos que especificar que queremos informaci√≥n del esquema
)

# iniciamos el cursor
mycursor = mydb.cursor()

## ejecutamos nuestra query, especificando de que tabla queremos la informaci√≥n
mycursor.execute("SELECT * FROM COLUMNS WHERE TABLE_NAME = 'payments'")

for x in mycursor:
  print(x)
  break



('def', 'tienda', 'payments', 'amount', 4, None, 'NO', 'decimal', None, None, 10, 2, None, None, None, b'decimal(10,2)', '', '', 'select,insert,update,references', '', '', None)


## Modos de acceso a los resultados de la consulta

Como vimos al inicio de la lecci√≥n el uso de *execute()* hace que el cursor se convierta en un iterable al cual podemos acceder de diferentes maneras. En ejemplos anteriores hemos visto como podemos acceder a cada uno de los elemenos del mismo como si fuese una lista mediante un bucle *for*. Sin embargo, MySQL Connector/Python nos proporciona maneras espec√≠ficas para realizarlo.

### fetchone()

Si lo que queremos es acceder a la primera fila del resultado, se puede utilizar el m√©todo *fetchone()*. Este m√©todo devolver√° la primera fila del resultado de la consulta y avanzar√° el cursor al siguiente registro del resultado. Debido a esto, la siguiente vez que ejecutemos el m√©todo *fetchone()* en el mismo cursor, se mostrar√°n diferentes datos. Ve√°moslo con un ejemplo:


In [26]:
# conectamos con el servidor
mydb = mysql.connector.connect(
  host="localhost",
  user="root",
  password="AlumnaAdalab",
  database="tienda"
)

# iniciamos el cursor
mycursor = mydb.cursor()

# ejecutamos nuestra query
mycursor.execute("SELECT * FROM employees")

# en este caso solo nos interesa el primer resultado de nuestra query, por lo que usaremos el m√©todo fetchone, para que python solo nos devuelva el primero y despu√©s printemos el resultado
myresult = mycursor.fetchone()
print(myresult)

# volvemos a ejecutar el m√©todo fetchone, como ya nos mostr√≥ el primer resultado, y no hemos cerrado la conexi√≥n, al volver a ejecutarlo, nos mostrar√° el segundo resultado. Pero si nos fijamos, lo hace de uno en uno. 
myresult = mycursor.fetchone()
print(myresult)

(1002, 'Murphy', 'Diane', 'x5800', 'dmurphy@classicmodelcars.com', '1', None, 'President')
(1056, 'Patterson', 'Mary', 'x4611', 'mpatterso@classicmodelcars.com', '1', 1002, 'VP Sales')


### fetchall()

Si por el contrario lo que queremos es seleccionar todos los resultados que ha devuelto una consulta SQL, podemos usar el m√©todo *fetchall()*: 

In [27]:
# establecemos la conexi√≥n con el servidor
mydb = mysql.connector.connect(
  host="localhost",
  user="root",
  password="AlumnaAdalab",
  database="tienda"
)

# inciamos el cursor
mycursor = mydb.cursor()

# realizamos nuestra query
mycursor.execute("SELECT * FROM employees")

# le decimos a Python que nos devuelva todos los resultados de la query usando el m√©todo fetchall
myresult = mycursor.fetchall()
print(myresult)

[(1002, 'Murphy', 'Diane', 'x5800', 'dmurphy@classicmodelcars.com', '1', None, 'President'), (1056, 'Patterson', 'Mary', 'x4611', 'mpatterso@classicmodelcars.com', '1', 1002, 'VP Sales'), (1076, 'Firrelli', 'Jeff', 'x9273', 'jfirrelli@classicmodelcars.com', '1', 1002, 'VP Marketing'), (1088, 'Patterson', 'William', 'x4871', 'wpatterson@classicmodelcars.com', '6', 1056, 'Sales Manager (APAC)'), (1102, 'Bondur', 'Gerard', 'x5408', 'gbondur@classicmodelcars.com', '4', 1056, 'Sale Manager (EMEA)'), (1143, 'Bow', 'Anthony', 'x5428', 'abow@classicmodelcars.com', '1', 1056, 'Sales Manager (NA)'), (1165, 'Jennings', 'Leslie', 'x3291', 'ljennings@classicmodelcars.com', '1', 1143, 'Sales Rep'), (1166, 'Thompson', 'Leslie', 'x4065', 'lthompson@classicmodelcars.com', '1', 1143, 'Sales Rep'), (1188, 'Firrelli', 'Julie', 'x2173', 'jfirrelli@classicmodelcars.com', '2', 1143, 'Sales Rep'), (1216, 'Patterson', 'Steve', 'x4334', 'spatterson@classicmodelcars.com', '2', 1143, 'Sales Rep'), (1286, 'Tseng',

Si despu√©s quisieramos acceder a cada registro de los resultados, podemos hacerlo usando myresult como un iterable. Esto nos devolver√° cada fila resultado como una tupla:

In [28]:
# conectamos con el servidor
mydb = mysql.connector.connect(
  host="localhost",
  user="root",
  password="AlumnaAdalab",
  database="tienda"
)

# iniciamos el cursor
mycursor = mydb.cursor()

# realizamos la query
mycursor.execute("SELECT * FROM employees")

# le pedimos que nos muestre todos los resultados
myresult = mycursor.fetchall()

# accedemos a cada fila de una en una usando un bucle for. Fijaos que nos devuelve tuplas!!!
for x in myresult:
  print(x)

(1002, 'Murphy', 'Diane', 'x5800', 'dmurphy@classicmodelcars.com', '1', None, 'President')
(1056, 'Patterson', 'Mary', 'x4611', 'mpatterso@classicmodelcars.com', '1', 1002, 'VP Sales')
(1076, 'Firrelli', 'Jeff', 'x9273', 'jfirrelli@classicmodelcars.com', '1', 1002, 'VP Marketing')
(1088, 'Patterson', 'William', 'x4871', 'wpatterson@classicmodelcars.com', '6', 1056, 'Sales Manager (APAC)')
(1102, 'Bondur', 'Gerard', 'x5408', 'gbondur@classicmodelcars.com', '4', 1056, 'Sale Manager (EMEA)')
(1143, 'Bow', 'Anthony', 'x5428', 'abow@classicmodelcars.com', '1', 1056, 'Sales Manager (NA)')
(1165, 'Jennings', 'Leslie', 'x3291', 'ljennings@classicmodelcars.com', '1', 1143, 'Sales Rep')
(1166, 'Thompson', 'Leslie', 'x4065', 'lthompson@classicmodelcars.com', '1', 1143, 'Sales Rep')
(1188, 'Firrelli', 'Julie', 'x2173', 'jfirrelli@classicmodelcars.com', '2', 1143, 'Sales Rep')
(1216, 'Patterson', 'Steve', 'x4334', 'spatterson@classicmodelcars.com', '2', 1143, 'Sales Rep')
(1286, 'Tseng', 'Foon Yue'

MySQL Connector/Python permite usar todo tipo de consultas SQL como argumento del m√©todo *execute()*. En los ejercicios finales vas a practicar su uso con operadores de SQL tales como WHERE, GROUP BY, HAVING, ORDER BY, LIMIT, etc.

## Integraci√≥n de resultados de MySQL Connector/Python con Pandas

**¬øQu√© es Pandas?**

Pandas es una librer√≠a para Python que es ampliamente utilizada para el manejo de datos a media/gran escala. Cuando estamos trabajando con datos estructurados en forma de tabla como los almacenados en una base de datos SQL, una hoja de c√°lculo tipo Excel, etc., podemos usar Pandas para cargar esos datos, limpiarlos, procesarlos para extraer informaci√≥n y combinar diferentes fuentes de datos, entre otras cosas.

En Pandas, la estructura b√°sica en las que cargaremos los datos se llama DataFrame. Una vez hemos creado el DataFrame con las fuentes de datos de nuestra elecci√≥n (csv, excel, sql, json, etc.) podemos utilizar m√©todos ya incluidos en la librer√≠a para calcular la media, la mediana, el m√°ximo o el m√≠nimo de una columna num√©rica, entre otros.Tambi√©n podemos combinar los valores de varias columnas en una sola, agruparlas por categor√≠as, en incluso realizar gr√°ficos de manera sencilla gracias a la integraci√≥n de Pandas con Matplotlib.

En esta parte de la lecci√≥n veremos como cargar datos de una base de datos MySQL a un DataFrame de Pandas y haremos algunos c√°lculos sencillos sobre esos datos. En posteriores lecciones veremos una introducci√≥n m√°s profunda a Pandas y a c√≥mo usarlo. El objetivo de los siguientes ejemplos es simplemente que os quede claro c√≥mo integrar MySQL Connector/Python con Pandas.


## Crear un dataframe de Pandas a partir de una sentencia SQL:

Como hemos indicado anteriormente, Pandas soporta la integraci√≥n sencilla con muchos formatos de archivo y fuentes de datos: ficheros csv, excel y json, bases de datos sql, etc. Por ejemplo, para leer los datos de una base de datos SQL podemos ejecutar el siguiente trozo de c√≥digo, el cual incluye una llamada al m√©todo constructor de DataFrames: 

In [9]:
# importamos pandas
import pandas as pd

# hacemos la conexi√≥n con el servidor
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')

# iniciamos el cursor
mycursor = cnx.cursor()

# ejecutamos nuestra query
mycursor.execute("SELECT * FROM employees")

# le decimos que nos devuelva todos los resultados y los almacenamos en una variable llamada myresult
myresult = mycursor.fetchall()

#Creamos un dataframe con los resultados de la consulta SQL almacenados en myresult. Si os fijais le estamos pasando un par√°metro llamado "columns" donde estamos especificando cu√°les son las columnas de lo que ser√° nuestro dataframe
df = pd.DataFrame(myresult, columns = ['ID', 'Nombre', 'Apellido','Email','Telefono','Direccion','Ciudad','Pais'])

#Cerramos la conexion
cnx.close()

In [10]:
# mostramos las 5 primeras filas del dataframe usando el m√©todo .head()
df.head()

Unnamed: 0,ID,Nombre,Apellido,Email,Telefono,Direccion,Ciudad,Pais
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
3,1088,Patterson,William,x4871,wpatterson@classicmodelcars.com,6,1056.0,Sales Manager (APAC)
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)


Otra opci√≥n m√°s directa para ver los resultados de nuestra query en un DataFrame consiste en encargarle a Pandas directamente la ejecuci√≥n de la consulta SQL. Para ello usaremos el m√©todo *read_sql_query()* como vemos a continuaci√≥n: 

In [11]:

# realizamos la conexi√≥n con el servidor
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')


# escribimos nuestra query
sql = "SELECT * FROM employees"

# utilizamos el m√©todo pd.read_sql_qury() para convertir los resultados de nuestra query en un DataFrame que podamos ver de forma amigable en Python
df = pd.read_sql_query(sql, cnx)

#Lo siguiente es un wrap up que funciona tanto con una tabla como con una consulta SQL.
#pd.read_sql(sql, cnx)

#Cerramos la conexion
cnx.close()



In [12]:
# mostramos las 10 primeras filas de nuestros resultados 
df.head(10)


Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
3,1088,Patterson,William,x4871,wpatterson@classicmodelcars.com,6,1056.0,Sales Manager (APAC)
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
5,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA)
6,1165,Jennings,Leslie,x3291,ljennings@classicmodelcars.com,1,1143.0,Sales Rep
7,1166,Thompson,Leslie,x4065,lthompson@classicmodelcars.com,1,1143.0,Sales Rep
8,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep
9,1216,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep


El m√©todo *read_sql_query()* necesita como argumentos un string de texto que contenga la consulta SQL que queramos realizar, y una variable que contenga la conexi√≥n con la base de datos sobre la que se vaya a ejecutar la consulta (en este caso la hemos obtenido con el m√©todo *connect()* de MySQL Connector pero acepta otras opciones). El resultado es el mismo que cuando usamos *myresult* como argumento del constructor de DataFrame, con la ventaja de que en este caso los nombres de las columnas del dataframe se toman autom√°ticamente de los nombres de las columnas del resultado de la consulta SQL.

## Guardado de datos:

Una vez hayamos obtenido los resultados que queremos mediante el procesado de los datos con Pandas, esta librer√≠a tambi√©n proporciona diferentes maneras de almacenar los datos gracias a el uso de los m√©todos *to_\** (cuyo nombre variar√° en funci√≥n del formato en el que se quieren guardar los datos). Veamos unos ejemplos al respecto:

In [33]:
# En este ejemplo calculabamos el valor m√°s frecuente para el pais de las alumnas. 
# Ahora lo almacenaremos de diferentes formas.

#Creamos la conexion con el servidor
cnx = mysql.connector.connect(user='root', password='admin',
                              host='127.0.0.1',
                              database='tienda')

#Realizamos la consulta a la tabla alumnas mediante pandas
sql = "SELECT * FROM employees"
df = pd.read_sql_query(sql, cnx)


#Guardamos el dato en un fichero csv (separado por comas)
df.to_csv("fichero.csv")

#Formateamos el dato a un tipo string para facilitar la lectura en la consola
output_string = df.to_string()
print(output_string)

#Formateamos el dato a un tipo string para facilitar la inserci√≥n de los datos en un documento latex (el formato usado m√°s comunmente en la escritura de art√≠culos cient√≠ficos)
output_latex = df.to_latex()
print(output_latex)


#Cerramos la conexion
cnx.close()



    employee_number  last_name first_name extension                            email office_code  reports_to             job_title
0              1002     Murphy      Diane     x5800     dmurphy@classicmodelcars.com           1         NaN             President
1              1056  Patterson       Mary     x4611   mpatterso@classicmodelcars.com           1      1002.0              VP Sales
2              1076   Firrelli       Jeff     x9273   jfirrelli@classicmodelcars.com           1      1002.0          VP Marketing
3              1088  Patterson    William     x4871  wpatterson@classicmodelcars.com           6      1056.0  Sales Manager (APAC)
4              1102     Bondur     Gerard     x5408     gbondur@classicmodelcars.com           4      1056.0   Sale Manager (EMEA)
5              1143        Bow    Anthony     x5428        abow@classicmodelcars.com           1      1056.0    Sales Manager (NA)
6              1165   Jennings     Leslie     x3291   ljennings@classicmodelcars.co

  output_latex = df.to_latex()


En el c√≥digo anterior hemos visto c√≥mo guardar los datos obtenidos con Pandas en diferentes formatos: un fichero .csv para su posible procesado en un futuro, un string para su visualizaci√≥n por pantalla y un formateo estilo latex para su uso en documentos cient√≠ficos. Cabe resaltar que estos son solo tres ejemplos sencillos, pero que en la documentaci√≥n de Pandas pod√©is encontrar muchos m√°s ejemplos acerca de los formatos en los que se pueden guardar los datos: [Aqu√≠](https://pandas.pydata.org/docs/reference/#) podr√©is encontrar m√°s documentaci√≥n.  


#### ENUNCIADO EJERCICIOS

En este conjunto de ejercicios vamos a volver a usar la tabla Customers (Clientes/as) que vamos a importar en MySQL Workbench. Si tienes dudas de como importarla, revisita la p√°gina asociada de tutorial.

La tabla Customers tiene las siguientes columnas:

**Customers**(`customerNumber`, `customerName`, `contactLastName`, `contactFirstName`, `phone`, `addressLine1`, `addressLine2`, `city`, `state`, `postalCode`, `country`, `salesRepEmployeeNumber`, `creditLimit`) 

Cada columna es bastante autodescriptiva en su nombre, pero vamos a incluir una peque√±a descripci√≥n: 

- *customerNumber*: el n√∫mero identificativo de las clientas/es. Es un n√∫mero entero y sirve de clave primaria.
- *customerName*: el nombre de las empresas en las que trabajan las/los clientas/es. Es una cadena de texto.
- *contactLastName*: El apellido de la persona de contacto en la empresa cliente. Es una cadena de texto.
- *contactFirstName*: El nombre de la persona de contacto en la empresa cliente. Es una cadena de texto.
- *phone*: El tel√©fono de la persona de contacto en la empresa cliente. Es una cadena de texto (ya que hay espacios).
- *adressLine1*: La direcci√≥n (calle, n√∫mero, etc.) de la empresa cliente. Es una cadena de texto.
- *adressLine2*: La direcci√≥n de la empresa cliente (si se necesita mas espacio). Es una cadena de texto. Muchas veces est√° vac√≠a.
- *city*: La ciudad de la empresa cliente.
- *state*: El estado en el que se encuentra la empresa cliente. V√°lido para los Estados Unidos. Es una cadena de texto.
- *postalCode*: El c√≥digo postal. Es una cadena de texto (ya que puede haber espacios).
- *country*: El pa√≠s de la empresa cliente. Es una cadena de texto.
- *salesRepEmployeeNumber*: El n√∫mero identificador de la empleada o empleado que lleva a esa empresa cliente. Es un n√∫mero entero.
- *creditLimit*: El l√≠mite de cr√©dito que tiene la empresa cliente. 

La tabla Employees tiene las siguientes columnas: 

- *employeeNumber*: el n√∫mero identificativo de las empleadas/os. Es un n√∫mero entero y sirve de clave primaria.
- *lastName*: el apellido de las empleadas. Es una cadena de texto.
- *firstName*: el nombre de las empleadas. Es una cadena de texto.
- *extension*: su extensi√≥n telef√≥nica. Es una cadena de texto.
- *email*: el correo electr√≥nico de la empleada. Es una cadena de texto.
- *officeCode*: El c√≥digo de la oficina de la empleada. Es una cadena de texto.
- *reportsTo*: el n√∫mero identificativo de la empleada a la que reporta (su supervisora). Es un n√∫mero entero y clave for√°nea (relacionada con employeeNumber).
- *jobTitle*: el nombre del puesto de trabajo que desempe√±a. Es una cadena de texto.



#### EJERCICIO 1

Imprime por pantalla el nombre de las tablas que componen la base de datos "tienda".

#### EJERCICIO 2

Imprime por pantalla la informaci√≥n acerca de las columnas que componen la tabla "Employees":

#### EJERCICIO 3

Realiza una consulta SELECT que obtenga los nombres, tel√©fonos y direcciones de todas las empresas cliente de la tabla customers. Imprime por pantalla los datos recuperados usando el m√©todo *fetchone()*

#### EJERCICIO 4

Buscar aquellos registros de la tabla Customers que correspondan a clientes de USA pero que no tengan un valor guardado para el campo *state*. Accede a los datos con *fetchall()*

#### EJERCICIO 5

Realiza una consulta SELECT que obtenga el n√∫mero identificativo de cliente m√°s bajo de la base de datos.


#### EJERCICIO 6

Selecciona el m√°ximo de credito que tiene cualquiera de los clientes del empleado con n√∫mero 1165.

#### EJERCICIO 7

Selecciona el n√∫mero de clientes en cada pais.

#### EJERCICIO 8

Crea un dataframe que contenga todas las entradas de la tabla Customers. Para ello usa un *cursor* y el m√©todo *execute()*:

#### EJERCICIO 9

Como Customers tiene un n√∫mero de registros muy elevado, crea un nuevo dataframe.

#### EJERCICIO 10

El resultado anterior tiene 13 columnas, por lo que no es c√≥modo para su visualizaci√≥n por el terminal (o en este mismo notebook).
Crea un dataframe con los resultados. 