# Integración de resultados de MySQL Connector/Python con Pandas

**🚨NOTA IMPORTANTE: 🚨**

Al comenzar esta lección e ir ejecutando las diferentes celdas de Python, te recomendamos que tengas abierto tambien MySQL para ir viendo paso a paso como se van ejecutando las ordenes desde este notebook en MySQL.😊

**¿Qué es Pandas?**

Pandas es una de las bibliotecas más poderosas y populares de Python cuando se trata de manipulación y análisis de datos. Es la herramienta perfecta para trabajar con datos estructurados en forma de tablas, como los que encontramos en bases de datos SQL o incluso en archivos de Excel (y otros formatos como JSON). Con Pandas, no solo puedes cargar y limpiar datos, sino también procesarlos para obtener información valiosa y combinarlos con otras fuentes de datos de manera eficiente.

La estructura principal con la que trabajarás en Pandas se llama *DataFrame*. En esta lección, aprenderás cómo importar datos desde una base de datos MySQL a un *DataFrame* de Pandas, y también exploraremos algunas operaciones básicas que te ayudarán a comenzar. Más adelante, profundizaremos en todo lo que Pandas tiene para ofrecerte, pero por ahora, nuestro objetivo es que te familiarices con la integración entre MySQL Connector/Python y Pandas.

¡Vamos a sumergirnos en el mundo de Pandas y ver cómo podemos manipular los datos de manera sencilla y efectiva! 🚀


## Crear un DataFrame de Pandas desde una sentencia SQL:

No olvides que cada vez que queremos trabajar con librerias, en el caso que no se hayan cargado previamente debemos hacerlo, asi que como primer paso vamos a importar las librerias necesarias para poder trabajar con MySQL y Python.

In [1]:
# Importar librería para la conexión con MySQL
# -----------------------------------------------------------------------
import mysql.connector
from mysql.connector import errorcode

Y en este caso, como usaremos la libreria "Pandas" debemos importarla.

In [2]:
# primero tenemos que importar la librería

import pandas as pd  # El "as" es como darle un alias a la biblioteca que voy a usar...te recuerda al AS de las query de SQL?

Como mencionamos anteriormente, Pandas ofrece una integración sencilla con una variedad de formatos de archivo y fuentes de datos, como archivos CSV, Excel, JSON y bases de datos SQL, entre otros. Por ejemplo, para cargar datos desde una base de datos SQL, puedes ejecutar el siguiente fragmento de código, que incluye una llamada al constructor de DataFrames:

In [3]:
# hacemos la conexión con el servidor
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')

# iniciamos el cursor
mycursor = cnx.cursor()

# ejecutamos nuestra query
mycursor.execute("SELECT * FROM employees")

# le decimos que nos devuelva todos los resultados y los almacenamos en una variable llamada myresult
myresult = mycursor.fetchall()

#Creamos un dataframe con los resultados de la consulta SQL almacenados en myresult. Si os fijáis le estamos pasando un parámetro llamado "columns" donde estamos especificando cuáles son las columnas de lo que será nuestro dataframe
df = pd.DataFrame(myresult, columns = ['ID', 'Nombre', 'Apellido','Email','Telefono','Direccion','Ciudad','Pais'])

#Cerramos la conexion
cnx.close()

Excelente! ya tenemos nuestra informacion consultada en la variable "df" (veras en muchos lugares el "df" como variable que se uas para decir que es un DataFrame). Ahora lo ideal seria ver esa informacion no?

In [4]:
# mostramos las primeras filas del Dataframe usando el método .head()

df.head()

Unnamed: 0,ID,Nombre,Apellido,Email,Telefono,Direccion,Ciudad,Pais
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
3,1088,Patterson,William,x4871,wpatterson@classicmodelcars.com,6,1056.0,Sales Manager (APAC)
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)


Otra opción más directa para ver los resultados de nuestra query en un DataFrame consiste en encargarle a Pandas directamente la ejecución de la consulta SQL. Para ello usaremos el método *read_sql_query()* como vemos a continuación:

In [6]:
# realizamos la conexión con el servidor
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='tienda')


# escribimos nuestra query
sql = "SELECT * FROM employees"

# utilizamos el método pd.read_sql_query() para convertir los resultados de nuestra query en un DataFrame que podamos ver de forma amigable en Python
df1 = pd.read_sql_query(sql, cnx)

#Cerramos la conexión
cnx.close()

  df1 = pd.read_sql_query(sql, cnx)


In [7]:
# mostramos las primeras filas del Dataframe usando el método .head()

df1.head()

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
3,1088,Patterson,William,x4871,wpatterson@classicmodelcars.com,6,1056.0,Sales Manager (APAC)
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)


## Guardado de datos:

Una vez que tenemos nuestro Dataframe podemos guardarlo en diferentes formatos. En este caso lo vamos a guardar en *csv*:

In [8]:
df1.to_csv("fichero.csv") 

Para poder guardarlo, usamos *.to_csv()* y especificamos el nombre de nuestro fichero con la extensión. Más adelante aprenderemos cómo guardar los datos en diferentes formatos. Debes saber que se estara guardando en el directorio donde estas ejecutando este notebook, por ejemplo si estas en documentos/mi_carpeta entonces se encontrara ahi dentro.

## Intro Pandas

Pandas, la biblioteca de Python dedicada a la gestión y análisis de datos, se destaca por sus numerosas características fundamentales:

- Introduce innovadoras estructuras de datos basadas en los arrays de NumPy, enriqueciéndolas con capacidades avanzadas.

- Facilita la lectura y escritura de datos en formatos populares como CSV, Excel y bases de datos SQL, simplificando la manipulación de datos externos.

- Proporciona una accesibilidad excepcional a los datos a través de índices y etiquetas para filas y columnas, simplificando la navegación en conjuntos de datos complejos.

- Ofrece una amplia gama de métodos para reorganizar, dividir y fusionar conjuntos de datos, lo que agiliza la manipulación de datos según tus necesidades.

- Permite un manejo eficiente de series temporales, lo que resulta esencial para el análisis de datos relacionados con el tiempo.

En este apartado vamos a aprender a utilizar métodos como head(), tail(), describe(), entre otros, para obtener información relevante de los datos. Estos métodos te permitirán examinar rápidamente la estructura de tus datos y comprender sus estadísticas clave.


Empezamos por importar las librerías que vamos a usar:

### Principales métodos de Pandas:

- Métodos para exploración básica del *DataFrame*: 

    - `.head()`
    - `.tail()`
    - `.sample()`
    - `.describe()`
    - `.duplicated()`
    - `.isnull()`
    - `.isna()`
    - `.info()`
    - `.columns`

- `.head()`

Muestra las primeras líneas de nuestro Dataframe. Por defecto nos enseña 5.

In [9]:
df.head()

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
3,1088,Patterson,William,x4871,wpatterson@classicmodelcars.com,6,1056.0,Sales Manager (APAC)
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)


In [11]:
# si queremos ver un número diferente de filas, se lo podemos especificar

df.head(7) # Le digo que solo quiero las 7 primeras

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
3,1088,Patterson,William,x4871,wpatterson@classicmodelcars.com,6,1056.0,Sales Manager (APAC)
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
5,1143,Bow,Anthony,x5428,abow@classicmodelcars.com,1,1056.0,Sales Manager (NA)
6,1165,Jennings,Leslie,x3291,ljennings@classicmodelcars.com,1,1143.0,Sales Rep


- `.tail()`

Devuelve las últimas 5 filas del Dataframe. Al igual que con `.head()`, podemos especificar un número diferente.

In [12]:
df.tail()

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
18,1612,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep
19,1619,King,Tom,x103,tking@classicmodelcars.com,6,1088.0,Sales Rep
20,1621,Nishi,Mami,x101,mnishi@classicmodelcars.com,5,1056.0,Sales Rep
21,1625,Kato,Yoshimi,x102,ykato@classicmodelcars.com,5,1621.0,Sales Rep
22,1702,Gerard,Martin,x2312,mgerard@classicmodelcars.com,4,1102.0,Sales Rep


In [13]:
# Al igual que en .head() si queremos ver un número diferente de filas, se lo podemos especificar

df.tail(7) # Le digo que solo quiero las 7 ultimas

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
16,1504,Jones,Barry,x102,bjones@classicmodelcars.com,7,1102.0,Sales Rep
17,1611,Fixter,Andy,x101,afixter@classicmodelcars.com,6,1088.0,Sales Rep
18,1612,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep
19,1619,King,Tom,x103,tking@classicmodelcars.com,6,1088.0,Sales Rep
20,1621,Nishi,Mami,x101,mnishi@classicmodelcars.com,5,1056.0,Sales Rep
21,1625,Kato,Yoshimi,x102,ykato@classicmodelcars.com,5,1621.0,Sales Rep
22,1702,Gerard,Martin,x2312,mgerard@classicmodelcars.com,4,1102.0,Sales Rep


- `.sample()`

Muestra filas aleatorias. Por defecto nos devuelve 1, pero también le podemos dar un valor diferente.

In [14]:
df.sample()

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President


In [15]:
df.sample(4) # Pidiéndole 4 registros de manera aleatoria

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)
19,1619,King,Tom,x103,tking@classicmodelcars.com,6,1088.0,Sales Rep
21,1625,Kato,Yoshimi,x102,ykato@classicmodelcars.com,5,1621.0,Sales Rep
6,1165,Jennings,Leslie,x3291,ljennings@classicmodelcars.com,1,1143.0,Sales Rep


- `describe()`

Nos devuelve un *DataFrame* con un resumen de los principales estadísticos (media, mediana, desviacón estándar etc.) de nuestras **columnas numéricas**.

In [16]:
df.describe()

Unnamed: 0,employee_number,reports_to
count,23.0,22.0
mean,1335.391304,1117.409091
std,223.565475,120.173549
min,1002.0,1002.0
25%,1154.0,1064.0
50%,1323.0,1102.0
75%,1557.5,1143.0
max,1702.0,1621.0


Si queremos ver el `.describe()`de las variables categóricas, tenemos que incluir `include = "object"`. Podemos ver que nos devuelve diferentes estadísticas que para las numéricas.

- count: El número total de valores no nulos en la columna.
- unique: El número de valores únicos en la columna.
- top: El valor más frecuente en la columna.
- freq: La frecuencia del valor más común (el número de veces que aparece).

In [17]:
df.describe(include="object")

Unnamed: 0,last_name,first_name,extension,email,office_code,job_title
count,23,23,23,23,23,23
unique,19,21,20,22,7,7
top,Patterson,Gerard,x102,jfirrelli@classicmodelcars.com,1,Sales Rep
freq,3,2,3,2,6,17


- `duplicated()`

Devuelve una Serie booleana que indica si cada fila es un duplicado de una fila previamente vista.

In [18]:
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
dtype: bool

Si queremos ver el número de filas duplicadas de nuestro Dataframe tenemos que usar `.sum()`

In [19]:
df.duplicated().sum()

0

- `isnull()` / - `isna()`:

Estos son los métodos para ver los valores nulos que tenemos en nuestros datos, podemos usar cualquiera de ellos ya que hacen lo mismo.

Nos devuelve un booleano con los valores que faltan en nuestro DataFrame.

In [20]:
df.isnull()

Unnamed: 0,employee_number,last_name,first_name,extension,email,office_code,reports_to,job_title
0,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False


Al igual que con los duplicados, podemos usar `.sum()` para poder entender mejor el resultado. Ahora nos devuelve el número de valores nulos por cada columna.

In [21]:
df.isnull().sum()

employee_number    0
last_name          0
first_name         0
extension          0
email              0
office_code        0
reports_to         1
job_title          0
dtype: int64

- `info()`

El método `info()` proporciona un pequeño resumen que incluye:

- El total de columnas en el DataFrame.
- Los nombres de las columnas.
- La cantidad de valores no nulos en cada columna.
- El tipo de datos de cada columna en el DataFrame.

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   employee_number  23 non-null     int64  
 1   last_name        23 non-null     object 
 2   first_name       23 non-null     object 
 3   extension        23 non-null     object 
 4   email            23 non-null     object 
 5   office_code      23 non-null     object 
 6   reports_to       22 non-null     float64
 7   job_title        23 non-null     object 
dtypes: float64(1), int64(1), object(6)
memory usage: 1.6+ KB


- `columns`

Nos muestra el nombre de las columnas de nuestro *DataFrame* .

In [23]:
df.columns

Index(['employee_number', 'last_name', 'first_name', 'extension', 'email',
       'office_code', 'reports_to', 'job_title'],
      dtype='object')

¡Gran trabajo!👍 Hemos llegado al final de esta lección sobre la integración de Pandas con MySQL. Ahora ya sabes cómo conectar una base de datos MySQL con Python y cómo traer esos datos a un *DataFrame* de Pandas para analizarlos de manera más eficiente. 🚀

Pandas es una herramienta increíblemente poderosa, y lo que hemos visto hoy es solo una pequeña introducción. En futuras lecciones, profundizaremos más en las capacidades de Pandas para la manipulación y análisis de datos.

Recuerda que dominar estas herramientas llevará tiempo, pero con cada paso que das, estás construyendo una base sólida para trabajar con grandes volúmenes de datos de manera efectiva.

¡Sigue practicando y nos vemos en la próxima lección! 💡
