## MySQL - pandas

- Una de las características más útiles de pandas es su capacidad para interactuar con bases de datos SQL.

| Función                                  | Descripción                                                              |
|------------------------------------------|--------------------------------------------------------------------------|
| **`pd.read_sql_table(table_name, con)`** |Lee una tabla de SQL en un DataFrame de Pandas.                           |
| **`pd.read_sql_query(sql, con)`**        |Lee una consulta SQL y devuelve un DataFrame de Pandas.                   |
| **`pd.read_sql(sql, con)` (función flexible)**              |Lee una consulta SQL o una tabla de base de datos y devuelve un DataFrame.|
| **`pd.DataFrame.to_sql(name, con)`**     |Escribe registros almacenados en un DataFrame a una base de datos SQL.    |
| **`pd.DataFrame.query()`**               |Filtros de SQL en un DataFrame usando una query de SQL.                   |

### Conectarse a la BBDD

Para conectarnos vamos a usar la librería **sqlalchemy** y **pymysql**:

```htlm
pip install sqlalchemy
pip install pymysql
```

In [3]:
!pip install sqlalchemy
!pip install pymysql



In [4]:
import pandas as pd

import pymysql # Para ver la versión
import sqlalchemy # Para ver la versión
from sqlalchemy import create_engine

In [5]:
# Versiones

print(f"pandas=={pd.__version__}")
print(f"pymysql=={pymysql.__version__}")
print(f"sqlalchemy=={sqlalchemy.__version__}")

pandas==2.2.3
pymysql==1.4.6
sqlalchemy==2.0.37


In [7]:
user = "root"
password = "1234abcd"
database = "sakila"

# Crear la conexión
engine = create_engine(f"mysql+pymysql://{user}:{password}@localhost/{database}")

# Abrir una conección
connection = engine.connect()

# Cerrar la conección
connection.close()

#### Leer una tabla en SQL

In [8]:
# Leer la tabla "actor"
df = pd.read_sql_table(table_name = "actor", con = engine)

df.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


#### Leer una query en SQL

In [9]:
query = "SELECT * FROM actor WHERE first_name = 'PENELOPE'"

df = pd.read_sql_query(sql = query, con = engine)

# Mostrar el DataFrame
df

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,54,PENELOPE,PINKETT,2006-02-15 04:34:33
2,104,PENELOPE,CRONYN,2006-02-15 04:34:33
3,120,PENELOPE,MONROE,2006-02-15 04:34:33


#### Leer una tabla o una query

La función **`pd.read_sql`** lee una tabla o una query dependiendo de la estructura de la query. Hace lo mismo que las funciones anteriores.

In [10]:
query = "SELECT * FROM actor WHERE first_name = 'PENELOPE'"

df = pd.read_sql(sql = query, con = engine)

# Mostrar el DataFrame
df

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,54,PENELOPE,PINKETT,2006-02-15 04:34:33
2,104,PENELOPE,CRONYN,2006-02-15 04:34:33
3,120,PENELOPE,MONROE,2006-02-15 04:34:33


#### Crear una tabla en SQL desde pandas

- **if_exists** toma los parámetros: `"fail"`, `"replace"` o `"append"`.

In [11]:
# Datos
data = {"name" : ["John", "Anna", "Peter", "Linda"],
        "age"  : [28, 24, 35, 32],
        "city" : ["New York", "Paris", "Berlin", "London"]}

df = pd.DataFrame(data)


# Crear una nueva tabla en sakila
df.to_sql(name = "ejemplo_tabla", con = engine, if_exists = "replace", index = False)

4

#### Filtrar datos en un DataFrame

In [12]:
from sklearn.datasets import load_iris

data = load_iris()

X, y, column_names, target_names = data["data"], data["target"], data["feature_names"], data["target_names"]

target_names = {num : target for num, target in enumerate(target_names)}

df = pd.DataFrame(data = X, columns = [x.replace(" ", "_")[:-5] for x in column_names])

df["target"] = [target_names[x] for x in y]

df

ModuleNotFoundError: No module named 'sklearn'

In [13]:
query = "target == 'setosa'"

df.query(expr = query)

UndefinedVariableError: name 'target' is not defined

In [None]:
query = "sepal_length < 5"

df.query(expr = query)

In [None]:
query = "sepal_length < 5 & target == 'versicolor'"

df.query(expr = query)

In [None]:
################################################################################################################################