## Writing to the Database

In [12]:
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine
print('sqlalchemy version', sqlalchemy.__version__)

sqlalchemy version 2.0.34


In [20]:
con_string = 'mysql+pymysql://root:college@localhost/employees'
engine = create_engine(con_string)

query = """
    SELECT *
    FROM employees e
    JOIN salaries s
    ON e.emp_no = s.emp_no
    WHERE e.hire_date > '1999-01-01';
"""
# creo un dataframe al que le paso el lector pandas con el query a ejecutar y el engine
df = pd.read_sql(query, engine)

In [30]:
df.columns = ['emp_no', 'birth_date', 'first_name', 'last_name', 'gender', 'hire_date', 'empl_no.1', 'salary', 'from_date', 'to_date']


Con ``groupby`` agrupo los Dataframe por columnas creando grupos de datos donde cada grupo tiene las filas que tienen el mismo valor para estas tres columnas.  

Con ``['salary']`` selecciono solo la columna salary para realizar la operacion de agragación.  De cada grupo, se van a usar los valores de la columna 'salary' para realizar alguna operación.  

Con ``.max()`` aplico la funcion de agregación ``max()`` a la columna ``salary`` dentro de cada grupo. Devolviendo el valor máximo de salary para cada grupo. Para cada combinación de 'emp_no', 'first_name' y 'last_name', se obtiene el salario más alto.

Después de realizar la agrupación y la operación ``max()``, el índice del DataFrame resultante será el índice de los grupos.

Con ``.reset_index()`` restablezco el índice a un rango numérico por defecto y convierte las columnas agrupadas en columnas normales del DataFrame. Para no tener que tratar los índices como claves.


In [32]:
max_salary = df.groupby(['emp_no', 'first_name', 'last_name'])['salary'].max().reset_index()

Ya tengo mi nueva query

In [34]:
max_salary

Unnamed: 0,emp_no,first_name,last_name,salary
0,10019,Lillian,Haddadi,50032
1,10105,Hironoby,Piveteau,61514
2,10298,Dietrich,DuCasse,43923
3,10684,Aimee,Tokunaga,47683
4,11315,Neven,Meriste,85452
...,...,...,...,...
1516,498990,Adil,Litecky,54960
1517,499361,Sandeepan,Solares,64196
1518,499553,Hideyuki,Delgrande,72320
1519,499610,Kiyokazu,Vernadat,88013


Lo paso a la BD.  
Proporcionandole el dataframe y el engine

Si ejecutas dos veces el siguiente script, saldrá un fallo porque por defecto se crea una tabla nueva, y si ya existe sale el fallo.  
Si se está escribiendo en una tabla que ya existe, se puede usar la configuración ``'if_exists'``, que por defecto está en fail (devolverá error).  
Se puede cambiar esta configuración a ``'replace'`` para reemplazar o ``'append'`` para añadir nuevos datos.



In [39]:
# max_salary.to_sql('max_salary', engine)

1521

#### Insertar nuevos datos reemplazando la tabla

In [129]:
max_salary.to_sql('max_salary', engine, if_exists='replace', index= False)

1521

In [70]:
max_salary2 = pd.read_sql('SELECT * from max_salary', engine)

In [66]:
max_salary2

Unnamed: 0,emp_no,first_name,last_name,salary
0,10019,Lillian,Haddadi,50032
1,10105,Hironoby,Piveteau,61514
2,10298,Dietrich,DuCasse,43923
3,10684,Aimee,Tokunaga,47683
4,11315,Neven,Meriste,85452
...,...,...,...,...
1516,498990,Adil,Litecky,54960
1517,499361,Sandeepan,Solares,64196
1518,499553,Hideyuki,Delgrande,72320
1519,499610,Kiyokazu,Vernadat,88013


In [72]:
max_salary2.shape, max_salary.shape

((1521, 4), (1521, 4))

#### Insertar nuevos datos añadiendo datos a la tabla

In [127]:
max_salary_plus = max_salary.copy()
max_salary_plus['salary'] = max_salary_plus['salary'] + 1_000_000

In [111]:
# max_salary_plus.to_sql('max_salary', engine, index = False, if_exists = 'append')

In [113]:
# max_salary3 = pd.read_sql('SELECT * from max_salary', engine)

In [115]:
#max_salary3

Un ejemplo páctico:  
Quiero crear una nueva columna de fechas.

In [123]:
import datetime as dt
dt.datetime.now()

datetime.datetime(2025, 4, 4, 13, 26, 39, 130810)

Si intento ejecutar esto sin haber reemplazado antes, me dará error por la nueva columna que no estaba antes.

In [171]:
max_salary['create_date'] = dt.datetime.now()
max_salary.to_sql('max_salary', engine, index = False, if_exists = 'append')
max_salary4 = pd.read_sql('SELECT * from max_salary', engine)
max_salary4
max_salary4['create_date']
max_salary4['create_date'].value_counts()

create_date
2025-04-04 13:32:20    1521
2025-04-04 13:32:25    1521
2025-04-04 13:32:27    1521
2025-04-04 13:32:40    1521
Name: count, dtype: int64