In [6]:
import pandas as pd
from sqlalchemy import create_engine

df = pd.read_csv('data_prueba_tecnica_transformed.csv')

In [17]:
companies_df = (
    df[["company_id", "company_name"]]
    .dropna(subset=["company_id"])
    .drop_duplicates()
)
print("Número de compañías:", companies_df.shape[0])
companies_df

Número de compañías: 6


Unnamed: 0,company_id,company_name
0,cbf1c8b09cd5b549416d49d2,MiPasajefy
78,8f642dc67fccf861548dfe1c,Muebles chidos
601,*******,MiPasajefy
729,cbf1c8b09cd5b549416d49d2,
1318,cbf1c8b09cd5b549416d49d2,MiPas0xFFFF
1477,cbf1c8b09cd5b549416d49d2,MiP0xFFFF


Podemos observar que existe un duplicado para el campo 'company_id'. Existe un registro con valor en el campo 'company_name' nulo, y el otro sí tiene valor. Además de que aparecen variantes del mismo nombre, incluso una con el id no válido.

De manera juiciosa, eliminamos el registro con 'company_name' incorrectos, pues se corresponden con el otro registro que sí tiene valor en ese campo.

Este procedimiento manual es posible gracias a que son pocos registros para esta tabla. En general, es necesaria más información sobre la naturaleza y el propósito de los datos para ejecutar procedimientos más generales.

In [None]:
companies_df = companies_df[
    ~(
        (companies_df["company_id"] == "cbf1c8b09cd5b549416d49d2") &
        (
            companies_df["company_name"].isna() |
            (companies_df["company_name"] != "MiPasajefy")
        )
    )
]
companies_df

Unnamed: 0,company_id,company_name
0,cbf1c8b09cd5b549416d49d2,MiPasajefy
78,8f642dc67fccf861548dfe1c,Muebles chidos
601,*******,MiPasajefy


In [14]:
companies_df.shape

(5, 2)

In [10]:
charges_df = df[
    [
        "id",
        "company_id",
        "amount",
        "status",
        "created_at",
        "paid_at",
    ]
]
charges_df.head()

Unnamed: 0,id,company_id,amount,status,created_at,paid_at
0,48ba4bdbfb56ceebb32f2bd0,cbf1c8b09cd5b549416d49d2,3.0,voided,2019-03-19,
1,05fc6f5ac66b6ee7e4253aa5,cbf1c8b09cd5b549416d49d2,3.0,pending_payment,2019-05-06,
2,2cdce231c1fc6a2061bfa2f1,cbf1c8b09cd5b549416d49d2,3.0,voided,2019-02-22,
3,81633ba310a50b673efd469c,cbf1c8b09cd5b549416d49d2,102.61,paid,2019-02-27,2019-02-27
4,6ccfc4c24e788e4bca448df3,cbf1c8b09cd5b549416d49d2,184.49,paid,2019-02-05,2019-02-05


In [21]:
engine = create_engine(
    "mysql+mysqlconnector://appuser:apppass@localhost:3307/transacciones_db"
)

companies_df.to_sql(
    name="companies",
    con=engine,
    if_exists="append",
    index=False
)

charges_df.to_sql(
    name="charges",
    con=engine,
    if_exists="append",
    index=False
)

9989

El número resultado nos indica el número de columnas afectadas. Podemos comprobarlo directamente con una consulta SQL.

In [23]:
# Ejecutar consulta
from sqlalchemy import text
with engine.connect() as conn:
    result = conn.execute(text("SELECT COUNT(*) FROM companies, charges;"))
    total = result.scalar()

print(f"Total de registros en Cargo: {total}")

Total de registros en Cargo: 29967
