# 1.3 Transformación de datos

Se usa la librería pandas para abrir el archivo csv extraído de la base de datos para su análisis y posterior transformación

In [2]:
import pandas as pd

In [3]:
df_db = pd.read_csv("data_prueba_extraida.csv")

In [4]:
df_db.head()

Unnamed: 0,id,company_name,company_id,amount,status,created_at,updated_at
0,48ba4bdbfb56ceebb32f2bd0263e759be942af3d,MiPasajefy,cbf1c8b09cd5b549416d49d220a40cbd317f952e,3.0,voided,2019-03-19,
1,05fc6f5ac66b6ee7e4253aa5d0c2299eb47aaaf4,MiPasajefy,cbf1c8b09cd5b549416d49d220a40cbd317f952e,3.0,pending_payment,2019-05-06,
2,2cdce231c1fc6a2061bfa2f1d978351fe217245d,MiPasajefy,cbf1c8b09cd5b549416d49d220a40cbd317f952e,3.0,voided,2019-02-22,
3,81633ba310a50b673efd469c37139576982901aa,MiPasajefy,cbf1c8b09cd5b549416d49d220a40cbd317f952e,102.61,paid,2019-02-27,2019-02-27
4,6ccfc4c24e788e4bca448df343698782db6b0c0b,MiPasajefy,cbf1c8b09cd5b549416d49d220a40cbd317f952e,184.49,paid,2019-02-05,2019-02-05


Bajo este resumen se deduce que hay valores tipo string para los ids, nombre de compañia, status y fechas. En cambio amount es de tipo numérico, por lo que lo comprobaremos usando python. La primera impresión es de que probablemente el id tenga un tamaño que rebase los 24 que exige que se guarden en la base de datos.

In [5]:
df_db.dtypes

id               object
company_name     object
company_id       object
amount          float64
status           object
created_at       object
updated_at       object
dtype: object

In [6]:
df_db.shape

(10000, 7)

Transformamos los datos en tipo str para facilitar su transformación a excepción de los que sean de tipo numéricos

In [7]:
for column in df_db:
    if df_db[column].dtype == "object":
        df_db[column] = df_db[column].astype(str)

Veamos cuántos caracteres tiene el id más grande.

In [8]:
df_db['id'].apply(len).max

<bound method Series.max of 0       40
1       40
2       40
3       40
4       40
        ..
9995    40
9996    40
9997    40
9998    40
9999    40
Name: id, Length: 10000, dtype: int64>

También se identificó que los ids son presumiblemente números en formato hexadecimal guardados como strings, puede que sean valores comprimidos o encriptados, por lo que se comprobará si un posible extracción de substring para que se adapte a la nueva base de datos donde exigen que tenga 24 caracteres no cree ids duplicados.

In [9]:
len(list(df_db["id"].apply(lambda x: x[16:]).unique()))

9998

Se determina que posiblemente hay al menos dos id son duplicados. Lo comprobamos sin quitarle caracteres.

In [10]:
len(list(df_db["id"].unique()))

9998

Se deduce que hay al menos dos datos que pueden estar duplicados, ahora veamos como se comportan los demás datos. El esquema exige que el valor máximo de amount sea de 10 dígitos y dos decimales. Veamos cuál es el valor más grande:

In [11]:
df_db['amount'].max()

2.9999999999999997e+34

Se nota que existe un valor que rompe con la lógica teniendo un exponente de hasta 34 en base 10. Haré un filtro que todo valor corrupto sea 0.0 si sobrepasa el umbral que requiere el esquema de base de datos.

In [12]:
df_db['amount'] = df_db['amount'].where(df_db['amount'] < pow(10, 16), 0.0)

Ahora veamos los nombres de las compañias y cúantas son en total.

In [13]:
df_db["company_name"].unique()

array(['MiPasajefy', 'Muebles chidos', 'nan', 'MiPas0xFFFF', 'MiP0xFFFF'],
      dtype=object)

Aquí se notó que hay al menos 2 datos que pueden estar corruptos y uno que es un valor nulo. Veamos cómo se comporta las filas dado estos datos.

In [14]:
df_db.loc[df_db['company_name'] == "nan"]

Unnamed: 0,id,company_name,company_id,amount,status,created_at,updated_at
731,ec79a21ef969c7fc6beef080ff56baf0aeeca8b5,,cbf1c8b09cd5b549416d49d220a40cbd317f952e,112.52,paid,2019-02-14,2019-02-14
2199,6a6ac16d53a02ba7948bff0a534e45404e716c5b,,cbf1c8b09cd5b549416d49d220a40cbd317f952e,244.88,voided,2019-05-09,
2200,4740cf2624c3b929d9944cdfcb5c87e71a82ddc5,,cbf1c8b09cd5b549416d49d220a40cbd317f952e,118.78,paid,2019-03-05,2019-03-06


In [15]:
df_db.loc[df_db['company_name'] == "MiPas0xFFFF"]

Unnamed: 0,id,company_name,company_id,amount,status,created_at,updated_at
1320,60366f3cfb5245ec62143984eef4ba93cfbe3c38,MiPas0xFFFF,cbf1c8b09cd5b549416d49d220a40cbd317f952e,134.99,paid,2019-01-25,2019-01-25


In [16]:
df_db["company_id"].loc[df_db['company_name'] == 'MiP0xFFFF'].values[0]

'cbf1c8b09cd5b549416d49d220a40cbd317f952e'

Como company_id y company_name tiene posibilidad de que esten relacionados, vamos a ver sus dataframe aislado, eliminando valores duplicados.

In [17]:
df_companies = df_db[["company_id", "company_name"]]
df_companies_wout_dup = df_companies.drop_duplicates()
df_companies_wout_dup.head()

Unnamed: 0,company_id,company_name
0,cbf1c8b09cd5b549416d49d220a40cbd317f952e,MiPasajefy
78,8f642dc67fccf861548dfe1c761ce22f795e91f0,Muebles chidos
262,,MiPasajefy
603,*******,MiPasajefy
731,cbf1c8b09cd5b549416d49d220a40cbd317f952e,


Veamos cuántos company_id hay diferentes

In [18]:
df_companies_id = df_db[["company_id"]].drop_duplicates()
df_companies_id.shape

(4, 1)

Vemos que los ids del dataframe companies de la 3ra fila hasta la última están corruptas. Aislaremos las primeras dos para que cada compañia tenga su id correctamente.

In [19]:
df_companies_final = df_companies_wout_dup.drop(df_companies_wout_dup.index[2:])
df_companies_final.head()

Unnamed: 0,company_id,company_name
0,cbf1c8b09cd5b549416d49d220a40cbd317f952e,MiPasajefy
78,8f642dc67fccf861548dfe1c761ce22f795e91f0,Muebles chidos


Corregimos manualmente los datos corruptos.

In [20]:
comp_name_str = df_companies_final.loc[0, "company_name"]
comp_id_str = df_companies_final.loc[0, "company_id"]

for i in df_db.index:
    if df_db.loc[i, "company_name"] == comp_name_str and df_db.loc[i, "company_id"] != comp_id_str:
        df_db.loc[i, "company_id"] = comp_id_str
    if df_db.loc[i, "company_name"] != comp_name_str and df_db.loc[i, "company_id"] == comp_id_str:
        df_db.loc[i, "company_name"] = comp_name_str

Volvemos a comprobar si los datos se corrigieron correctamente con nuestro dataframe original

In [21]:
df_db["company_name"].unique()

array(['MiPasajefy', 'Muebles chidos'], dtype=object)

In [22]:
df_companies = df_db[["company_id", "company_name"]]
df_companies_wout_dup = df_companies.drop_duplicates()
df_companies_wout_dup.head()

Unnamed: 0,company_id,company_name
0,cbf1c8b09cd5b549416d49d220a40cbd317f952e,MiPasajefy
78,8f642dc67fccf861548dfe1c761ce22f795e91f0,Muebles chidos


Ahora vamos a adaptar el id para que quepa dentro del esquema de base de datos.

In [23]:
df_db['id'].apply(len).max
df_db['id'] = df_db['id'].apply(lambda x: x[16:])
df_db['id'].apply(len).max

<bound method Series.max of 0       24
1       24
2       24
3       24
4       24
        ..
9995    24
9996    24
9997    24
9998    24
9999    24
Name: id, Length: 10000, dtype: int64>

In [24]:
df_db['company_id'].apply(len).max
df_db['company_id'] = df_db['company_id'].apply(lambda x: x[16:])
df_db['company_id'].apply(len).max

<bound method Series.max of 0       24
1       24
2       24
3       24
4       24
        ..
9995    24
9996    24
9997    24
9998    24
9999    24
Name: company_id, Length: 10000, dtype: int64>

Los datos quedarán de esta forma:

In [25]:
df_db.head()

Unnamed: 0,id,company_name,company_id,amount,status,created_at,updated_at
0,b32f2bd0263e759be942af3d,MiPasajefy,416d49d220a40cbd317f952e,3.0,voided,2019-03-19,
1,e4253aa5d0c2299eb47aaaf4,MiPasajefy,416d49d220a40cbd317f952e,3.0,pending_payment,2019-05-06,
2,61bfa2f1d978351fe217245d,MiPasajefy,416d49d220a40cbd317f952e,3.0,voided,2019-02-22,
3,3efd469c37139576982901aa,MiPasajefy,416d49d220a40cbd317f952e,102.61,paid,2019-02-27,2019-02-27
4,ca448df343698782db6b0c0b,MiPasajefy,416d49d220a40cbd317f952e,184.49,paid,2019-02-05,2019-02-05


Por último revisemos si no hay datos corruptos dentro de la columna status

In [26]:
df_status = df_db[["status"]]
df_status_wout_dup = df_status.drop_duplicates()
df_status_wout_dup.head()

Unnamed: 0,status
0,voided
1,pending_payment
3,paid
6,pre_authorized
136,refunded


Y llenaremos con valores None en updated_at

In [27]:
for i in df_db.index:
    if df_db.loc[i, "updated_at"] == "nan":
        df_db.loc[i, "updated_at"] = None
    

Así quedan los datos:

In [28]:
df_db.head()

Unnamed: 0,id,company_name,company_id,amount,status,created_at,updated_at
0,b32f2bd0263e759be942af3d,MiPasajefy,416d49d220a40cbd317f952e,3.0,voided,2019-03-19,
1,e4253aa5d0c2299eb47aaaf4,MiPasajefy,416d49d220a40cbd317f952e,3.0,pending_payment,2019-05-06,
2,61bfa2f1d978351fe217245d,MiPasajefy,416d49d220a40cbd317f952e,3.0,voided,2019-02-22,
3,3efd469c37139576982901aa,MiPasajefy,416d49d220a40cbd317f952e,102.61,paid,2019-02-27,2019-02-27
4,ca448df343698782db6b0c0b,MiPasajefy,416d49d220a40cbd317f952e,184.49,paid,2019-02-05,2019-02-05


## Guardamos los datos para exportar a mysql

Primero separamos el dataframe companies con sus valores, para ello lo copiamos en un df llamado companies_dup que contiene duplicados de las empresas con sus id, luego estos son eliminados para que queden con valores únicos.

In [29]:
df_companies_dup = df_db[["company_id", "company_name"]]
df_companies = df_companies_dup.drop_duplicates()
df_companies.head()

Unnamed: 0,company_id,company_name
0,416d49d220a40cbd317f952e,MiPasajefy
78,548dfe1c761ce22f795e91f0,Muebles chidos


Posteriormente preparamos el dataframe para changes, este se elimina la columna con información repetida.

In [30]:
df_changes_dup = df_db.drop("company_name", axis=1)
df_changes = df_changes_dup.drop_duplicates()
df_changes.shape

(10000, 6)

In [31]:
df_changes.head()

Unnamed: 0,id,company_id,amount,status,created_at,updated_at
0,b32f2bd0263e759be942af3d,416d49d220a40cbd317f952e,3.0,voided,2019-03-19,
1,e4253aa5d0c2299eb47aaaf4,416d49d220a40cbd317f952e,3.0,pending_payment,2019-05-06,
2,61bfa2f1d978351fe217245d,416d49d220a40cbd317f952e,3.0,voided,2019-02-22,
3,3efd469c37139576982901aa,416d49d220a40cbd317f952e,102.61,paid,2019-02-27,2019-02-27
4,ca448df343698782db6b0c0b,416d49d220a40cbd317f952e,184.49,paid,2019-02-05,2019-02-05


Haremos que pandas se conecte a la base de datos con las tablas previamente creadas

In [32]:
from sqlalchemy import create_engine

In [33]:
db_connection_str = 'mysql+mysqlconnector://root:Prueba#001@localhost:33306/NTGroupTest'
db_connection = create_engine(db_connection_str)

Primero cargamos el dataframe de companies.

In [34]:
df_companies.to_sql(con=db_connection, name='companies', if_exists='append', index=False)

2

In [36]:
df_changes.head()

Unnamed: 0,id,company_id,amount,status,created_at,updated_at
0,b32f2bd0263e759be942af3d,416d49d220a40cbd317f952e,3.0,voided,2019-03-19,
1,e4253aa5d0c2299eb47aaaf4,416d49d220a40cbd317f952e,3.0,pending_payment,2019-05-06,
2,61bfa2f1d978351fe217245d,416d49d220a40cbd317f952e,3.0,voided,2019-02-22,
3,3efd469c37139576982901aa,416d49d220a40cbd317f952e,102.61,paid,2019-02-27,2019-02-27
4,ca448df343698782db6b0c0b,416d49d220a40cbd317f952e,184.49,paid,2019-02-05,2019-02-05


In [37]:
df_changes = df_changes[["id", "amount", "status", "created_at", "updated_at", "company_id"]]
df_changes.head()

Unnamed: 0,id,amount,status,created_at,updated_at,company_id
0,b32f2bd0263e759be942af3d,3.0,voided,2019-03-19,,416d49d220a40cbd317f952e
1,e4253aa5d0c2299eb47aaaf4,3.0,pending_payment,2019-05-06,,416d49d220a40cbd317f952e
2,61bfa2f1d978351fe217245d,3.0,voided,2019-02-22,,416d49d220a40cbd317f952e
3,3efd469c37139576982901aa,102.61,paid,2019-02-27,2019-02-27,416d49d220a40cbd317f952e
4,ca448df343698782db6b0c0b,184.49,paid,2019-02-05,2019-02-05,416d49d220a40cbd317f952e


Cargamos el dataframe de changes a la base de datos

In [44]:
df_changes.to_sql(con=db_connection, name='changes', if_exists='append', index=False)
#df_changes.to_csv("../dataset/data_changes.csv", index=False)

IntegrityError: (mysql.connector.errors.IntegrityError) 1062 (23000): Duplicate entry '' for key 'changes.PRIMARY'
[SQL: INSERT INTO changes (id, amount, status, created_at, updated_at, company_id) VALUES (%(id)s, %(amount)s, %(status)s, %(created_at)s, %(updated_at)s, %(company_id)s)]
[parameters: [{'id': 'b32f2bd0263e759be942af3d', 'amount': 3.0, 'status': 'voided', 'created_at': '2019-03-19', 'updated_at': None, 'company_id': '416d49d220a40cbd317f952e'}, {'id': 'e4253aa5d0c2299eb47aaaf4', 'amount': 3.0, 'status': 'pending_payment', 'created_at': '2019-05-06', 'updated_at': None, 'company_id': '416d49d220a40cbd317f952e'}, {'id': '61bfa2f1d978351fe217245d', 'amount': 3.0, 'status': 'voided', 'created_at': '2019-02-22', 'updated_at': None, 'company_id': '416d49d220a40cbd317f952e'}, {'id': '3efd469c37139576982901aa', 'amount': 102.61, 'status': 'paid', 'created_at': '2019-02-27', 'updated_at': '2019-02-27', 'company_id': '416d49d220a40cbd317f952e'}, {'id': 'ca448df343698782db6b0c0b', 'amount': 184.49, 'status': 'paid', 'created_at': '2019-02-05', 'updated_at': '2019-02-05', 'company_id': '416d49d220a40cbd317f952e'}, {'id': '1e676be772f4dd99891ad188', 'amount': 85.27, 'status': 'pending_payment', 'created_at': '2019-01-04', 'updated_at': None, 'company_id': '416d49d220a40cbd317f952e'}, {'id': '7e2d7d71b11519e49d7b1179', 'amount': 41.0, 'status': 'pre_authorized', 'created_at': '2019-05-04', 'updated_at': None, 'company_id': '416d49d220a40cbd317f952e'}, {'id': '27e809abc3d3ab18992b36b9', 'amount': 3.0, 'status': 'pending_payment', 'created_at': '2019-01-23', 'updated_at': None, 'company_id': '416d49d220a40cbd317f952e'}  ... displaying 10 of 10000 total bound parameter sets ...  {'id': '64b70369cf8e72937c720474', 'amount': 81.42, 'status': 'paid', 'created_at': '2019-03-10', 'updated_at': '2019-03-10', 'company_id': '416d49d220a40cbd317f952e'}, {'id': '5fc8d34bcd4968ac019fa850', 'amount': 33.45, 'status': 'paid', 'created_at': '2019-03-16', 'updated_at': '2019-03-17', 'company_id': '416d49d220a40cbd317f952e'}]]
(Background on this error at: https://sqlalche.me/e/20/gkpj)

Nos sale un error que nos dice que hay datos duplicados en el primary key y que estos son de valor '', es decir, una cadena vacía. Veamos dónde están estos datos:

In [45]:
duplicate_rows = df_changes[df_changes.duplicated(subset=["id"])]
duplicate_rows

Unnamed: 0,id,amount,status,created_at,updated_at,company_id
9915,,55.71,paid,2019-02-13,2019-02-13,416d49d220a40cbd317f952e
9917,,89.36,paid,2019-04-17,2019-04-17,416d49d220a40cbd317f952e


Los vamos a rellenar con un id en formato hexadecimal de tamaño 24 generados de forma aleatoria.

In [46]:
import random
import string

In [47]:
characters = string.digits + 'abcdef'
df_changes.loc[9915, "id"] = ''.join(random.choice(characters) for _ in range(24))
df_changes.loc[9917, "id"] = ''.join(random.choice(characters) for _ in range(24))

Comprobamos si no hay valores duplicados

In [48]:
duplicate_rows = df_changes[df_changes.duplicated(subset=["id"])]
duplicate_rows

Unnamed: 0,id,amount,status,created_at,updated_at,company_id


Ya que comprobamos que todo está en orden, procedemos a cargar los datos a changes

In [49]:
df_changes.to_sql(con=db_connection, name='changes', if_exists='append', index=False)

10000