In [3]:
from datetime import date

import numpy as np
import pandas as pd
import yaml
from sqlalchemy import create_engine


In [24]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)
   
    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_rp = config['rapidofuriosos']
    config_etl = config['bodega']

# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_rp = (f"{config_rp['driver']}://{config_rp['user']}:{config_rp['password']}@{config_rp['host']}:"
          f"{config_rp['port']}/{config_rp['db']}")
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
# Create the SQLAlchemy Engine

etl_conn = create_engine(url_etl)
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
co_sa = create_engine(url_rp)


In [25]:
dm_sede = pd.read_sql_table('sede', co_sa)

In [26]:
dm_sede.info()
dm_sede.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   sede_id          52 non-null     int64 
 1   nombre           52 non-null     object
 2   direccion        52 non-null     object
 3   telefono         52 non-null     object
 4   nombre_contacto  52 non-null     object
 5   ciudad_id        52 non-null     int64 
 6   cliente_id       52 non-null     int64 
dtypes: int64(3), object(4)
memory usage: 3.0+ KB


Unnamed: 0,sede_id,nombre,direccion,telefono,nombre_contacto,ciudad_id,cliente_id
0,10,FARALLONES /123,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4
1,11,REMEDIOZ/ 123,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4
2,13,DIME / LOS ROJOS,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4
3,14,DESPACHOS / LOS ROJOS,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4
4,23,POPAYAN BODEGA 28 / A,Los angeles distrito Latino,310-70000,JUAN PEREZ,3,11


In [27]:
dm_sede.describe(include='all')

Unnamed: 0,sede_id,nombre,direccion,telefono,nombre_contacto,ciudad_id,cliente_id
count,52.0,52,52,52,52,52.0,52.0
unique,,49,1,1,1,,
top,,NUEVA HEMATO,Los angeles distrito Latino,310-70000,JUAN PEREZ,,
freq,,3,52,52,52,,
mean,28.096154,,,,,1.403846,10.307692
std,17.730288,,,,,1.224899,6.276437
min,1.0,,,,,1.0,2.0
25%,13.75,,,,,1.0,5.0
50%,27.0,,,,,1.0,10.0
75%,41.25,,,,,1.0,11.0


In [28]:
dm_sede.replace({np.nan: 'no aplica', ' ': 'no aplica','':'no_aplica'}, inplace=True)
dm_sede["saved"] = date.today()

In [29]:
dm_sede.head()

Unnamed: 0,sede_id,nombre,direccion,telefono,nombre_contacto,ciudad_id,cliente_id,saved
0,10,FARALLONES /123,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
1,11,REMEDIOZ/ 123,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
2,13,DIME / LOS ROJOS,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
3,14,DESPACHOS / LOS ROJOS,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
4,23,POPAYAN BODEGA 28 / A,Los angeles distrito Latino,310-70000,JUAN PEREZ,3,11,2024-10-28


In [30]:
dm_sede.to_sql('dm_sede', con=etl_conn,index_label='key_dm_sede', if_exists='replace')
dm_sede.info()
dm_sede.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   sede_id          52 non-null     int64 
 1   nombre           52 non-null     object
 2   direccion        52 non-null     object
 3   telefono         52 non-null     object
 4   nombre_contacto  52 non-null     object
 5   ciudad_id        52 non-null     int64 
 6   cliente_id       52 non-null     int64 
 7   saved            52 non-null     object
dtypes: int64(3), object(5)
memory usage: 3.4+ KB


Unnamed: 0,sede_id,nombre,direccion,telefono,nombre_contacto,ciudad_id,cliente_id,saved
0,10,FARALLONES /123,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
1,11,REMEDIOZ/ 123,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
2,13,DIME / LOS ROJOS,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
3,14,DESPACHOS / LOS ROJOS,Los angeles distrito Latino,310-70000,JUAN PEREZ,1,4,2024-10-28
4,23,POPAYAN BODEGA 28 / A,Los angeles distrito Latino,310-70000,JUAN PEREZ,3,11,2024-10-28
