# <img src="../assets/favicon.png" alt="Logo" width="50"/> **CHardy Tecno Store**

---

# ETL - Sucursales
## 1. Extracción.
### 1.1. importamos el DataFrame Sucursaless.csv

In [1]:
import pandas as pd
from pathlib import Path

# Ruta al archivo Parquet
ruta_archivo = Path("data/raw/sucursales.csv")

try:
    if not ruta_archivo.exists():
        raise FileNotFoundError(f"Archivo no encontrado: {ruta_archivo.resolve()}")
    
    df = pd.read_csv(ruta_archivo)

    print(" Extracción correcta")
    print(f" Registros cargados: {len(df)}")
    print(f" Columnas: {len(df.columns)}")


except FileNotFoundError as e:
    print(f"❌ Error: {e}")
except Exception as e:
    print(f"⚠️ Error inesperado: {e}")

 Extracción correcta
 Registros cargados: 26
 Columnas: 4


## 2. Transformación
### 2.1. Verificamos los Datos Extraidos

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   sucursal_id         26 non-null     int64 
 1   nombre_sucursal     26 non-null     object
 2   direccion_sucursal  26 non-null     object
 3   provincia_sucursal  25 non-null     object
dtypes: int64(1), object(3)
memory usage: 964.0+ bytes


In [3]:
df.head(30)

Unnamed: 0,sucursal_id,nombre_sucursal,direccion_sucursal,provincia_sucursal
0,1,Sucursal 1,"Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...",Chaco
1,2,Sucursal 2,"Av. Santa Rosa N° 9560 Torre 2 Dto. 1, Viedma ...",Bunoes Aires
2,3,Sucursal 3,"Calle Corrientes N° 462 Dto. 8, Comodoro Rivad...",Cordoba
3,4,Sucursal 4,"Calle Güemes N° 4495, San Luis 5700, San Luis",Santa Fe
4,5,Sucursal 5,"Calle 1 N° 1118 Oficina 55, Río Gallegos 9400,...",
5,6,Sucursal 6,"Calle Salta N° 13 Torre 2 Dto. 8, Posadas 3300...",Río Negro
6,7,Sucursal 7,"Avenida 1 N° 85, Mendoza 5500, Mendoza",Chaco
7,8,Sucursal 8,"Blv. La Rioja N° 665 Oficina 53, Neuquén 8300,...",Salta
8,9,Sucursal 9,"Av. San Miguel de Tucumán N° 272 Dto. 9, Merlo...",Buenos Aires
9,10,Sucursal 10,"Avenida Salta N° 2079 Local 2, Formosa 3600, F...",Río Negro


In [4]:
# Filtrar duplicados (todas las columnas)
df_duplicados = df[df.duplicated()] # toda la fila debe estar duplicada
print(df_duplicados)

df_duplicados_id = df[df.duplicated(subset=["sucursal_id"], keep=False)]
print("sucursal_id:\n", df_duplicados_id)


    sucursal_id nombre_sucursal  \
25            1      Sucursal 1   

                                   direccion_sucursal provincia_sucursal  
25  Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco  
sucursal_id:
     sucursal_id nombre_sucursal  \
0             1      Sucursal 1   
25            1      Sucursal 1   

                                   direccion_sucursal provincia_sucursal  
0   Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco  
25  Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco  


In [5]:
# Detectar duplicados por direccion + provincia
df_duplicados = df[df.duplicated(subset=["direccion_sucursal", "provincia_sucursal"], keep=False)]

print(">>> Duplicados detectados (direccion + provincia):")
print(df_duplicados)

# Control: mostrar agrupados por direccion/provincia con conteo
df_check = (
    df.groupby(["direccion_sucursal", "provincia_sucursal"])
      .size()
      .reset_index(name="conteo")
      .query("conteo > 1")
)

print("\n>>> Direcciones/provincias repetidas con conteo:")
print(df_check)


>>> Duplicados detectados (direccion + provincia):
    sucursal_id nombre_sucursal  \
0             1      Sucursal 1   
25            1      Sucursal 1   

                                   direccion_sucursal provincia_sucursal  
0   Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco  
25  Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco  

>>> Direcciones/provincias repetidas con conteo:
                                   direccion_sucursal provincia_sucursal  \
20  Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco   

    conteo  
20       2  


In [6]:
# Marcar duplicados por direccion + provincia
df["es_duplicado_dirprov"] = df.duplicated(
    subset=["direccion_sucursal", "provincia_sucursal"], keep=False
)

# Control: mostrar las filas marcadas como duplicadas
print(">>> Sucursales marcadas como duplicadas (direccion + provincia):")
print(df[df["es_duplicado_dirprov"]])

# Control: resumen de direcciones/provincias repetidas
df_check = (
    df.groupby(["direccion_sucursal", "provincia_sucursal"])
      .size()
      .reset_index(name="conteo")
      .query("conteo > 1")
)
# dejo marcadas las sucursales repetidas, NO elimino repetida, ya que podrian estar siendo usadas por los registros de ventas
print("\n>>> Direcciones/provincias repetidas con conteo:")
print(df_check)


>>> Sucursales marcadas como duplicadas (direccion + provincia):
    sucursal_id nombre_sucursal  \
0             1      Sucursal 1   
25            1      Sucursal 1   

                                   direccion_sucursal provincia_sucursal  \
0   Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco   
25  Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco   

    es_duplicado_dirprov  
0                   True  
25                  True  

>>> Direcciones/provincias repetidas con conteo:
                                   direccion_sucursal provincia_sucursal  \
20  Calle Santa Cruz N° 4510 Local 7, Paraná 3100,...              Chaco   

    conteo  
20       2  


In [7]:
# ya que ambas filas son exactamente iguales elimino las segunda
# Eliminar duplicados exactos en todas las columnas
df = df.drop_duplicates(keep='first')

# Auditoría: mostrar cuántas filas quedaron
print(">>> Total sucursales después de eliminar duplicados:", len(df))

>>> Total sucursales después de eliminar duplicados: 25


En la celda de arriba elimine la sucursal repetida.

In [8]:
print(df.isnull().sum()) # Muestra valores nulos (valor cero no es nulo)

sucursal_id             0
nombre_sucursal         0
direccion_sucursal      0
provincia_sucursal      1
es_duplicado_dirprov    0
dtype: int64


Vemos que hay una provincia sin nombre (NaN) viendo el registro tiene direccion en Rio Gallegos, asi que agrego el nombre de la provicia: Santa Cruz.

In [10]:
# Reemplazar NaN en provincia_sucursal por "Santa Cruz"
df['provincia_sucursal'] = df['provincia_sucursal'].fillna('Santa Cruz')

# Verificar que ya no queden NaN
print(df.isnull().sum()) # Muestra valores nulos (valor cero no es nulo)


sucursal_id             0
nombre_sucursal         0
direccion_sucursal      0
provincia_sucursal      0
es_duplicado_dirprov    0
dtype: int64


In [11]:
# Valores únicos de la columna 
valores_unicos = df["provincia_sucursal"].unique()
print(valores_unicos)

['Chaco' 'Bunoes Aires' 'Cordoba' 'Santa Fe ' 'Santa Cruz' 'Río Negro'
 'Salta' 'Buenos Aires' 'Santa Fe' 'Misiones' 'Córdoba' 'Mendoza']


In [16]:
# Elimina espacios al inicio y al final('Santa Fe ')
df["provincia_sucursal"] = df["provincia_sucursal"].str.strip()

# Reemplazar valores exactos en la columna 'provincia_sucursal'
df["provincia_sucursal"] = df["provincia_sucursal"].replace({
    "Bunoes Aires": "Buenos Aires",
    "Cordoba": "Córdoba"
})

# agrego la sucursal_id = 0 para los casos de ventas online.
df = pd.concat([
    df,
    pd.DataFrame([{
        'sucursal_id': 0,
        'nombre_sucursal': 'ONLINE',
        'direccion_sucursal': 'N/A',
        'provincia_sucursal': 'N/A'
    }])
], ignore_index=True)

# Eliminar una columna es_duplicado_dirprov ya que no nos aporta nada, ya que se elimino la sucursal repetida, y no afecta en nada a la tabla de hechos
df = df.drop(columns=['es_duplicado_dirprov'])


In [17]:
# Reviso los Cambios hechos
valores_unicos = df["provincia_sucursal"].unique()
print(valores_unicos)

print(df.isnull().sum()) # Muestra valores nulos, NaN (valor cero no es nulo)

['Chaco' 'Buenos Aires' 'Córdoba' 'Santa Fe' 'Santa Cruz' 'Río Negro'
 'Salta' 'Misiones' 'Mendoza' 'N/A']
sucursal_id           0
nombre_sucursal       0
direccion_sucursal    0
provincia_sucursal    0
dtype: int64


## 3. Carga.
### 3.1. Guardamos la dimensión en formato parquet.

In [18]:
import os

filename = "data/processed/dim_sucursales.parquet"

try:
    df.to_parquet(filename, engine="fastparquet")
    if os.path.exists(filename):
        print(f"✔️ Dataset guardado con éxito en: {filename}")
    else:
        print("⚠️ No se encontró el archivo después de guardar.")
except Exception as e:
    print(f"❌ Error al guardar el dataset: {e}")

✔️ Dataset guardado con éxito en: data/processed/dim_sucursales.parquet
