In [1]:
import pandas as pd
from pathlib import Path
import seaborn as sns

sns.set_theme(style="whitegrid")

# Ruta al archivo Parquet
ruta_archivo = Path("data/raw/tecnoStore/sucursales.csv")

try:
    if not ruta_archivo.exists():
        raise FileNotFoundError(f"Archivo no encontrado: {ruta_archivo.resolve()}")
    
    df = pd.read_csv(ruta_archivo)

    print(" Extracción correcta")
    print(f" Registros cargados: {len(df)}")
    print(f" Columnas: {len(df.columns)}")


except FileNotFoundError as e:
    print(f"❌ Error: {e}")
except Exception as e:
    print(f"⚠️ Error inesperado: {e}")

 Extracción correcta
 Registros cargados: 20
 Columnas: 4


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   sucursal_id         20 non-null     int64 
 1   nombre_sucursal     20 non-null     object
 2   direccion_sucursal  20 non-null     object
 3   provincia_sucursal  19 non-null     object
dtypes: int64(1), object(3)
memory usage: 772.0+ bytes


In [3]:
df.head()

Unnamed: 0,sucursal_id,nombre_sucursal,direccion_sucursal,provincia_sucursal
0,1,Sucursal A,"Av. 9 N° 254 Torre 5 Dto. 8, Resistencia 3500,...",Catamarca
1,2,Sucursal B,"Diagonal La Rioja N° 337, San Juan 5400, San Juan",Entre Ríos
2,3,Sucursal C,"Calle Ushuaia N° 9850 Oficina 4, Ushuaia 9410,...",La Rioja
3,4,Sucursal D,"Calle Posadas N° 448 Local 6, Chilecito 5360, ...",Bunoes Aires
4,5,Sucursal E,"Avenida G. Brown N° 3590 Oficina 7, Corrientes...",Misiones


In [5]:
# Filtrar duplicados (todas las columnas)
df_duplicados = df[df.duplicated()]
print(df_duplicados)

df_duplicados_id = df[df.duplicated(subset=["sucursal_id"], keep=False)]
print("sucursal_id:\n", df_duplicados_id)


Empty DataFrame
Columns: [sucursal_id, nombre_sucursal, direccion_sucursal, provincia_sucursal]
Index: []
sucursal_id:
 Empty DataFrame
Columns: [sucursal_id, nombre_sucursal, direccion_sucursal, provincia_sucursal]
Index: []


In [6]:
print(df.isnull().sum()) # Muestra valores nulos (valor cero no es nulo)

sucursal_id           0
nombre_sucursal       0
direccion_sucursal    0
provincia_sucursal    1
dtype: int64


In [7]:
# Valores únicos de la columna 
valores_unicos = df["provincia_sucursal"].unique()
print(valores_unicos)

['Catamarca' 'Entre Ríos' 'La Rioja' 'Bunoes Aires' 'Misiones' 'La Pampa'
 'Neuquén' 'Cordoba' 'Córdoba' 'San Luis' 'Chubut' 'Misiones ' 'Río Negro'
 'Tierra del Fuego' nan 'Corrientes' 'Santa Fe' 'Mendoza']


In [None]:
# Elimina espacios al inicio y al final('Misiones ')
df["provincia_sucursal"] = df["provincia_sucursal"].str.strip()

# Reemplazar valores exactos en la columna 'provincia_sucursal'
df["provincia_sucursal"] = df["provincia_sucursal"].replace({
    "Bunoes Aires": "Buenos Aires",
    "Cordoba": "Córdoba"
})

# Eliminar filas donde 'provincia_sucursal' sea NaN
df = df.dropna(subset=["provincia_sucursal"])

['Catamarca' 'Entre Ríos' 'La Rioja' 'Buenos Aires' 'Misiones' 'La Pampa'
 'Neuquén' 'Córdoba' 'San Luis' 'Chubut' 'Río Negro' 'Tierra del Fuego'
 'Corrientes' 'Santa Fe' 'Mendoza']


In [11]:
# Reviso los Cambios hechos
valores_unicos = df["provincia_sucursal"].unique()
print(valores_unicos)

print(df.isnull().sum()) # Muestra valores nulos, NaN (valor cero no es nulo)

['Catamarca' 'Entre Ríos' 'La Rioja' 'Buenos Aires' 'Misiones' 'La Pampa'
 'Neuquén' 'Córdoba' 'San Luis' 'Chubut' 'Río Negro' 'Tierra del Fuego'
 'Corrientes' 'Santa Fe' 'Mendoza']
sucursal_id           0
nombre_sucursal       0
direccion_sucursal    0
provincia_sucursal    0
dtype: int64


In [12]:
import os

filename = "data/processed/tecnoStore/dim_sucursales.parquet"

try:
    df.to_parquet(filename, index=False)
    if os.path.exists(filename):
        print(f"✔️ Dataset guardado con éxito en: {filename}")
    else:
        print("⚠️ No se encontró el archivo después de guardar.")
except Exception as e:
    print(f"❌ Error al guardar el dataset: {e}")

✔️ Dataset guardado con éxito en: data/processed/tecnoStore/dim_sucursales.parquet
