In [None]:
import pandas as pd
from pathlib import Path
import seaborn as sns

sns.set(style="whitegrid")

# Ruta al archivo Parquet
ruta_archivo = Path("data/raw/tecnoStore/clientes.csv")

try:
    if not ruta_archivo.exists():
        raise FileNotFoundError(f"Archivo no encontrado: {ruta_archivo.resolve()}")
    
    df = pd.read_csv(ruta_archivo)

    print(" Extracción correcta")
    print(f" Registros cargados: {len(df)}")
    print(f" Columnas: {len(df.columns)}")


except FileNotFoundError as e:
    print(f"❌ Error: {e}")
except Exception as e:
    print(f"⚠️ Error inesperado: {e}")

 Extracción correcta
 Registros cargados: 5000
 Columnas: 5


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   cliente_id        5000 non-null   int64 
 1   nombre_cliente    5000 non-null   object
 2   email_cliente     5000 non-null   object
 3   ciudad_cliente    5000 non-null   object
 4   segmento_cliente  5000 non-null   object
dtypes: int64(1), object(4)
memory usage: 195.4+ KB


In [11]:
df.head()

Unnamed: 0,cliente_id,nombre_cliente,email_cliente,ciudad_cliente,segmento_cliente
0,1,Luciano Uma Campos Morales,bautistavera@example.net,Santa Fe,Nuevo
1,2,Ciro Thiago Ezequiel Romero Molina,peraltabautista-benjamin@example.net,Santa Fe,Premium
2,3,Sr(a). Alma Valentina Medina,thiago-benjamin54@example.com,Santa Rosa,Frecuente
3,4,Lautaro Catalina Maldonado,martinalopez@example.net,Resistencia,Ocasional
4,5,Dr(a). Maria Victoria Diaz,benjamin84@example.net,Chilecito,Ocasional


In [None]:
# Filtrar duplicados (todas las columnas)
df_duplicados = df[df.duplicated()]
print(df_duplicados)

df_duplicados_id = df[df.duplicated(subset=["cliente_id"], keep=False)]
print("cliente_id:\n", df_duplicados_id)


Empty DataFrame
Columns: [cliente_id, nombre_cliente, email_cliente, ciudad_cliente, segmento_cliente]
Index: []
cliente_id:
 Empty DataFrame
Columns: [cliente_id, nombre_cliente, email_cliente, ciudad_cliente, segmento_cliente]
Index: []


In [9]:
print(df.isnull().sum()) # Muestra valores nulos (valor cero no es nulo)

cliente_id          0
nombre_cliente      0
email_cliente       0
ciudad_cliente      0
segmento_cliente    0
dtype: int64


In [10]:
# Valores únicos de la columna 'segmento_cliente'
valores_unicos = df["segmento_cliente"].unique()
print(valores_unicos)

['Nuevo' 'Premium' 'Frecuente' 'Ocasional']


In [12]:
import os

filename = "data/processed/tecnoStore/dim_clientes.parquet"

try:
    df.to_parquet(filename, index=False)
    if os.path.exists(filename):
        print(f"✔️ Dataset guardado con éxito en: {filename}")
    else:
        print("⚠️ No se encontró el archivo después de guardar.")
except Exception as e:
    print(f"❌ Error al guardar el dataset: {e}")

✔️ Dataset guardado con éxito en: data/processed/tecnoStore/dim_clientes.parquet
