# ETL - Clientes - CHardy Tecno Store
## 1. Extracción.
### 1.1. importamos el DataFrame clientes.csv

In [2]:
import pandas as pd
from pathlib import Path
import seaborn as sns

sns.set(style="whitegrid")

# Ruta al archivo Parquet
ruta_archivo = Path("data/raw/clientes.csv")

try:
    if not ruta_archivo.exists():
        raise FileNotFoundError(f"Archivo no encontrado: {ruta_archivo.resolve()}")
    
    df = pd.read_csv(ruta_archivo)

    print(" Extracción correcta")
    print(f" Registros cargados: {len(df)}")
    print(f" Columnas: {len(df.columns)}")


except FileNotFoundError as e:
    print(f"❌ Error: {e}")
except Exception as e:
    print(f"⚠️ Error inesperado: {e}")

 Extracción correcta
 Registros cargados: 15000
 Columnas: 5


## 2. Transformación
### 2.1. Verificamos los Datos Extraidos

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   cliente_id      15000 non-null  int64 
 1   nombre_cliente  15000 non-null  object
 2   email_cliente   15000 non-null  object
 3   ciudad_cliente  15000 non-null  object
 4   segmento_base   15000 non-null  object
dtypes: int64(1), object(4)
memory usage: 586.1+ KB


In [4]:
df.head()

Unnamed: 0,cliente_id,nombre_cliente,email_cliente,ciudad_cliente,segmento_base
0,1,Tomàs Ojeda,genarocastro@example.com,Constitución,Premium
1,2,Francisca Amparo Acuña Acuña,rojassantiago@example.org,Formosa,Nuevo
2,3,Agustín Franco Gomez Vargas,bautista11@example.com,Chilecito,Nuevo
3,4,Benjamin Guillermina Soria Garcia,usanchez@example.com,San Ferando del Valle de Catamarca,Frecuente
4,5,Ana Paula Figueroa Torres,bruno63@example.com,San Ferando del Valle de Catamarca,Frecuente


In [6]:
# Filtrar duplicados (todas las columnas)
df_duplicados = df[df.duplicated()]
print(df_duplicados)

df_duplicados_id = df[df.duplicated(subset=["cliente_id"], keep=False)]
print("cliente_id (duplicados):\n", df_duplicados_id)


Empty DataFrame
Columns: [cliente_id, nombre_cliente, email_cliente, ciudad_cliente, segmento_base]
Index: []
cliente_id (duplicados):
 Empty DataFrame
Columns: [cliente_id, nombre_cliente, email_cliente, ciudad_cliente, segmento_base]
Index: []


In [7]:
print(df.isnull().sum()) # Muestra valores nulos (valor cero no es nulo)

cliente_id        0
nombre_cliente    0
email_cliente     0
ciudad_cliente    0
segmento_base     0
dtype: int64


In [10]:
# Valores únicos de la columna 'segmento_base'
valores_unicos = df["segmento_base"].unique()
print(valores_unicos)

['Premium' 'Nuevo' 'Frecuente' 'Ocasional']


## 3. Carga.
### 3.1. Guardamos la dimensión en formato parquet.

In [11]:
import os

filename = "data/processed/dim_clientes.parquet"

try:
    df.to_parquet(filename, index=False)
    if os.path.exists(filename):
        print(f"✔️ Dataset guardado con éxito en: {filename}")
    else:
        print("⚠️ No se encontró el archivo después de guardar.")
except Exception as e:
    print(f"❌ Error al guardar el dataset: {e}")

✔️ Dataset guardado con éxito en: data/processed/dim_clientes.parquet
