# 🧪 Notebook 3 – ETL: Transformación de Datos (Transform)

## 🎯 Objetivo
Aplicar técnicas de limpieza, tipado, filtrado, renombrado y normalización de datos utilizando pandas, para preparar la información antes de cargarla o analizarla.

In [1]:
import pandas as pd
import numpy as np

## 1. Cargar los datos (desde CSV)

In [2]:
df = pd.read_csv("data/datos.csv")  
print("🔹 Vista previa de los datos sin transformar:")
print(df.head())

🔹 Vista previa de los datos sin transformar:
                     nombre ventas
0   Alondra Guillén Fuertes   1110
1                Flor Amigó    778
2      Toño Pinto Domínguez  error
3     Esteban Tenorio Acero  error
4  Marita Guardiola Company   1469


## 2. Revisar tipos de datos y valores faltantes

In [3]:
print("🔍 Tipos de datos:")
print(df.dtypes)

print("\n📉 Datos faltantes por columna:")
print(df.isnull().sum())


🔍 Tipos de datos:
nombre    object
ventas    object
dtype: object

📉 Datos faltantes por columna:
nombre     0
ventas    28
dtype: int64


## 3. Limpieza básica de datos

### 3.1 Eliminar o imputar valores faltantes

In [4]:
# Opción 1: Eliminar filas con valores faltantes
df_clean = df.dropna()

# Opción 2 (recomendado): Imputar ventas faltantes con promedio
# df["ventas"] = pd.to_numeric(df["ventas"], errors="coerce")
# df["ventas"].fillna(df["ventas"].mean(), inplace=True)


### 3.2 Eliminar o corregir valores erróneos

In [5]:
# Forzar tipo numérico y convertir errores en NaN
df_clean["ventas"] = pd.to_numeric(df_clean["ventas"], errors="coerce")

# Eliminar filas con errores
df_clean = df_clean.dropna(subset=["ventas"])


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_clean["ventas"] = pd.to_numeric(df_clean["ventas"], errors="coerce")


## 4. Normalizar nombres de columnas

In [6]:
df_clean.columns = df_clean.columns.str.strip().str.lower()


## 5. Filtrar por condiciones específicas

In [7]:
# Filtrar empleados con ventas mayores a 1000
df_filtrado = df_clean[df_clean["ventas"] > 1000]
print("🧼 Filtrado por ventas > 1000:")
print(df_filtrado.head())


🧼 Filtrado por ventas > 1000:
                        nombre  ventas
0      Alondra Guillén Fuertes  1110.0
4     Marita Guardiola Company  1469.0
11         Anna Benito Cardona  1727.0
14   Agustina Marquez Aragonés  1466.0
21  José Luis Mancebo Cañellas  1605.0


## 6. Clasificar el rendimiento

In [10]:
def clasificar_ventas(v):
    if v >= 1500:
        return "Excelente"
    elif v >= 1000:
        return "Bueno"
    else:
        return "Mejorable"

df_clean["clasificacion"] = df_clean["ventas"].apply(clasificar_ventas)

In [11]:
print("📊 Cantidad por clasificación:")
print(df_clean["clasificacion"].value_counts())

print("\n📈 Estadísticas generales:")
print(df_clean["ventas"].describe())


📊 Cantidad por clasificación:
clasificacion
Bueno        15
Excelente    11
Mejorable     9
Name: count, dtype: int64

📈 Estadísticas generales:
count      35.000000
mean     1296.400000
std       357.747298
min       607.000000
25%      1038.500000
50%      1343.000000
75%      1574.500000
max      1857.000000
Name: ventas, dtype: float64
