<a href="https://colab.research.google.com/github/manuelarguelles/fundamentos_python_y_limpieza_101/blob/main/1_Fundamentos_de_Python_y_Limpieza_de_Datos_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
x = 5
y = 6
print (5+6)

# Sesión 4.18: Fundamentos de Python y Limpieza de Datos con Pandas

## Objetivos de la Sesión
1. Configurar entorno con Jupyter Notebooks
2. Aprender estructuras básicas de Pandas (Series y DataFrames)
3. Cargar datos desde archivos CSV
4. Realizar limpieza de datos: nulos, duplicados, tipos de datos
5. Filtrar, ordenar y transformar datos
6. Crear un pipeline completo de limpieza

---

## 1. Importación de Librerías

Importamos las librerías necesarias para el análisis de datos.

In [None]:
# Importar librerías principales
import pandas as pd  # Para manipulación de datos
import numpy as np   # Para operaciones numéricas

# Configuración para mostrar más columnas y filas
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas
pd.set_option('display.max_rows', 100)      # Mostrar hasta 100 filas
pd.set_option('display.width', None)        # Ancho automático

# Verificar versiones
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

---
## 2. Pandas Series - Estructura Unidimensional

Una **Series** es un array unidimensional con índices etiquetados.

In [None]:
# Crear una Series desde una lista
ventas_enero = pd.Series([150000, 200000, 175000, 300000])
print("Series con índices automáticos:")
print(ventas_enero)
print(f"\nTipo: {type(ventas_enero)}")

In [None]:
# Crear Series con índices personalizados
ventas_por_mes = pd.Series(
    [150000, 200000, 175000, 300000],
    index=['Enero', 'Febrero', 'Marzo', 'Abril']
)
print("Series con índices personalizados:")
print(ventas_por_mes)

In [None]:
# Crear Series desde un diccionario
precios_productos = pd.Series({
    'Laptop': 1299.99,
    'Mouse': 25.50,
    'Teclado': 89.99,
    'Monitor': 349.99
})
print("Series desde diccionario:")
print(precios_productos)

In [None]:
# Operaciones básicas con Series
print("Operaciones con Series:")
print(f"Suma total: ${ventas_por_mes.sum():,.2f}")
print(f"Promedio: ${ventas_por_mes.mean():,.2f}")
print(f"Máximo: ${ventas_por_mes.max():,.2f}")
print(f"Mínimo: ${ventas_por_mes.min():,.2f}")

# Operaciones vectorizadas
print("\nIncrementar 10% todas las ventas:")
print(ventas_por_mes * 1.1)

# Filtrado
print("\nMeses con ventas > 180,000:")
print(ventas_por_mes[ventas_por_mes > 180000])

---
## 3. Pandas DataFrames - Estructura Bidimensional

Un **DataFrame** es una estructura bidimensional (tabla) con filas y columnas etiquetadas.

In [None]:
# Crear DataFrame desde un diccionario
ventas_df = pd.DataFrame({
    'producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor'],
    'precio': [1299.99, 25.50, 89.99, 349.99],
    'cantidad': [5, 50, 30, 10],
    'categoria': ['Computadoras', 'Accesorios', 'Accesorios', 'Computadoras']
})

print("DataFrame de ventas:")
print(ventas_df)

In [None]:
# Explorar la anatomía del DataFrame
print("=== ANATOMÍA DEL DATAFRAME ===\n")

# Dimensiones (filas, columnas)
print(f"Dimensiones (filas, columnas): {ventas_df.shape}")

# Nombres de columnas
print(f"\nColumnas: {ventas_df.columns.tolist()}")

# Índices
print(f"\nÍndices: {ventas_df.index.tolist()}")

# Tipos de datos
print("\nTipos de datos por columna:")
print(ventas_df.dtypes)

In [None]:
# Métodos de inspección rápida
print("=== INSPECCIÓN RÁPIDA ===\n")

# Primeras filas
print("Primeras 3 filas:")
print(ventas_df.head(3))

# Últimas filas
print("\nÚltimas 2 filas:")
print(ventas_df.tail(2))

In [None]:
# Información general del DataFrame
print("Información general del DataFrame:")
print(ventas_df.info())

In [None]:
# Estadísticas descriptivas
print("Estadísticas descriptivas (solo columnas numéricas):")
print(ventas_df.describe())

print("\n\nEstadísticas de todas las columnas:")
print(ventas_df.describe(include='all'))

---
## 4. Selección de Datos en DataFrames

Diferentes métodos para acceder y seleccionar datos.

In [None]:
# Selección de columnas
print("=== SELECCIÓN DE COLUMNAS ===\n")

# Una columna (retorna Series)
print("Una columna (tipo Series):")
print(ventas_df['producto'])
print(f"Tipo: {type(ventas_df['producto'])}")

# Múltiples columnas (retorna DataFrame)
print("\n\nMúltiples columnas (tipo DataFrame):")
print(ventas_df[['producto', 'precio']])
print(f"Tipo: {type(ventas_df[['producto', 'precio']])}")

In [None]:
# Acceso con .loc[] (por etiquetas)
print("=== ACCESO CON .loc[] ===\n")

# Seleccionar una fila
print("Fila con índice 0:")
print(ventas_df.loc[0])

# Seleccionar rango de filas (inclusivo en ambos extremos)
print("\n\nFilas 0 a 2 (inclusivo):")
print(ventas_df.loc[0:2])

# Seleccionar filas y columnas específicas
print("\n\nFilas 0-2, columnas 'producto' y 'precio':")
print(ventas_df.loc[0:2, ['producto', 'precio']])

# Todas las filas, columnas específicas
print("\n\nTodas las filas, columnas seleccionadas:")
print(ventas_df.loc[:, ['producto', 'cantidad']])

In [None]:
# Acceso con .iloc[] (por posición numérica)
print("=== ACCESO CON .iloc[] ===\n")

# Primera fila
print("Primera fila (posición 0):")
print(ventas_df.iloc[0])

# Primeras 3 filas (exclusivo en límite superior)
print("\n\nPrimeras 3 filas (0:3):")
print(ventas_df.iloc[0:3])

# Todas las filas, primeras 2 columnas
print("\n\nTodas las filas, primeras 2 columnas:")
print(ventas_df.iloc[:, 0:2])

# Última fila
print("\n\nÚltima fila:")
print(ventas_df.iloc[-1])

In [None]:
# Selección booleana (filtrado)
print("=== SELECCIÓN BOOLEANA ===\n")

# Filtro simple
print("Productos con precio > 100:")
print(ventas_df[ventas_df['precio'] > 100])

# Múltiples condiciones con AND
print("\n\nPrecio > 50 Y cantidad > 10:")
print(ventas_df[(ventas_df['precio'] > 50) & (ventas_df['cantidad'] > 10)])

# Múltiples condiciones con OR
print("\n\nCategoría Accesorios O precio < 100:")
print(ventas_df[(ventas_df['categoria'] == 'Accesorios') | (ventas_df['precio'] < 100)])

# Filtro con .isin()
categorias = ['Computadoras', 'Tablets']
print(f"\n\nProductos en categorías {categorias}:")
print(ventas_df[ventas_df['categoria'].isin(categorias)])

---
## 5. Carga de Datos desde CSV

Ahora vamos a cargar el dataset real con problemas típicos de datos sucios.

In [None]:
# Cargar el archivo CSV con datos crudos
# NOTA: Asegurarse de que el archivo 'ventas_raw.csv' esté en el mismo directorio

df_raw = pd.read_csv('ventas_raw.csv')

print("=== DATOS CARGADOS (RAW) ===")
print(f"Dimensiones: {df_raw.shape}")
print(f"\nPrimeras 10 filas:")
print(df_raw.head(10))

In [None]:
# Exploración inicial del dataset crudo
print("=== EXPLORACIÓN INICIAL ===\n")
print(df_raw.info())

In [None]:
# Estadísticas descriptivas del dataset crudo
print("Estadísticas descriptivas:")
print(df_raw.describe(include='all'))

In [None]:
# Estadísticas descriptivas del dataset crudo
print("Estadísticas descriptivas:")
print(df_raw.describe(include='all'))

---
## 6. Detección de Problemas en los Datos

Identificamos todos los problemas presentes en el dataset.

In [None]:
# 1. Detectar valores nulos
print("=== DETECCIÓN DE VALORES NULOS ===\n")
print("Nulos por columna:")
print(df_raw.isnull().sum())

print(f"\nTotal de valores nulos: {df_raw.isnull().sum().sum()}")
print(f"Porcentaje de nulos por columna:")
print((df_raw.isnull().sum() / len(df_raw)) * 100)

In [None]:
# Ver filas con valores nulos
print("Filas que contienen valores nulos:")
print(df_raw[df_raw.isnull().any(axis=1)])

In [None]:
# 2. Detectar duplicados
print("=== DETECCIÓN DE DUPLICADOS ===\n")
print(f"Total de filas duplicadas: {df_raw.duplicated().sum()}")

# Ver las filas duplicadas
print("\nFilas duplicadas:")
print(df_raw[df_raw.duplicated(keep=False)])

In [None]:
# 3. Inspeccionar tipos de datos incorrectos
print("=== PROBLEMAS EN TIPOS DE DATOS ===\n")
print("Tipos actuales:")
print(df_raw.dtypes)

print("\n⚠️ Problemas identificados:")
print("- 'fecha_venta' es object, debería ser datetime")
print("- 'precio' es object (contiene símbolos $), debería ser float")
print("- 'cantidad' es object, debería ser int")

In [None]:
# 4. Ver valores únicos en columnas categóricas
print("=== VALORES ÚNICOS EN CATEGORÍAS ===\n")

print("Categorías únicas (problema de mayúsculas/minúsculas):")
print(df_raw['categoria'].unique())

print("\nRegiones únicas:")
print(df_raw['region'].unique())

In [None]:
# 5. Detectar valores fuera de rango
print("=== VALORES FUERA DE RANGO ===\n")

# Intentar convertir cantidad a numérico para ver problemas
df_raw['cantidad_temp'] = pd.to_numeric(df_raw['cantidad'], errors='coerce')

print("Estadísticas de cantidad (después de conversión):")
print(df_raw['cantidad_temp'].describe())

print("\n⚠️ Cantidades negativas o cero:")
print(df_raw[df_raw['cantidad_temp'] <= 0][['transaccion_id', 'producto', 'cantidad_temp']])

# Eliminar columna temporal
df_raw.drop('cantidad_temp', axis=1, inplace=True)

---
## 7. Pipeline de Limpieza de Datos

Ahora aplicamos un proceso sistemático de limpieza paso a paso.

In [None]:
# Crear una copia para trabajar sin modificar los datos originales
df = df_raw.copy()

print("=== INICIO DEL PROCESO DE LIMPIEZA ===")
print(f"Registros iniciales: {len(df)}")
print(f"Columnas: {len(df.columns)}")

### Paso 1: Limpieza de Duplicados

In [None]:
# Eliminar duplicados completos
print("PASO 1: Eliminación de duplicados")
print(f"Duplicados encontrados: {df.duplicated().sum()}")

df = df.drop_duplicates()

print(f"Registros después de eliminar duplicados: {len(df)}")

### Paso 2: Limpieza y Conversión de Fechas

In [None]:
# Convertir fechas (múltiples formatos)
print("PASO 2: Conversión de fechas")

# Ver formatos actuales
print("Muestra de fechas antes de convertir:")
print(df['fecha_venta'].head(10))

# Convertir con inferencia automática
df['fecha_venta'] = pd.to_datetime(df['fecha_venta'], errors='coerce')

# Ver resultado
print("\nDespués de conversión:")
print(df['fecha_venta'].head(10))
print(f"Tipo de datos: {df['fecha_venta'].dtype}")

# Ver si hay fechas que no pudieron convertirse (NaT)
print(f"\nFechas nulas (NaT) después de conversión: {df['fecha_venta'].isna().sum()}")

In [None]:
# Ver filas con fechas nulas
print("Registros con fecha nula:")
print(df[df['fecha_venta'].isna()][['transaccion_id', 'fecha_venta', 'producto']])

### Paso 3: Limpieza y Conversión de Precios

In [None]:
# Limpiar y convertir precios
print("PASO 3: Limpieza de precios")

# Ver valores actuales
print("Muestra de precios antes de limpiar:")
print(df['precio'].head(10))

# Eliminar símbolos y convertir
df['precio'] = df['precio'].astype(str).str.replace('$', '', regex=False).str.replace(',', '', regex=False)
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

print("\nDespués de limpieza:")
print(df['precio'].head(10))
print(f"Tipo de datos: {df['precio'].dtype}")

# Estadísticas
print("\nEstadísticas de precios:")
print(df['precio'].describe())

# Ver precios nulos
print(f"\nPrecios nulos: {df['precio'].isna().sum()}")

### Paso 4: Conversión de Cantidades

In [None]:
# Convertir cantidades a enteros
print("PASO 4: Conversión de cantidades")

# Convertir
df['cantidad'] = pd.to_numeric(df['cantidad'], errors='coerce')

print(f"Tipo de datos: {df['cantidad'].dtype}")
print("\nEstadísticas:")
print(df['cantidad'].describe())

# Identificar cantidades problemáticas
print("\nCantidades nulas o <= 0:")
print(df[(df['cantidad'].isna()) | (df['cantidad'] <= 0)][['transaccion_id', 'producto', 'cantidad']])

### Paso 5: Manejo de Valores Nulos

In [None]:
# Estrategia de manejo de nulos
print("PASO 5: Manejo de valores nulos")

print("\nResumen de nulos antes de tratamiento:")
print(df.isnull().sum())

# Estrategia por columna:
# - fecha_venta: eliminar filas (crítico para análisis temporal)
# - precio: eliminar filas (crítico para cálculos)
# - cantidad: imputar con 1 (asumimos una unidad)
# - descuento: imputar con 0 (sin descuento)

# Eliminar filas con fecha o precio nulo
registros_antes = len(df)
df = df.dropna(subset=['fecha_venta', 'precio'])
registros_despues = len(df)

print(f"\nFilas eliminadas por fecha/precio nulo: {registros_antes - registros_despues}")

# Imputar cantidad nula con 1
df['cantidad'].fillna(1, inplace=True)

# Imputar descuento nulo con 0
df['descuento'].fillna(0, inplace=True)

print("\nResumen de nulos después de tratamiento:")
print(df.isnull().sum())

### Paso 6: Normalización de Texto

In [None]:
# Normalizar strings
print("PASO 6: Normalización de texto")

# Eliminar espacios extras en todas las columnas de texto
columnas_texto = ['transaccion_id', 'producto', 'categoria', 'cliente', 'region']

for col in columnas_texto:
    df[col] = df[col].str.strip()

# Normalizar categorías a Title Case
print("\nCategorías antes:")
print(df['categoria'].unique())

df['categoria'] = df['categoria'].str.title()

print("\nCategorías después:")
print(df['categoria'].unique())

# Normalizar regiones
df['region'] = df['region'].str.title()

print("\nRegiones únicas:")
print(df['region'].unique())

### Paso 7: Filtrado de Valores Válidos

In [None]:
# Filtrar registros válidos
print("PASO 7: Filtrado de valores válidos")

registros_antes = len(df)

# Filtrar: precio > 0, cantidad > 0, descuento entre 0 y 1
df = df[
    (df['precio'] > 0) &
    (df['cantidad'] > 0) &
    (df['descuento'] >= 0) &
    (df['descuento'] <= 1)
]

registros_despues = len(df)

print(f"Registros eliminados por valores inválidos: {registros_antes - registros_despues}")
print(f"Registros válidos restantes: {registros_despues}")

### Paso 8: Conversión Final de Tipos de Datos

In [None]:
# Asegurar tipos correctos
print("PASO 8: Conversión final de tipos")

# Convertir cantidad a int (ya es float después de fillna)
df['cantidad'] = df['cantidad'].astype(int)

# IDs como string
df['transaccion_id'] = df['transaccion_id'].astype(str)
df['producto_id'] = df['producto_id'].astype(str)
df['cliente_id'] = df['cliente_id'].astype(str)

print("Tipos de datos finales:")
print(df.dtypes)

### Paso 9: Creación de Columnas Calculadas

In [None]:
# Crear columnas derivadas
print("PASO 9: Creación de columnas calculadas")

# Calcular total de venta
df['total'] = df['cantidad'] * df['precio']

# Calcular precio final con descuento
df['precio_final'] = df['precio'] * (1 - df['descuento'])

# Calcular total final
df['total_final'] = df['cantidad'] * df['precio_final']

# Extraer componentes de fecha
df['año'] = df['fecha_venta'].dt.year
df['mes'] = df['fecha_venta'].dt.month
df['dia'] = df['fecha_venta'].dt.day
df['dia_semana'] = df['fecha_venta'].dt.day_name()

# Crear período año-mes
df['año_mes'] = df['fecha_venta'].dt.to_period('M')

print("Columnas añadidas:")
print(df[['transaccion_id', 'total', 'precio_final', 'total_final', 'año', 'mes']].head())

### Paso 10: Ordenamiento y Reset de Índice

In [None]:
# Ordenar por fecha y resetear índice
print("PASO 10: Ordenamiento final")

df = df.sort_values('fecha_venta').reset_index(drop=True)

print("Primeras filas después de ordenar:")
print(df.head())

---
## 8. Validaciones Post-Limpieza

Verificamos que los datos estén correctos y completos.

In [None]:
# Validaciones finales
print("=== VALIDACIONES POST-LIMPIEZA ===\n")

# 1. Verificar que no hay nulos en columnas críticas
columnas_criticas = ['transaccion_id', 'fecha_venta', 'producto', 'precio', 'cantidad']
nulos_criticos = df[columnas_criticas].isnull().sum().sum()

print(f"1. Nulos en columnas críticas: {nulos_criticos}")
assert nulos_criticos == 0, "⚠️ Aún hay nulos en columnas críticas"
print("   ✓ No hay nulos en columnas críticas")

# 2. Verificar tipos de datos
print("\n2. Verificación de tipos de datos:")
assert df['fecha_venta'].dtype == 'datetime64[ns]', "Fecha no es datetime"
print("   ✓ Fechas en formato datetime")

assert df['precio'].dtype in ['float64', 'float32'], "Precio no es float"
print("   ✓ Precios en formato numérico")

assert df['cantidad'].dtype in ['int64', 'int32'], "Cantidad no es int"
print("   ✓ Cantidades en formato entero")

# 3. Verificar rangos válidos
print("\n3. Verificación de rangos:")
assert (df['precio'] > 0).all(), "Hay precios <= 0"
print("   ✓ Todos los precios son positivos")

assert (df['cantidad'] > 0).all(), "Hay cantidades <= 0"
print("   ✓ Todas las cantidades son positivas")

assert (df['descuento'] >= 0).all() and (df['descuento'] <= 1).all(), "Descuentos fuera de rango"
print("   ✓ Descuentos entre 0 y 1")

# 4. Verificar que no hay duplicados
print(f"\n4. Duplicados: {df.duplicated().sum()}")
assert df.duplicated().sum() == 0, "Hay duplicados"
print("   ✓ No hay registros duplicados")

print("\n" + "="*50)
print("✅ TODAS LAS VALIDACIONES PASARON CORRECTAMENTE")
print("="*50)

---
## 9. Resumen Final y Comparación

In [None]:
# Comparación antes vs después
print("=== COMPARACIÓN: DATOS CRUDOS VS DATOS LIMPIOS ===\n")

print(f"Registros originales:    {len(df_raw)}")
print(f"Registros limpios:       {len(df)}")
print(f"Registros eliminados:    {len(df_raw) - len(df)}")
print(f"Porcentaje retenido:     {(len(df) / len(df_raw)) * 100:.1f}%")

print(f"\nColumnas originales:     {len(df_raw.columns)}")
print(f"Columnas finales:        {len(df.columns)}")
print(f"Columnas añadidas:       {len(df.columns) - len(df_raw.columns)}")

print(f"\nMemoria original:        {df_raw.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"Memoria final:           {df.memory_usage(deep=True).sum() / 1024:.2f} KB")

In [None]:
# Vista final del dataset limpio
print("=== DATASET LIMPIO - PRIMERAS 10 FILAS ===")
print(df.head(10))

In [None]:
# Información final del dataset
print("=== INFORMACIÓN FINAL DEL DATASET ===")
print(df.info())

---
## 10. Análisis Exploratorio Básico

Ahora que tenemos datos limpios, podemos hacer análisis básico.

In [None]:
# Análisis por categoría
print("=== VENTAS POR CATEGORÍA ===\n")

ventas_categoria = df.groupby('categoria').agg({
    'total_final': 'sum',
    'cantidad': 'sum',
    'transaccion_id': 'count'
}).round(2)

ventas_categoria.columns = ['Ventas Totales', 'Unidades Vendidas', 'Num Transacciones']
ventas_categoria = ventas_categoria.sort_values('Ventas Totales', ascending=False)

print(ventas_categoria)

In [None]:
# Análisis por región
print("=== VENTAS POR REGIÓN ===\n")

ventas_region = df.groupby('region').agg({
    'total_final': ['sum', 'mean'],
    'transaccion_id': 'count'
}).round(2)

ventas_region.columns = ['Total Ventas', 'Ticket Promedio', 'Num Transacciones']
ventas_region = ventas_region.sort_values('Total Ventas', ascending=False)

print(ventas_region)

In [None]:
# Top 10 productos más vendidos
print("=== TOP 10 PRODUCTOS MÁS VENDIDOS ===\n")

top_productos = df.groupby('producto').agg({
    'cantidad': 'sum',
    'total_final': 'sum'
}).round(2)

top_productos.columns = ['Unidades', 'Ventas Totales']
top_productos = top_productos.sort_values('Ventas Totales', ascending=False).head(10)

print(top_productos)

In [None]:
# Análisis temporal
print("=== VENTAS POR MES ===\n")

ventas_mes = df.groupby('año_mes').agg({
    'total_final': 'sum',
    'transaccion_id': 'count'
}).round(2)

ventas_mes.columns = ['Ventas Totales', 'Num Transacciones']

print(ventas_mes)

---
## 11. Exportar Datos Limpios

Guardamos el dataset limpio para uso futuro.

In [None]:
# Guardar datos limpios
nombre_archivo = 'ventas_clean.csv'
df.to_csv(nombre_archivo, index=False)

print(f"✅ Datos limpios guardados en: {nombre_archivo}")
print(f"   Registros: {len(df)}")
print(f"   Columnas: {len(df.columns)}")

---
## 12. Resumen de Aprendizajes

### Conceptos Cubiertos:
1. ✓ Jupyter Notebooks y entorno de trabajo
2. ✓ Pandas Series y DataFrames
3. ✓ Carga de datos desde CSV
4. ✓ Selección y filtrado de datos (`.loc[]`, `.iloc[]`, booleanos)
5. ✓ Detección de problemas (nulos, duplicados, tipos incorrectos)
6. ✓ Limpieza de datos sistemática
7. ✓ Conversión de tipos de datos
8. ✓ Creación de columnas calculadas
9. ✓ Validaciones de calidad de datos
10. ✓ Análisis exploratorio básico

### Próximos Pasos:
- Sesión 4.19: Funciones avanzadas (apply, map, groupby) e ingesta a PostgreSQL
- Agregar visualizaciones con Matplotlib/Seaborn
- Automatizar el pipeline de limpieza