# Módulo 6: Pandas - Análisis de Datos con DataFrames

**Duración estimada:** 30 minutos

## Objetivos
- Entender qué es un DataFrame y por qué es fundamental en Data Science
- Cargar datos desde CSV y Excel
- Explorar datos con métodos básicos (head, tail, info, describe)
- Seleccionar y filtrar datos
- Modificar y crear nuevas columnas
- Operaciones básicas de limpieza de datos
- Preparar datos para sklearn

## 6.1 Introducción a Pandas

**Pandas** es la biblioteca más importante para análisis de datos en Python.

### ¿Por qué Pandas?
- **DataFrames**: Estructura tabular similar a Excel o SQL
- **Rendimiento**: Construido sobre NumPy, muy rápido
- **Flexibilidad**: Lee CSV, Excel, SQL, JSON, y más
- **Integración**: sklearn espera datos en formato pandas
- **Análisis**: Groupby, merge, pivot, y más

### Comparación con Java:
- **Java:** Trabajarías con `List<Object[]>` o librerías como Apache POI
- **Pandas:** DataFrame nativo con operaciones optimizadas

In [None]:
import pandas as pd
import numpy as np

# Versión de pandas
print(f"Pandas versión: {pd.__version__}")

### Conceptos Clave

**Series:** Array 1D con etiquetas (como una columna de Excel)
```python
s = pd.Series([1, 2, 3, 4])
```

**DataFrame:** Tabla 2D con filas y columnas etiquetadas
```python
df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
```

In [None]:
# Crear una Series
serie = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Series:")
print(serie)
print(f"\nTipo: {type(serie)}")
print(f"Acceso por índice: serie['c'] = {serie['c']}")

In [None]:
# Crear un DataFrame desde un diccionario
datos = {
    'Nombre': ['Ana', 'Carlos', 'María', 'Luis'],
    'Edad': [25, 30, 28, 35],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla'],
    'Salario': [30000, 45000, 38000, 52000]
}

df = pd.DataFrame(datos)
print("DataFrame:")
print(df)

## 6.2 Crear Archivos de Datos de Ejemplo

Primero, vamos a crear archivos CSV y Excel de ejemplo para trabajar.

In [None]:
# Crear dataset de empleados
np.random.seed(42)

n_empleados = 100

empleados = pd.DataFrame({
    'ID': range(1, n_empleados + 1),
    'Nombre': [f'Empleado_{i}' for i in range(1, n_empleados + 1)],
    'Departamento': np.random.choice(['IT', 'Ventas', 'Marketing', 'HR', 'Finanzas'], n_empleados),
    'Edad': np.random.randint(22, 65, n_empleados),
    'Salario': np.random.randint(25000, 100000, n_empleados),
    'Años_Experiencia': np.random.randint(0, 20, n_empleados),
    'Rendimiento': np.random.choice(['Bajo', 'Medio', 'Alto', 'Excelente'], n_empleados),
    'Activo': np.random.choice([True, False], n_empleados, p=[0.9, 0.1])
})

# Guardar como CSV
empleados.to_csv('empleados.csv', index=False)
print("Archivo 'empleados.csv' creado")

# Guardar como Excel
empleados.to_excel('empleados.xlsx', index=False, sheet_name='Empleados')
print("Archivo 'empleados.xlsx' creado")

print(f"\nDataset creado con {len(empleados)} empleados")
display(empleados.head()) 
#head() muestra las primeras filas del DataFrame. Puedes indicar cuántas filas quieres ver, por defecto son 5.
#display() es útil en entornos como Jupyter Notebook para mostrar DataFrames de manera más legible. Quizás VS Code te pida instalar un plugin para usarlo.

In [None]:
# Crear dataset de ventas
np.random.seed(42)
fechas = pd.date_range('2023-01-01', periods=365, freq='D')

ventas = pd.DataFrame({
    'Fecha': fechas,
    'Producto': np.random.choice(['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Auriculares'], 365),
    'Cantidad': np.random.randint(1, 50, 365),
    'Precio_Unitario': np.random.uniform(10, 1500, 365).round(2),
    'Vendedor': np.random.choice(['Juan', 'María', 'Pedro', 'Laura', 'Carlos'], 365),
    'Region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste'], 365)
})
print("\nDataset de ventas creado:")
display(ventas.head())

# Calcular total
ventas['Total'] = (ventas['Cantidad'] * ventas['Precio_Unitario']).round(2)

print("\nDataset de ventas con columna 'Total':")
display(ventas.head())

# Guardar
ventas.to_csv('ventas.csv', index=False)
print("✓ Archivo 'ventas.csv' creado")
print(f"\nDataset de ventas: {len(ventas)} registros")

## 6.3 Cargar Datos desde Archivos

### Cargar desde CSV

In [None]:
# Cargar CSV - la forma más común
df_empleados = pd.read_csv('empleados.csv')

print("DataFrame cargado desde CSV:")
display(df_empleados.head())  # Primeras 5 filas
print(f"\nShape: {df_empleados.shape}")  # (filas, columnas)

In [None]:
# Opciones comunes de read_csv
df_ventas = pd.read_csv(
    'ventas.csv',
    parse_dates=['Fecha'],      # Convertir columna a datetime
    # sep=';',                   # Para CSV con separador diferente
    # encoding='utf-8',          # Especificar encoding
    # nrows=100,                 # Leer solo primeras N filas
    # usecols=['Fecha', 'Total'] # Leer solo columnas específicas
)

print("Ventas cargadas:")
display(df_ventas.head())
print(f"\nTipo de la columna Fecha: {df_ventas['Fecha'].dtype}")

### Cargar desde Excel

In [None]:
# Cargar Excel
df_excel = pd.read_excel('empleados.xlsx', sheet_name='Empleados')

print("DataFrame desde Excel:")
display(df_excel.head())

# Si el Excel tiene múltiples hojas
# df_dict = pd.read_excel('archivo.xlsx', sheet_name=None)  # Carga todas las hojas

## 6.4 Exploración Básica de Datos

### Métodos Esenciales

In [None]:
# head() - primeras N filas (default: 5)
print("Primeras 3 filas:")
display(df_empleados.head(3))

# tail() - últimas N filas
print("\nÚltimas 3 filas:")
display(df_empleados.tail(3))

In [None]:
# info() - información sobre el DataFrame
print("Información del DataFrame:")
df_empleados.info()

In [None]:
# describe() - estadísticas descriptivas
print("Estadísticas descriptivas (columnas numéricas):")
print(df_empleados.describe())

In [None]:
# Más métodos útiles
print(f"Shape (filas, columnas): {df_empleados.shape}")
print(f"\nColumnas: {df_empleados.columns.tolist()}")
print(f"\nTipos de datos:\n{df_empleados.dtypes}")
print(f"\nNúmero total de elementos: {df_empleados.size}")
print(f"\nValores nulos por columna:\n{df_empleados.isnull().sum()}")

In [None]:
# sample() - muestra aleatoria
print("5 filas aleatorias:")
print(df_empleados.sample(5))

## 6.5 Selección de Datos

### Seleccionar Columnas

In [None]:
# Seleccionar una columna (retorna Series)
nombres = df_empleados['Nombre']
print("Una columna (Series):")
display(nombres.head())
print(f"Tipo: {type(nombres)}")

# Seleccionar múltiples columnas (retorna DataFrame)
subset = df_empleados[['Nombre', 'Salario', 'Departamento']]
print("\nMúltiples columnas (DataFrame):")
display(subset.head())
print(f"Tipo: {type(subset)}")

### Seleccionar Filas: loc e iloc

**loc:** Selección por etiqueta (label-based)  
**iloc:** Selección por posición (position-based)

In [None]:
# iloc - por posición (como arrays de NumPy)
print("Primera fila con iloc:")
display(df_empleados.iloc[0])

print("\nPrimeras 3 filas, primeras 3 columnas:")
display(df_empleados.iloc[0:3, 0:3])

print("\nFilas 5 a 7, columnas 'Nombre' y 'Salario':")
display(df_empleados.iloc[5:8, [1, 4]])  # Columnas por índice

### Filtrado Condicional (Boolean Indexing)

In [None]:
# Filtrar empleados con salario > 50000
altos_salarios = df_empleados[df_empleados['Salario'] > 50000]
print(f"Empleados con salario > 50000: {len(altos_salarios)}")
display(altos_salarios.head())

In [None]:
# Múltiples condiciones (usar & para AND, | para OR)
it_seniors = df_empleados[
    (df_empleados['Departamento'] == 'IT') & 
    (df_empleados['Años_Experiencia'] > 10)
]

print(f"Empleados IT con >10 años experiencia: {len(it_seniors)}")
display(it_seniors[['Nombre', 'Departamento', 'Años_Experiencia', 'Salario']].head())

In [None]:
# isin() - verificar si está en una lista
departamentos_tech = df_empleados[
    df_empleados['Departamento'].isin(['IT', 'Marketing'])
]

print(f"Empleados en IT o Marketing: {len(departamentos_tech)}")
print(departamentos_tech['Departamento'].value_counts())

### EJERCICIO 1: Exploración y Filtrado

Usando el DataFrame `df_ventas`:

1. Muestra las primeras 10 y últimas 10 filas
2. Obtén información básica del DataFrame (info, describe)
3. Filtra las ventas donde:
   - Total > 10000
   - Producto sea 'Laptop' o 'Monitor'
   - Vendedor sea 'María'
4. ¿Cuántas ventas cumplen cada condición?
5. Muestra las 5 ventas con mayor Total

In [None]:
# TU CÓDIGO AQUÍ

# 1. Primeras y últimas 10 filas


# 2. Info y describe


# 3. Filtros
ventas_altas = 
ventas_tech = 
ventas_maria = 

# 4. Contar


# 5. Top 5 ventas


## 6.6 Modificación de Datos

### Crear Nuevas Columnas

In [None]:
# Crear copia para no modificar el original
df_emp = df_empleados.copy() 

print("Dataframe original")
display(df_emp.head())

# Crear columna simple
df_emp['Salario_Anual'] = df_emp['Salario'] * 12

# Crear columna con operación condicional
df_emp['Categoria_Salario'] = df_emp['Salario'].apply(
    lambda x: 'Alto' if x > 60000 else ('Medio' if x > 40000 else 'Bajo')
)

print("Nuevas columnas creadas:")
display(df_emp[['Nombre', 'Salario', 'Salario_Anual', 'Categoria_Salario']].head())

In [None]:
# Usar np.where (equivalente a expresión ternaria)
df_emp['Es_Senior'] = np.where(df_emp['Años_Experiencia'] >= 10, 'Sí', 'No')

# Múltiples condiciones con np.select
condiciones = [
    df_emp['Edad'] < 30,
    (df_emp['Edad'] >= 30) & (df_emp['Edad'] < 50),
    df_emp['Edad'] >= 50
]
valores = ['Joven', 'Adulto', 'Senior']
df_emp['Grupo_Edad'] = np.select(condiciones, valores, default='Desconocido')

print("\nMás columnas:")
display(df_emp[['Nombre', 'Edad', 'Años_Experiencia', 'Es_Senior', 'Grupo_Edad']].head(10))

### Modificar Columnas Existentes

In [None]:
# Modificar valores
df_test = df_emp.copy()

print("Salarios originales:")
display(df_test[['Nombre', 'Departamento', 'Salario']].head())

# Aumentar todos los salarios un 10%
df_test['Salario'] = df_test['Salario'] * 1.10

# Modificar valores específicos
df_test.loc[df_test['Departamento'] == 'IT', 'Salario'] *= 1.05  # IT +5% adicional

print("Salarios modificados:")
display(df_test[['Nombre', 'Departamento', 'Salario']].head())

### Renombrar Columnas

In [None]:
# Renombrar columnas
df_renamed = df_emp.rename(columns={
    'Nombre': 'Empleado',
    'Años_Experiencia': 'Experiencia'
})

print("Columnas renombradas:")
print(df_renamed.columns.tolist())

### Eliminar Columnas

In [None]:
# Eliminar columnas
df_dropped = df_emp.drop(columns=['Salario_Anual', 'Categoria_Salario'])

print(f"Columnas después de drop:")
print(df_dropped.columns.tolist())

# Nota: drop no modifica el DataFrame original a menos que uses inplace=True
# df_emp.drop(columns=['col'], inplace=True)  # Modifica el original

## 6.7 Ordenar Datos

In [None]:
# Ordenar por una columna
por_salario = df_empleados.sort_values('Salario', ascending=False)
print("Top 5 salarios más altos:")
display(por_salario[['Nombre', 'Departamento', 'Salario']].head())

## 6.9 Manejo de Valores Faltantes

Vamos a introducir algunos valores faltantes para practicar

In [None]:
# Crear DataFrame con valores faltantes
df_na = df_empleados.copy()

# Introducir NaN aleatorios
np.random.seed(42)
indices_na = np.random.choice(df_na.index, 10, replace=False)
df_na.loc[indices_na, 'Salario'] = np.nan
df_na.loc[indices_na[:5], 'Edad'] = np.nan

print("Valores nulos por columna:")
print(df_na.isnull().sum())

In [None]:
# Detectar filas con valores nulos
filas_con_nulos = df_na[df_na.isnull().any(axis=1)]
print(f"Filas con al menos un valor nulo: {len(filas_con_nulos)}")
display(filas_con_nulos[['ID', 'Nombre', 'Salario', 'Edad']].head())

In [None]:
# Eliminar filas con valores nulos
df_sin_nulos = df_na.dropna()
print(f"Filas después de dropna: {len(df_sin_nulos)}")

# Eliminar solo si hay nulos en columnas específicas
df_sin_nulos_salario = df_na.dropna(subset=['Salario'])
print(f"Filas después de dropna(subset=['Salario']): {len(df_sin_nulos_salario)}")

In [None]:
# Rellenar valores nulos
df_filled = df_na.copy()

# Rellenar con un valor específico
df_filled['Salario'].fillna(df_filled['Salario'].median(), inplace=True)


print("Valores nulos después de fillna:")
print(df_filled.isnull().sum())

### EJERCICIO 2: Análisis Completo

Usando el DataFrame `df_ventas`, realiza el siguiente análisis:

1. **Crear nuevas columnas:**
   - `Mes`: Extraer el mes de la fecha (usa `df['Fecha'].dt.month`)
   - `Trimestre`: Calcular el trimestre (Q1, Q2, Q3, Q4)
   - `Categoria_Venta`: 'Alta' si Total > 20000, 'Media' si > 10000, 'Baja' en otro caso

2. **Análisis por producto:**
   - Total vendido por producto
   - Cantidad promedio vendida por producto
   - Precio promedio por producto

3. **Análisis por vendedor:**
   - Total de ventas por vendedor
   - Número de transacciones por vendedor
   - Ticket promedio por vendedor

4. **Top 10 ventas más grandes**

5. **Guardar resultados en CSV**

In [None]:
# TU CÓDIGO AQUÍ

# 1. Crear nuevas columnas
df_analisis = df_ventas.copy()

# Mes
df_analisis['Mes'] = 

# Trimestre
df_analisis['Trimestre'] = 

# Categoría
df_analisis['Categoria_Venta'] = 

# 2. Análisis por producto
por_producto = 

# 3. Análisis por vendedor
por_vendedor = 

# 4. Top 10 ventas
top_10 = 

# 5. Guardar


## Resumen del Módulo 6

**Has aprendido:**
- Qué es un DataFrame y por qué es fundamental
- Cargar datos desde CSV y Excel
- Explorar datos: head, tail, info, describe
- Seleccionar datos: [], loc, iloc, filtrado booleano
- Crear y modificar columnas
- Ordenar y agrupar datos
- Manejar valores faltantes

**Operaciones esenciales:**
```python
# Lectura
df = pd.read_csv('archivo.csv')
df = pd.read_excel('archivo.xlsx')

# Exploración
df.head(), df.tail(), df.info(), df.describe()

# Selección
df['columna'], df[['col1', 'col2']]
df.loc[filas, columnas], df.iloc[posiciones]
df[df['col'] > valor]

# Modificación
df['nueva'] = ...
df.drop(columns=[...]), df.rename(columns={...})

# Exportación
df.to_csv('salida.csv', index=False)
df.to_excel('salida.xlsx', index=False)
```