# Pandas: Fundamentos para Análisis de Datos

## Objetivos de Aprendizaje
- Dominar las estructuras de datos de Pandas (Series y DataFrame)
- Realizar operaciones de lectura y escritura de datos
- Manipular y transformar DataFrames eficientemente
- Aplicar filtros, agrupaciones y agregaciones
- Trabajar con datos faltantes y duplicados

## Requisitos
- Python 3.8+
- pandas
- numpy

In [None]:
# Instalación de dependencias
import sys
!{sys.executable} -m pip install pandas numpy matplotlib seaborn -q

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta

# Configuración
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
sns.set_style('whitegrid')

print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

## 1. Series de Pandas

Una Series es un array unidimensional etiquetado.

In [None]:
# Crear una Series desde una lista
ventas = pd.Series([100, 150, 200, 175, 225], name='ventas_diarias')
print("Series básica:")
print(ventas)
print(f"\nTipo: {type(ventas)}")
print(f"Shape: {ventas.shape}")
print(f"Dtype: {ventas.dtype}")

In [None]:
# Series con índice personalizado
temperaturas = pd.Series(
    data=[22, 25, 28, 26, 24],
    index=['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes'],
    name='temperatura_celsius'
)
print("Series con índice personalizado:")
print(temperaturas)
print(f"\nAcceso por índice: Miércoles = {temperaturas['Miércoles']}°C")

In [None]:
# Operaciones con Series
print("Estadísticas descriptivas:")
print(f"Media: {temperaturas.mean():.2f}°C")
print(f"Mediana: {temperaturas.median()}°C")
print(f"Desviación estándar: {temperaturas.std():.2f}°C")
print(f"Mínimo: {temperaturas.min()}°C")
print(f"Máximo: {temperaturas.max()}°C")

## 2. DataFrames: La estructura principal

Un DataFrame es una estructura bidimensional con columnas que pueden ser de diferentes tipos.

In [None]:
# Crear DataFrame desde diccionario
datos_ventas = {
    'producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Webcam'],
    'cantidad': [5, 25, 15, 8, 12],
    'precio_unitario': [1200, 25, 75, 300, 80],
    'categoria': ['Computadoras', 'Accesorios', 'Accesorios', 'Computadoras', 'Accesorios']
}

df_ventas = pd.DataFrame(datos_ventas)
print("DataFrame de ventas:")
print(df_ventas)

In [None]:
# Información del DataFrame
print("Información del DataFrame:")
print(f"Shape: {df_ventas.shape}")
print(f"Columnas: {df_ventas.columns.tolist()}")
print(f"\nTipos de datos:")
print(df_ventas.dtypes)
print(f"\nInformación detallada:")
df_ventas.info()

In [None]:
# Crear nueva columna calculada
df_ventas['total_venta'] = df_ventas['cantidad'] * df_ventas['precio_unitario']
print("DataFrame con columna calculada:")
print(df_ventas)

In [None]:
# Estadísticas descriptivas
print("Estadísticas del DataFrame:")
print(df_ventas.describe())

## 3. Selección y Filtrado de Datos

In [None]:
# Seleccionar columnas
print("Selección de una columna:")
print(df_ventas['producto'])
print(f"\nTipo: {type(df_ventas['producto'])}")

print("\nSelección de múltiples columnas:")
print(df_ventas[['producto', 'total_venta']])

In [None]:
# Filtrado con condiciones
print("Productos con ventas mayores a $1000:")
ventas_altas = df_ventas[df_ventas['total_venta'] > 1000]
print(ventas_altas)

print("\nProductos de categoría 'Accesorios':")
accesorios = df_ventas[df_ventas['categoria'] == 'Accesorios']
print(accesorios)

In [None]:
# Filtrado con múltiples condiciones
print("Accesorios con ventas mayores a $500:")
filtro_complejo = df_ventas[
    (df_ventas['categoria'] == 'Accesorios') & 
    (df_ventas['total_venta'] > 500)
]
print(filtro_complejo)

In [None]:
# Uso de loc e iloc
print("Uso de loc (etiquetas):")
print(df_ventas.loc[0:2, ['producto', 'cantidad']])

print("\nUso de iloc (posiciones):")
print(df_ventas.iloc[0:3, 0:2])

## 4. Agrupaciones y Agregaciones

In [None]:
# Crear dataset más grande para agrupaciones
np.random.seed(42)
n_registros = 100

df_transacciones = pd.DataFrame({
    'fecha': pd.date_range('2024-01-01', periods=n_registros, freq='D'),
    'categoria': np.random.choice(['Electrónica', 'Ropa', 'Alimentos', 'Hogar'], n_registros),
    'producto': [f'Producto_{i}' for i in range(n_registros)],
    'cantidad': np.random.randint(1, 20, n_registros),
    'precio': np.random.uniform(10, 500, n_registros).round(2),
    'region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste'], n_registros)
})

df_transacciones['total'] = df_transacciones['cantidad'] * df_transacciones['precio']

print("Dataset de transacciones:")
print(df_transacciones.head(10))

In [None]:
# Agrupación simple
print("Ventas totales por categoría:")
ventas_por_categoria = df_transacciones.groupby('categoria')['total'].sum()
print(ventas_por_categoria)
print(f"\nTipo: {type(ventas_por_categoria)}")

In [None]:
# Múltiples agregaciones
print("Estadísticas por categoría:")
stats_categoria = df_transacciones.groupby('categoria')['total'].agg([
    ('total_ventas', 'sum'),
    ('promedio', 'mean'),
    ('num_transacciones', 'count'),
    ('max_venta', 'max')
])
print(stats_categoria)

In [None]:
# Agrupación por múltiples columnas
print("Ventas por categoría y región:")
ventas_categoria_region = df_transacciones.groupby(['categoria', 'region'])['total'].sum()
print(ventas_categoria_region)

In [None]:
# Usar pivot_table para análisis multidimensional
print("Tabla dinámica: Ventas por categoría y región:")
pivot_ventas = df_transacciones.pivot_table(
    values='total',
    index='categoria',
    columns='region',
    aggfunc='sum',
    fill_value=0
)
print(pivot_ventas)

## 5. Manejo de Datos Faltantes

In [None]:
# Crear DataFrame con valores faltantes
datos_clientes = {
    'id': [1, 2, 3, 4, 5, 6],
    'nombre': ['Juan', 'María', 'Pedro', None, 'Ana', 'Luis'],
    'edad': [25, 30, None, 28, 35, None],
    'email': ['juan@mail.com', None, 'pedro@mail.com', 'carlos@mail.com', None, 'luis@mail.com'],
    'salario': [50000, 60000, 55000, None, 70000, 48000]
}

df_clientes = pd.DataFrame(datos_clientes)
print("DataFrame con valores faltantes:")
print(df_clientes)

In [None]:
# Detectar valores faltantes
print("Valores nulos por columna:")
print(df_clientes.isnull().sum())

print("\nPorcentaje de valores nulos:")
print((df_clientes.isnull().sum() / len(df_clientes) * 100).round(2))

In [None]:
# Eliminar filas con valores faltantes
df_sin_nulos = df_clientes.dropna()
print(f"Filas originales: {len(df_clientes)}")
print(f"Filas después de dropna(): {len(df_sin_nulos)}")
print("\nDataFrame sin nulos:")
print(df_sin_nulos)

In [None]:
# Rellenar valores faltantes
df_rellenado = df_clientes.copy()

# Rellenar edad con la media
df_rellenado['edad'].fillna(df_rellenado['edad'].mean(), inplace=True)

# Rellenar nombre con un valor por defecto
df_rellenado['nombre'].fillna('Desconocido', inplace=True)

# Rellenar email con un valor específico
df_rellenado['email'].fillna('sin_email@ejemplo.com', inplace=True)

# Rellenar salario con la mediana
df_rellenado['salario'].fillna(df_rellenado['salario'].median(), inplace=True)

print("DataFrame con valores imputados:")
print(df_rellenado)

## 6. Manejo de Duplicados

In [None]:
# Crear DataFrame con duplicados
datos_duplicados = {
    'id': [1, 2, 3, 2, 4, 3, 5],
    'producto': ['A', 'B', 'C', 'B', 'D', 'C', 'E'],
    'cantidad': [10, 20, 15, 20, 25, 15, 30]
}

df_dup = pd.DataFrame(datos_duplicados)
print("DataFrame con duplicados:")
print(df_dup)

In [None]:
# Detectar duplicados
print("Filas duplicadas:")
print(df_dup[df_dup.duplicated()])

print(f"\nNúmero de duplicados: {df_dup.duplicated().sum()}")

In [None]:
# Eliminar duplicados
df_sin_dup = df_dup.drop_duplicates()
print("DataFrame sin duplicados:")
print(df_sin_dup)
print(f"\nFilas originales: {len(df_dup)}")
print(f"Filas sin duplicados: {len(df_sin_dup)}")

## 7. Ordenamiento de Datos

In [None]:
# Ordenar por una columna
print("Ventas ordenadas por total (descendente):")
df_ordenado = df_ventas.sort_values('total_venta', ascending=False)
print(df_ordenado)

In [None]:
# Ordenar por múltiples columnas
print("Transacciones ordenadas por categoría y total:")
df_multi_orden = df_transacciones.sort_values(
    ['categoria', 'total'],
    ascending=[True, False]
).head(10)
print(df_multi_orden[['categoria', 'producto', 'total']])

## 8. Concatenación y Merge de DataFrames

In [None]:
# Concatenación vertical
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'valor': [10, 20, 30]
})

df2 = pd.DataFrame({
    'id': [4, 5, 6],
    'valor': [40, 50, 60]
})

df_concat = pd.concat([df1, df2], ignore_index=True)
print("Concatenación vertical:")
print(df_concat)

In [None]:
# Merge (Join)
df_productos = pd.DataFrame({
    'producto_id': [1, 2, 3, 4],
    'nombre': ['Laptop', 'Mouse', 'Teclado', 'Monitor']
})

df_precios = pd.DataFrame({
    'producto_id': [1, 2, 3, 5],
    'precio': [1200, 25, 75, 150]
})

print("Productos:")
print(df_productos)
print("\nPrecios:")
print(df_precios)

In [None]:
# Inner join
df_inner = pd.merge(df_productos, df_precios, on='producto_id', how='inner')
print("Inner Join:")
print(df_inner)

In [None]:
# Left join
df_left = pd.merge(df_productos, df_precios, on='producto_id', how='left')
print("Left Join:")
print(df_left)

## 9. Visualización con Pandas

In [None]:
# Gráficos básicos
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Gráfico de barras
ventas_por_categoria.plot(kind='bar', ax=axes[0, 0], color='skyblue')
axes[0, 0].set_title('Ventas Totales por Categoría')
axes[0, 0].set_ylabel('Total ($)')

# Gráfico de líneas
df_transacciones.groupby('fecha')['total'].sum().plot(ax=axes[0, 1], color='green')
axes[0, 1].set_title('Evolución de Ventas Diarias')
axes[0, 1].set_ylabel('Total ($)')

# Histograma
df_transacciones['precio'].plot(kind='hist', bins=20, ax=axes[1, 0], color='coral')
axes[1, 0].set_title('Distribución de Precios')
axes[1, 0].set_xlabel('Precio')

# Box plot
df_transacciones.boxplot(column='total', by='categoria', ax=axes[1, 1])
axes[1, 1].set_title('Distribución de Ventas por Categoría')
axes[1, 1].set_ylabel('Total ($)')

plt.tight_layout()
plt.show()

## 10. Ejercicios Prácticos

In [None]:
# Ejercicio 1: Análisis de ventas mensuales
print("=== Ejercicio 1: Análisis de Ventas Mensuales ===")

# Agregar columna de mes
df_transacciones['mes'] = df_transacciones['fecha'].dt.month
df_transacciones['mes_nombre'] = df_transacciones['fecha'].dt.month_name()

# Ventas por mes
ventas_mensuales = df_transacciones.groupby('mes_nombre')['total'].agg([
    ('total', 'sum'),
    ('promedio', 'mean'),
    ('transacciones', 'count')
])

print(ventas_mensuales)

In [None]:
# Ejercicio 2: Top 5 productos más vendidos
print("=== Ejercicio 2: Top 5 Productos ===")

top_productos = df_transacciones.groupby('producto').agg({
    'cantidad': 'sum',
    'total': 'sum'
}).sort_values('total', ascending=False).head(5)

print(top_productos)

In [None]:
# Ejercicio 3: Análisis por región
print("=== Ejercicio 3: Rendimiento por Región ===")

analisis_region = df_transacciones.groupby('region').agg({
    'total': ['sum', 'mean', 'count'],
    'cantidad': 'sum'
})

analisis_region.columns = ['_'.join(col) for col in analisis_region.columns]
analisis_region = analisis_region.sort_values('total_sum', ascending=False)

print(analisis_region)

## Resumen y Mejores Prácticas

### Puntos Clave:
1. **Series y DataFrames**: Estructuras fundamentales de pandas
2. **Selección**: Usar `loc` para etiquetas, `iloc` para posiciones
3. **Filtrado**: Combinar condiciones con `&` (AND) y `|` (OR)
4. **Agrupaciones**: `groupby()` para análisis agregado
5. **Datos faltantes**: Detectar con `isnull()`, manejar con `fillna()` o `dropna()`
6. **Duplicados**: Detectar con `duplicated()`, eliminar con `drop_duplicates()`

### Mejores Prácticas:
- Siempre explorar los datos con `head()`, `info()`, `describe()`
- Verificar tipos de datos antes de operaciones
- Manejar valores faltantes apropiadamente según el contexto
- Usar nombres descriptivos para variables
- Documentar transformaciones complejas
- Validar resultados después de cada transformación

### Recursos Adicionales:
- [Documentación oficial de Pandas](https://pandas.pydata.org/docs/)
- [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)