<h2>Lección 6</h2>

<h3>Ejemplo de creación de un índice jerárquico</h3>

In [None]:
import pandas as pd

# Crear un DataFrame
datos = {'Región': ['Norte', 'Norte', 'Sur', 'Sur'],
         'Ciudad': ['A', 'B', 'A', 'B'],
         'Ventas': [100, 150, 200, 250]}

df = pd.DataFrame(datos)
df

In [None]:
# Definir un índice jerárquico
df.set_index(['Región', 'Ciudad'], inplace=True)
df

<h3>Acceso a datos con índice jerárquico</h3>
<p>Esto permite acceder a los datos de manera estructurada, facilitando la selección de subconjuntos específicos mediante los diferentes niveles del índice.</p>

In [None]:
df.loc["Norte"]

In [None]:
df.loc[('Sur', 'B'), 'Ventas']

<h3>Ejemplo de uso de groupby()</h3>

In [None]:
import pandas as pd

# Crear un DataFrame
df = pd.DataFrame({'Departamento': ['Ventas', 'Ventas', 'TI', 'TI'],
                   'Empleado': ['Ana', 'Luis', 'Carlos', 'Sofía'],
                   'Salario': [50000, 54000, 60000, 62000]})
df

In [None]:
# Agrupar por Departamento y calcular el salario promedio
df_grouped = df.groupby('Departamento')['Salario'].mean()
df_grouped

<h3>Ejemplo de uso de .agg() para múltiples funciones</h3>

<p>.agg() permite aplicar múltiples funciones agregadas a cada grupo y obtener un resumen más completo en una sola operación.</p>

In [None]:
df

In [None]:
# Agrupamos por 'Departamento' y calculamos media, máximo y mínimo del 'Salario'
df_grouped = df.groupby('Departamento').agg({'Salario': ['mean', 'max', 'min']})

df_grouped

<h3>Ejemplo de pivotado de datos</h3>

In [None]:
import pandas as pd

# Crear un DataFrame
df = pd.DataFrame({'Fecha': ['2023-01', '2023-01', '2023-02', '2023-02'],
                   'Ciudad': ['A', 'B', 'A', 'B'],
                   'Ventas': [100, 150, 200, 250]})
df

In [None]:
# Pivotar el DataFrame
df_pivotado = df.pivot(index='Fecha', columns='Ciudad', values='Ventas')
df_pivotado

<h3>Ejemplo de uso de melt()</h3>

In [None]:
df_pivotado

In [None]:
# Despivotar el DataFrame (de formato "ancho" a "largo" usando melt)
df_melt = df_pivotado.reset_index().melt(id_vars='Fecha', 
                                         var_name='Ciudad', 
                                         value_name='Ventas')
print("DataFrame Despivotado (Melt):")
df_melt

<h3>Ejemplo de concatenación de DataFrames</h3>

In [None]:
import pandas as pd

# Crear dos DataFrames
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Valor': [100, 200, 300]})
df2 = pd.DataFrame({'ID': [4, 5, 6], 'Valor': [400, 500, 600]})

# Concatenar los DataFrames
df_concatenado = pd.concat([df1, df2])
df_concatenado

<h2>Parte 2 </h2>

<h3>Ejemplo de uso de merge()</h3>
El método merge() permite combinar dos DataFrames en base a una clave común, similar a una unión en bases de datos SQL.

In [None]:
import pandas as pd

# Crear dos DataFrames
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Ana', 'Luis', 'Carlos']})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Salario': [50000, 54000, 60000]})

In [None]:
df1

In [None]:
df2

In [None]:
# Realizar un merge por la columna 'ID'
df_merged = pd.merge(df1, df2, on='ID', how='inner')
df_merged

<h3>Ejemplo práctico: Análisis de ventas y clientes</h3>

In [None]:
import pandas as pd

# 1. Dataset de Ventas (Contiene el Monto y el ID del cliente)
ventas = pd.DataFrame({
    'ID_Venta': [101, 102, 103, 104, 105, 106, 107, 108],
    'ID_Cliente': [1, 2, 1, 3, 2, 4, 1, 5],
    'Monto': [150.50, 200.00, 50.25, 300.00, 120.00, 450.00, 100.00, 210.00]
})

# 2. Dataset de Clientes (Contiene la Región vinculada al ID_Cliente)
clientes = pd.DataFrame({
    'ID_Cliente': [1, 2, 3, 4, 5],
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Sofía', 'Jorge'],
    'Región': ['Norte', 'Sur', 'Norte', 'Este', 'Sur']
})

In [None]:
ventas

In [None]:
clientes

In [None]:
# Combinar los DataFrames
df_combinado = pd.merge( ventas,  clientes,  on='ID_Cliente',  how='left')
df_combinado

In [None]:
# Agrupar por región y calcular estadísticas
analisis_region = df_combinado.groupby('Región').agg({ 'Monto': ['sum', 'mean', 'count'], 'ID_Cliente': 'nunique'})
analisis_region

<h3>Implementación del caso de estudio</h3>

In [None]:
# 1. Dataset de PRODUCTOS
productos = pd.DataFrame({
    'ID_Producto': [10, 11, 12, 13],
    'Nombre_Producto': ['Laptop', 'Smartphone', 'Silla Oficina', 'Escritorio'],
    'Categoría': ['Electrónica', 'Electrónica', 'Muebles', 'Muebles']
})

# 2. Dataset de VENTAS
ventas = pd.DataFrame({
    'ID_Venta': [1, 2, 3, 4, 5, 6, 7, 8],
    'ID_Producto': [10, 11, 10, 12, 13, 11, 10, 12],
    'ID_Cliente': [1, 2, 3, 1, 2, 3, 1, 2],
    'Monto': [1200, 800, 1150, 300, 450, 850, 1200, 320]
})

# 3. Dataset de CLIENTES
clientes = pd.DataFrame({
    'ID_Cliente': [1, 2, 3],
    'Nombre_Cliente': ['Juan', 'Maria', 'Pedro'],
    'Región': ['Norte', 'Sur', 'Centro']
})

In [None]:
# 1. Combinar tablas
df_completo = pd.merge(ventas, productos, on='ID_Producto')
df_completo

In [None]:
df_completo = pd.merge(df_completo, clientes, on='ID_Cliente')
df_completo

In [None]:
# 2. Agrupar por categoría y región
analisis = df_completo.groupby(['Categoría', 'Región']).agg({ 'Monto': ['sum', 'mean'], 'ID_Venta': 'count'}).reset_index()
analisis

In [None]:
# 3. Pivotar para crear reporte por región
reporte_regiones = analisis.pivot_table( index='Categoría', columns='Región', values='Monto')
reporte_regiones

In [None]:
# 4. Visualizar resultados
import matplotlib.pyplot as plt
reporte_regiones.plot(kind='bar', figsize=(10, 5))
plt.title('Ventas por categoría y región')
plt.ylabel('Monto total de ventas')
plt.tight_layout()
plt.show()

<h3>Ejercicio práctico: Análisis de ventas por trimestre</h3>

In [None]:
# Datos de ejemplo
data = { 'Fecha': pd.date_range(start='2023-01-01', periods=12, freq='ME'), 
         'Producto': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'], 
         'Ventas': [100, 150, 120, 180, 90, 160, 110, 190, 130, 200, 140, 210]}
df = pd.DataFrame(data)
df

In [None]:
# Añadir columna de trimestre
df['Trimestre'] = df['Fecha'].dt.quarter

In [None]:
df

In [None]:
# Agrupar por trimestre y producto
ventas_trim = df.groupby(['Trimestre', 'Producto'])['Ventas'].sum().reset_index()
ventas_trim

In [None]:
# Pivotar para crear informe
informe = ventas_trim.pivot(index='Trimestre', columns='Producto', values='Ventas')
informe

In [None]:
import matplotlib.pyplot as plt

# 1. Graficar el informe
# Usamos un gráfico de barras para comparar productos por trimestre
ax = informe.plot(kind='bar', figsize=(10, 6), width=0.8)

# 2. Personalizar el diseño
plt.title('Ventas Totales por Producto y Trimestre', fontsize=14, fontweight='bold')
plt.xlabel('Trimestre', fontsize=12)
plt.ylabel('Monto de Ventas', fontsize=12)
plt.xticks(rotation=0) # Mantiene los números 1, 2, 3, 4 en posición horizontal
plt.grid(axis='y', linestyle='--', alpha=0.7) # Añade líneas guía horizontales
plt.legend(title='Producto')

# 3. Añadir etiquetas de datos sobre las barras (opcional pero muy útil)
for container in ax.containers:
    ax.bar_label(container, padding=3)

# 4. Mostrar el gráfico
plt.tight_layout()
plt.show()

<h3>Caso de uso: Análisis de datos financieros</h3>

In [None]:
import pandas as pd
import numpy as np

# 1. Dataset de INSTRUMENTOS (Clasificación por sector)
instrumentos = pd.DataFrame({
    'ID_Instrumento': [101, 102, 103, 104],
    'Simbolo': ['AAPL', 'MSFT', 'JPM', 'GS'],
    'Sector': ['Tecnología', 'Tecnología', 'Finanzas', 'Finanzas']
})

# Generamos un rango de fechas para los datos históricos
fechas = pd.date_range(start='2023-01-01', periods=100, freq='D')

# 2. Dataset de TRANSACCIONES (Precios simulados)
data_list = []
for idx in instrumentos['ID_Instrumento']:
    precios = np.random.normal(loc=150 if idx < 103 else 200, scale=5, size=len(fechas)).tolist()
    for fecha, precio in zip(fechas, precios):
        data_list.append({'Fecha': fecha, 'ID_Instrumento': idx, 'Precio': precio})

transacciones = pd.DataFrame(data_list)

# 3. Dataset MACRO_DATA (Variables externas como inflación o tasas)
macro_data = pd.DataFrame({
    'Fecha': fechas,
    'Inflacion': np.random.uniform(3.0, 5.0, size=len(fechas)),
    'Tasa_Interes': np.random.uniform(0.25, 5.0, size=len(fechas))
})

In [None]:
# 1. Combinar datos
df_completo = pd.merge(transacciones, instrumentos, on='ID_Instrumento')
df_completo = pd.merge(df_completo, macro_data, on='Fecha', how='left')
df_completo

In [None]:
# 2. Calcular rendimiento diario
df_completo['Rendimiento'] = df_completo.groupby('ID_Instrumento')['Precio'].pct_change()
df_completo


In [None]:
# 3. Agrupar por sector y mes
df_completo['Mes'] = df_completo['Fecha'].dt.to_period('M')
rendimiento_sector = df_completo.groupby(['Sector', 'Mes'])['Rendimiento'].mean().reset_index()

In [None]:
# 4. Pivotar para comparar sectores
comparativa = rendimiento_sector.pivot(index='Mes', columns='Sector', values='Rendimiento')
comparativa

In [None]:
# 5. Visualizar tendencias
import matplotlib.pyplot as plt
comparativa.plot(figsize=(10, 4))
plt.title('Rendimiento mensual por sector')
plt.ylabel('Rendimiento promedio')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Graficar las ventas totales por trimestre para cada producto
plt.figure(figsize=(10, 6))
for producto in informe.columns:
    plt.plot(informe.index, informe[producto], marker='o', label=f'Producto {producto}')

# Personalizar el gráfico
plt.title('Ventas Totales por Producto y Trimestre', fontsize=14, fontweight='bold')
plt.xlabel('Trimestre', fontsize=12)
plt.ylabel('Ventas Totales', fontsize=12)
plt.xticks(informe.index, rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.legend(title='Producto')

# Mostrar el gráfico
plt.tight_layout()
plt.show()