In [1]:
import numpy as np
import pandas as pd

pd.options.display.max_rows = 20
# Configura pandas para mostrar un
# máximo de 20 filas al imprimir DataFrames. 
# Esto ayuda a mantener la salida manejable en la consola.

pd.options.display.max_colwidth = 80
# Configura pandas para que la anchura máxima 
# de las columnas sea de 80 caracteres al 
# mostrar datos. Esto es útil para asegurarse 
# de que las columnas no se trunquen demasiado en la visualización.

pd.options.display.max_columns = 20
# Configura pandas para mostrar un máximo
# de 20 columnas al imprimir DataFrames. 
# Similar a max_rows, esto ayuda a 
# controlar la cantidad de datos mostrados.

np.random.seed(12345)


import matplotlib.pyplot as plt

plt.rc("figure", figsize=(10, 6)) # Configura matplotlib para que todas
# las figuras tengan un tamaño predeterminado de 10 pulgadas de ancho 
# por 6 pulgadas de alto. rc es una función de matplotlib que se 
# utiliza para configurar parámetros globales.

np.set_printoptions(precision=4, suppress=True)
# Configura numpy para mostrar los números con una 
# precisión de 4 decimales y suprimir el uso de 
# notación científica (suppress=True) en la salida impresa.

#### Ejercicio 9

**Partiendo de los siguientes datos:**

In [102]:
# Datos del departamento de Ingeniería
data_ingenieria = {
    'Empleado': ['Alice', 'Bob', 'Charlie', 'Dan', 'Ellen'],
    'Salario': [80000, 85000, 90000, 87000, 88000],
    'Departamento': ['Ingeniería'] * 5
}
# Datos del departamento de Marketing
data_marketing = {
    'Empleado': ['David', 'Eve', 'Frank', 'Gina', 'Hank'],
    'Salario': [70000, 75000, 80000, 72000, 78000],
    'Departamento': ['Marketing'] * 5
}
# Datos del departamento de Ventas
data_ventas = {
    'Empleado': ['Grace', 'Heidi', 'Ivan', 'Jack', 'Karen'],
    'Salario': [65000, 70000, 75000, 68000, 69000],
    'Departamento': ['Ventas'] * 5
}
# Datos del departamento de Recursos Humanos
data_rrhh = {
    'Empleado': ['Judy', 'Ken', 'Laura', 'Mike', 'Nina'],
    'Salario': [60000, 65000, 70000, 64000, 66000],
    'Departamento': ['Recursos Humanos'] * 5
}

#### *Pregunta 9.1 Crear los dataframes de cada departamento y luego concatenarlos para obtener un único dataframe final*

In [103]:
# Crear dataframes para cada departamento
df_ingenieria = pd.DataFrame(data_ingenieria)
df_marketing = pd.DataFrame(data_marketing)
df_ventas = pd.DataFrame(data_ventas)
df_rrhh = pd.DataFrame(data_rrhh)

# Concatenar todos los dataframes en uno solo
df_final = pd.concat([df_ingenieria, df_marketing, df_ventas, df_rrhh], ignore_index=True)

# Mostrar el dataframe final
print(df_final)

   Empleado  Salario      Departamento
0     Alice    80000        Ingeniería
1       Bob    85000        Ingeniería
2   Charlie    90000        Ingeniería
3       Dan    87000        Ingeniería
4     Ellen    88000        Ingeniería
5     David    70000         Marketing
6       Eve    75000         Marketing
7     Frank    80000         Marketing
8      Gina    72000         Marketing
9      Hank    78000         Marketing
10    Grace    65000            Ventas
11    Heidi    70000            Ventas
12     Ivan    75000            Ventas
13     Jack    68000            Ventas
14    Karen    69000            Ventas
15     Judy    60000  Recursos Humanos
16      Ken    65000  Recursos Humanos
17    Laura    70000  Recursos Humanos
18     Mike    64000  Recursos Humanos
19     Nina    66000  Recursos Humanos


#### Ejercicio 10. Aplicación de `combine_first` para completar datos de prueba con datos de entrenamiento:

Supongamos que tenemos datos de entrenamiento y de prueba sobre ventas de productos, pero algunos valores están faltantes en el conjunto de prueba. Queremos combinar ambos conjuntos para rellenar los valores faltantes en el conjunto de prueba.

**Datos**

In [133]:
# Datos de entrenamiento
train_data = {
    'Producto': ['A', 'B', 'C', 'D'],
    'Ventas': [100, 150, 200, 250]
}

# Datos de prueba con valores faltantes
test_data = {
    'Producto': ['A', 'B', 'C', 'E'],
    'Ventas': [np.nan, 160, np.nan, 180]
}

**Pregunta 10.1: Crear los dataframes**  

In [134]:
df_train = pd.DataFrame(train_data)
df_test = pd.DataFrame(test_data)

# Mostrar los dataframes
print("DataFrame de entrenamiento:")
print(df_train)
print("\nDataFrame de prueba:")
print(df_test)


DataFrame de entrenamiento:
  Producto  Ventas
0        A     100
1        B     150
2        C     200
3        D     250

DataFrame de prueba:
  Producto  Ventas
0        A     NaN
1        B   160.0
2        C     NaN
3        E   180.0


**Pregunta 10.2: Combine los datos y guarde los resultados como df_test_combined**

In [135]:
df_test_combined = pd.concat([df_train, df_test], ignore_index=True)

# Mostrar el dataframe combinado
print("\nDataFrame combinado:")
print(df_test_combined)


DataFrame combinado:
  Producto  Ventas
0        A   100.0
1        B   150.0
2        C   200.0
3        D   250.0
4        A     NaN
5        B   160.0
6        C     NaN
7        E   180.0


#### Ejercicio 11: Actualización de Datos

Supongamos que tenemos datos antiguos y nuevos sobre el inventario de productos y queremos actualizar los datos antiguos con la nueva información.

**Datos:**

In [136]:
old_inventory = {
    'Producto': ['Laptop', 'Smartphone', 'Tablet'],
    'Cantidad': [10, 20, 15],
    'Precio': [1000, 800, 300]
}

# Datos nuevos del inventario con actualizaciones
new_inventory = {
    'Producto': ['Laptop', 'Smartphone', 'Tablet'],
    'Cantidad': [12, 18, 17],
    'Precio': [950, 850, 310]
}

**Pregunta 11.1: Crear los dataframes**

In [138]:
df_old = pd.DataFrame(old_inventory)
df_new = pd.DataFrame(new_inventory)

# Establecer 'Producto' como índice para combinar los datos correctamente
df_old.set_index('Producto', inplace=True)
df_new.set_index('Producto', inplace=True)

**Pregunta 11.2: Actualizar usando combine_first**

In [139]:
df_updated = df_new.combine_first(df_old)

# Mostrar los dataframes y el resultado final
print("DataFrame antiguo:")
print(df_old.reset_index())
print("\nDataFrame nuevo:")
print(df_new.reset_index())
print("\nDataFrame actualizado:")
print(df_updated.reset_index())

DataFrame antiguo:
     Producto  Cantidad  Precio
0      Laptop        10    1000
1  Smartphone        20     800
2      Tablet        15     300

DataFrame nuevo:
     Producto  Cantidad  Precio
0      Laptop        12     950
1  Smartphone        18     850
2      Tablet        17     310

DataFrame actualizado:
     Producto  Cantidad  Precio
0      Laptop        12     950
1  Smartphone        18     850
2      Tablet        17     310


#### Ejercicio 12. Uso de stack y unstack para hacer 'reshaping' sobre dataframes:

**Datos**

In [153]:
data = {
    'Región': ['Norte', 'Norte', 'Norte', 'Sur', 'Sur', 'Sur', 'Este', 'Este', 'Este', 'Oeste', 'Oeste', 'Oeste'],
    'Producto': ['Laptop', 'Smartphone', 'Tablet', 'Laptop', 'Smartphone', 'Tablet', 'Laptop', 'Smartphone', 'Tablet', 'Laptop', 'Smartphone', 'Tablet'],
    'Q1': [150, 200, 50, 100, 80, 30, 120, 60, 90, 110, 130, 40],
    'Q2': [170, 210, 60, 110, 85, 35, 125, 65, 95, 115, 135, 45],
    'Q3': [160, 220, 55, 105, 82, 32, 122, 62, 92, 112, 132, 42],
    'Q4': [180, 230, 65, 115, 90, 40, 130, 70, 100, 120, 140, 50]
}

**Pregunta 12.1: A partir de `data` crear un dataframe multi-indice (en fila) que tenga esta forma:**

| Región | Producto   | Q1  | Q2  | Q3  | Q4  |
|--------|------------|-----|-----|-----|-----|
| Norte  | Laptop     | 150 | 170 | 160 | 180 |
|        | Smartphone | 200 | 210 | 220 | 230 |
|        | Tablet     |  50 |  60 |  55 |  65 |
| Sur    | Laptop     | 100 | 110 | 105 | 115 |
|        | Smartphone |  80 |  85 |  82 |  90 |
|        | Tablet     |  30 |  35 |  32 |  40 |
| Este   | Laptop     | 120 | 125 | 122 | 130 |
|        | Smartphone |  60 |  65 |  62 |  70 |
|        | Tablet     |  90 |  95 |  92 | 100 |
| Oeste  | Laptop     | 110 | 115 | 112 | 120 |
|        | Smartphone | 130 | 135 | 132 | 140 |
|        | Tablet     |  40 |  45 |  42 |  50 |


**Donde: `Región` y `Producto` tienen una jerarquía de índice de nivel 2**

In [154]:
# Datos para el ejercicio
data = {
    'Región': ['Norte', 'Norte', 'Norte', 'Sur', 'Sur', 'Sur', 'Este', 'Este', 'Este', 'Oeste', 'Oeste', 'Oeste'],
    'Producto': ['Laptop', 'Smartphone', 'Tablet', 'Laptop', 'Smartphone', 'Tablet', 'Laptop', 'Smartphone', 'Tablet', 'Laptop', 'Smartphone', 'Tablet'],
    'Q1': [150, 200, 50, 100, 80, 30, 120, 60, 90, 110, 130, 40],
    'Q2': [170, 210, 60, 110, 85, 35, 125, 65, 95, 115, 135, 45],
    'Q3': [160, 220, 55, 105, 82, 32, 122, 62, 92, 112, 140, 42],
    'Q4': [180, 230, 65, 115, 90, 40, 130, 70, 100, 120, 150, 50]
}

# Crear el dataframe
df = pd.DataFrame(data)

# Establecer multi-índice
df.set_index(['Región', 'Producto'], inplace=True)

df


Unnamed: 0_level_0,Unnamed: 1_level_0,Q1,Q2,Q3,Q4
Región,Producto,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Norte,Laptop,150,170,160,180
Norte,Smartphone,200,210,220,230
Norte,Tablet,50,60,55,65
Sur,Laptop,100,110,105,115
Sur,Smartphone,80,85,82,90
Sur,Tablet,30,35,32,40
Este,Laptop,120,125,122,130
Este,Smartphone,60,65,62,70
Este,Tablet,90,95,92,100
Oeste,Laptop,110,115,112,120


**Pregunta 12.2: Usar `unstack` para transformar el índice de nivel inferior (Producto) en columnas.**

In [155]:
# Transformar el índice de nivel inferior (Producto) en columnas
df_unstacked = df.unstack(level='Producto')

df_unstacked


Unnamed: 0_level_0,Q1,Q1,Q1,Q2,Q2,Q2,Q3,Q3,Q3,Q4,Q4,Q4
Producto,Laptop,Smartphone,Tablet,Laptop,Smartphone,Tablet,Laptop,Smartphone,Tablet,Laptop,Smartphone,Tablet
Región,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Este,120,60,90,125,65,95,122,62,92,130,70,100
Norte,150,200,50,170,210,60,160,220,55,180,230,65
Oeste,110,130,40,115,135,45,112,140,42,120,150,50
Sur,100,80,30,110,85,35,105,82,32,115,90,40


**Pregunta 12.3: Revertir el `unstack` anterior usando `stack`**

In [156]:
# Revertir el unstack anterior usando stack
df_restacked = df_unstacked.stack(level='Producto')

df_restacked


  df_restacked = df_unstacked.stack(level='Producto')


Unnamed: 0_level_0,Unnamed: 1_level_0,Q1,Q2,Q3,Q4
Región,Producto,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Este,Laptop,120,125,122,130
Este,Smartphone,60,65,62,70
Este,Tablet,90,95,92,100
Norte,Laptop,150,170,160,180
Norte,Smartphone,200,210,220,230
Norte,Tablet,50,60,55,65
Oeste,Laptop,110,115,112,120
Oeste,Smartphone,130,135,140,150
Oeste,Tablet,40,45,42,50
Sur,Laptop,100,110,105,115


#### Ejercicio 13. Datos de transacciones bancarias

**Datos:**

In [157]:
data = {
    'Sucursal': ['Norte', 'Norte', 'Norte', 'Norte', 'Sur', 'Sur', 'Sur', 'Sur', 'Este', 'Este', 'Este', 'Este', 'Oeste', 'Oeste', 'Oeste', 'Oeste'],
    'Cuenta': ['Corriente', 'Ahorros', 'Crédito', 'Inversiones', 'Corriente', 'Ahorros', 'Crédito', 'Inversiones', 'Corriente', 'Ahorros', 'Crédito', 'Inversiones', 'Corriente', 'Ahorros', 'Crédito', 'Inversiones'],
    'Año': [2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021],
    'Q1': [50000, 150000, 30000, 70000, 45000, 120000, 25000, 65000, 52000, 130000, 27000, 72000, 49000, 140000, 28000, 68000],
    'Q2': [52000, 155000, 31000, 71000, 46000, 125000, 26000, 66000, 53000, 135000, 28000, 73000, 50000, 145000, 29000, 69000],
    'Q3': [51000, 160000, 32000, 72000, 47000, 130000, 27000, 67000, 54000, 140000, 29000, 74000, 51000, 150000, 30000, 70000],
    'Q4': [53000, 165000, 33000, 73000, 48000, 135000, 28000, 68000, 55000, 145000, 30000, 75000, 52000, 155000, 31000, 71000]
}

**Pregunta 13.1: Crear un dataframe con índices jerarquicos (en filas) de nivel 3**

In [158]:
import pandas as pd

# Crear el dataframe con los datos proporcionados
data = {
    'Sucursal': ['Norte', 'Norte', 'Norte', 'Norte', 'Sur', 'Sur', 'Sur', 'Sur', 'Este', 'Este', 'Este', 'Este'],
    'Cuenta': ['Corriente', 'Ahorros', 'Crédito', 'Inversiones', 'Corriente', 'Ahorros', 'Crédito', 'Inversiones', 'Corriente', 'Ahorros', 'Crédito', 'Inversiones'],
    'Año': [2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021],
    'Q1': [50000, 150000, 30000, 70000, 45000, 120000, 25000, 65000, 52000, 130000, 27000, 55000],
    'Q2': [51000, 155000, 31000, 71000, 46000, 125000, 26000, 66000, 53000, 135000, 28000, 56000],
    'Q3': [51000, 160000, 32000, 72000, 47000, 130000, 27000, 67000, 54000, 140000, 29000, 57000],
    'Q4': [52000, 165000, 33000, 73000, 48000, 135000, 28000, 68000, 55000, 145000, 30000, 58000]
}

df = pd.DataFrame(data)

# Crear índices jerárquicos de nivel 3 (Sucursal, Cuenta, Año)
df.set_index(['Sucursal', 'Cuenta', 'Año'], inplace=True)
df


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Q1,Q2,Q3,Q4
Sucursal,Cuenta,Año,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Norte,Corriente,2021,50000,51000,51000,52000
Norte,Ahorros,2021,150000,155000,160000,165000
Norte,Crédito,2021,30000,31000,32000,33000
Norte,Inversiones,2021,70000,71000,72000,73000
Sur,Corriente,2021,45000,46000,47000,48000
Sur,Ahorros,2021,120000,125000,130000,135000
Sur,Crédito,2021,25000,26000,27000,28000
Sur,Inversiones,2021,65000,66000,67000,68000
Este,Corriente,2021,52000,53000,54000,55000
Este,Ahorros,2021,130000,135000,140000,145000


**Pregunta 13.2: Usar `unstack` para transformar el índice de nivel inferior ('Año') en columnas**

In [159]:
df_unstacked = df.unstack(level='Año')
df_unstacked


Unnamed: 0_level_0,Unnamed: 1_level_0,Q1,Q2,Q3,Q4
Unnamed: 0_level_1,Año,2021,2021,2021,2021
Sucursal,Cuenta,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Este,Ahorros,130000,135000,140000,145000
Este,Corriente,52000,53000,54000,55000
Este,Crédito,27000,28000,29000,30000
Este,Inversiones,55000,56000,57000,58000
Norte,Ahorros,150000,155000,160000,165000
Norte,Corriente,50000,51000,51000,52000
Norte,Crédito,30000,31000,32000,33000
Norte,Inversiones,70000,71000,72000,73000
Sur,Ahorros,120000,125000,130000,135000
Sur,Corriente,45000,46000,47000,48000


**Pregunta 13.3: Revertir el dataframe anterior a su forma original, usar `stack`**

In [160]:
df_restacked = df_unstacked.stack(level='Año')
df_restacked


  df_restacked = df_unstacked.stack(level='Año')


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Q1,Q2,Q3,Q4
Sucursal,Cuenta,Año,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Este,Ahorros,2021,130000,135000,140000,145000
Este,Corriente,2021,52000,53000,54000,55000
Este,Crédito,2021,27000,28000,29000,30000
Este,Inversiones,2021,55000,56000,57000,58000
Norte,Ahorros,2021,150000,155000,160000,165000
Norte,Corriente,2021,50000,51000,51000,52000
Norte,Crédito,2021,30000,31000,32000,33000
Norte,Inversiones,2021,70000,71000,72000,73000
Sur,Ahorros,2021,120000,125000,130000,135000
Sur,Corriente,2021,45000,46000,47000,48000


#### **Ejercicio 14: Datos de ventas mensuales**

In [180]:
data = {
    'Tienda': ['Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A',
               'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B',
               'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C',
               'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D',
               'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E'],
    'Producto': ['Manzana', 'Manzana', 'Manzana', 'Pera', 'Pera', 'Pera',
                 'Manzana', 'Manzana', 'Manzana', 'Pera', 'Pera', 'Pera',
                 'Lechuga', 'Lechuga', 'Lechuga', 'Tomate', 'Tomate', 'Tomate',
                 'Lechuga', 'Lechuga', 'Lechuga', 'Tomate', 'Tomate', 'Tomate',
                 'Frijoles', 'Frijoles', 'Frijoles', 'Zanahoria', 'Zanahoria', 'Zanahoria'],
    'Año': [2020, 2020, 2020, 2020, 2020, 2020,
            2021, 2021, 2021, 2021, 2021, 2021,
            2020, 2020, 2020, 2020, 2020, 2020,
            2021, 2021, 2021, 2021, 2021, 2021,
            2020, 2020, 2020, 2020, 2020, 2020],
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
    'Ventas': [200, 220, 230, 150, 170, 180,
               180, 210, 220, 160, 190, 200,
               190, 200, 210, 170, 180, 190,
               210, 220, 230, 200, 210, 220,
               200, 210, 220, 210, 220, 230]
}

**Pregunta 14.1: Crear el dataframe con la información de arriba**

In [187]:
import pandas as pd

# Datos proporcionados
data = {
    'Tienda': ['Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A',
               'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B',
               'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C',
               'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D',
               'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E'],
    'Producto': ['Manzana', 'Manzana', 'Manzana', 'Pera', 'Pera', 'Pera',
                 'Manzana', 'Manzana', 'Manzana', 'Pera', 'Pera', 'Pera',
                 'Lechuga', 'Lechuga', 'Lechuga', 'Tomate', 'Tomate', 'Tomate',
                 'Lechuga', 'Lechuga', 'Lechuga', 'Tomate', 'Tomate', 'Tomate',
                 'Frijoles', 'Frijoles', 'Frijoles', 'Zanahoria', 'Zanahoria', 'Zanahoria'],
    'Año': [2020, 2020, 2020, 2020, 2020, 2020,
            2021, 2021, 2021, 2021, 2021, 2021,
            2020, 2020, 2020, 2020, 2020, 2020,
            2021, 2021, 2021, 2021, 2021, 2021,
            2020, 2020, 2020, 2020, 2020, 2020],
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
    'Ventas': [200, 220, 230, 150, 170, 180,
               180, 210, 220, 160, 190, 200,
               190, 200, 210, 170, 180, 190,
               210, 220, 230, 200, 210, 220,
               200, 210, 220, 210, 220, 230]
}

# Crear el DataFrame
df = pd.DataFrame(data)
df



Unnamed: 0,Tienda,Producto,Año,Mes,Ventas
0,Tienda_A,Manzana,2020,Enero,200
1,Tienda_A,Manzana,2020,Febrero,220
2,Tienda_A,Manzana,2020,Marzo,230
3,Tienda_A,Pera,2020,Enero,150
4,Tienda_A,Pera,2020,Febrero,170
...,...,...,...,...,...
25,Tienda_E,Frijoles,2020,Febrero,210
26,Tienda_E,Frijoles,2020,Marzo,220
27,Tienda_E,Zanahoria,2020,Enero,210
28,Tienda_E,Zanahoria,2020,Febrero,220


**Pregunta 14.2: Pivotar el DataFrame para que los meses sean columnas.**

In [188]:
# Pivotar el DataFrame para que los meses sean columnas
pivot_df = df.pivot_table(values='Ventas', index=['Tienda', 'Producto', 'Año'], columns='Mes')
pivot_df



Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Enero,Febrero,Marzo
Tienda,Producto,Año,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Tienda_A,Manzana,2020,200.0,220.0,230.0
Tienda_A,Pera,2020,150.0,170.0,180.0
Tienda_B,Manzana,2021,180.0,210.0,220.0
Tienda_B,Pera,2021,160.0,190.0,200.0
Tienda_C,Lechuga,2020,190.0,200.0,210.0
Tienda_C,Tomate,2020,170.0,180.0,190.0
Tienda_D,Lechuga,2021,210.0,220.0,230.0
Tienda_D,Tomate,2021,200.0,210.0,220.0
Tienda_E,Frijoles,2020,200.0,210.0,220.0
Tienda_E,Zanahoria,2020,210.0,220.0,230.0


**Pregunta 14.3: Usar `unstack` para convertir el nivel Producto en columnas.**

In [183]:
# Usar unstack para convertir el nivel Producto en columnas
unstacked_df = pivot_df.unstack(level='Producto')
unstacked_df


Unnamed: 0_level_0,Mes,Enero,Enero,Enero,Enero,Enero,Enero,Febrero,Febrero,Febrero,Febrero,Febrero,Febrero,Marzo,Marzo,Marzo,Marzo,Marzo,Marzo
Unnamed: 0_level_1,Producto,Frijoles,Lechuga,Manzana,Pera,Tomate,Zanahoria,Frijoles,Lechuga,Manzana,Pera,Tomate,Zanahoria,Frijoles,Lechuga,Manzana,Pera,Tomate,Zanahoria
Tienda,Año,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2
Tienda_A,2020,,,200.0,150.0,,,,,220.0,170.0,,,,,230.0,180.0,,
Tienda_B,2021,,,180.0,160.0,,,,,210.0,190.0,,,,,220.0,200.0,,
Tienda_C,2020,,190.0,,,170.0,,,200.0,,,180.0,,,210.0,,,190.0,
Tienda_D,2021,,210.0,,,200.0,,,220.0,,,210.0,,,230.0,,,220.0,
Tienda_E,2020,200.0,,,,,210.0,210.0,,,,,220.0,220.0,,,,,230.0


**Pregunta 14.4:  Usar `stack` para revertir la transformación y volver al formato anterior.**

In [184]:
# Usar stack para revertir la transformación y volver al formato anterior
stacked_df = unstacked_df.stack(level='Producto')
stacked_df


  stacked_df = unstacked_df.stack(level='Producto')


Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Enero,Febrero,Marzo
Tienda,Año,Producto,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Tienda_A,2020,Manzana,200.0,220.0,230.0
Tienda_A,2020,Pera,150.0,170.0,180.0
Tienda_B,2021,Manzana,180.0,210.0,220.0
Tienda_B,2021,Pera,160.0,190.0,200.0
Tienda_C,2020,Lechuga,190.0,200.0,210.0
Tienda_C,2020,Tomate,170.0,180.0,190.0
Tienda_D,2021,Lechuga,210.0,220.0,230.0
Tienda_D,2021,Tomate,200.0,210.0,220.0
Tienda_E,2020,Frijoles,200.0,210.0,220.0
Tienda_E,2020,Zanahoria,210.0,220.0,230.0


**Pregunta 14.5: Crear un PeriodIndex y Convertirlo a Timestamps**
-  Se debe crear un índice de períodos basado en Año y Mes, y luego lo convertimos a timestamps.

In [189]:
# Crear un PeriodIndex basado en Año y Mes
period_index = pd.PeriodIndex(year=df['Año'], month=df['Mes'].map({
    'Enero': 1, 'Febrero': 2, 'Marzo': 3, 'Abril': 4, 'Mayo': 5, 'Junio': 6,
    'Julio': 7, 'Agosto': 8, 'Septiembre': 9, 'Octubre': 10, 'Noviembre': 11, 'Diciembre': 12
}), freq='M')

# Asignar el PeriodIndex al DataFrame
df.set_index(period_index, inplace=True)
df.index.name = 'Periodo'

# Convertir el PeriodIndex a Timestamps
df['Fecha'] = df.index.to_timestamp()
df


  period_index = pd.PeriodIndex(year=df['Año'], month=df['Mes'].map({


Unnamed: 0_level_0,Tienda,Producto,Año,Mes,Ventas,Fecha
Periodo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01,Tienda_A,Manzana,2020,Enero,200,2020-01-01
2020-02,Tienda_A,Manzana,2020,Febrero,220,2020-02-01
2020-03,Tienda_A,Manzana,2020,Marzo,230,2020-03-01
2020-01,Tienda_A,Pera,2020,Enero,150,2020-01-01
2020-02,Tienda_A,Pera,2020,Febrero,170,2020-02-01
...,...,...,...,...,...,...
2020-02,Tienda_E,Frijoles,2020,Febrero,210,2020-02-01
2020-03,Tienda_E,Frijoles,2020,Marzo,220,2020-03-01
2020-01,Tienda_E,Zanahoria,2020,Enero,210,2020-01-01
2020-02,Tienda_E,Zanahoria,2020,Febrero,220,2020-02-01


**Ejercicio 15: Datos de ventas. Uso de melt**

In [197]:
data = {
    'Tienda': ['Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A',
               'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B',
               'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C',
               'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D',
               'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E', 'Tienda_E'],
    'Producto': ['Ropa', 'Ropa', 'Ropa', 'Calzado', 'Calzado', 'Calzado',
                 'Ropa', 'Ropa', 'Ropa', 'Calzado', 'Calzado', 'Calzado',
                 'Lencería', 'Lencería', 'Lencería', 'Calzado', 'Calzado', 'Calzado',
                 'Lencería', 'Lencería', 'Lencería', 'Calzado', 'Calzado', 'Calzado',
                 'Ropa', 'Ropa', 'Ropa', 'Lencería', 'Lencería', 'Lencería'],
    'Año': [2020, 2020, 2020, 2020, 2020, 2020,
            2021, 2021, 2021, 2021, 2021, 2021,
            2020, 2020, 2020, 2020, 2020, 2020,
            2021, 2021, 2021, 2021, 2021, 2021,
            2020, 2020, 2020, 2020, 2020, 2020],
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo',
            'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
    'Ventas': [200, 220, 230, 150, 170, 180,
               180, 210, 220, 160, 190, 200,
               190, 200, 210, 170, 180, 190,
               210, 220, 230, 200, 210, 220,
               200, 210, 220, 210, 220, 230],
    'Hora': ['10:00', '11:00', '12:00', '13:00', '14:00', '15:00',
             '16:00', '17:00', '18:00', '19:00', '20:00', '21:00',
             '09:00', '10:00', '11:00', '12:00', '13:00', '14:00',
             '15:00', '16:00', '17:00', '18:00', '19:00', '20:00',
             '10:00', '11:00', '12:00', '13:00', '14:00', '15:00']
}

**Pregunta 15.1: Crear el Dataframe**

In [198]:
import pandas as pd

# Crear el DataFrame
df = pd.DataFrame(data)
df


Unnamed: 0,Tienda,Producto,Año,Mes,Ventas,Hora
0,Tienda_A,Ropa,2020,Enero,200,10:00
1,Tienda_A,Ropa,2020,Febrero,220,11:00
2,Tienda_A,Ropa,2020,Marzo,230,12:00
3,Tienda_A,Calzado,2020,Enero,150,13:00
4,Tienda_A,Calzado,2020,Febrero,170,14:00
...,...,...,...,...,...,...
25,Tienda_E,Ropa,2020,Febrero,210,11:00
26,Tienda_E,Ropa,2020,Marzo,220,12:00
27,Tienda_E,Lencería,2020,Enero,210,13:00
28,Tienda_E,Lencería,2020,Febrero,220,14:00


**Pregunta 15.2: Crear un índice jerárquico utilizando las columnas Tienda, Producto y Año. Luego pivotamos el DataFrame para que los meses sean columnas.**

In [199]:
# Crear un índice jerárquico utilizando las columnas Tienda, Producto y Año
df = df.set_index(['Tienda', 'Producto', 'Año'])

# Pivotar el DataFrame para que los meses sean columnas
df_pivot = df.pivot_table(values='Ventas', index=['Tienda', 'Producto', 'Año'], columns='Mes')
df_pivot


Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Enero,Febrero,Marzo
Tienda,Producto,Año,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Tienda_A,Calzado,2020,150.0,170.0,180.0
Tienda_A,Ropa,2020,200.0,220.0,230.0
Tienda_B,Calzado,2021,160.0,190.0,200.0
Tienda_B,Ropa,2021,180.0,210.0,220.0
Tienda_C,Calzado,2020,170.0,180.0,190.0
Tienda_C,Lencería,2020,190.0,200.0,210.0
Tienda_D,Calzado,2021,200.0,210.0,220.0
Tienda_D,Lencería,2021,210.0,220.0,230.0
Tienda_E,Lencería,2020,210.0,220.0,230.0
Tienda_E,Ropa,2020,200.0,210.0,220.0


**Pregunta 15.3: Usar `stack` para convertir las columnas de meses en un índice y luego `unstack` para convertir el nivel `Producto` en columnas.**

In [200]:
# Usar stack para convertir las columnas de meses en un índice
df_stack = df_pivot.stack()
df_stack

# Usar unstack para convertir el nivel Producto en columnas
df_unstack = df_stack.unstack(level='Producto')
df_unstack


Unnamed: 0_level_0,Unnamed: 1_level_0,Producto,Calzado,Lencería,Ropa
Tienda,Año,Mes,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Tienda_A,2020,Enero,150.0,,200.0
Tienda_A,2020,Febrero,170.0,,220.0
Tienda_A,2020,Marzo,180.0,,230.0
Tienda_B,2021,Enero,160.0,,180.0
Tienda_B,2021,Febrero,190.0,,210.0
Tienda_B,2021,Marzo,200.0,,220.0
Tienda_C,2020,Enero,170.0,190.0,
Tienda_C,2020,Febrero,180.0,200.0,
Tienda_C,2020,Marzo,190.0,210.0,
Tienda_D,2021,Enero,200.0,210.0,


**Pregunta 15.4: Reindexar el DataFrame para asegurarnos de que todas las combinaciones posibles de tiendas, productos y años estén presentes, rellenando con valores NaN donde no haya datos.**

In [201]:
# Reindexar el DataFrame para asegurarnos de que todas las combinaciones posibles de tiendas, productos y años estén presentes
index = pd.MultiIndex.from_product([df.index.levels[0], df.index.levels[1], df.index.levels[2]])
df_reindexed = df_pivot.reindex(index, fill_value=pd.NA)
df_reindexed


Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Enero,Febrero,Marzo
Tienda,Producto,Año,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Tienda_A,Calzado,2020,150.0,170.0,180.0
Tienda_A,Calzado,2021,,,
Tienda_A,Lencería,2020,,,
Tienda_A,Lencería,2021,,,
Tienda_A,Ropa,2020,200.0,220.0,230.0
...,...,...,...,...,...
Tienda_E,Calzado,2021,,,
Tienda_E,Lencería,2020,210.0,220.0,230.0
Tienda_E,Lencería,2021,,,
Tienda_E,Ropa,2020,200.0,210.0,220.0


**Pregunta 15.5: Utilizar `melt` para transformar el DataFrame de vuelta a un formato largo.**

In [202]:
# Utilizar melt para transformar el DataFrame de vuelta a un formato largo
df_long = df_reindexed.reset_index().melt(id_vars=['Tienda', 'Producto', 'Año'], value_vars=['Enero', 'Febrero', 'Marzo'], var_name='Mes', value_name='Ventas')
df_long


Unnamed: 0,Tienda,Producto,Año,Mes,Ventas
0,Tienda_A,Calzado,2020,Enero,150.0
1,Tienda_A,Calzado,2021,Enero,
2,Tienda_A,Lencería,2020,Enero,
3,Tienda_A,Lencería,2021,Enero,
4,Tienda_A,Ropa,2020,Enero,200.0
...,...,...,...,...,...
85,Tienda_E,Calzado,2021,Marzo,
86,Tienda_E,Lencería,2020,Marzo,230.0
87,Tienda_E,Lencería,2021,Marzo,
88,Tienda_E,Ropa,2020,Marzo,220.0


**Pregunta 15.6: Crear un índice de períodos basado en Año, Mes y Hora, luego convertir a timestamps y ,finalmente, renombrar las columnas.**

In [206]:
import pandas as pd

data = {
    'Tienda': ['Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_A', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_B', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_C', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_D', 'Tienda_E', 'Tienda_E', 'Tienda_E'],
    'Producto': ['Ropa', 'Ropa', 'Ropa', 'Calzado', 'Calzado', 'Calzado', 'Ropa', 'Ropa', 'Ropa', 'Calzado', 'Calzado', 'Calzado', 'Lencería', 'Lencería', 'Lencería', 'Calzado', 'Calzado', 'Calzado', 'Lencería', 'Lencería', 'Lencería', 'Calzado', 'Calzado', 'Calzado', 'Lencería', 'Lencería', 'Lencería'],
    'Año': [2020, 2020, 2020, 2020, 2020, 2020, 2021, 2021, 2021, 2021, 2021, 2021, 2020, 2020, 2020, 2021, 2021, 2021, 2020, 2020, 2020, 2021, 2021, 2021, 2020, 2020, 2020],
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
    'Ventas': [200, 220, 230, 150, 170, 180, 180, 210, 220, 160, 190, 200, 190, 200, 210, 170, 180, 190, 200, 210, 220, 200, 220, 230, 200, 210, 220],
    'Hora': ['10:00', '11:00', '12:00', '13:00', '14:00', '15:00', '16:00', '17:00', '18:00', '19:00', '20:00', '21:00', '10:00', '11:00', '12:00', '13:00', '14:00', '15:00', '16:00', '17:00', '18:00', '19:00', '20:00', '21:00', '10:00', '11:00', '12:00']
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un índice jerárquico utilizando las columnas Tienda, Producto y Año
df = df.set_index(['Tienda', 'Producto', 'Año'])

# Pivotar el DataFrame para que los meses sean columnas
df_pivot = df.pivot_table(values='Ventas', index=['Tienda', 'Producto', 'Año'], columns='Mes')

# Usar stack para convertir las columnas de meses en un índice
df_stack = df_pivot.stack()

# Usar unstack para convertir el nivel Producto en columnas
df_unstack = df_stack.unstack(level='Producto')

# Reindexar el DataFrame para asegurarnos de que todas las combinaciones posibles de tiendas, productos y años estén presentes
index = pd.MultiIndex.from_product([df.index.levels[0], df.index.levels[1], df.index.levels[2]])
df_reindexed = df_pivot.reindex(index, fill_value=pd.NA)

# Añadir la columna 'Hora' de nuevo antes de hacer melt
df_reindexed = df_reindexed.reset_index()
df_reindexed['Hora'] = df.reset_index()['Hora']

# Utilizar melt para transformar el DataFrame de vuelta a un formato largo
df_long = df_reindexed.melt(id_vars=['Tienda', 'Producto', 'Año', 'Hora'], value_vars=['Enero', 'Febrero', 'Marzo'], var_name='Mes', value_name='Ventas')

# Mapear los nombres de los meses en español a números
mes_map = {
    'Enero': '01', 'Febrero': '02', 'Marzo': '03', 'Abril': '04', 'Mayo': '05', 'Junio': '06',
    'Julio': '07', 'Agosto': '08', 'Septiembre': '09', 'Octubre': '10', 'Noviembre': '11', 'Diciembre': '12'
}
df_long['Mes'] = df_long['Mes'].map(mes_map)

# Crear un índice de períodos basado en Año, Mes y Hora
df_long['Fecha'] = pd.to_datetime(df_long['Año'].astype(str) + '-' + df_long['Mes'] + ' ' + df_long['Hora'], format='%Y-%m %H:%M')

# Renombrar las columnas
df_long = df_long.rename(columns={'Tienda': 'Store', 'Producto': 'Product', 'Año': 'Year', 'Mes': 'Month', 'Ventas': 'Sales', 'Hora': 'Hour'})
df_long


Unnamed: 0,Store,Product,Year,Hour,Month,Sales,Fecha
0,Tienda_A,Calzado,2020,10:00,01,150.0,2020-01-01 10:00:00
1,Tienda_A,Calzado,2021,11:00,01,,2021-01-01 11:00:00
2,Tienda_A,Lencería,2020,12:00,01,,2020-01-01 12:00:00
3,Tienda_A,Lencería,2021,13:00,01,,2021-01-01 13:00:00
4,Tienda_A,Ropa,2020,14:00,01,200.0,2020-01-01 14:00:00
...,...,...,...,...,...,...,...
85,Tienda_E,Calzado,2021,11:00,03,,2021-03-01 11:00:00
86,Tienda_E,Lencería,2020,12:00,03,220.0,2020-03-01 12:00:00
87,Tienda_E,Lencería,2021,,03,,NaT
88,Tienda_E,Ropa,2020,,03,,NaT
