**Analisis de datos en python para SAA/MIA**

In [1]:
import pandas as pd
data = {'Empresa': ['GOOG', 'GOOG', 'MSFT'], 'Ventas': [200, 120, 340]}
df = pd.DataFrame(data)
print(df.groupby('Empresa').count())

         Ventas
Empresa        
GOOG          2
MSFT          1


Tablas pivote

In [2]:
import pandas as pd
data = {'Día': ['Lunes', 'Martes', 'Miércoles', 'Lunes', 'Martes', 'Miércoles'],
        'Ciudad': ['Madrid', 'Madrid', 'Madrid', 'Barcelona', 'Barcelona', 'Barcelona'],
        'Temperatura': [28, 30, 31, 22, 24, 25]}
df = pd.DataFrame(data)

pivot_df = df.pivot_table(values='Temperatura', index='Ciudad', columns='Día')
print(pivot_df)

Día        Lunes  Martes  Miércoles
Ciudad                             
Barcelona   22.0    24.0       25.0
Madrid      28.0    30.0       31.0


In [3]:
df_ventas = pd.DataFrame({'Vendedor': ['Ana', 'Luis', 'Ana', 'Luis'], 'Producto': ['A', 'A', 'B', 'B'], 'Cantidad': [10, 5, 8, 12]})
# Calcular la suma total en lugar de la media
pivot_sum = df_ventas.pivot_table(values='Cantidad', index='Vendedor', columns='Producto', aggfunc='sum')
print(pivot_sum)

Producto   A   B
Vendedor        
Ana       10   8
Luis       5  12


In [5]:
datos_ventas_vendedor = {
    'Vendedor': ['Ana', 'Luis', 'Ana', 'Luis', 'Ana', 'Luis'],
    'Producto': ['A', 'A', 'B', 'A', 'B', 'B'],
    'Cantidad': [15, 10, 20, 12, 18, 5]
}
df_ventas_vendedor = pd.DataFrame(datos_ventas_vendedor)
pivot_sum = df_ventas_vendedor.pivot_table(values='Cantidad', index='Vendedor', columns='Producto', aggfunc='sum')
print(pivot_sum)

Producto   A   B
Vendedor        
Ana       15  38
Luis      22   5


In [6]:
datos_temperaturas_mes = {
    'Mes': ['Enero', 'Enero', 'Febrero', 'Febrero', 'Marzo', 'Marzo'],
    'Ciudad': ['Valencia', 'Madrid', 'Valencia', 'Madrid', 'Valencia', 'Madrid'],
    'Temperatura': [12, 8, 14, 10, 16, 13]
}
df_temperaturas_mes = pd.DataFrame(datos_temperaturas_mes)
pivot_df = df_temperaturas_mes.pivot_table(values='Temperatura', index='Ciudad', columns='Mes')
print(pivot_df)

Mes       Enero  Febrero  Marzo
Ciudad                         
Madrid      8.0     10.0   13.0
Valencia   12.0     14.0   16.0


In [23]:
df_multianalisis = pd.DataFrame({
    'Categoría': ['Bebida', 'Postre', 'Bebida', 'Postre', 'Bebida', 'Postre'],
    'Producto': ['Café', 'Tarta', 'Té', 'Tarta', 'Café', 'Pastel'],
    'Ingresos': [100, 300, 80, 250, 120, 150]
})

pivot = df_multianalisis.pivot_table(values='Ingresos', index='Categoría', columns='Producto', aggfunc=['sum','mean'], margins=True, margins_name='Total')
pivot = pivot.drop(pivot.columns[[-1]], axis=1)
tabla_estilizada = pivot.fillna(0).style.format("{:.2f}").set_caption("Análisis Multidimensional de Ingresos")
tabla_estilizada

Unnamed: 0_level_0,sum,sum,sum,sum,sum,mean,mean,mean,mean
Producto,Café,Pastel,Tarta,Té,Total,Café,Pastel,Tarta,Té
Categoría,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Bebida,220.0,0.0,0.0,80.0,300.0,110.0,0.0,0.0,80.0
Postre,0.0,150.0,550.0,0.0,700.0,0.0,150.0,275.0,0.0
Total,220.0,150.0,550.0,80.0,1000.0,110.0,150.0,275.0,80.0


Merge y concat

In [26]:
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})

concatenado = pd.concat([df1, df2], ignore_index=True) # ignore_index reinicia el índice
print("Concatenación con índice reseteado:\n", concatenado)

Concatenación con índice reseteado:
     A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [None]:
datos_clientes = {
    'ID_Cliente': [101, 102, 103],
    'Nombre': ['Ana', 'Luis', 'Marta']
}
df_clientes = pd.DataFrame(datos_clientes)

datos_pedidos = {
    'ID_Cliente': [101, 101, 102, 103],
    'Producto': ['Café', 'Tarta', 'Pastel', 'Té']
}
df_pedidos = pd.DataFrame(datos_pedidos)

join = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='outer')
print("\nJoin:\n", join)


Outer Join:
    ID_Cliente Nombre Producto
0         101    Ana     Café
1         101    Ana    Tarta
2         102   Luis   Pastel
3         103  Marta       Té


In [None]:
ventas_enero_datos = {
    'Producto': ['Café', 'Tarta', 'Té'],
    'Cantidad': [150, 40, 35]
}
ventas_enero = pd.DataFrame(ventas_enero_datos)

ventas_febrero_datos = {
    'Producto': ['Café', 'Tarta', 'Pastel'],
    'Cantidad': [130, 35, 25]
}
ventas_febrero = pd.DataFrame(ventas_febrero_datos)

join = pd.merge(ventas_enero, ventas_febrero, on=['Producto','Cantidad'], how='outer')
print("\nJoin:\n", join)


Outer Join:
   Producto  Cantidad
0     Café       130
1     Café       150
2   Pastel        25
3    Tarta        35
4    Tarta        40
5       Té        35


In [46]:
pedidos = {'Pedido_ID': [1, 2, 3], 'Cliente_ID': [101, 102, 101]}
pedidos_df = pd.DataFrame(pedidos)
detalles = {'Pedido_ID': [1, 1, 2, 3], 'Producto_ID': [10, 11, 10, 12], 'Cantidad': [2, 1, 5, 3]}
detalles_df = pd.DataFrame(detalles)
productos = {'Producto_ID': [10, 11, 12], 'Precio': [15.0, 50.0, 10.5]}
productos_df = pd.DataFrame(productos)

resultado = pd.merge(pedidos_df, detalles_df, on=['Pedido_ID'], how='outer')
resultado = pd.merge(resultado, productos_df, on=['Producto_ID'], how='outer')

resultado['Ingreso_Total'] = resultado['Cantidad'] * resultado['Precio']

print(resultado)

resultado = resultado.groupby('Pedido_ID', as_index=False)['Ingreso_Total'].sum()

print(resultado)

   Pedido_ID  Cliente_ID  Producto_ID  Cantidad  Precio  Ingreso_Total
0          1         101           10         2    15.0           30.0
1          2         102           10         5    15.0           75.0
2          1         101           11         1    50.0           50.0
3          3         101           12         3    10.5           31.5
   Pedido_ID  Ingreso_Total
0          1           80.0
1          2           75.0
2          3           31.5


In [47]:
df_a = pd.DataFrame({'ID': [1, 2, 3], 'Producto': ['A', 'B', 'C']})
df_b = pd.DataFrame({'ID': [2, 3, 4], 'Precio': [100, 200, 300]})

resultado = pd.merge(df_a, df_b, on=['ID'], how='outer')

print(resultado)

resultado = pd.merge(df_a, df_b, on=['ID'], how='inner')

print(resultado)

resultado = pd.merge(df_a, df_b, on=['ID'], how='left')

print(resultado)

resultado = pd.merge(df_a, df_b, on=['ID'], how='right')

print(resultado)

   ID Producto  Precio
0   1        A     NaN
1   2        B   100.0
2   3        C   200.0
3   4      NaN   300.0
   ID Producto  Precio
0   2        B     100
1   3        C     200
   ID Producto  Precio
0   1        A     NaN
1   2        B   100.0
2   3        C   200.0
   ID Producto  Precio
0   2        B     100
1   3        C     200
2   4      NaN     300


Series Temporales

In [61]:
import pandas as pd
import numpy as np
dates = pd.date_range('20230101', periods=100)
ts = pd.Series(np.random.randint(0, 500, len(dates)), index=dates)

print("Media mensual:\n", ts.resample('ME').mean())

print("\nSerie original:\n", ts.head(3))

print("\nSerie desplazada 1 día:\n", ts.shift(1).head(3))

Media mensual:
 2023-01-31    291.741935
2023-02-28    256.535714
2023-03-31    253.967742
2023-04-30    292.100000
Freq: ME, dtype: float64

Serie original:
 2023-01-01    144
2023-01-02    480
2023-01-03     51
Freq: D, dtype: int32

Serie desplazada 1 día:
 2023-01-01      NaN
2023-01-02    144.0
2023-01-03    480.0
Freq: D, dtype: float64


In [70]:
dates = pd.date_range('2023-01-01', periods=100)
ts = pd.Series(np.random.randint(0, 500, len(dates)), index=dates)

ventas_semanales = ts.resample('W').sum()

print("Total de ventas por semana:\n", ventas_semanales.head())

Total de ventas por semana:
 2023-01-01     401
2023-01-08    1479
2023-01-15    1946
2023-01-22    1592
2023-01-29    1718
Freq: W-SUN, dtype: int32


In [None]:
ventas_mensuales = ts.resample('M').sum()

ventas_previas = ventas_mensuales.shift(1)

crecimiento_mensual = ((ventas_mensuales - ventas_previas) / ventas_previas) * 100

print("Ventas mensuales:\n", ventas_mensuales)
print("\nVentas del mes anterior:\n", ventas_previas)
print("\nCrecimiento porcentual mensual (MoM):\n", crecimiento_mensual)