# Operaciones y Estadísticas

Este notebook cubre operaciones estadísticas, aritméticas y funciones agregadas en pandas.

In [19]:
import numpy as np
import pandas as pd

# Crear DataFrames de ejemplo
np.random.seed(42)
fechas = pd.date_range('20240101', periods=8)
df = pd.DataFrame({
    'A': np.random.randn(8),
    'B': np.random.randn(8),
    'C': np.random.randint(1, 100, 8),
    'D': ['grupo1', 'grupo2', 'grupo1', 'grupo2', 'grupo1', 'grupo2', 'grupo1', 'grupo2']
}, index=fechas)

print("DataFrame principal:")
print(df)

DataFrame principal:
                   A         B   C       D
2024-01-01  0.496714 -0.469474  59  grupo1
2024-01-02 -0.138264  0.542560  42  grupo2
2024-01-03  0.647689 -0.463418  92  grupo1
2024-01-04  1.523030 -0.465730  60  grupo2
2024-01-05 -0.234153  0.241962  80  grupo1
2024-01-06 -0.234137 -1.913280  15  grupo2
2024-01-07  1.579213 -1.724918  62  grupo1
2024-01-08  0.767435 -0.562288  62  grupo2


## Estadísticas Básicas

In [20]:
# Estadísticas por columna
print("Media por columna:")
print(df.mean(numeric_only=True))

print("\nMedia por fila:")
print(df.mean(axis=1, numeric_only=True))

print("\nOtras estadísticas básicas:")
print(f"Suma: \n{df.sum(numeric_only=True)}")
print(f"\nDesviación estándar: \n{df.std(numeric_only=True)}")
print(f"\nVarianza: \n{df.var(numeric_only=True)}")

Media por columna:
A     0.550941
B    -0.601823
C    59.000000
dtype: float64

Media por fila:
2024-01-01    19.675747
2024-01-02    14.134765
2024-01-03    30.728090
2024-01-04    20.352433
2024-01-05    26.669270
2024-01-06     4.284194
2024-01-07    20.618098
2024-01-08    20.735049
Freq: D, dtype: float64

Otras estadísticas básicas:
Suma: 
A      4.407525
B     -4.814585
C    472.000000
dtype: float64

Desviación estándar: 
A     0.733796
B     0.850177
C    23.219450
dtype: float64

Varianza: 
A      0.538456
B      0.722801
C    539.142857
dtype: float64


In [21]:
# Valores extremos
print("Valores mínimos:")
print(df.min())

print("\nValores máximos:")
print(df.max())

print("\nÍndice del valor mínimo:")
print(df.idxmin())

print("\nÍndice del valor máximo:")
print(df.idxmax())

print("\nRango (max - min):")
print(df.max(numeric_only=True) - df.min(numeric_only=True))

Valores mínimos:
A   -0.234153
B    -1.91328
C          15
D      grupo1
dtype: object

Valores máximos:
A    1.579213
B     0.54256
C          92
D      grupo2
dtype: object

Índice del valor mínimo:
A   2024-01-05
B   2024-01-06
C   2024-01-06
D   2024-01-01
dtype: datetime64[ns]

Índice del valor máximo:
A   2024-01-07
B   2024-01-02
C   2024-01-03
D   2024-01-02
dtype: datetime64[ns]

Rango (max - min):
A     1.813366
B     2.455840
C    77.000000
dtype: float64


In [22]:
# Percentiles y cuartiles
# Los percentiles dividen los datos en 100 partes iguales, donde el percentil k 
# indica que k% de los datos son menores o iguales a ese valor
print("Mediana (percentil 50):")
print(df.median(numeric_only=True))

print("\nPercentiles específicos:")
print(df.quantile([0.25, 0.5, 0.75], numeric_only=True))

print("\nPercentil 90:")
print(df.quantile(0.9, numeric_only=True))

print("\nRango intercuartílico (Q3 - Q1):")
# El IQR mide la dispersión de los datos eliminando los valores extremos
q1 = df.quantile(0.25, numeric_only=True)
q3 = df.quantile(0.75, numeric_only=True)
print(q3 - q1)

Mediana (percentil 50):
A     0.572201
B    -0.467602
C    61.000000
dtype: float64

Percentiles específicos:
             A         B      C
0.25 -0.162232 -0.852945  54.75
0.50  0.572201 -0.467602  61.00
0.75  0.956334 -0.287073  66.50

Percentil 90:
A     1.539885
B     0.332142
C    83.600000
Name: 0.9, dtype: float64

Rango intercuartílico (Q3 - Q1):
A     1.118566
B     0.565872
C    11.750000
dtype: float64


## Operaciones de Conteo

In [23]:
# Conteos básicos
print("Conteo de valores no nulos:")
print(df.count())

print("\nConteo de valores únicos:")
print(df.nunique())

print("\nConteo de valores en columna categórica:")
print(df['D'].value_counts())

print("\nConteo de valores con normalización (porcentajes):")
print(df['D'].value_counts(normalize=True))

Conteo de valores no nulos:
A    8
B    8
C    8
D    8
dtype: int64

Conteo de valores únicos:
A    8
B    8
C    7
D    2
dtype: int64

Conteo de valores en columna categórica:
D
grupo1    4
grupo2    4
Name: count, dtype: int64

Conteo de valores con normalización (porcentajes):
D
grupo1    0.5
grupo2    0.5
Name: proportion, dtype: float64


In [24]:
# Agregar algunos valores nulos para ejemplos
df_con_nulos = df.copy()
df_con_nulos.loc[fechas[1], 'A'] = np.nan
df_con_nulos.loc[fechas[3], 'B'] = np.nan

print("DataFrame con algunos valores nulos:")
print(df_con_nulos)

print("\nConteo de valores nulos:")
print(df_con_nulos.isnull().sum())

print("\nConteo de valores no nulos:")
print(df_con_nulos.notnull().sum())

DataFrame con algunos valores nulos:
                   A         B   C       D
2024-01-01  0.496714 -0.469474  59  grupo1
2024-01-02       NaN  0.542560  42  grupo2
2024-01-03  0.647689 -0.463418  92  grupo1
2024-01-04  1.523030       NaN  60  grupo2
2024-01-05 -0.234153  0.241962  80  grupo1
2024-01-06 -0.234137 -1.913280  15  grupo2
2024-01-07  1.579213 -1.724918  62  grupo1
2024-01-08  0.767435 -0.562288  62  grupo2

Conteo de valores nulos:
A    1
B    1
C    0
D    0
dtype: int64

Conteo de valores no nulos:
A    7
B    7
C    8
D    8
dtype: int64


## Operaciones Aritméticas

In [25]:
# Operaciones entre columnas
print("Suma de columnas A y B:")
suma_ab = df['A'] + df['B']
print(suma_ab)

print("\nMultiplicación de A por C:")
mult_ac = df['A'] * df['C']
print(mult_ac)

# Operaciones con escalares
print("\nSumar 10 a columna C:")
c_mas_10 = df['C'] + 10
print(c_mas_10)

print("\nDividir columna A entre 2:")
a_div_2 = df['A'] / 2
print(a_div_2)

Suma de columnas A y B:
2024-01-01    0.027240
2024-01-02    0.404296
2024-01-03    0.184271
2024-01-04    1.057300
2024-01-05    0.007809
2024-01-06   -2.147417
2024-01-07   -0.145705
2024-01-08    0.205147
Freq: D, dtype: float64

Multiplicación de A por C:
2024-01-01    29.306135
2024-01-02    -5.807101
2024-01-03    59.587346
2024-01-04    91.381791
2024-01-05   -18.732270
2024-01-06    -3.512054
2024-01-07    97.911195
2024-01-08    47.580953
Freq: D, dtype: float64

Sumar 10 a columna C:
2024-01-01     69
2024-01-02     52
2024-01-03    102
2024-01-04     70
2024-01-05     90
2024-01-06     25
2024-01-07     72
2024-01-08     72
Freq: D, Name: C, dtype: int64

Dividir columna A entre 2:
2024-01-01    0.248357
2024-01-02   -0.069132
2024-01-03    0.323844
2024-01-04    0.761515
2024-01-05   -0.117077
2024-01-06   -0.117068
2024-01-07    0.789606
2024-01-08    0.383717
Freq: D, Name: A, dtype: float64


In [26]:
# Operaciones entre DataFrames
df2 = pd.DataFrame({
    'A': np.random.randn(8),
    'B': np.random.randn(8),
    'C': np.random.randint(1, 50, 8)
}, index=fechas)

print("Segundo DataFrame:")
print(df2)

print("\nSuma de DataFrames:")
suma_dfs = df[['A', 'B', 'C']] + df2
print(suma_dfs)

print("\nResta de DataFrames:")
resta_dfs = df[['A', 'B', 'C']] - df2
print(resta_dfs)

Segundo DataFrame:
                   A         B   C
2024-01-01 -0.629475  0.291034  40
2024-01-02  0.597720 -0.635560   4
2024-01-03  2.559488 -1.021552   2
2024-01-04  0.394233 -0.161755   6
2024-01-05  0.122219 -0.533649  42
2024-01-06 -0.515436 -0.005528   4
2024-01-07 -0.600254 -0.229450  29
2024-01-08  0.947440  0.389349  18

Suma de DataFrames:
                   A         B    C
2024-01-01 -0.132761 -0.178440   99
2024-01-02  0.459456 -0.093000   46
2024-01-03  3.207177 -1.484970   94
2024-01-04  1.917263 -0.627485   66
2024-01-05 -0.111934 -0.291687  122
2024-01-06 -0.749573 -1.918808   19
2024-01-07  0.978959 -1.954368   91
2024-01-08  1.714875 -0.172939   80

Resta de DataFrames:
                   A         B   C
2024-01-01  1.126189 -0.760508  19
2024-01-02 -0.735985  1.178120  38
2024-01-03 -1.911799  0.558135  90
2024-01-04  1.128797 -0.303974  54
2024-01-05 -0.356373  0.775611  38
2024-01-06  0.281299 -1.907752  11
2024-01-07  2.179467 -1.495467  33
2024-01-08 -0.18000

## Operaciones con Series Desalineadas

In [27]:
# Crear Serie con índice diferente
fechas_diferentes = pd.date_range('20240103', periods=6)
serie_desalineada = pd.Series([1, 2, 3, 4, 5, 6], index=fechas_diferentes)

print("Serie con índices diferentes:")
print(serie_desalineada)

print("\nSuma de DataFrame columna A con Serie desalineada:")
resultado_desalineado = df['A'] + serie_desalineada
print(resultado_desalineado)

# Usar métodos explícitos para controlar el comportamiento
print("\nUsando .add() con fill_value:")
resultado_add = df['A'].add(serie_desalineada, fill_value=0)
print(resultado_add)

Serie con índices diferentes:
2024-01-03    1
2024-01-04    2
2024-01-05    3
2024-01-06    4
2024-01-07    5
2024-01-08    6
Freq: D, dtype: int64

Suma de DataFrame columna A con Serie desalineada:
2024-01-01         NaN
2024-01-02         NaN
2024-01-03    1.647689
2024-01-04    3.523030
2024-01-05    2.765847
2024-01-06    3.765863
2024-01-07    6.579213
2024-01-08    6.767435
Freq: D, dtype: float64

Usando .add() con fill_value:
2024-01-01    0.496714
2024-01-02   -0.138264
2024-01-03    1.647689
2024-01-04    3.523030
2024-01-05    2.765847
2024-01-06    3.765863
2024-01-07    6.579213
2024-01-08    6.767435
Freq: D, dtype: float64


## Funciones Agregadas Personalizadas

In [None]:
# Función lambda personalizada
# .select_dtypes(include=[np.number]) filtra solo columnas numéricas (A, B, C)
# .agg() aplica la función lambda a cada columna seleccionada
# lambda calcula la media de cada columna y la multiplica por 5.6

print("Aplicar función lambda (multiplicar por 5.6):")
resultado_lambda = df.select_dtypes(include=[np.number]).agg(lambda x: x.mean() * 5.6)
print(resultado_lambda)

# Múltiples funciones estándar aplicadas simultáneamente
# Pasa una lista de nombres de funciones como strings
# Resultado: DataFrame con funciones como filas, columnas originales como columnas

print("\nMúltiples funciones agregadas:")
resultado_multi = df.select_dtypes(include=[np.number]).agg(['mean', 'std', 'min', 'max'])
print(resultado_multi)

# Agregación específica por columna usando diccionario
# Cada clave del diccionario es una columna, cada valor es una lista de funciones
# Permite aplicar diferentes análisis a diferentes columnas según sus características

print("\nFunciones específicas por columna:")
resultado_especifico = df.agg({
    'A': ['mean', 'std'],        # Para A: media y desviación estándar
    'B': ['min', 'max'],         # Para B: valores mínimo y máximo
    'C': ['sum', 'count']        # Para C: suma total y conteo de valores
})
print(resultado_especifico)

Aplicar función lambda (multiplicar por 5.6):
A      3.085268
B     -3.370210
C    330.400000
dtype: float64

Múltiples funciones agregadas:
             A         B         C
mean  0.550941 -0.601823  59.00000
std   0.733796  0.850177  23.21945
min  -0.234153 -1.913280  15.00000
max   1.579213  0.542560  92.00000

Funciones específicas por columna:
              A        B      C
mean   0.550941      NaN    NaN
std    0.733796      NaN    NaN
min         NaN -1.91328    NaN
max         NaN  0.54256    NaN
sum         NaN      NaN  472.0
count       NaN      NaN    8.0


## Transform - Operaciones que Mantienen la Forma

In [32]:
# Transform aplica función pero mantiene la forma original
print("Transform - multiplicar por 100:")
resultado_transform = df.select_dtypes(include=[np.number]).transform(lambda x: x * 100)
print(resultado_transform)

print("\nTransform - normalización z-score:")
resultado_zscore = df.select_dtypes(include=[np.number]).transform(lambda x: (x - x.mean()) / x.std())
print(resultado_zscore)

# Transform con múltiples funciones
print("\nTransform con múltiples funciones:")
resultado_multi_transform = df[['A', 'B']].transform({
    'A': lambda x: x * 2,
    'B': lambda x: x ** 2
})
print(resultado_multi_transform)

Transform - multiplicar por 100:
                     A           B     C
2024-01-01   49.671415  -46.947439  5900
2024-01-02  -13.826430   54.256004  4200
2024-01-03   64.768854  -46.341769  9200
2024-01-04  152.302986  -46.572975  6000
2024-01-05  -23.415337   24.196227  8000
2024-01-06  -23.413696 -191.328024  1500
2024-01-07  157.921282 -172.491783  6200
2024-01-08   76.743473  -56.228753  6200

Transform - normalización z-score:
                   A         B         C
2024-01-01 -0.073899  0.155672  0.000000
2024-01-02 -0.939233  1.346053 -0.732145
2024-01-03  0.131846  0.162796  1.421222
2024-01-04  1.324741  0.160077  0.043067
2024-01-05 -1.069908  0.992482  0.904414
2024-01-06 -1.069886 -1.542570 -1.894963
2024-01-07  1.401305 -1.321013  0.129202
2024-01-08  0.295033  0.046503  0.129202

Transform con múltiples funciones:
                   A         B
2024-01-01  0.993428  0.220406
2024-01-02 -0.276529  0.294371
2024-01-03  1.295377  0.214756
2024-01-04  3.046060  0.216904
20

## Operaciones Acumulativas

Las **operaciones acumulativas** son fundamentales para el análisis de tendencias y datos secuenciales. Estas funciones calculan valores que se van acumulando o construyendo sobre los valores anteriores conforme se avanza fila por fila en el dataset.

La **suma acumulativa** (`cumsum()`) calcula para cada fila la suma del valor actual más todos los valores anteriores en esa columna. Es especialmente útil para llevar totales corrientes, como el saldo de una cuenta bancaria donde cada transacción se suma al balance anterior, o cifras de ventas que se van acumulando mes a mes.

El **producto acumulativo** (`cumprod()`) multiplica progresivamente los valores, siendo valioso para calcular tasas de crecimiento compuesto o rendimientos financieros acumulados. Por ejemplo, si tienes factores de crecimiento mensual (1.05, 1.03, 1.02), el producto acumulativo te mostraría el crecimiento total hasta cada punto.

Las funciones de **máximo y mínimo acumulativo** (`cummax()` y `cummin()`) mantienen un registro del valor más alto o más bajo visto hasta cada punto en el tiempo. Esto es útil para análisis de récords históricos, como el precio máximo alcanzado por una acción hasta cada fecha, o la temperatura mínima registrada en una estación meteorológica.

In [33]:
# Suma acumulativa
print("Suma acumulativa:")
cumsum_resultado = df[['A', 'B', 'C']].cumsum()
print(cumsum_resultado)

print("\nProducto acumulativo:")
cumprod_resultado = df[['A', 'B']].cumprod()
print(cumprod_resultado)

print("\nMáximo acumulativo:")
cummax_resultado = df[['A', 'B', 'C']].cummax()
print(cummax_resultado)

print("\nMínimo acumulativo:")
cummin_resultado = df[['A', 'B', 'C']].cummin()
print(cummin_resultado)

Suma acumulativa:
                   A         B    C
2024-01-01  0.496714 -0.469474   59
2024-01-02  0.358450  0.073086  101
2024-01-03  1.006138 -0.390332  193
2024-01-04  2.529168 -0.856062  253
2024-01-05  2.295015 -0.614100  333
2024-01-06  2.060878 -2.527380  348
2024-01-07  3.640091 -4.252298  410
2024-01-08  4.407525 -4.814585  472

Producto acumulativo:
                   A         B
2024-01-01  0.496714 -0.469474
2024-01-02 -0.068678 -0.254718
2024-01-03 -0.044482  0.118041
2024-01-04 -0.067747 -0.054975
2024-01-05  0.015863 -0.013302
2024-01-06 -0.003714  0.025450
2024-01-07 -0.005865 -0.043900
2024-01-08 -0.004501  0.024684

Máximo acumulativo:
                   A         B   C
2024-01-01  0.496714 -0.469474  59
2024-01-02  0.496714  0.542560  59
2024-01-03  0.647689  0.542560  92
2024-01-04  1.523030  0.542560  92
2024-01-05  1.523030  0.542560  92
2024-01-06  1.523030  0.542560  92
2024-01-07  1.579213  0.542560  92
2024-01-08  1.579213  0.542560  92

Mínimo acumulativo: