# Operaciones y Estadísticas

Este notebook cubre operaciones estadísticas, aritméticas y funciones agregadas en pandas.

In [None]:
import numpy as np
import pandas as pd

# Crear DataFrames de ejemplo
np.random.seed(42)
fechas = pd.date_range('20240101', periods=8)
df = pd.DataFrame({
    'A': np.random.randn(8),
    'B': np.random.randn(8),
    'C': np.random.randint(1, 100, 8),
    'D': ['grupo1', 'grupo2', 'grupo1', 'grupo2', 'grupo1', 'grupo2', 'grupo1', 'grupo2']
}, index=fechas)

print("DataFrame principal:")
print(df)

## Estadísticas Básicas

In [None]:
# Estadísticas por columna
print("Media por columna:")
print(df.mean(numeric_only=True))

print("\nMedia por fila:")
print(df.mean(axis=1, numeric_only=True))

print("\nOtras estadísticas básicas:")
print(f"Suma: \n{df.sum(numeric_only=True)}")
print(f"\nDesviación estándar: \n{df.std(numeric_only=True)}")
print(f"\nVarianza: \n{df.var(numeric_only=True)}")

In [None]:
# Valores extremos
print("Valores mínimos:")
print(df.min())

print("\nValores máximos:")
print(df.max())

print("\nÍndice del valor mínimo:")
print(df.idxmin())

print("\nÍndice del valor máximo:")
print(df.idxmax())

print("\nRango (max - min):")
print(df.max(numeric_only=True) - df.min(numeric_only=True))

In [None]:
# Percentiles y cuartiles
# Los percentiles dividen los datos en 100 partes iguales, donde el percentil k 
# indica que k% de los datos son menores o iguales a ese valor
print("Mediana (percentil 50):")
print(df.median(numeric_only=True))

print("\nPercentiles específicos:")
print(df.quantile([0.25, 0.5, 0.75], numeric_only=True))

print("\nPercentil 90:")
print(df.quantile(0.9, numeric_only=True))

print("\nRango intercuartílico (Q3 - Q1):")
# El IQR mide la dispersión de los datos eliminando los valores extremos
q1 = df.quantile(0.25, numeric_only=True)
q3 = df.quantile(0.75, numeric_only=True)
print(q3 - q1)

## Operaciones de Conteo

In [None]:
# Conteos básicos
print("Conteo de valores no nulos:")
print(df.count())

print("\nConteo de valores únicos:")
print(df.nunique())

print("\nConteo de valores en columna categórica:")
print(df['D'].value_counts())

print("\nConteo de valores con normalización (porcentajes):")
print(df['D'].value_counts(normalize=True))

In [None]:
# Agregar algunos valores nulos para ejemplos
df_con_nulos = df.copy()
df_con_nulos.loc[fechas[1], 'A'] = np.nan
df_con_nulos.loc[fechas[3], 'B'] = np.nan

print("DataFrame con algunos valores nulos:")
print(df_con_nulos)

print("\nConteo de valores nulos:")
print(df_con_nulos.isnull().sum())

print("\nConteo de valores no nulos:")
print(df_con_nulos.notnull().sum())

## Operaciones Aritméticas

In [None]:
# Operaciones entre columnas
print("Suma de columnas A y B:")
suma_ab = df['A'] + df['B']
print(suma_ab)

print("\nMultiplicación de A por C:")
mult_ac = df['A'] * df['C']
print(mult_ac)

# Operaciones con escalares
print("\nSumar 10 a columna C:")
c_mas_10 = df['C'] + 10
print(c_mas_10)

print("\nDividir columna A entre 2:")
a_div_2 = df['A'] / 2
print(a_div_2)

In [None]:
# Operaciones entre DataFrames
df2 = pd.DataFrame({
    'A': np.random.randn(8),
    'B': np.random.randn(8),
    'C': np.random.randint(1, 50, 8)
}, index=fechas)

print("Segundo DataFrame:")
print(df2)

print("\nSuma de DataFrames:")
suma_dfs = df[['A', 'B', 'C']] + df2
print(suma_dfs)

print("\nResta de DataFrames:")
resta_dfs = df[['A', 'B', 'C']] - df2
print(resta_dfs)

## Operaciones con Series Desalineadas

In [None]:
# Crear Serie con índice diferente
fechas_diferentes = pd.date_range('20240103', periods=6)
serie_desalineada = pd.Series([1, 2, 3, 4, 5, 6], index=fechas_diferentes)

print("Serie con índices diferentes:")
print(serie_desalineada)

print("\nSuma de DataFrame columna A con Serie desalineada:")
resultado_desalineado = df['A'] + serie_desalineada
print(resultado_desalineado)

# Usar métodos explícitos para controlar el comportamiento
print("\nUsando .add() con fill_value:")
resultado_add = df['A'].add(serie_desalineada, fill_value=0)
print(resultado_add)

## Funciones Agregadas Personalizadas

In [None]:
# Función lambda personalizada
# .select_dtypes(include=[np.number]) filtra solo columnas numéricas (A, B, C)
# .agg() aplica la función lambda a cada columna seleccionada
# lambda calcula la media de cada columna y la multiplica por 5.6

print("Aplicar función lambda (multiplicar por 5.6):")
resultado_lambda = df.select_dtypes(include=[np.number]).agg(lambda x: x.mean() * 5.6)
print(resultado_lambda)

# Múltiples funciones estándar aplicadas simultáneamente
# Pasa una lista de nombres de funciones como strings
# Resultado: DataFrame con funciones como filas, columnas originales como columnas

print("\nMúltiples funciones agregadas:")
resultado_multi = df.select_dtypes(include=[np.number]).agg(['mean', 'std', 'min', 'max'])
print(resultado_multi)

# Agregación específica por columna usando diccionario
# Cada clave del diccionario es una columna, cada valor es una lista de funciones
# Permite aplicar diferentes análisis a diferentes columnas según sus características

print("\nFunciones específicas por columna:")
resultado_especifico = df.agg({
    'A': ['mean', 'std'],        # Para A: media y desviación estándar
    'B': ['min', 'max'],         # Para B: valores mínimo y máximo
    'C': ['sum', 'count']        # Para C: suma total y conteo de valores
})
print(resultado_especifico)

## Transform - Operaciones que Mantienen la Forma

In [None]:
# Transform aplica función pero mantiene la forma original
print("Transform - multiplicar por 100:")
resultado_transform = df.select_dtypes(include=[np.number]).transform(lambda x: x * 100)
print(resultado_transform)

print("\nTransform - normalización z-score:")
resultado_zscore = df.select_dtypes(include=[np.number]).transform(lambda x: (x - x.mean()) / x.std())
print(resultado_zscore)

# Transform con múltiples funciones
print("\nTransform con múltiples funciones:")
resultado_multi_transform = df[['A', 'B']].transform({
    'A': lambda x: x * 2,
    'B': lambda x: x ** 2
})
print(resultado_multi_transform)

## Operaciones Acumulativas

Las **operaciones acumulativas** son fundamentales para el análisis de tendencias y datos secuenciales. Estas funciones calculan valores que se van acumulando o construyendo sobre los valores anteriores conforme se avanza fila por fila en el dataset.

La **suma acumulativa** (`cumsum()`) calcula para cada fila la suma del valor actual más todos los valores anteriores en esa columna. Es especialmente útil para llevar totales corrientes, como el saldo de una cuenta bancaria donde cada transacción se suma al balance anterior, o cifras de ventas que se van acumulando mes a mes.

El **producto acumulativo** (`cumprod()`) multiplica progresivamente los valores, siendo valioso para calcular tasas de crecimiento compuesto o rendimientos financieros acumulados. Por ejemplo, si tienes factores de crecimiento mensual (1.05, 1.03, 1.02), el producto acumulativo te mostraría el crecimiento total hasta cada punto.

Las funciones de **máximo y mínimo acumulativo** (`cummax()` y `cummin()`) mantienen un registro del valor más alto o más bajo visto hasta cada punto en el tiempo. Esto es útil para análisis de récords históricos, como el precio máximo alcanzado por una acción hasta cada fecha, o la temperatura mínima registrada en una estación meteorológica.

In [None]:
# Suma acumulativa
print("Suma acumulativa:")
cumsum_resultado = df[['A', 'B', 'C']].cumsum()
print(cumsum_resultado)

print("\nProducto acumulativo:")
cumprod_resultado = df[['A', 'B']].cumprod()
print(cumprod_resultado)

print("\nMáximo acumulativo:")
cummax_resultado = df[['A', 'B', 'C']].cummax()
print(cummax_resultado)

print("\nMínimo acumulativo:")
cummin_resultado = df[['A', 'B', 'C']].cummin()
print(cummin_resultado)