# Métodos de agregación y resumen

* **sum()**: Calcula la suma de los valores a lo largo del eje especificado (por defecto, a lo largo de las filas si no se especifica un eje). Este método es útil para obtener la suma total de una columna numérica en un DataFrame o una Serie.


In [9]:
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

suma_columna_A = df['A'].sum()
print(suma_columna_A)

6


* **mean()**: Calcula la media aritmética de los valores a lo largo del eje especificado. La media es una medida de la tendencia central que muestra el valor promedio de los datos. Es útil para obtener una visión general del nivel promedio de los datos.

In [12]:
media_columna_A = df['A'].mean()
print(media_columna_A)

2.0


* **median()**: Calcula la mediana de los valores a lo largo del eje especificado. La mediana es el valor que divide los datos ordenados en dos partes iguales, siendo menos sensible a valores atípicos que la media.

In [15]:
mediana_columna_A = df['A'].median()
print(mediana_columna_A)

2.0


* **min()**: Encuentra el valor mínimo a lo largo del eje especificado. Es útil para identificar el valor más bajo dentro de un conjunto de datos, lo que puede ser importante para la detección de límites inferiores en análisis de datos.

In [22]:
minimo_columna_A = df['A'].min()
print(minimo_columna_A)

1


* **max()**: Encuentra el valor máximo a lo largo del eje especificado. Similar a min(), este método es útil para identificar el valor más alto en un conjunto de datos, destacando los picos en los valores.

In [25]:
maximo_columna_A = df['A'].max()
print(maximo_columna_A)

3


* **count()**: Cuenta el número de valores no nulos a lo largo del eje especificado. Este método es particularmente útil para evaluar la cantidad de datos válidos presentes en una columna o en todo el DataFrame.

In [28]:
cuenta_columna_A = df['A'].count()
print(cuenta_columna_A)

3


* **std()**: Calcula la desviación estándar de los valores a lo largo del eje especificado. La desviación estándar es una medida de la dispersión o variabilidad de los datos respecto a la media. Es fundamental para entender cuán dispersos están los valores en un conjunto de datos.

In [31]:
desviacion_estandar_columna_A = df['A'].std()
print(desviacion_estandar_columna_A)

1.0


* **var()**: Calcula la varianza de los valores a lo largo del eje especificado. La varianza mide la dispersión de los datos elevando al cuadrado la desviación de cada dato respecto a la media, proporcionando una visión más amplificada de la variabilidad.

In [34]:
varianza_columna_A = df['A'].var()
print(varianza_columna_A)

1.0



* **describe()**: Genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos. Este método proporciona una visión rápida y completa del resumen estadístico de las columnas de un DataFrame.

In [38]:
descripcion_df = df.describe()
print(descripcion_df)

         A    B
count  3.0  3.0
mean   2.0  5.0
std    1.0  1.0
min    1.0  4.0
25%    1.5  4.5
50%    2.0  5.0
75%    2.5  5.5
max    3.0  6.0


* **quantile()**: Calcula el valor en el cuantil especificado (por defecto, el 50%, que es la mediana). Es útil para dividir los datos en partes iguales y analizar la distribución relativa de los datos.

In [44]:
cuantil_columna_A = df['A'].quantile(0.75)
print(cuantil_columna_A)

2.5


* **cumsum()**: Calcula la suma acumulada de los valores a lo largo del eje especificado. La suma acumulada es útil en análisis de series temporales para ver la evolución de una suma a lo largo del tiempo.

In [47]:
suma_acumulada_columna_A = df['A'].cumsum()
print(suma_acumulada_columna_A)

0    1
1    3
2    6
Name: A, dtype: int64


* **cumprod()**: Calcula el producto acumulado de los valores a lo largo del eje especificado. Este método es particularmente útil para cálculos financieros o científicos donde se necesita evaluar el crecimiento multiplicativo en una serie de datos.

In [None]:
producto_acumulado_columna_A = df['A'].cumprod()
print(producto_acumulado_columna_A)

Estos métodos se pueden aplicar tanto a series como a dataframes.  
Es posible especificar el eje sobre el cual se aplican las operaciones, utilizando el parámetro ``axis`` (0 para filas y 1 para columnas). Además, algunos métodos aceptan parámetros adicionales que permiten ajustar su comportamiento, como skipna para ignorar valores nulos.

In [55]:
suma_filas = df.sum(axis=1)
# Resultado: Serie con la suma de cada fila
print(suma_filas)

0    5
1    7
2    9
dtype: int64
