# Introducción

Las operaciones estadísticas en Pandas son cruciales para entender, preparar y analizar datos, lo que a su vez influye en la toma de decisiones, la comprensión de patrones y tendencias, y la comunicación de resultados en el ámbito del análisis de datos.

Algunas de las operaciones estadísticas básicas con las que cuenta Pandas son:

**La media (mean)**


La media es el promedio de un conjunto de valores. En un DataFrame, df.mean() calcula la media de cada columna numérica. Es útil para entender el valor central de un conjunto de datos

**La mediana (median)**


La mediana es el valor que está en el centro de un conjunto de datos ordenado. Es menos sensible a valores extremos que la media. df.median() calcula la mediana de cada columna numérica.



**El Mínimo y Máximo (min, max)**


Estos métodos, df.min() y df.max(), encuentran el valor mínimo y máximo respectivamente en cada columna. Son útiles para identificar los límites de tus datos.

**Suma (sum)**


df.sum() suma los valores de cada columna. Puede ser útil para obtener la suma total de valores en una columna o en todo el DataFrame.



**Desviación estándar (std)**


La desviación estándar es una medida de dispersión que indica qué tan dispersos están los valores en un conjunto de datos. df.std() calcula la desviación estándar de cada columna.

**Los Cuantiles (quantile)**


Los cuantiles representan los valores que dividen un conjunto de datos ordenado en partes iguales. Por ejemplo, el cuantil 0.25 indica el valor por debajo del cual cae el 25% de los datos. df.quantile(0.25) te dará el valor del cuantil 25%.

# Resumen estadístico 

En Pandas, el resumen estadístico es una manera rápida y efectiva de obtener una visión general de los datos. El método principal para esto es describe(), el cual proporciona estadísticas descriptivas para columnas numéricas en un DataFrame.

Un resumen estadístico es fundamental para comprender y describir las características de un conjunto de datos y es de especial utilidad para:

**Comprender la Distribución de Datos** Pues proporciona una visión general de cómo están distribuidos los datos, incluyendo medidas como la media, la mediana, la desviación estándar y los percentiles. Estas estadísticas revelan la concentración, dispersión y forma general de la distribución de los datos.

**Identificar Valores Atípicos** ya que las medidas como el valor mínimo, máximo y los percentiles pueden ayudar a identificar valores extremos (outliers) que podrían ser errores o indicativos de patrones inusuales en los datos.

**Comparar Diferentes Conjuntos de Datos** Cuando se tiene más de un conjunto de datos, los resúmenes estadísticos permiten comparar y contrastar las características de cada conjunto. Esto es útil para identificar diferencias o similitudes entre ellos.

**Soporte en la Toma de Decisiones** Al comprender las propiedades estadísticas de los datos, se pueden tomar decisiones informadas. Por ejemplo, si la desviación estándar es alta, puede indicar una gran variabilidad en los datos, lo que podría ser crucial al tomar decisiones de riesgo en un contexto empresarial.

**Análisis Exploratorio de Datos** Puesto que permite revelar patrones, tendencias, asimetrías y otras características fundamentales del conjunto de datos.

**Comunicación y Presentación** ya que el resumen estadístico simplifica la presentación de datos complejos. La información estadística se puede comunicar más fácilmente a diferentes audiencias para explicar las propiedades esenciales del conjunto de datos.

## ¿Cómo realizar un resumen estadístico con Pandas?

Supongamos que tienes un DataFrame con datos de ventas:

In [1]:
import pandas as pd

data = {
    'Region': ['Norte', 'Norte', 'Sur', 'Sur', 'Este'],
    'Salesperson': ['Alicia', 'Jose', 'Carlos', 'David', 'Eva'],
    'Sales': [3000, 5000, 2000, 3500, 4000],
    'Units_sold': [100, 150, 80, 120, 110]
}

df = pd.DataFrame(data)


Para obtener un resumen estadístico de las columnas numéricas (en este caso, 'Sales' y 'Units_sold'), simplemente puedes hacer lo siguiente:



In [2]:
summary = df.describe()
print(summary)


             Sales  Units_sold
count     5.000000    5.000000
mean   3500.000000  112.000000
std    1118.033989   25.884358
min    2000.000000   80.000000
25%    3000.000000  100.000000
50%    3500.000000  110.000000
75%    4000.000000  120.000000
max    5000.000000  150.000000


El resultado muestra estadísticas comunes para cada columna numérica:

Estas estadísticas incluyen:

count: número de elementos no nulos en la columna.
mean: promedio de los valores.
std: desviación estándar.
min: valor mínimo.
25%, 50%, 75%: percentiles 25, 50 (mediana) y 75.
max: valor máximo.

Esta función es útil para comprender rápidamente la distribución, dispersión y características básicas de tus datos numéricos. Además del describe(), puedes aplicar funciones específicas como mean(), sum(), std(), median(), entre otros, a columnas individuales para obtener estadísticas particulares.

## Ejericcio

Supongamos que tienes un conjunto de datos que registra las ventas mensuales de diferentes sucursales de una empresa.

Utiliza el DataFrame df para realizar un resumen estadístico que muestre:

La cantidad total de ventas por mes.
La media, el mínimo y el máximo de las ventas por sucursal.
El resumen estadístico general de las ventas.
Puedes utilizar las operaciones groupby() y describe() para obtener estos resúmenes. Intenta combinar diferentes métodos para obtener la información solicitada.

### Respuesta

In [7]:
import pandas as pd
import numpy as np

# Generar datos aleatorios para simular las ventas
np.random.seed(0)
data = {
    'Sucursal': np.random.choice(['A', 'B', 'C', 'D'], size=100),
    'Mes': np.random.choice(['Enero', 'Febrero', 'Marzo'], size=100),
    'Ventas': np.random.randint(10000, 50000, size=100)
}

df = pd.DataFrame(data)

df.head(3)



Unnamed: 0,Sucursal,Mes,Ventas
0,A,Febrero,15021
1,D,Marzo,36773
2,B,Enero,43902


In [10]:
# Cantidad total de ventas por mes
ventas_por_mes = df.groupby('Mes')['Ventas'].sum()
print("Ventas por mes:")
print(ventas_por_mes)
print("\n")


Ventas por mes:
Mes
Enero      1080721
Febrero     818546
Marzo      1072031
Name: Ventas, dtype: int32


In [11]:
# Estadísticas por sucursal
estadisticas_sucursal = df.groupby('Sucursal')['Ventas'].agg(['mean', 'min', 'max'])
print("Estadísticas por sucursal:")
print(estadisticas_sucursal)
print("\n")

Estadísticas por sucursal:
                  mean    min    max
Sucursal                            
A         27403.840000  10469  49041
B         33009.583333  15103  48429
C         31846.263158  13886  48214
D         27777.906250  11913  47420




In [12]:
# Resumen estadístico general de las ventas
resumen_general = df['Ventas'].describe()
print("Resumen estadístico general de las ventas:")
print(resumen_general)

Resumen estadístico general de las ventas:
count      100.000000
mean     29712.980000
std      11420.407409
min      10469.000000
25%      20978.250000
50%      27461.000000
75%      39015.250000
max      49041.000000
Name: Ventas, dtype: float64


# Agregación de datos

La agregación de datos en Pandas implica combinar datos a partir de múltiples filas o columnas para generar un resumen estadístico o una representación simplificada de los datos. Esto es común en el análisis de datos, especialmente cuando se trabaja con conjuntos de datos grandes y se necesita resumir la información.

La agregación de datos es fundamental en el análisis de datos por varias razones:

**Resumen y comprensión** 

Permite resumir conjuntos de datos extensos en valores significativos, lo que facilita la comprensión de los datos. En lugar de lidiar con detalles individuales, las agregaciones brindan una visión general que ayuda a identificar tendencias, patrones y características clave.

**Reducción de la complejidad**

En situaciones con grandes volúmenes de datos, la agregación reduce la complejidad al condensar la información. Esto facilita el análisis y la presentación de resultados de manera más clara y concisa.

**Análisis estadístico**

Las agregaciones son esenciales para aplicar técnicas estadísticas y modelos a conjuntos de datos. Por ejemplo, calcular medias, sumas, desviaciones estándar, percentiles, etc., que son cruciales para comprender la distribución y las propiedades estadísticas de los datos.

**Toma de decisiones**

Simplifica la información, lo que facilita la toma de decisiones informadas. Al resumir los datos de manera significativa, las agregaciones proporcionan una base sólida para decisiones estratégicas en negocios, investigación, finanzas y otros campos.

**Comparaciones y tendencias**

Al resumir datos, se pueden comparar diferentes grupos, períodos de tiempo o segmentos, lo que permite identificar tendencias, disparidades y similitudes entre distintas entidades en los datos

**Optimización del rendimiento**

En el análisis de grandes conjuntos de datos, las agregaciones pueden ayudar a optimizar el rendimiento al reducir el tiempo de cálculo necesario para obtener resultados.

## ¿Cómo realizar una agregación de datos?

Supongamos que tienes un DataFrame con información de ventas que incluye la región, el vendedor y el monto de las ventas:

In [1]:
import pandas as pd

data_n = {
    'Region': ['Norte', 'Norte', 'Sur', 'Sur', 'Este'],
    'Salesperson': ['Alicia', 'Jose', 'Carlos', 'David', 'Eva'],
    'Sales': [3000, 5000, 2000, 3500, 4000]
}

df_n = pd.DataFrame(data_n)


Una vez que contamos con los datos en un DataFrame, si quisieramos sumar las ventas por región, deberíamos usar groupby() junto con una función de agregación, como sum():

In [4]:
# Agrupar por región y sumar las ventas

ventas_x_region = df_n.groupby('Region')['Sales'].sum()
print(ventas_x_region)


Region
Este     4000
Norte    8000
Sur      5500
Name: Sales, dtype: int64


El código anterior agrupa los datos por la columna 'Region' y luego suma las ventas correspondientes a cada región.

También podemos usar otras funciones de agregación como mean(), max(), min(), etc., dependiendo las necesidades particulares del analísis que estemos realizando. Además, podemos realizar agregaciones múltiples o incluso personalizadas utilizando el método agg() en combinación con groupby().

Por ejemplo, podríamos necesitar calcular tanto la suma como el promedio de ventas por región:

In [5]:
# Agregar sum y mean
sales_agg = df_n.groupby('Region')['Sales'].agg(['sum', 'mean'])
print(sales_agg)


         sum    mean
Region              
Este    4000  4000.0
Norte   8000  4000.0
Sur     5500  2750.0


## Ejercicio

Supongamos que tienes un conjunto de datos que registra información sobre ventas de productos en una tienda.

Utiliza el DataFrame df_tienda para realizar agregaciones que muestren:

El total de ventas por categoría.
El promedio de cantidad vendida por producto.
La suma de ventas y la cantidad total vendida por producto.
Puedes utilizar el método groupby() junto con funciones de agregación como sum(), mean(), y agg() para obtener estos resúmenes.

### Respuesta

In [6]:
import pandas as pd
import numpy as np

# Generar datos aleatorios para simular las ventas
np.random.seed(0)
data_tienda = {
    'Producto': np.random.choice(['A', 'B', 'C'], size=100),
    'Categoria': np.random.choice(['Electrónica', 'Ropa', 'Alimentos'], size=100),
    'Ventas': np.random.randint(100, 1000, size=100),
    'Cantidad': np.random.randint(1, 10, size=100)
}

df_tienda = pd.DataFrame(data_tienda)


In [8]:
# Total de ventas por categoría
ventas_por_categoria = df_tienda.groupby('Categoria')['Ventas'].sum()
print("Total de ventas por categoría:")
print(ventas_por_categoria)
print("\n")

Total de ventas por categoría:
Categoria
Alimentos      19510
Electrónica    17836
Ropa           17515
Name: Ventas, dtype: int32




In [9]:
# Promedio de cantidad vendida por producto
promedio_cantidad_por_producto = df_tienda.groupby('Producto')['Cantidad'].mean()
print("Promedio de cantidad vendida por producto:")
print(promedio_cantidad_por_producto)
print("\n")

Promedio de cantidad vendida por producto:
Producto
A    5.589744
B    5.852941
C    4.296296
Name: Cantidad, dtype: float64




In [10]:
# Suma de ventas y cantidad total vendida por producto
agregacion_por_producto = df_tienda.groupby('Producto').agg({'Ventas': 'sum', 'Cantidad': 'sum'})
print("Suma de ventas y cantidad total vendida por producto:")
print(agregacion_por_producto)

Suma de ventas y cantidad total vendida por producto:
          Ventas  Cantidad
Producto                  
A          22287       218
B          18633       199
C          13941       116
