 # **<font color="DarkBlue">Resumen y cálculo de estadísticas descriptivas 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Estadísticas descriptivas comunes</font>**

<p align="justify">
Resumen y cálculo de estadísticas descriptivas son fundamentales en el análisis de datos, ya que permiten obtener una visión general y cuantitativa de los datos. Estas estadísticas ayudan a identificar patrones, tendencias y posibles anomalías, facilitando la toma de decisiones informadas.




In [None]:
import pandas as pd

In [None]:
# Datos de ventas por producto y región
data = {
    'Región': ['Norte', 'Sur', 'Este', 'Oeste'],
    'Producto A': [200, 150, 180, 130],
    'Producto B': [210, 160, 170, 140],
    'Producto C': [180, 120, 160, 150],
    'Producto D': [190, 155, 140, 145]
}

In [None]:
# Creando el DataFrame
df = pd.DataFrame(data)
df

Unnamed: 0,Región,Producto A,Producto B,Producto C,Producto D
0,Norte,200,210,180,190
1,Sur,150,160,120,155
2,Este,180,170,160,140
3,Oeste,130,140,150,145


 ## **<font color="DarkBlue">Resúmen estadístico</font>**

In [None]:
# Generar un resumen estadístico
df_stats = df.iloc[:, 1:].describe().round(2)
df_stats

Unnamed: 0,Producto A,Producto B,Producto C,Producto D
count,4.0,4.0,4.0,4.0
mean,165.0,170.0,152.5,157.5
std,31.09,29.44,25.0,22.55
min,130.0,140.0,120.0,140.0
25%,145.0,155.0,142.5,143.75
50%,165.0,165.0,155.0,150.0
75%,185.0,180.0,165.0,163.75
max,200.0,210.0,180.0,190.0


In [None]:
# Transponer el DataFrame
df_stats.T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Producto A,4.0,165.0,31.09,130.0,145.0,165.0,185.0,200.0
Producto B,4.0,170.0,29.44,140.0,155.0,165.0,180.0,210.0
Producto C,4.0,152.5,25.0,120.0,142.5,155.0,165.0,180.0
Producto D,4.0,157.5,22.55,140.0,143.75,150.0,163.75,190.0


<p align="justify">
Además de <code>describe()</code>, es posible calcular estadísticas específicas utilizando métodos de Pandas:



 ## **<font color="DarkBlue">Media</font>**

In [None]:
# Calcular la media de las ventas por producto
media_ventas = df.iloc[:, 1:].mean()
media_ventas.name = 'Media'
media_ventas

Unnamed: 0,Media
Producto A,165.0
Producto B,170.0
Producto C,152.5
Producto D,157.5


 ## **<font color="DarkBlue">Desviación estándar</font>**

In [None]:
# Calcular la desviación estándar de las ventas por producto
std_ventas = df.iloc[:, 1:].std().round(3)
std_ventas.name = 'Desviación estándar'
std_ventas

Unnamed: 0,Desviación estándar
Producto A,31.091
Producto B,29.439
Producto C,25.0
Producto D,22.546


 ## **<font color="DarkBlue">Mediana</font>**

In [None]:
# Calcular la mediana de las ventas por producto
mediana_ventas = df.iloc[:, 1:].median()
mediana_ventas.name = 'Mediana'
mediana_ventas

Unnamed: 0,Mediana
Producto A,165.0
Producto B,165.0
Producto C,155.0
Producto D,150.0


 ## **<font color="DarkBlue">Máximo</font>**

In [None]:
# Calcular el valor máximo de las ventas por producto
max_ventas = df.iloc[:, 1:].max()
max_ventas.name = 'Máximo'
max_ventas

Unnamed: 0,Máximo
Producto A,200
Producto B,210
Producto C,180
Producto D,190


 ## **<font color="DarkBlue">Mínimo</font>**

In [None]:
# Calcular el valor mínimo de las ventas por producto
max_ventas = df.iloc[:, 1:].min()
max_ventas.name = 'Mínimo'
max_ventas

Unnamed: 0,Mínimo
Producto A,130
Producto B,140
Producto C,120
Producto D,140


 ## **<font color="DarkBlue">Percentil 25</font>**

In [None]:
# Calcular el percentil 25 de las ventas por producto
percentil_25 = df.iloc[:, 1:].quantile(0.25)
percentil_25.name = 'Percentil 25'
percentil_25

Unnamed: 0,Percentil 25
Producto A,145.0
Producto B,155.0
Producto C,142.5
Producto D,143.75


<p align="justify">
El uso de estas estadísticas descriptivas proporciona a la empresa un entendimiento profundo de cómo se están comportando las ventas de cada producto en diferentes regiones.
<br><br>
Por ejemplo:
<br><br>

- **Media**: Proporciona una idea del rendimiento promedio.
- **Desviación estándar**: Indica qué tan variable es el rendimiento.
- **Mediana**: Muestra el punto medio de las ventas.
- **Máximos y mínimos**: Ayudan a identificar los mejores y peores resultados.
- **Percentiles**: Ofrecen una visión más detallada de la distribución de las ventas.


 # **<font color="DarkBlue">Otros cálculos</font>**

<p align="justify">
Supongamos que una empresa está analizando las ventas mensuales de tres productos (A, B, y C) durante los primeros seis meses del año. Se utilizarán las funciones mencionadas para obtener un análisis detallado de las ventas.



In [None]:
# Datos de ventas mensuales por producto (en unidades)
data = {
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio'],
    'Producto A': [120, 150, 170, 130, 160, 200],
    'Producto B': [80, 110, 90, 140, 130, 160],
    'Producto C': [200, 180, 210, 190, 220, 250]
}

In [None]:
# Creación del DataFrame
df = pd.DataFrame(data)

In [None]:
# Mostrar el DataFrame original
df

Unnamed: 0,Mes,Producto A,Producto B,Producto C
0,Enero,120,80,200
1,Febrero,150,110,180
2,Marzo,170,90,210
3,Abril,130,140,190
4,Mayo,160,130,220
5,Junio,200,160,250


 ## **<font color="DarkBlue">Conteo</font>**

<p align="justify">
Devuelve el número de observaciones no nulas en cada columna, lo que indica en cuántos meses se han registrado ventas para cada producto

In [None]:
df

Unnamed: 0,Mes,Producto A,Producto B,Producto C
0,Enero,120,80,200
1,Febrero,150,110,180
2,Marzo,170,90,210
3,Abril,130,140,190
4,Mayo,160,130,220
5,Junio,200,160,250


In [None]:
# 1. Contar el número de valores no nulos por producto
conteo = df.iloc[:, 1:].count()
conteo.name = 'Conteo'
conteo

Unnamed: 0,Conteo
Producto A,6
Producto B,6
Producto C,6


 ## **<font color="DarkBlue">Ventas totales</font>**

<p align="justify">
Calcula la suma total de ventas para cada producto durante los seis meses.

In [None]:
df

Unnamed: 0,Mes,Producto A,Producto B,Producto C
0,Enero,120,80,200
1,Febrero,150,110,180
2,Marzo,170,90,210
3,Abril,130,140,190
4,Mayo,160,130,220
5,Junio,200,160,250


In [None]:
# 2. Sumar las ventas totales por producto
ventas_totales = df.iloc[:, 1:].sum()
ventas_totales.name = 'Ventas totales'
ventas_totales

Unnamed: 0,Ventas totales
Producto A,930
Producto B,710
Producto C,1250


 ## **<font color="DarkBlue">Producto acumulado</font>**

<p align="justify">
Calcula el producto de todas las ventas mensuales de cada producto. Esto puede ser útil para análisis financieros o cuando se trabaja con tasas de crecimiento.

In [None]:
df

Unnamed: 0,Mes,Producto A,Producto B,Producto C
0,Enero,120,80,200
1,Febrero,150,110,180
2,Marzo,170,90,210
3,Abril,130,140,190
4,Mayo,160,130,220
5,Junio,200,160,250


In [None]:
# 3. Calcular el producto acumulado de las ventas por producto
producto_acumulado = df.iloc[:, 1:].prod()
producto_acumulado.name = 'Producto acumulado'
producto_acumulado

Unnamed: 0,Producto acumulado
Producto A,12729600000000
Producto B,2306304000000
Producto C,79002000000000


 ## **<font color="DarkBlue">Suma acumulada</font>**

<p align="justify">
Proporciona la suma acumulada de las ventas mes a mes, lo que permite ver cómo las ventas se han ido acumulando a lo largo del tiempo

In [None]:
df

Unnamed: 0,Mes,Producto A,Producto B,Producto C
0,Enero,120,80,200
1,Febrero,150,110,180
2,Marzo,170,90,210
3,Abril,130,140,190
4,Mayo,160,130,220
5,Junio,200,160,250


In [None]:
# 4. Calcular la suma acumulada de las ventas por producto
suma_acumulada = df.iloc[:, 1:].cumsum()
suma_acumulada.name = 'Suma acumulada'
suma_acumulada

Unnamed: 0,Producto A,Producto B,Producto C
0,120,80,200
1,270,190,380
2,440,280,590
3,570,420,780
4,730,550,1000
5,930,710,1250


 ## **<font color="DarkBlue">Diferencia</font>**

<p align="justify">
Calcula la diferencia en ventas entre un mes y el mes anterior. Esto ayuda a identificar cambios en el volumen de ventas de un mes a otro.

In [None]:
df

Unnamed: 0,Mes,Producto A,Producto B,Producto C
0,Enero,120,80,200
1,Febrero,150,110,180
2,Marzo,170,90,210
3,Abril,130,140,190
4,Mayo,160,130,220
5,Junio,200,160,250


In [None]:
# 5. Calcular la diferencia entre las ventas de meses consecutivos por producto
diferencia_ventas = df.iloc[:, 1:].diff()
diferencia_ventas.name = 'Diferencia'
diferencia_ventas

Unnamed: 0,Producto A,Producto B,Producto C
0,,,
1,30.0,30.0,-20.0
2,20.0,-20.0,30.0
3,-40.0,50.0,-20.0
4,30.0,-10.0,30.0
5,40.0,30.0,30.0


 ## **<font color="DarkBlue">Cambio porcentual</font>**

<p align="justify">
Calcula el cambio porcentual en ventas de un mes a otro, lo que es útil para ver la tendencia del crecimiento o disminución relativa en las ventas.

In [None]:
df

Unnamed: 0,Mes,Producto A,Producto B,Producto C
0,Enero,120,80,200
1,Febrero,150,110,180
2,Marzo,170,90,210
3,Abril,130,140,190
4,Mayo,160,130,220
5,Junio,200,160,250


In [None]:
# 6. Calcular el cambio porcentual en las ventas por producto de un mes a otro
cambio_porcentual = df.iloc[:, 1:].pct_change() * 100
cambio_porcentual.name = 'Cambio porcentual'
cambio_porcentual

Unnamed: 0,Producto A,Producto B,Producto C
0,,,
1,25.0,37.5,-10.0
2,13.333333,-18.181818,16.666667
3,-23.529412,55.555556,-9.52381
4,23.076923,-7.142857,15.789474
5,25.0,23.076923,13.636364


 # **<font color="DarkBlue">Correlación y Covarianza</font>**

<p align="justify">
Conceptos estadísticos fundamentales que se utilizan para medir la relación entre dos variables.


 ## **<font color="DarkBlue">Covarianza</font>**

<p align="justify">
La covarianza mide la dirección de la relación lineal entre dos variables. Puede ser positiva, negativa o nula:
<br><br>

- **Covarianza positiva**: Si las dos variables tienden a moverse en la misma dirección (cuando una aumenta, la otra también aumenta).
- **Covarianza negativa**: Si las dos variables tienden a moverse en direcciones opuestas (cuando una aumenta, la otra disminuye).
- **Covarianza nula**: Si no hay una relación lineal entre las dos variables.

<p align="justify">
<br>
La covarianza se calcula utilizando la siguiente fórmula:
<br><br>
$$
\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
$$

Donde:
- $ X $ e $ Y $ son las variables.
- $ \bar{X} $ y $ \bar{Y} $ son las medias de las variables $ X $ e $ Y $.
- $ n $ es el número de observaciones.

<p align="justify">
<br>
Nota: La covarianza está en las unidades del producto de las variables, lo que puede dificultar la interpretación directa.


<p align="justify">
Supongamos que una empresa quiere analizar la relación entre sus gastos en marketing y las ventas mensuales para determinar si hay una correlación positiva entre ambas variables.



In [None]:
# Datos de ventas mensuales y gastos en marketing (en miles de dólares)
data = {
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio'],
    'Ventas': [200, 220, 250, 270, 300, 320],
    'Marketing': [50, 55, 60, 65, 70, 75]
}

In [None]:
# Creando el DataFrame
df = pd.DataFrame(data)
df

Unnamed: 0,Mes,Ventas,Marketing
0,Enero,200,50
1,Febrero,220,55
2,Marzo,250,60
3,Abril,270,65
4,Mayo,300,70
5,Junio,320,75


<p align="justify">
El método <code>cov()</code> de Pandas calcula la matriz de covarianza para las columnas seleccionadas. En este caso, se extrae el valor de la covarianza entre ventas y marketing.


In [None]:
# Calcular la covarianza entre las ventas y los gastos de marketing
covarianza = df[['Ventas', 'Marketing']].cov().iloc[0, 1]
covarianza

430.0

<p align="jusfify">
 El valor positivo de la covarianza (430.0) indica que a medida que los gastos en marketing aumentan, las ventas también tienden a aumentar. Sin embargo, el valor en sí mismo no tiene una interpretación fácil debido a las unidades involucradas.



 ## **<font color="DarkBlue">Correlación</font>**

<p align="justify">
La correlación mide tanto la dirección como la fuerza de la relación lineal entre dos variables. A diferencia de la covarianza, la correlación es adimensional y está acotada entre -1 y 1:
<br><br>

- **Correlación positiva (+1)**: Indica una relación perfectamente positiva.
- **Correlación negativa (-1)**: Indica una relación perfectamente negativa.
- **Correlación cero (0)**: Indica que no hay una relación lineal entre las variables.

<p align="justify">
<br><br>
La correlación se calcula utilizando la siguiente fórmula, que normaliza la covarianza:

$$
\text{Corr}(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
$$

Donde:
- $ \sigma_X $ y $ \sigma_Y $ son las desviaciones estándar de $ X $ e $ Y $.


<p align="justify">
El método <code>corr()</code> de Pandas calcula la matriz de correlación. Similar al caso de la covarianza, se extrae el valor de la correlación entre las dos variables.


In [None]:
# Calcular la correlación entre las ventas y los gastos de marketing
correlacion = df[['Ventas', 'Marketing']].corr().iloc[0, 1]
correlacion

0.99838143945703

<p align="justify">
 La correlación de 0.998 indica una relación lineal casi perfecta y positiva entre los gastos en marketing y las ventas. Esto significa que el aumento en los gastos de marketing está directamente asociado con un aumento proporcional en las ventas.



<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
