# Conceptos Básicos de Estadística Descriptiva



En estadística descriptiva se utilizan distintas medidas para intentar describir las propiedades de nuestros datos, algunos de los conceptos básicos, son:

Primero, creamos un conjunto de datos ficticio para ilustrar los conceptos de estadística descriptiva. 

In [1]:
import numpy as np
import pandas as pd

# Crear un conjunto de datos de ejemplo
datos = [10, 20, 20, 40, 50, 50, 50, 60, 70, 80]

# Convertir los datos a un DataFrame de pandas para facilidad de uso
df = pd.DataFrame(datos, columns=['Valor'])


Aquí, datos es una lista de valores que utilizaremos para nuestras operaciones estadísticas. Convertimos esta lista en un DataFrame de pandas para facilitar su manipulación y análisis.

## 1. Media aritmética

La media aritmética es el promedio de un conjunto de valores. Se calcula sumando todos los valores y dividiéndolos por el número de valores.

In [2]:
media = np.mean(datos)
print(f"Media aritmética: {media}")


Media aritmética: 45.0


### Explicación: 

Sumamos todos los valores del conjunto de datos y los dividimos por el número de valores. La media nos da una idea del valor promedio del conjunto de datos.

## 2. Desviación respecto a la media

La desviación respecto a la media mide cuánto se desvían los valores individuales de la media.


In [3]:
desviacion_respecto_media = df['Valor'] - media
print(f"Desviación respecto a la media:\n{desviacion_respecto_media}")


Desviación respecto a la media:
0   -35.0
1   -25.0
2   -25.0
3    -5.0
4     5.0
5     5.0
6     5.0
7    15.0
8    25.0
9    35.0
Name: Valor, dtype: float64


### Explicación: 

Cada valor del conjunto de datos se resta de la media para obtener su desviación respecto a la media. Esto muestra cuánto se desvía cada valor del promedio.

## 3. Mediana

La mediana es el valor central de un conjunto de datos ordenados. Si hay un número par de valores, es el promedio de los dos valores centrales.

In [4]:
mediana = np.median(datos)
print(f"Mediana: {mediana}")


Mediana: 50.0


### Explicación: 

Ordenamos los valores y tomamos el valor central. Si hay un número par de valores, la mediana es el promedio de los dos valores centrales.

## 4. Moda

La moda es el valor que ocurre con mayor frecuencia en un conjunto de datos.

In [5]:
moda = df['Valor'].mode()[0]
print(f"Moda: {moda}")


Moda: 50


### Explicación: 

Encontramos el valor que aparece más veces en el conjunto de datos.

## 5. Varianza

La varianza mide la dispersión de los datos respecto a la media. Se calcula como el promedio de las desviaciones cuadradas de cada valor respecto a la media.

In [6]:
varianza = np.var(datos, ddof=1)
print(f"Varianza: {varianza}")


Varianza: 516.6666666666666


### Explicación: 

Calculamos el promedio de las desviaciones cuadradas de cada valor respecto a la media. Esto nos da una idea de cuánto varían los valores en el conjunto de datos.

## 6. Covarianza

La covarianza mide la relación entre dos variables, indicando si tienden a aumentar o disminuir juntas. Necesitamos dos conjuntos de datos para calcular la covarianza.

In [7]:
datos_y = [15, 21, 20, 45, 55, 53, 52, 63, 71, 81]
covarianza = np.cov(datos, datos_y)[0, 1]
print(f"Covarianza entre datos y datos_y: {covarianza}")


Covarianza entre datos y datos_y: 508.88888888888886


Esto muestra que hay una relación positiva entre los dos conjuntos de datos.

### Explicación: 

Calculamos la relación entre dos conjuntos de datos. Un valor positivo indica que las variables tienden a aumentar juntas, mientras que un valor negativo indica que una variable tiende a disminuir cuando la otra aumenta.

## 7. Desviación típica (Desviación estándar)

La desviación estándar es la raíz cuadrada de la varianza, proporcionando una medida de la dispersión de los datos en las mismas unidades que los datos originales.

In [8]:
desviacion_estandar = np.std(datos, ddof=1)
print(f"Desviación estándar: {desviacion_estandar}")


Desviación estándar: 22.73030282830976


### Explicación: 

La desviación estándar nos da una medida de la dispersión de los datos en las mismas unidades que los datos originales.

## 8. Correlación

La correlación mide la fuerza y la dirección de la relación lineal entre dos variables. Se expresa como un valor entre -1 y 1.

In [9]:
correlacion = np.corrcoef(datos, datos_y)[0, 1]
print(f"Correlación entre datos y datos_y: {correlacion}")


Correlación entre datos y datos_y: 0.9965436220322126


La alta correlación (cerca de 1) indica una fuerte relación positiva entre los dos conjuntos de datos.

### Explicación: 

La correlación varía entre -1 y 1. Un valor cercano a 1 indica una fuerte relación positiva, mientras que un valor cercano a -1 indica una fuerte relación negativa. Un valor cercano a 0 indica poca o ninguna relación lineal.

