Talento Tech - ***ANALISIS DE DATOS INTEGRADOR***

Ejecutor Técnico: ***William Burbano Lima***

---

# **Estadísticas Descriptivas en Análisis de Datos**

## **1. Media (Promedio)**
### **Definición**  
La **media** es el promedio de un conjunto de valores y se calcula sumando todos los valores y dividiéndolos entre la cantidad total de elementos.

### **Fórmula**  
$$
\bar{X} = \frac{\sum X_i}{N}
$$
Donde:  
- $$( X_i )$$ son los valores del conjunto de datos.  
- $$( N )$$ es la cantidad total de elementos.  

### **Ejemplo**  
Conjunto de datos: **[10, 15, 20, 25, 30]**  
$$
\bar{X} = \frac{10 + 15 + 20 + 25 + 30}{5} = \frac{100}{5} = 20
$$

---

## **2. Mediana**
### **Definición**  
La **mediana** es el valor central de un conjunto de datos ordenado.  
- Si el número de elementos es impar, es el valor del medio.  
- Si el número de elementos es par, es el promedio de los dos valores centrales.  

### **Ejemplo**  
**Datos ordenados:** \([5, 10, 15, 20, 25]\)  
- La mediana es **15** (valor central).  

**Datos ordenados (número par):** \([5, 10, 15, 20, 25, 30]\)  
$$
\text{Mediana} = \frac{15+20}{2} = 17.5
$$

---

## **3. Moda**
### **Definición**  
La **moda** es el valor que más veces se repite en un conjunto de datos.

### **Ejemplo**  
**Datos:** \([1, 2, 2, 3, 3, 3, 4, 5]\)  
- La moda es **3** porque aparece más veces.

---

## **4. Desviación Estándar**
### **Definición**  
La **desviación estándar** mide cuánto se dispersan los valores con respecto a la media.  

### **Fórmula**  
$$
\sigma = \sqrt{\frac{\sum (X_i - \bar{X})^2}{N}}
$$
Donde:  
- $$( X_i )$$ son los valores del conjunto de datos.  
- $$( \bar{X} )$$ es la media.  
- $$( N )$$ es el número total de elementos.

### **Ejemplo**  
**Datos:** \([10, 20, 30]\)  
- Media: \(\bar{X} = 20\)  
- Cálculo de la desviación estándar:  
$$
\sigma = \sqrt{\frac{(10-20)^2 + (20-20)^2 + (30-20)^2}{3}}
$$
$$
\sigma = \sqrt{\frac{100 + 0 + 100}{3}} = \sqrt{66.67} \approx 8.16
$$

---

## **5. Varianza**
### **Definición**  
La **varianza** es el cuadrado de la desviación estándar y mide la dispersión de los datos en relación con la media.

### **Fórmula**  
$$
\sigma^2 = \frac{\sum (X_i - \bar{X})^2}{N}
$$

### **Ejemplo**  
Usando el mismo conjunto de datos anterior:  
$$
\sigma^2 = \frac{(10-20)^2 + (20-20)^2 + (30-20)^2}{3} = \frac{100+0+100}{3} = 66.67
$$

---

## **6. Correlación y Coeficiente de Pearson**
### **Definición**  
La **correlación** mide la relación entre dos variables. Se usa el **coeficiente de correlación de Pearson**, que varía entre -1 y 1:  
- **+1**: Correlación positiva fuerte (cuando una variable aumenta, la otra también).  
- **0**:

### **Correlación y Coeficiente de Pearson**

La **correlación** es una medida estadística que indica el grado de relación entre dos variables. Nos ayuda a entender si un cambio en una variable está asociado con un cambio en otra. La correlación puede ser:

- **Positiva**: cuando una variable aumenta, la otra también aumenta.
- **Negativa**: cuando una variable aumenta, la otra disminuye.
- **Nula**: cuando no hay relación entre las variables.

### **Coeficiente de Correlación de Pearson (r)**  
El **coeficiente de Pearson** es la medida más utilizada para calcular la correlación entre dos variables numéricas. Se define por la fórmula:

$$
r = \frac{\sum (X_i - \bar{X}) (Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2} \sqrt{\sum (Y_i - \bar{Y})^2}}
$$

Donde:

- $$(X_i, Y_i) $$ son los valores de cada variable.
- $$(\bar{X}, \bar{Y})$$ son las medias de las variables $$(X)$$ e $$(Y)$$.
- $$(r)$$ varía entre **-1 y 1**:
  - **r = 1** → Correlación positiva perfecta.
  - **r = -1** → Correlación negativa perfecta.
  - **r = 0** → No hay correlación.

### **Ejemplo en Python**
Si queremos calcular la correlación entre dos variables usando Python, podemos hacerlo con **pandas** y **numpy**:

```python
import numpy as np
import pandas as pd

# Crear datos de ejemplo
x = np.array([10, 20, 30, 40, 50])
y = np.array([15, 25, 35, 45, 55])

# Calcular la correlación de Pearson
correlacion = np.corrcoef(x, y)[0, 1]
print(f"Coeficiente de correlación de Pearson: {correlacion}")
```

También se puede calcular con **pandas**:

```python
df = pd.DataFrame({'X': x, 'Y': y})
print(df.corr(method='pearson'))
```

### **Consideraciones**
- La correlación **no implica causalidad**. Una alta correlación no significa que una variable cause cambios en la otra.
- Pearson es útil cuando las variables tienen una relación lineal. Si la relación es no lineal, otras medidas como **Spearman** pueden ser más adecuadas.
---
William Burbano Lima
