# üìä Estad√≠sticas B√°sicas para Machine Learning: Los Cimientos de los Datos

---

## üéØ Objetivo de este Notebook

Este notebook te introducir√° a los **conceptos estad√≠sticos b√°sicos** que son fundamentales para entender y trabajar con datos en Machine Learning. Veremos c√≥mo describir conjuntos de datos num√©ricos y c√≥mo visualizar sus caracter√≠sticas principales.

Al finalizar este notebook, ser√°s capaz de:
* Entender y calcular medidas de tendencia central (media, mediana, moda).
* Entender y calcular medidas de dispersi√≥n (rango, varianza, desviaci√≥n est√°ndar).
* Generar datos aleatorios en Python y aplicarles estos conceptos.
* Crear histogramas y diagramas de caja para visualizar la distribuci√≥n de los datos.

---

## 1. Medidas de Tendencia Central: ¬øD√≥nde est√° el Centro de mis Datos?

Las medidas de tendencia central nos dicen d√≥nde se agrupan los valores de un conjunto de datos.

### a) Media (Promedio)
La **media** es la suma de todos los valores dividida por el n√∫mero total de valores. Es la medida m√°s com√∫n, pero sensible a valores extremos (outliers).

$$ \text{Media} (\bar{x}) = \frac{\sum_{i=1}^{n} x_i}{n} $$

### b) Mediana
La **mediana** es el valor central de un conjunto de datos cuando estos est√°n ordenados de menor a mayor. Si hay un n√∫mero par de datos, es el promedio de los dos valores centrales. Es robusta frente a los outliers.

---

### c) Moda
La **moda** es el valor que aparece con mayor frecuencia en un conjunto de datos. Un conjunto de datos puede tener una moda, varias modas (bimodal, multimodal) o ninguna moda.

### Ejercicio 1 (Basado en Ejercicio 3 del M√≥dulo 1.2): Calcular Media, Mediana y Moda con Python

Vamos a crear una lista de n√∫meros (simulando calificaciones de estudiantes) y calcularemos sus medidas de tendencia central usando `NumPy` y `SciPy` (librer√≠as fundamentales para c√°lculo num√©rico y cient√≠fico en Python).

In [None]:
import numpy as np
from scipy import stats

# Lista de calificaciones de estudiantes
calificaciones = [6, 7, 8, 5, 9, 7, 6, 10, 4, 7]

print(f"Calificaciones: {calificaciones}")

# Calcular la Media
media = np.mean(calificaciones)
print(f"Media: {media:.2f}")

# Calcular la Mediana
mediana = np.median(calificaciones)
print(f"Mediana: {mediana}")

# Calcular la Moda
# stats.mode devuelve la moda y su conteo. Usamos .mode[0] para obtener solo el valor de la moda.
moda = stats.mode(calificaciones, keepdims=True)[0][0] 
print(f"Moda: {moda}")

print("\n--- Tu Turno: Cambia las calificaciones y vuelve a ejecutar ---")
tus_numeros = [1, 2, 2, 3, 4, 4, 4, 5, 6] # ¬°Prueba con tus propios n√∫meros!
print(f"Tus n√∫meros: {tus_numeros}")
print(f"Media de tus n√∫meros: {np.mean(tus_numeros):.2f}")
print(f"Mediana de tus n√∫meros: {np.median(tus_numeros)}")
print(f"Moda de tus n√∫meros: {stats.mode(tus_numeros, keepdims=True)[0][0]}")

---

## 2. Medidas de Dispersi√≥n: ¬øQu√© Tan Dispersos Est√°n mis Datos?

Las medidas de dispersi√≥n nos dicen cu√°nto se extienden o var√≠an los valores en un conjunto de datos.

### a) Rango
El **rango** es la diferencia entre el valor m√°ximo y el valor m√≠nimo en el conjunto de datos. Es una medida sencilla pero sensible a outliers.

### b) Varianza
La **varianza** mide la dispersi√≥n promedio de cada valor respecto a la media. Cuanto mayor es la varianza, m√°s dispersos est√°n los datos. Se calcula como la media de las diferencias al cuadrado con la media.

$$ \text{Varianza} (\sigma^2) = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n} $$

### c) Desviaci√≥n Est√°ndar
La **desviaci√≥n est√°ndar** es la ra√≠z cuadrada de la varianza. Es m√°s f√°cil de interpretar que la varianza porque est√° en las mismas unidades que los datos originales. Nos dice, en promedio, cu√°nto se desv√≠an los valores de la media.

$$ \text{Desviaci√≥n Est√°ndar} (\sigma) = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}} $$

### Ejercicio 2 (Basado en Ejercicio 5 del M√≥dulo 1.3): Generar Datos Aleatorios y Calcular Medidas de Dispersi√≥n

Usaremos `NumPy` para generar un conjunto de datos aleatorios y luego calcularemos sus medidas de dispersi√≥n.

In [None]:
import numpy as np

# Generar 100 n√∫meros aleatorios distribuidos normalmente (simulando, por ejemplo, alturas de personas)
# np.random.normal(media, desviacion_estandar, cantidad_de_numeros)
np.random.seed(42) # Para que los resultados sean reproducibles
alturas = np.random.normal(loc=170, scale=10, size=100) # Media 170cm, Desv. Est. 10cm

print("Primeras 5 alturas generadas:")
print(alturas[:5])

# Calcular el Rango
rango = np.max(alturas) - np.min(alturas)
print(f"\nRango: {rango:.2f}")

# Calcular la Varianza
varianza = np.var(alturas)
print(f"Varianza: {varianza:.2f}")

# Calcular la Desviaci√≥n Est√°ndar
desviacion_estandar = np.std(alturas)
print(f"Desviaci√≥n Est√°ndar: {desviacion_estandar:.2f}")

print("\n--- Tu Turno: Genera otro conjunto de datos con diferente media y desviaci√≥n est√°ndar ---")
np.random.seed(100) # Otra semilla para otros resultados
pesos = np.random.normal(loc=70, scale=5, size=50) # Media 70kg, Desv. Est. 5kg, 50 n√∫meros

print("Primeros 5 pesos generados:")
print(pesos[:5])
print(f"Rango de pesos: {np.max(pesos) - np.min(pesos):.2f}")
print(f"Varianza de pesos: {np.var(pesos):.2f}")
print(f"Desviaci√≥n Est√°ndar de pesos: {np.std(pesos):.2f}")

---

## 3. Distribuci√≥n Normal y Representaci√≥n Gr√°fica

La **Distribuci√≥n Normal** (tambi√©n conocida como campana de Gauss) es una de las distribuciones de probabilidad m√°s importantes y comunes en estad√≠stica. Muchas variables naturales (como la altura o el peso de una poblaci√≥n) tienden a seguir esta distribuci√≥n. Es sim√©trica alrededor de su media.

Las visualizaciones son clave para entender la distribuci√≥n de nuestros datos.

### Ejercicio 3 (Basado en Ejercicio 6 del M√≥dulo 1.3): Crear Histogramas y Diagramas de Caja

Usaremos la librer√≠a `Matplotlib` y `Seaborn` para crear gr√°ficos que nos permitan visualizar la distribuci√≥n de los datos.

* Un **histograma** muestra la frecuencia con la que aparecen los valores en diferentes rangos (o 'bins'). Nos da una idea de la forma de la distribuci√≥n.
* Un **diagrama de caja (boxplot)** muestra la distribuci√≥n de los datos a trav√©s de sus cuartiles, mediana y posibles valores at√≠picos (outliers). Es excelente para comparar distribuciones entre grupos.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Generar datos de ejemplo para visualizar (edades de una poblaci√≥n)
np.random.seed(42)
edades = np.random.normal(loc=35, scale=10, size=500) # Media 35, Desv. Est. 10
# Asegurarnos de que las edades sean n√∫meros enteros y positivas
edades = np.round(edades[edades > 0])

print("Primeras 5 edades generadas:")
print(edades[:5])

# --- Visualizaci√≥n: Histograma ---
plt.figure(figsize=(10, 5))
sns.histplot(edades, bins=20, kde=True) # kde=True a√±ade una estimaci√≥n de la densidad
plt.title('Histograma de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.grid(axis='y', alpha=0.75)
plt.show()

print("\n--- Tu Turno: Crea un histograma para tus propios datos ---")
# Genera 200 puntos de datos aleatorios con una media de 50 y desviaci√≥n est√°ndar de 15
np.random.seed(123)
mis_puntos = np.random.normal(loc=50, scale=15, size=200)

plt.figure(figsize=(8, 4))
sns.histplot(mis_puntos, bins=15, color='orange', kde=True)
plt.title('Histograma de Mis Puntos')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.show()

# --- Visualizaci√≥n: Diagrama de Caja (Boxplot) ---
print("\n--- Diagrama de Caja de Edades ---")
plt.figure(figsize=(8, 4))
sns.boxplot(x=edades)
plt.title('Diagrama de Caja de Edades')
plt.xlabel('Edad')
plt.show()

print("\n--- Tu Turno: Crea un diagrama de caja para tus propios datos ---")
plt.figure(figsize=(8, 4))
sns.boxplot(x=mis_puntos, color='lightgreen')
plt.title('Diagrama de Caja de Mis Puntos')
plt.xlabel('Valor')
plt.show()


### ‚ú® Reflexi√≥n:

Las estad√≠sticas b√°sicas y las visualizaciones son las primeras herramientas que usamos para **entender nuestros datos**. Antes de aplicar cualquier algoritmo de Machine Learning, es vital saber qu√© informaci√≥n contienen y c√≥mo se distribuye.

---

## ‚è≠Ô∏è ¬øQu√© sigue?

¬°Excelente trabajo! Has cubierto los fundamentos de las estad√≠sticas descriptivas. Esto te servir√° para cualquier an√°lisis de datos.

Ahora puedes:

1.  Revisar los otros notebooks de la Fase 1.
2.  Si a√∫n no lo has hecho, completa los ejercicios pr√°cticos adicionales en **`Anexos_Fase1/Ejercicios_Iniciales.ipynb`**.
3.  Consulta la **`Anexos_Fase1/Actividades_Investigacion_Fase1.md`** para las tareas de investigaci√≥n.
4.  Si necesitas instalar un entorno local, revisa **`Anexos_Fase1/Guia_Anaconda_Jupyter.md`**.

¬°Est√°s construyendo una base muy s√≥lida para tu viaje en Machine Learning!