# 🧠 Scikit-Learn


**Scikit-Learn: La "Caja de Herramientas Mágica" del Aprendizaje Automático**  

Imagina que quieres enseñarle a una computadora a reconocer fotos de perros y gatos, predecir el precio de una casa o agrupar clientes con gustos similares. **Scikit-Learn** es como un **kit de herramientas prefabricadas** que hace todo esto posible, sin que tengas que programar todo desde cero.  

Es una **biblioteca de Python** (un conjunto de códigos preescritos) especializada en **aprendizaje automático (machine learning)**. Su nombre viene de:  
- **Sci** (cientifico) + **Kit** (herramientas) + **Learn** (aprender).  
- Se pronuncia *"sai-kit lern"*.  

**Orígenes**

- Nació en **2007** como un proyecto de código abierto, creado por **David Cournapeau**.  
- Luego, otros investigadores (como **INRIA**, un instituto francés) lo mejoraron.  
- Hoy es uno de los herramientas más usadas en el mundo para machine learning básico y avanzado.  

**¿Para qué se usa?**
 
Scikit-Learn sirve para aplicar **algoritmos de machine learning** de forma sencilla. Algunos ejemplos:  

1. **Clasificación**  
   - ¿Es este correo **spam o no spam**?  
   - ¿La imagen muestra un **perro o un gato**?  

2. **Regresión (Predicción de números)**  
   - ¿Cuánto **costará una casa** en 5 años?  
   - ¿Cuántas **personas vendrán** a un evento?  

3. **Agrupamiento (Clustering)**  
   - ¿Qué **clientes tienen gustos similares**?  
   - ¿Cómo se agrupan **noticias por temas** sin etiquetarlas antes?  

4. **Preprocesamiento de datos**  
   - Limpiar y organizar información desordenada antes de usarla (como convertir texto en números).  

**¿Cómo funciona?**

Scikit-Learn funciona en **3 pasos básicos**:  

1. **Elegir un modelo** (como escoger una receta):  
   - ¿Vas a predecir algo? Usas **regresión**.  
   - ¿Vas a separar en categorías? Usas **clasificación**.  

2. **Entrenar el modelo** (como enseñarle a un niño):  
   - Le das **ejemplos** (datos) para que aprenda patrones.  
   - Por ejemplo: Muchas fotos etiquetadas como "perro" o "gato".  

3. **Predecir o clasificar** (como ponerlo a prueba):  
   - Le das **datos nuevos** (ej: una foto nueva) y te dice si es un perro o un gato.  

**Ventajas** ✅  
1. **Fácil de usar**: Con pocas líneas de código, puedes aplicar algoritmos potentes.  
2. **Documentación excelente**: Tiene guías y ejemplos para todo.  
3. **Compatible**: Funciona bien con otras herramientas de Python (como NumPy y pandas).  
4. **Gratis y abierto**: Cualquiera puede usarlo y contribuir a mejorarlo.  
5. **Algoritmos preparados**: Incluye SVM, árboles de decisión, redes neuronales simples, etc.  

**Desventajas** ❌  
1. **No es para deep learning**: Si quieres redes neuronales complejas (como ChatGPT), necesitas herramientas como TensorFlow o PyTorch.  
2. **Limitado con datos enormes**: Si tienes **billones de datos**, puede volverse lento (ahí se usan otras herramientas como Spark).  
3. **Requiere saber un poco de Python**: Aunque es sencillo, no es totalmente "arrastrar y soltar".  

**Ejemplo Cotidiano**

Imagina que eres un profesor y tienes:  
- **Datos**: Las notas de tus alumnos (quién estudió 1 hora, quién 5 horas, etc.).  
- **Objetivo**: Predecir **cuánto sacará un alumno** si estudia 3 horas.  

Con Scikit-Learn:  
1. Usas un modelo de **regresión lineal** (una herramienta para predecir números).  
2. Le das los datos de ejemplo (horas de estudio vs. notas).  
3. El modelo **aprende la relación** y te dice: *"Si estudia 3 horas, sacará ~7.5"*.  


**¿Quién lo usa?**

- **Científicos de datos** (para análisis avanzados).  
- **Empresas** (para predecir ventas, clasificar clientes, etc.).  
- **Estudiantes** (porque es perfecto para aprender machine learning).  

Scikit-Learn es como un **"libro de recetas"** que te permite aplicar inteligencia artificial sin ser un experto. Es ideal para empezar en machine learning, pero si necesitas cosas más complejas (como reconocimiento de voz avanzado), deberás usar otras herramientas.  


#### Regresión lineal
La **regresión lineal** es una técnica estadística y de machine learning utilizada para modelar la relación entre una variable dependiente (o respuesta) y una o más variables independientes (o predictoras) asumiendo que esta relación es lineal. El objetivo principal es encontrar la línea recta (en el caso de una sola variable independiente) o el hiperplano (en el caso de múltiples variables) que mejor se ajusta a los datos observados, minimizando la suma de los errores cuadrados entre los valores predichos y los valores reales.

En la regresión lineal simple, la relación se expresa mediante la ecuación:

$$
y = \beta_0 + \beta_1 x + \epsilon
$$

donde:
- $y$ es la variable dependiente,
- $x$ es la variable independiente,
- $\beta_0$ es el intercepto,
- $\beta_1$ es el coeficiente de regresión (pendiente),
- $\epsilon$ es el término de error.

En la regresión lineal múltiple, se extiende a varias variables independientes:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon
$$

La regresión lineal es ampliamente utilizada por su simplicidad, interpretabilidad y eficiencia, aunque asume que la relación entre variables es lineal, que los errores son independientes y distribuidos normalmente, y que no existe multicolinealidad entre las variables independientes.

**Ejemplo 1: Regresión lineal simple con scikit-learn**

Debes instalar la librería scikit-learn para usar LinearRegression:
pip install scikit-learn


In [1]:
# Ejemplo 1: Regresión lineal simple con scikit-learn
import numpy as np

from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([2, 4, 5, 4, 5])

# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X, y)

# Predicciones
y_pred = modelo.predict(X)

# Visualización
plt.scatter(X, y, color='blue', label='Datos reales')
plt.plot(X, y_pred, color='red', label='Recta de regresión')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.title('Regresión lineal simple')
plt.show()

ModuleNotFoundError: No module named 'sklearn'

**Ejemplo 2: Regresión lineal múltiple**


In [4]:
# Datos de ejemplo para regresión múltiple
X_multi = np.array([[1, 2], [2, 1], [3, 4], [4, 3], [5, 5]])
y_multi = np.array([3, 3, 7, 7, 10])

modelo_multi = LinearRegression()
modelo_multi.fit(X_multi, y_multi)

print("Coeficientes:", modelo_multi.coef_)
print("Intercepto:", modelo_multi.intercept_)

Coeficientes: [1. 1.]
Intercepto: 1.7763568394002505e-15


#### Árboles
Los **árboles de decisión** son modelos predictivos utilizados tanto para tareas de clasificación como de regresión en el aprendizaje supervisado. Su estructura se asemeja a un árbol, donde cada nodo interno representa una pregunta o condición sobre una variable de entrada, cada rama corresponde a una respuesta posible, y cada hoja representa una predicción o resultado final.

Un árbol de decisión divide recursivamente el espacio de características en regiones homogéneas respecto a la variable objetivo. El proceso de construcción consiste en seleccionar, en cada nodo, la variable y el umbral que mejor separan los datos según algún criterio de pureza (por ejemplo, *Gini*, *entropía* para clasificación, o *varianza* para regresión).

**Formalización matemática:**

Para clasificación, el árbol busca particiones que minimicen una función de impureza $I$ en cada nodo $t$:

$$
I(t) = \sum_{k=1}^K p_{k}(1 - p_{k})
$$

donde $p_{k}$ es la proporción de muestras de la clase $k$ en el nodo $t$ (índice de Gini).  
Para regresión, se suele minimizar la suma de los errores cuadrados (varianza):

$$
I(t) = \frac{1}{N_t} \sum_{i \in t} (y_i - \bar{y}_t)^2
$$

donde $N_t$ es el número de muestras en el nodo $t$ y $\bar{y}_t$ es el valor medio de la variable objetivo en ese nodo.

El árbol se construye de manera recursiva hasta que se cumple un criterio de parada (profundidad máxima, número mínimo de muestras, etc.).

#### Ejemplo de uso en Python (clasificación):

```python
from sklearn.tree import DecisionTreeClassifier
import numpy as np

# Datos de ejemplo
X = np.array([[0, 0], [1, 1], [1, 0], [0, 1]])
y = np.array([0, 1, 1, 0])

# Entrenamiento del árbol
clf = DecisionTreeClassifier()
clf.fit(X, y)

# Predicción
print(clf.predict([[1, 1]]))  # Salida esperada: [1]
```

#### Ejemplo de uso en Python (regresión):

```python
from sklearn.tree import DecisionTreeRegressor

# Datos de ejemplo
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1.2, 1.9, 3.0, 3.9, 5.1])

# Entrenamiento del árbol
reg = DecisionTreeRegressor()
reg.fit(X, y)

# Predicción
print(reg.predict([[3.5]]))  # Salida aproximada: [3.0 o 3.9]
```

#### Aplicaciones comunes

- Diagnóstico médico (clasificación de enfermedades)
- Detección de fraude
- Predicción de abandono de clientes (*churn*)
- Segmentación de clientes en marketing
- Predicción de precios de viviendas (regresión)

Los árboles de decisión son la base de algoritmos más avanzados como Random Forest y Gradient Boosting. Su principal ventaja es la interpretabilidad y facilidad de visualización, aunque pueden sobreajustar si no se podan o regulan adecuadamente.