# üß† Scikit-Learn


**Scikit-Learn: La "Caja de Herramientas M√°gica" del Aprendizaje Autom√°tico**  

Imagina que quieres ense√±arle a una computadora a reconocer fotos de perros y gatos, predecir el precio de una casa o agrupar clientes con gustos similares. **Scikit-Learn** es como un **kit de herramientas prefabricadas** que hace todo esto posible, sin que tengas que programar todo desde cero.  

Es una **biblioteca de Python** (un conjunto de c√≥digos preescritos) especializada en **aprendizaje autom√°tico (machine learning)**. Su nombre viene de:  
- **Sci** (cientifico) + **Kit** (herramientas) + **Learn** (aprender).  
- Se pronuncia *"sai-kit lern"*.  

**Or√≠genes**

- Naci√≥ en **2007** como un proyecto de c√≥digo abierto, creado por **David Cournapeau**.  
- Luego, otros investigadores (como **INRIA**, un instituto franc√©s) lo mejoraron.  
- Hoy es uno de los herramientas m√°s usadas en el mundo para machine learning b√°sico y avanzado.  

**¬øPara qu√© se usa?**
 
Scikit-Learn sirve para aplicar **algoritmos de machine learning** de forma sencilla. Algunos ejemplos:  

1. **Clasificaci√≥n**  
   - ¬øEs este correo **spam o no spam**?  
   - ¬øLa imagen muestra un **perro o un gato**?  

2. **Regresi√≥n (Predicci√≥n de n√∫meros)**  
   - ¬øCu√°nto **costar√° una casa** en 5 a√±os?  
   - ¬øCu√°ntas **personas vendr√°n** a un evento?  

3. **Agrupamiento (Clustering)**  
   - ¬øQu√© **clientes tienen gustos similares**?  
   - ¬øC√≥mo se agrupan **noticias por temas** sin etiquetarlas antes?  

4. **Preprocesamiento de datos**  
   - Limpiar y organizar informaci√≥n desordenada antes de usarla (como convertir texto en n√∫meros).  

**¬øC√≥mo funciona?**

Scikit-Learn funciona en **3 pasos b√°sicos**:  

1. **Elegir un modelo** (como escoger una receta):  
   - ¬øVas a predecir algo? Usas **regresi√≥n**.  
   - ¬øVas a separar en categor√≠as? Usas **clasificaci√≥n**.  

2. **Entrenar el modelo** (como ense√±arle a un ni√±o):  
   - Le das **ejemplos** (datos) para que aprenda patrones.  
   - Por ejemplo: Muchas fotos etiquetadas como "perro" o "gato".  

3. **Predecir o clasificar** (como ponerlo a prueba):  
   - Le das **datos nuevos** (ej: una foto nueva) y te dice si es un perro o un gato.  

**Ventajas** ‚úÖ  
1. **F√°cil de usar**: Con pocas l√≠neas de c√≥digo, puedes aplicar algoritmos potentes.  
2. **Documentaci√≥n excelente**: Tiene gu√≠as y ejemplos para todo.  
3. **Compatible**: Funciona bien con otras herramientas de Python (como NumPy y pandas).  
4. **Gratis y abierto**: Cualquiera puede usarlo y contribuir a mejorarlo.  
5. **Algoritmos preparados**: Incluye SVM, √°rboles de decisi√≥n, redes neuronales simples, etc.  

**Desventajas** ‚ùå  
1. **No es para deep learning**: Si quieres redes neuronales complejas (como ChatGPT), necesitas herramientas como TensorFlow o PyTorch.  
2. **Limitado con datos enormes**: Si tienes **billones de datos**, puede volverse lento (ah√≠ se usan otras herramientas como Spark).  
3. **Requiere saber un poco de Python**: Aunque es sencillo, no es totalmente "arrastrar y soltar".  

**Ejemplo Cotidiano**

Imagina que eres un profesor y tienes:  
- **Datos**: Las notas de tus alumnos (qui√©n estudi√≥ 1 hora, qui√©n 5 horas, etc.).  
- **Objetivo**: Predecir **cu√°nto sacar√° un alumno** si estudia 3 horas.  

Con Scikit-Learn:  
1. Usas un modelo de **regresi√≥n lineal** (una herramienta para predecir n√∫meros).  
2. Le das los datos de ejemplo (horas de estudio vs. notas).  
3. El modelo **aprende la relaci√≥n** y te dice: *"Si estudia 3 horas, sacar√° ~7.5"*.  


**¬øQui√©n lo usa?**

- **Cient√≠ficos de datos** (para an√°lisis avanzados).  
- **Empresas** (para predecir ventas, clasificar clientes, etc.).  
- **Estudiantes** (porque es perfecto para aprender machine learning).  

Scikit-Learn es como un **"libro de recetas"** que te permite aplicar inteligencia artificial sin ser un experto. Es ideal para empezar en machine learning, pero si necesitas cosas m√°s complejas (como reconocimiento de voz avanzado), deber√°s usar otras herramientas.  


#### Regresi√≥n lineal
La **regresi√≥n lineal** es una t√©cnica estad√≠stica y de machine learning utilizada para modelar la relaci√≥n entre una variable dependiente (o respuesta) y una o m√°s variables independientes (o predictoras) asumiendo que esta relaci√≥n es lineal. El objetivo principal es encontrar la l√≠nea recta (en el caso de una sola variable independiente) o el hiperplano (en el caso de m√∫ltiples variables) que mejor se ajusta a los datos observados, minimizando la suma de los errores cuadrados entre los valores predichos y los valores reales.

En la regresi√≥n lineal simple, la relaci√≥n se expresa mediante la ecuaci√≥n:

$$
y = \beta_0 + \beta_1 x + \epsilon
$$

donde:
- $y$ es la variable dependiente,
- $x$ es la variable independiente,
- $\beta_0$ es el intercepto,
- $\beta_1$ es el coeficiente de regresi√≥n (pendiente),
- $\epsilon$ es el t√©rmino de error.

En la regresi√≥n lineal m√∫ltiple, se extiende a varias variables independientes:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon
$$

La regresi√≥n lineal es ampliamente utilizada por su simplicidad, interpretabilidad y eficiencia, aunque asume que la relaci√≥n entre variables es lineal, que los errores son independientes y distribuidos normalmente, y que no existe multicolinealidad entre las variables independientes.

**Ejemplo 1: Regresi√≥n lineal simple con scikit-learn**

Debes instalar la librer√≠a scikit-learn para usar LinearRegression:
pip install scikit-learn


In [1]:
# Ejemplo 1: Regresi√≥n lineal simple con scikit-learn
import numpy as np

from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([2, 4, 5, 4, 5])

# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X, y)

# Predicciones
y_pred = modelo.predict(X)

# Visualizaci√≥n
plt.scatter(X, y, color='blue', label='Datos reales')
plt.plot(X, y_pred, color='red', label='Recta de regresi√≥n')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.title('Regresi√≥n lineal simple')
plt.show()

ModuleNotFoundError: No module named 'sklearn'

**Ejemplo 2: Regresi√≥n lineal m√∫ltiple**


In [4]:
# Datos de ejemplo para regresi√≥n m√∫ltiple
X_multi = np.array([[1, 2], [2, 1], [3, 4], [4, 3], [5, 5]])
y_multi = np.array([3, 3, 7, 7, 10])

modelo_multi = LinearRegression()
modelo_multi.fit(X_multi, y_multi)

print("Coeficientes:", modelo_multi.coef_)
print("Intercepto:", modelo_multi.intercept_)

Coeficientes: [1. 1.]
Intercepto: 1.7763568394002505e-15


#### √Årboles
Los **√°rboles de decisi√≥n** son modelos predictivos utilizados tanto para tareas de clasificaci√≥n como de regresi√≥n en el aprendizaje supervisado. Su estructura se asemeja a un √°rbol, donde cada nodo interno representa una pregunta o condici√≥n sobre una variable de entrada, cada rama corresponde a una respuesta posible, y cada hoja representa una predicci√≥n o resultado final.

Un √°rbol de decisi√≥n divide recursivamente el espacio de caracter√≠sticas en regiones homog√©neas respecto a la variable objetivo. El proceso de construcci√≥n consiste en seleccionar, en cada nodo, la variable y el umbral que mejor separan los datos seg√∫n alg√∫n criterio de pureza (por ejemplo, *Gini*, *entrop√≠a* para clasificaci√≥n, o *varianza* para regresi√≥n).

**Formalizaci√≥n matem√°tica:**

Para clasificaci√≥n, el √°rbol busca particiones que minimicen una funci√≥n de impureza $I$ en cada nodo $t$:

$$
I(t) = \sum_{k=1}^K p_{k}(1 - p_{k})
$$

donde $p_{k}$ es la proporci√≥n de muestras de la clase $k$ en el nodo $t$ (√≠ndice de Gini).  
Para regresi√≥n, se suele minimizar la suma de los errores cuadrados (varianza):

$$
I(t) = \frac{1}{N_t} \sum_{i \in t} (y_i - \bar{y}_t)^2
$$

donde $N_t$ es el n√∫mero de muestras en el nodo $t$ y $\bar{y}_t$ es el valor medio de la variable objetivo en ese nodo.

El √°rbol se construye de manera recursiva hasta que se cumple un criterio de parada (profundidad m√°xima, n√∫mero m√≠nimo de muestras, etc.).

#### Ejemplo de uso en Python (clasificaci√≥n):

```python
from sklearn.tree import DecisionTreeClassifier
import numpy as np

# Datos de ejemplo
X = np.array([[0, 0], [1, 1], [1, 0], [0, 1]])
y = np.array([0, 1, 1, 0])

# Entrenamiento del √°rbol
clf = DecisionTreeClassifier()
clf.fit(X, y)

# Predicci√≥n
print(clf.predict([[1, 1]]))  # Salida esperada: [1]
```

#### Ejemplo de uso en Python (regresi√≥n):

```python
from sklearn.tree import DecisionTreeRegressor

# Datos de ejemplo
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1.2, 1.9, 3.0, 3.9, 5.1])

# Entrenamiento del √°rbol
reg = DecisionTreeRegressor()
reg.fit(X, y)

# Predicci√≥n
print(reg.predict([[3.5]]))  # Salida aproximada: [3.0 o 3.9]
```

#### Aplicaciones comunes

- Diagn√≥stico m√©dico (clasificaci√≥n de enfermedades)
- Detecci√≥n de fraude
- Predicci√≥n de abandono de clientes (*churn*)
- Segmentaci√≥n de clientes en marketing
- Predicci√≥n de precios de viviendas (regresi√≥n)

Los √°rboles de decisi√≥n son la base de algoritmos m√°s avanzados como Random Forest y Gradient Boosting. Su principal ventaja es la interpretabilidad y facilidad de visualizaci√≥n, aunque pueden sobreajustar si no se podan o regulan adecuadamente.