### **¿Qué es Scikit-learn?**

Scikit-learn es una de las bibliotecas más utilizadas en Machine Learning con Python. Proporciona herramientas para:

- Preprocesamiento de datos
- Modelos de Machine Learning
- Evaluación de modelos
- Selección de características

Su principal ventaja es que nos permite utilizar una interfaz uniforme. Todos los modelos siguen el patrón:

In [2]:
modelo = Algoritmo()    # Definir el modelo
modelo.fit(X_train, y_train)   # Entrenar el modelo
predicciones = modelo.predict(X_test)  # Hacer predicciones

NameError: name 'Algoritmo' is not defined

## Historia

**Scikit-learn** se inició en **2007** como parte del proyecto Google Summer of Code por David Cournapeau.

Posteriormente, en **2010**, Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort y Vincent Michel, todos ellos investigadores del INRIA (Instituto Nacional de Investigación en Informática y Automática de Francia), tomaron la iniciativa y lanzaron la **primera versión estable** de Scikit-learn.

Desde entonces, ha ganado popularidad y se ha convertido en una de las bibliotecas de aprendizaje automático más utilizadas en la comunidad de Python.

## Instalación

pip install scikit-learn

## Carga de un dataset y conversión a DataFrame

In [3]:
import pandas as pd
from sklearn import datasets

# Cargar el conjunto de datos de Iris
iris = datasets.load_iris() # Carga el conjunto de datos Iris, un dataset que contiene información sobre tres tipos de flores de la especie Iris. Este conjunto de datos se carga como un objeto de tipo Bunch, que es similar a un diccionario y contiene varias claves útiles: 'data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'

# Ver una descripción del conjunto de datos de Iris
print(iris.DESCR) 

# Convertir el conjunto de datos Iris a un DataFrame de Pandas
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
 
# Agregar la columna objetivo (especies de Iris) al DataFrame
iris_df['species'] = iris.target

# Ver las primeras filas del DataFrame
print(iris_df.head())

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
:Date: July, 1988

The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken
from Fis

| Clave         | Descripción                                                                                                                                    | Tipo de Dato                                     | Ejemplo                                                                                                                                            |
| ------------- | ---------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------ | -------------------------------------------------------------------------------------------------------------------------------------------------- |
| data          | Matriz de características (variables predictoras o X) con los datos de entrada. Cada fila es una muestra y cada columna es una característica. | numpy.ndarray de tamaño (n_muestras, n_features) | iris.data.shape → (150, 4)                                                                                                                         |
| target        | Vector de etiquetas o valores objetivo (Y). En clasificación, son clases; en regresión, valores numéricos.                                     | numpy.ndarray de tamaño (n_muestras,)            | iris.target[:5] → [0, 1, 1, 2, 0]                                                                                                                  |
| frame         | Dataset en formato DataFrame de Pandas (si está disponible).                                                                                   | pandas.DataFrameo None                           | diabetes = load_diabetes(as_frame=True) → Cargar como DataFrame diabetes.frame.head()                                                              |
| target_names  | Lista con los nombres de las clases en clasificación o descripción de la variable objetivo en regresión.                                       | list                                             | wine.target_names → ['class_0', 'class_1', 'class_2']                                                                                              |
| DESCR         | Texto con la descripción del dataset, incluyendo características, número de muestras y referencias.                                            | str (texto largo)                                | print(boston.DESCR[:500]) → Nº de observaciones (filas), Nº de atributos (columnas), información sobre las características y propósito del dataset |
| feature_names | Lista con los nombres de las variables predictoras.                                                                                            | list                                             | iris.feature_names → ['sepal length', 'sepal width', 'petal length', 'petal width']                                                                |
| filename      | Ruta del archivo CSV donde está almacenado el dataset (si aplica).                                                                             | str o None                                       | wine.filename → '/usr/local/.../wine.csv'                                                                                                          |

## Módulos clave en scikit-learn
| Módulo                  | Función                                | Ejemplo                                      |
| ----------------------- | -------------------------------------- | -------------------------------------------- |
| sklearn.model_selection | Divide datos en entrenamiento y prueba | train_test_split(X, y, test_size=0.2)        |
| sklearn.preprocessing   | Escala y transforma datos              | StandardScaler().fit_transform(X)            |
| sklearn.linear_model    | Contiene la Regresión Lineal           | LinearRegression().fit(X_train, y_train)     |
| sklearn.metrics         | Evalúa modelos                         | r2_score(y_true, y_pred), mean_squared_error |