### __Introducción__

Scikit-learn (sklearn) es una biblioteca de Python diseñada para resolver problemas de machine learning. Está basada en otras bibliotecas científicas como NumPy, SciPy y matplotlib, y proporciona herramientas para crear, evaluar y mejorar modelos de machine learning de manera simple y eficiente.

##### Conceptos

__Estimadores.__

Todos los algoritmos en scikit-learn están implementados como clases, conocidas como estimadores. Es un objeto que puede aprender de los datos, es decir, ajustar un modelo, usando el método .fit(). Un ejemplo es LinearRegression.

__Transformadores.__

Son estimadores que modifican o transforman los datos. Por ejemplo, .fit(), que aprende a partir de los datos de entrada.

__Modelos supervisados__

- Clasificación. Están diseñados para problemas donde las etiquetas son categóricas. 
- Regresión. Están diseñados para problemas donde las etiquetas son numéricas.

__Modelos no supervisados__

- Clustering. Agrupa puntos de datos en diferentes clústeres. Ejemplos: Kmeans, DBSCAN.
- Reducción de dimensionalidad. Reduce la cantidad de variables de entrada. Ejemplos: PCA, TruncatedSVD.

##### Cargar datos

In [1]:
from sklearn.datasets import load_iris

In [2]:
Data = load_iris()

# Carga el dataset 'iris', muy popular.
# Tiene información de 150 flores de la especie Iris.

##### Definir variables

__Características (Features).__ Son los atributos o propiedades que describen un dato o una instancia en el dataset. Estas características son las que el algoritmo de machine learning utiliza para hacer predicciones o tomar decisiones. Componen la variable X. En esencia, es la información que se utiliza para entrenar el modelo. Se representan generalmente como columnas en un dataset.
Cada característica es una variable que describe algún aspecto del dato. Por ejemplo, si estás construyendo un modelo para predecir el precio de una casa, las características podrían ser:
- Tamaño de la casa (en metros cuadrados).
- Número de habitaciones.
- Ubicación.
- Antigüedad de la casa (en años).

In [3]:
X = Data.data    # Variables predictoras.

# Data.data contiene los datos a predecir.
# Es un array multidimensional en caso de ser muchas variables.
# Cada columna corresponde a una feature.

__Etiquetas (Labels).__ Son las respuestas o resultados que queremos predecir o clasificar. En otras palabras, la etiqueta es lo que el modelo tiene que aprender a predecir basándose en las características. Son los datos de salida o respuestas que intentas predecir con el modelo. En esencia, es la variable objetivo que queremos predecir.
Si estamos construyendo un modelo para clasificar si un coche es "Eficiente" o "No eficiente" basado en sus características, la etiqueta podría ser:
- Eficiente.
- No eficiente.


In [None]:
y = Data.target  # Variables a predecir.

# Es un array de tantas columnas como variables haya.
# Cada columna corresponde a unn label.

##### Obtener los nombres de las variables del dataset

In [None]:
Data.feature_names

# Obtiene nombres de variables predictoras.

##### Obtener los nombres de las clases

In [None]:
Data.target_names

# Obtiene nombres de variables a predecir.

##### División del conjunto de datos

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_Train, X_Test, Y_Train, Y_Test = train_test_split(X, y, test_size = 0.2, random_state = 42)

##### Selección y entrenamiento del modelo

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
Model = LogisticRegression()
Model.fit(X_Train, Y_Train)

##### Predicción

In [None]:
Predictions = Model.predict(X_Test)

##### Evaluación del modelo

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
Accuracy = accuracy_score(Y_Test, Predictions)

In [None]:
print(f"Accuracy: {Accuracy}")

### __Preprocesamiento de datos__

Los datos a menudo requieren ser transformados o normalizados antes de ser utilizados en un modelo de machine learning. Existen varios métodos.

##### Escalado de características.

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
Scaler = StandardScaler()

In [None]:
X_Scaled = Scaler.fit_transform(X)

##### Codificación de variables categóricas

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
Encoder = LabelEncoder()

In [None]:
y_Encoded = Encoder.fit_transform(y)

### __Validación cruzada__

Es una técnica para evaluar el rendimiento de un modelo y evitar problemas de sobreajuste. El proceso divide el conjunto de datos en varias particiones, entrena el modelo en diferentes subconjuntos y promedia los resultados.

##### Cross_Val_Score

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
Model = LogisticRegression()

In [None]:
Scores = cross_val_score(Model, X, y, cv = 5)

# cv = número de particiones.

In [None]:
print(f"Cross-validation scores: {Scores}")

##### 

##### 

##### 

##### 

##### 

##### 

##### 