# <center> SCIKIT LEARN

Scikit-learn, también conocido como sklearn, es una biblioteca de machine learning de código abierto para el lenguaje de programación Python. Es una de las bibliotecas más populares y ampliamente utilizadas en la comunidad de machine learning debido a su simplicidad y su enfoque en la facilidad de uso.

scikit-learn proporciona una amplia gama de algoritmos y herramientas para tareas de machine learning, incluyendo clasificación, regresión, clustering, reducción de dimensionalidad, selección de características y más. Además, también ofrece utilidades para preprocesar datos, evaluar modelos, realizar validación cruzada y ajustar hiperparámetros.

La biblioteca se basa en otras bibliotecas de Python como NumPy, SciPy y matplotlib, lo que le permite aprovechar sus capacidades para cálculos numéricos, operaciones matemáticas y visualización de datos.

Características clave de scikit-learn:

1. Interfaz unificada: scikit-learn tiene una interfaz unificada y coherente para la mayoría de los algoritmos de machine learning, lo que facilita el cambio entre diferentes algoritmos y su comparación.

2. Documentación detallada: scikit-learn proporciona una documentación exhaustiva con ejemplos prácticos, lo que facilita el aprendizaje y la implementación de los algoritmos.

3. Amplia selección de algoritmos: La biblioteca ofrece una amplia variedad de algoritmos de machine learning, desde métodos tradicionales hasta técnicas más avanzadas.

4. Enfoque en la calidad del software: scikit-learn se centra en la calidad del software y sigue buenas prácticas de desarrollo, lo que garantiza la robustez y eficiencia de los algoritmos implementados.

## Módulos
scikit-learn cuenta con una amplia variedad de módulos que cubren diferentes aspectos del machine learning y tareas relacionadas. A continuación, se enumeran algunos de los módulos más importantes de scikit-learn:

1. sklearn.datasets: Proporciona funciones para cargar conjuntos de datos de ejemplo, como iris, diabetes, boston, etc.

2. sklearn.preprocessing: Contiene herramientas para preprocesar los datos antes de utilizarlos en modelos de machine learning, como escalamiento, normalización, codificación de variables categóricas, etc.

3. sklearn.model_selection: Ofrece funciones para dividir los datos en conjuntos de entrenamiento y prueba, realizar validación cruzada, buscar hiperparámetros óptimos y evaluar modelos.

4. sklearn.feature_selection: Proporciona métodos para la selección automática de características relevantes para el modelo.

5. sklearn.feature_extraction: Contiene herramientas para extraer características a partir de datos brutos, como texto o imágenes.

6. sklearn.linear_model: Ofrece implementaciones de modelos de regresión lineal, como la regresión lineal ordinaria, la regresión logística, la regresión Ridge, etc.

7. sklearn.tree: Contiene implementaciones de árboles de decisión, como el árbol de decisión clásico, el bosque aleatorio y el aumento de gradiente.

8. sklearn.ensemble: Proporciona algoritmos de ensemble, como bosques aleatorios, aumento de gradiente y votación.

9. sklearn.cluster: Ofrece algoritmos de clustering, como k-means, DBSCAN y clustering espectral.

10. sklearn.metrics: Contiene métricas de evaluación de modelos, como precisión, recall, puntuación F1, matriz de confusión, etc.

11. sklearn.neural_network: Proporciona algoritmos de redes neuronales, como MLP (perceptrón multicapa) y algoritmos de aprendizaje profundo.

12. sklearn.svm: Ofrece implementaciones de máquinas de vectores de soporte (SVM) para clasificación y regresión.

Estos son solo algunos de los módulos más utilizados en scikit-learn, pero la biblioteca cuenta con muchos más. Puedes consultar la documentación oficial de scikit-learn para obtener información detallada sobre todos los módulos y sus funcionalidades.


## 1. El Dataset de iris

In [7]:
pip install --upgrade scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.2.2-cp310-cp310-win_amd64.whl (8.3 MB)
     ---------------------------------------- 8.3/8.3 MB 40.3 kB/s eta 0:00:00
Installing collected packages: scikit-learn
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.1.2
    Uninstalling scikit-learn-1.1.2:
      Successfully uninstalled scikit-learn-1.1.2
Note: you may need to restart the kernel to use updated packages.


ERROR: Could not install packages due to an OSError: [WinError 5] Acceso denegado: 'C:\\Users\\tesbh\\AppData\\Local\\Programs\\Python\\Python310\\Lib\\site-packages\\~klearn\\.libs\\vcomp140.dll'
Consider using the `--user` option or check the permissions.



In [8]:
# Importando la libreria
import sklearn

from sklearn.datasets import load_iris

# Cargar el conjunto de datos Iris
iris = load_iris()

# Imprimir las características del conjunto de datos
print(iris.feature_names)

# Imprimir las etiquetas de las clases
print(iris.target_names)

# Imprimir la forma de los datos
print(iris.data.shape)

# Imprimir las primeras 5 filas de los datos
print(iris.data[:5])

# Imprimir las etiquetas correspondientes a las primeras 5 filas
print(iris.target[:5])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']
(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
[0 0 0 0 0]


El conjunto de datos Iris es un conjunto de datos muy conocido y ampliamente utilizado en el campo del machine learning. Contiene información sobre diferentes especies de flores Iris, y el objetivo es predecir la especie en función de las medidas de longitud y ancho del sépalo y del pétalo.

En el ejemplo anterior, se cargan los datos utilizando la función load_iris. Luego, se imprimen las características del conjunto de datos, las etiquetas de las clases, la forma de los datos (150 filas y 4 columnas) y las primeras 5 filas de los datos y sus etiquetas correspondientes.

## 2. El módulo sklearn.preprocessing de scikit-learn 

Proporciona herramientas para preprocesar los datos antes de utilizarlos en modelos de machine learning. Estas herramientas ayudan a transformar y normalizar los datos, manejar valores faltantes, codificar variables categóricas y más. A continuación, se presentan algunas de las principales funcionalidades del módulo sklearn.preprocessing:

1. Escalamiento de características:

* StandardScaler: Escala las características para que tengan media cero y desviación estándar uno.

* MinMaxScaler: Escala las características para que estén dentro de un rango específico, generalmente entre 0 y 1.

*  RobustScaler: Escala las características utilizando estadísticas robustas a los valores atípicos.

2. Normalización:

* Normalizer: Normaliza cada muestra para que su norma sea unitaria.

3. Codificación de variables categóricas:

* OneHotEncoder: Codifica variables categóricas en un formato de "one-hot encoding".

* LabelEncoder: Codifica variables categóricas en valores numéricos.

4. Manejo de valores faltantes:

* SimpleImputer: Rellena los valores faltantes utilizando una estrategia específica, como la media, la mediana o el valor más frecuente.

5. Transformaciones no lineales:

* PolynomialFeatures: Genera nuevas características polinomiales a partir de las características existentes.

6. Discretización:

* KBinsDiscretizer: Discretiza características continuas en intervalos discretos.

Estas son solo algunas de las funcionalidades principales que ofrece el módulo sklearn.preprocessing. Puedes consultar la documentación oficial de scikit-learn para obtener información más detallada sobre cada función y cómo utilizarlas en tus pipelines de preprocesamiento de datos.

In [9]:
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder

# Generar datos aleatorios
np.random.seed(0)
data = np.random.randn(100, 3)  # 100 muestras con 3 características

# Escalamiento de características
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# Normalización
normalizer = MinMaxScaler()
data_normalized = normalizer.fit_transform(data)

# Codificación de variables categóricas
categories = ['A', 'B', 'C', 'A', 'B', 'C']
encoder = OneHotEncoder(sparse=False)
categories_encoded = encoder.fit_transform(np.array(categories).reshape(-1, 1))

# Imprimir los resultados
print("Datos originales:")
print(data)
print("\nDatos escalados:")
print(data_scaled)
print("\nDatos normalizados:")
print(data_normalized)
print("\nVariables categóricas codificadas:")
print(categories_encoded)

Datos originales:
[[ 1.76405235  0.40015721  0.97873798]
 [ 2.2408932   1.86755799 -0.97727788]
 [ 0.95008842 -0.15135721 -0.10321885]
 [ 0.4105985   0.14404357  1.45427351]
 [ 0.76103773  0.12167502  0.44386323]
 [ 0.33367433  1.49407907 -0.20515826]
 [ 0.3130677  -0.85409574 -2.55298982]
 [ 0.6536186   0.8644362  -0.74216502]
 [ 2.26975462 -1.45436567  0.04575852]
 [-0.18718385  1.53277921  1.46935877]
 [ 0.15494743  0.37816252 -0.88778575]
 [-1.98079647 -0.34791215  0.15634897]
 [ 1.23029068  1.20237985 -0.38732682]
 [-0.30230275 -1.04855297 -1.42001794]
 [-1.70627019  1.9507754  -0.50965218]
 [-0.4380743  -1.25279536  0.77749036]
 [-1.61389785 -0.21274028 -0.89546656]
 [ 0.3869025  -0.51080514 -1.18063218]
 [-0.02818223  0.42833187  0.06651722]
 [ 0.3024719  -0.63432209 -0.36274117]
 [-0.67246045 -0.35955316 -0.81314628]
 [-1.7262826   0.17742614 -0.40178094]
 [-1.63019835  0.46278226 -0.90729836]
 [ 0.0519454   0.72909056  0.12898291]
 [ 1.13940068 -1.23482582  0.40234164]
 [-0.68

En este ejemplo, se generan datos aleatorios de forma normal con np.random.randn. Luego, se aplican diferentes técnicas de preprocesamiento a los datos:

* Escalamiento de características: se utiliza StandardScaler para estandarizar las características, es decir, hacer que tengan media cero y desviación estándar uno.

* Normalización: se utiliza MinMaxScaler para normalizar los datos y que estén en el rango [0, 1].

* Codificación de variables categóricas: se utiliza OneHotEncoder para codificar las variables categóricas en un formato de "one-hot encoding", convirtiéndolas en características binarias.

Finalmente, se imprimen los datos originales, los datos escalados, los datos normalizados y las variables categóricas codificadas para observar los resultados. En un escenario real, es posible que debas aplicar múltiples transformaciones y tener en cuenta otras consideraciones específicas de tus datos.

Si en algún momento no sabes que parametros recibe cada función puedes directamente buscarlo con el siguiente comando, recuerda que las librerias están conformadas por clases, funciones definidas por todos los programadores.

In [11]:
StandardScaler?


[1;31mInit signature:[0m [0mStandardScaler[0m[1;33m([0m[1;33m*[0m[1;33m,[0m [0mcopy[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mwith_mean[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mwith_std[0m[1;33m=[0m[1;32mTrue[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Standardize features by removing the mean and scaling to unit variance.

The standard score of a sample `x` is calculated as:

    z = (x - u) / s

where `u` is the mean of the training samples or zero if `with_mean=False`,
and `s` is the standard deviation of the training samples or one if
`with_std=False`.

Centering and scaling happen independently on each feature by computing
the relevant statistics on the samples in the training set. Mean and
standard deviation are then stored to be used on later data using
:meth:`transform`.

Standardization of a dataset is a common requirement for many
machine learning estimators: they might behave badly if the
individual features do not more or l

## 3. El módulo sklearn.model_selection de scikit-learn 

Proporciona herramientas para dividir los datos en conjuntos de entrenamiento y prueba, realizar validación cruzada, buscar hiperparámetros óptimos y evaluar modelos. A continuación, se presentan algunas de las principales funcionalidades del módulo sklearn.model_selection:

1. División de datos en conjuntos de entrenamiento y prueba:

* train_test_split: Divide los datos en conjuntos de entrenamiento y prueba de forma aleatoria.
2. Validación cruzada:

* cross_val_score: Realiza validación cruzada utilizando un estimador y devuelve las puntuaciones de rendimiento.
* KFold: Divide los datos en k pliegues (folds) para realizar validación cruzada.
* StratifiedKFold: Divide los datos en k pliegues preservando la proporción de clases en cada pliegue.
3. Búsqueda de hiperparámetros:

* GridSearchCV: Realiza una búsqueda exhaustiva de hiperparámetros en una cuadrícula especificada.
* RandomizedSearchCV: Realiza una búsqueda aleatoria de hiperparámetros en un espacio especificado.
4. Métricas de evaluación:

* accuracy_score: Calcula la precisión del clasificador en comparación con las etiquetas verdaderas.
* precision_score, recall_score, f1_score: Calculan la precisión, el recall y la puntuación F1 de un clasificador.
* confusion_matrix: Calcula la matriz de confusión para evaluar el rendimiento del clasificador.

Estas son solo algunas de las funcionalidades principales que ofrece el módulo sklearn.model_selection. Puedes explorar la documentación oficial de scikit-learn para obtener información más detallada sobre cada función y cómo utilizarlas en tus tareas de evaluación y validación de modelos.

In [10]:
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Generar datos aleatorios
np.random.seed(0)
X = np.random.randn(100, 3)  # 100 muestras con 3 características
y = np.random.randint(0, 2, 100)  # Etiquetas binarias

# División de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Crear un clasificador y ajustarlo al conjunto de entrenamiento
classifier = LogisticRegression()
classifier.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = classifier.predict(X_test)

# Calcular la precisión de las predicciones
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del clasificador:", accuracy)

# Realizar validación cruzada
cv_scores = cross_val_score(classifier, X, y, cv=5)
print("Puntuaciones de validación cruzada:", cv_scores)
print("Precisión media de validación cruzada:", np.mean(cv_scores))

Precisión del clasificador: 0.55
Puntuaciones de validación cruzada: [0.5 0.6 0.4 0.7 0.4]
Precisión media de validación cruzada: 0.52


En este ejemplo, se generan datos aleatorios de forma normal con np.random.randn y etiquetas binarias aleatorias con np.random.randint. Luego, se utilizan las siguientes funcionalidades de sklearn.model_selection:

* División de datos en conjuntos de entrenamiento y prueba: train_test_split se utiliza para dividir los datos en un 80% para entrenamiento y un 20% para prueba.

* Creación y ajuste del clasificador: se crea un clasificador de regresión logística (LogisticRegression) y se ajusta al conjunto de entrenamiento.

* Realización de predicciones y cálculo de precisión: se realizan predicciones en el conjunto de prueba y se calcula la precisión de las predicciones utilizando accuracy_score.

* Validación cruzada: cross_val_score se utiliza para realizar validación cruzada en el conjunto completo de datos (X, y) utilizando un clasificador y obtener las puntuaciones de rendimiento en cada fold. Luego, se calcula la precisión media de validación cruzada utilizando np.mean.

En un escenario real, es posible que debas ajustar más parámetros, utilizar otras métricas de evaluación y explorar diferentes configuraciones de validación cruzada para obtener una evaluación más completa del modelo.

El parámetro random_state se utiliza en varias funciones de scikit-learn, incluyendo train_test_split, KFold, StratifiedKFold y muchas otras. Este parámetro controla la semilla utilizada por el generador de números aleatorios en esas funciones.

Cuando se trabaja con algoritmos de machine learning que involucran aleatoriedad, como la división de datos en conjuntos de entrenamiento y prueba o la inicialización de parámetros aleatorios en modelos, es importante establecer una semilla o un valor de random_state para asegurarse de que los resultados sean reproducibles.

Al fijar un valor específico para random_state, se garantiza que las operaciones que involucran aleatoriedad se realicen de la misma manera en diferentes ejecuciones del código. Esto es especialmente útil cuando se quiere obtener resultados consistentes y comparables entre diferentes experimentos o cuando se necesita depurar y entender el comportamiento de un algoritmo.

Por ejemplo, si estableces random_state=0 en la función train_test_split, cada vez que ejecutes tu código con ese mismo valor de random_state, obtendrás exactamente la misma división de los datos en conjuntos de entrenamiento y prueba.

Es importante destacar que, para experimentos serios y en producción, es común utilizar semillas aleatorias diferentes o no establecer random_state en absoluto. Esto permite que los algoritmos se ejecuten en diferentes condiciones aleatorias y proporcionen una evaluación más robusta de su rendimiento en diferentes escenarios. Sin embargo, cuando se trata de reproducibilidad y depuración, establecer random_state puede ser de gran ayuda.

## Conclusiones

Esta sólo es una pequeña parte de todo el poder de `scikit-learn` te invito a que revises su documentación en su pagina oficial ahi podras encontrar.

In [None]:
#