**Práctica y entrenamiento ML AD Integrador**

**Predicción de precios de viviendas:** Utilizando datos históricos de ventas de viviendas, podemos construir un modelo de regresión simple para predecir los precios de viviendas basándose en características como el tamaño, la ubicación y el número de habitaciones. Este modelo puede ser útil para agentes inmobiliarios y compradores para tomar decisiones informadas sobre precios de viviendas.

Para desarrollar un ejemplo de predicción de precios de viviendas utilizando un modelo de regresión simple, podemos seguir estos pasos:

1.    Preparación de los datos: Cargar y preparar los datos históricos de ventas de viviendas.
2. Exploración de datos: Explorar los datos para comprender su estructura y características.
3. Selección de características: Seleccionar las características relevantes que se utilizarán para predecir los precios de las viviendas.
4. División de los datos: Dividir los datos en conjuntos de entrenamiento y prueba.
5. Entrenamiento del modelo: Entrenar un modelo de regresión utilizando el conjunto de entrenamiento.
6. Evaluación del modelo: Evaluar el rendimiento del modelo utilizando el conjunto de prueba.
7. Predicción de precios: Utilizar el modelo entrenado para predecir los precios de las viviendas.

Cómo implementar estos pasos utilizando scikit-learn en Python

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Paso 1: Cargar y preparar los datos
datos = pd.read_csv('datos_viviendas.csv')

# Paso 2: Exploración de datos
print(datos.head())
print(datos.info())

# Paso 3: Selección de características
X = datos[['Tamaño', 'Ubicación', 'Num_Habitaciones']]
y = datos['Precio']

# Paso 4: División de los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Paso 5: Entrenamiento del modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Paso 6: Evaluación del modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Error cuadrático medio:", mse)
print("Coeficiente de determinación (R^2):", r2)

# Paso 7: Predicción de precios
nueva_vivienda = [[1500, 'Centro', 3]]
precio_predicho = modelo.predict(nueva_vivienda)
print("Precio predicho para la nueva vivienda:", precio_predicho)


En este ejemplo:

1. Cargamos los datos históricos de ventas de viviendas y seleccionamos las características relevantes (tamaño, ubicación y número de habitaciones).
2. Dividimos los datos en conjuntos de entrenamiento y prueba.
3. Entrenamos un modelo de regresión lineal utilizando el conjunto de entrenamiento.
4. Evaluamos el rendimiento del modelo utilizando el conjunto de prueba.
5. Utilizamos el modelo entrenado para predecir el precio de una nueva vivienda.

# Conceptos:

**Regresión:**

  Explicación de cómo se utiliza para predecir valores numéricos: En la regresión, el objetivo es predecir un valor numérico continuo. Se ajusta una función a los datos de entrenamiento que minimiza la discrepancia entre los valores predichos y los valores reales.

**Clasificación:**

  Descripción de cómo se utiliza para clasificar datos en categorías: En la clasificación, el objetivo es asignar una etiqueta o categoría a cada instancia de datos. Se ajusta un modelo a los datos de entrenamiento que aprende a distinguir entre diferentes clases o categorías.

**Análisis:**

***Diferencias entre regresión y clasificación:***

  En la regresión, el objetivo es predecir valores numéricos continuos, mientras que en la clasificación, el objetivo es asignar etiquetas categóricas.
    
  La regresión utiliza funciones de pérdida y métricas de evaluación diferentes a la clasificación debido a la naturaleza de los problemas.
    
  Los modelos de regresión y clasificación pueden tener arquitecturas y algoritmos diferentes debido a las diferencias en la naturaleza de los datos y las etiquetas.

**Importancia de la selección de características y el preprocesamiento de datos:**

  La selección de características adecuadas puede mejorar el rendimiento del modelo al eliminar características irrelevantes o redundantes y centrarse en aquellas que son más informativas para el problema.

  El preprocesamiento de datos, como la normalización, la estandarización y el manejo de valores atípicos, puede mejorar la capacidad del modelo para generalizar a nuevos datos y reducir el riesgo de sobreajuste.

Implementación de un modelo de regresión lineal y un modelo de clasificación utilizando el conjunto de datos Iris para clasificación de flores.

*Implementación de un modelo de regresión lineal:*

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos Iris
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data[:, :2]  # Solo tomamos las primeras dos características
y = iris.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
modelo_regresion = LinearRegression()
modelo_regresion.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred_regresion = modelo_regresion.predict(X_test)

# Calcular el error cuadrático medio
mse_regresion = mean_squared_error(y_test, y_pred_regresion)
print("Error cuadrático medio (Regresión lineal):", mse_regresion)


*Implementación de un modelo de clasificación:*

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Crear y entrenar el modelo de clasificación
modelo_clasificacion = LogisticRegression()
modelo_clasificacion.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred_clasificacion = modelo_clasificacion.predict(X_test)

# Calcular la precisión del modelo
precision_clasificacion = accuracy_score(y_test, y_pred_clasificacion)
print("Precisión (Modelo de clasificación):", precision_clasificacion)


En Estos ejemplos ilustran cómo implementar modelos de regresión y clasificación utilizando scikit-learn en Python, y cómo evaluar el rendimiento de estos modelos utilizando métricas como el error cuadrático medio en el caso de la regresión y la precisión en el caso de la clasificación.

**Métricas de evaluación de modelos:**

 1. **MSE (Error Cuadrático Medio) para regresión:** Es una métrica comúnmente utilizada para evaluar la calidad de un modelo de regresión. Calcula el promedio de los errores al cuadrado entre las predicciones del modelo y los valores reales. Un MSE más bajo indica un mejor ajuste del modelo a los datos.

 2. **Precisión y Recall para clasificación:** Son métricas utilizadas para evaluar la calidad de un modelo de clasificación. La precisión es la proporción de instancias clasificadas correctamente como positivas entre todas las instancias clasificadas como positivas por el modelo. El recall es la proporción de instancias clasificadas correctamente como positivas entre todas las instancias positivas reales. Ambas métricas son importantes y se deben considerar en conjunto, ya que una alta precisión puede ser contrarrestada por un bajo recall y viceversa.

**Importancia de la validación cruzada para evaluar el rendimiento del modelo:**

La validación cruzada es una técnica importante utilizada para evaluar el rendimiento de un modelo de Machine Learning. Consiste en dividir el conjunto de datos en múltiples subconjuntos de entrenamiento y prueba, ajustar el modelo en cada subconjunto de entrenamiento y evaluar su rendimiento en el subconjunto de prueba. Esto permite obtener estimaciones más confiables del rendimiento del modelo y reducir el riesgo de sobreajuste.



---

Ejemplos que ilustran cómo aplicar el aprendizaje automático y el análisis exploratorio de datos utilizando los conjuntos de datos de Iris y Vinos.

*Cómo cargar, explorar, visualizar y modelar datos utilizando scikit-learn y pandas en Python. Estos son pasos fundamentales en el proceso de análisis de datos y aprendizaje automático.*


# Ejemplo de Clasificación con el Conjunto de Datos Iris:

*Este ejemplo utiliza el algoritmo **RandomForest** para clasificar las flores del conjunto de datos Iris en una de las tres especies diferentes.*

Clasificación con el Conjunto de Datos Iris:

  * Cargar los datos y Dividirlos:
      Se cargan los datos del conjunto de datos Iris utilizando la función load_iris() de scikit-learn.
      Los datos se dividen en conjuntos de entrenamiento y prueba utilizando la función train_test_split() de scikit-learn. En este caso, el 80% de los datos se utilizan para entrenamiento y el 20% para pruebas.

  * Entrenar el Modelo:

    Se crea un clasificador RandomForest utilizando la clase RandomForestClassifier() de scikit-learn.
    El clasificador se entrena en los datos de entrenamiento utilizando el método fit().

  * Realizar Predicciones y Evaluar el Modelo:

      Se utilizan los datos de prueba para hacer predicciones utilizando el método predict() del clasificador entrenado.
      Se calcula la precisión del modelo comparando las predicciones con las etiquetas reales utilizando la métrica accuracy_score() de scikit-learn.

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar un clasificador RandomForest
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = clf.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo:", accuracy)


# Ejemplo de Análisis Exploratorio de Datos con el Conjunto de Datos de Vinos:

Este ejemplo realiza un análisis exploratorio de datos en el conjunto de datos de vinos, incluyendo información sobre las características y la distribución de los datos, así como visualizaciones de la relación entre las características y la variable objetivo (tipo de vino).

Análisis Exploratorio de Datos con el Conjunto de Datos de Vinos:

  * Cargar y Explorar los Datos:
      Se carga el conjunto de datos de vinos utilizando la función load_wine() de scikit-learn.

      Se crea un DataFrame de Pandas con los datos y se imprime información básica sobre el conjunto de datos utilizando los métodos info() y describe().

  * Visualización de las Características:
      Se crea una figura de matplotlib con subtramas para cada característica del conjunto de datos.

      Se utiliza la biblioteca seaborn para trazar histogramas de las características y visualizar su distribución.

  * Visualización de la Relación entre Características y la Variable Objetivo:
  
      Se crea otra figura de matplotlib con subtramas para cada característica del conjunto de datos.

      Se utiliza seaborn para trazar diagramas de caja que muestran la distribución de cada característica según la variable objetivo (tipo de vino).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine

# Cargar el conjunto de datos de vinos
wine = load_wine()

# Crear un DataFrame de Pandas
df = pd.DataFrame(data=wine.data, columns=wine.feature_names)
df['target'] = wine.target

# Exploración inicial del conjunto de datos
print("Información del conjunto de datos:")
print(df.info())
print("\nDescripción del conjunto de datos:")
print(df.describe())

# Visualización de las características
plt.figure(figsize=(12, 6))
for i, feature in enumerate(wine.feature_names):
    plt.subplot(2, 6, i + 1)
    sns.histplot(df[feature], bins=20, kde=True)
    plt.title(feature)
plt.tight_layout()
plt.show()

# Visualización de la relación entre las características y la variable objetivo
plt.figure(figsize=(12, 6))
for i, feature in enumerate(wine.feature_names):
    plt.subplot(2, 6, i + 1)
    sns.boxplot(x='target', y=feature, data=df)
plt.tight_layout()
plt.show()




---
Ejemplos prácticos de análisis de datos y machine learning utilizando el conjunto de datos Iris, enfocados a proyectos reales


---



**Ejemplo 1: Clasificación de Especies de Flores con K-Nearest Neighbors (KNN)**

Este ejemplo muestra cómo utilizar el algoritmo KNN para clasificar las especies de flores del conjunto de datos Iris.

Clasificación con KNN

  * Cargar datos: Utiliza load_iris() para cargar los datos.
  * Dividir datos: train_test_split() divide los datos en conjuntos de entrenamiento y prueba.
  * Entrenar modelo: KNeighborsClassifier() crea un clasificador KNN con n_neighbors=3.
  * Predecir y evaluar: accuracy_score y classification_report evalúan la precisión y el rendimiento del modelo. confusion_matrix y heatmap visualizan los resultados.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = knn.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo KNN:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()


**Ejemplo 2: Regresión Lineal para Predicción de Longitud de Pétalo**

Este ejemplo muestra cómo utilizar la regresión lineal para predecir la longitud del pétalo de las flores en función de otras características.

Regresión Lineal

  * Seleccionar características: Se utilizan las dos primeras características para predecir la longitud del pétalo.
  * Dividir datos: train_test_split() divide los datos en conjuntos de entrenamiento y prueba.
  * Entrenar modelo: LinearRegression() crea un modelo de regresión lineal.
  * Predecir y evaluar: mean_squared_error calcula el error cuadrático medio. plt.scatter visualiza los resultados.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# Seleccionar las características (Sepal Length y Sepal Width) y la variable objetivo (Petal Length)
X = iris.data[:, :2]
y = iris.data[:, 2]

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = lin_reg.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
print("Error Cuadrático Medio (MSE):", mse)

# Visualizar los resultados
plt.scatter(X_test[:, 0], y_test, color='blue', label='Actual')
plt.scatter(X_test[:, 0], y_pred, color='red', label='Predicho')
plt.xlabel('Longitud del Sépalo')
plt.ylabel('Longitud del Pétalo')
plt.title('Regresión Lineal - Predicción de Longitud del Pétalo')
plt.legend()
plt.show()


**Ejemplo 3: Análisis de Componentes Principales (PCA) para Reducción de Dimensionalidad**

Este ejemplo muestra cómo utilizar PCA para reducir la dimensionalidad del conjunto de datos Iris y visualizar las características más importantes.

PCA

  * Reducir dimensionalidad: PCA(n_components=2) reduce los datos a dos componentes principales.
  * Crear DataFrame: Un DataFrame de Pandas se utiliza para almacenar los componentes principales y las etiquetas.
  * Visualizar componentes: sns.scatterplot visualiza los componentes principales en un gráfico de dispersión.

In [None]:
from sklearn.decomposition import PCA

# Reducir la dimensionalidad a 2 componentes principales
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Crear un DataFrame con los componentes principales y las etiquetas
df_pca = pd.DataFrame(X_pca, columns=['Componente 1', 'Componente 2'])
df_pca['Especie'] = y

# Visualizar los componentes principales
sns.scatterplot(data=df_pca, x='Componente 1', y='Componente 2', hue='Especie', palette='Set1')
plt.title('Análisis de Componentes Principales (PCA)')
plt.show()


**Ejemplo 4: Validación Cruzada para Evaluar Modelos**

Este ejemplo muestra cómo utilizar la validación cruzada para evaluar el rendimiento de un modelo de clasificación en el conjunto de datos Iris.

Validación Cruzada

  * Crear modelo: KNeighborsClassifier() crea un clasificador KNN.
  * Evaluar modelo: cross_val_score evalúa el modelo utilizando validación cruzada con 5 particiones (cv=5).

In [None]:
from sklearn.model_selection import cross_val_score

# Crear el modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)

# Evaluar el modelo utilizando validación cruzada
scores = cross_val_score(knn, X, y, cv=5)
print("Precisión promedio con validación cruzada:", scores.mean())


**Ejemplo 5: Clasificación con Support Vector Machine (SVM)**

Este ejemplo muestra cómo utilizar un clasificador SVM para clasificar las especies de flores del conjunto de datos Iris.

Clasificación con SVM

  * Crear y entrenar el modelo: SVC(kernel='linear', random_state=42) crea un clasificador SVM con un kernel lineal.
  * Predecir y evaluar: accuracy_score y classification_report se utilizan para evaluar el rendimiento del modelo. confusion_matrix y heatmap visualizan los resultados.

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo SVM
svm = SVC(kernel='linear', random_state=42)
svm.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = svm.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo SVM:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()


**Ejemplo 6: K-Means Clustering**

Este ejemplo muestra cómo utilizar el algoritmo K-Means para realizar clustering en el conjunto de datos Iris.

K-Means Clustering

  * Estandarizar las características: StandardScaler se utiliza para escalar las características.
  * Aplicar K-Means: KMeans(n_clusters=3, random_state=42) aplica el algoritmo K-Means con 3 clusters.
  * Visualizar clusters: Se añaden etiquetas de cluster al DataFrame y se visualizan utilizando sns.scatterplot.

In [None]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Estandarizar las características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicar K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X_scaled)

# Añadir las etiquetas de cluster al DataFrame original
df = pd.DataFrame(data=X, columns=iris.feature_names)
df['Cluster'] = kmeans.labels_

# Visualizar los clusters
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='sepal length (cm)', y='sepal width (cm)', hue='Cluster', palette='Set1')
plt.title('Clusters de K-Means')
plt.show()


**Ejemplo 7: Regresión Logística**

Este ejemplo muestra cómo utilizar la regresión logística para clasificar las especies de flores del conjunto de datos Iris.

Regresión Logística

  * Crear y entrenar el modelo: LogisticRegression(max_iter=200, random_state=42) crea un modelo de regresión logística.
  * Predecir y evaluar: accuracy_score y classification_report se utilizan para evaluar el rendimiento del modelo. confusion_matrix y heatmap visualizan los resultados.

In [None]:
from sklearn.linear_model import LogisticRegression

# Crear y entrenar el modelo de regresión logística
log_reg = LogisticRegression(max_iter=200, random_state=42)
log_reg.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = log_reg.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Regresión Logística:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()


**Ejemplo 8: Árboles de Decisión**

Este ejemplo muestra cómo utilizar un árbol de decisión para clasificar las especies de flores del conjunto de datos Iris.

Árboles de Decisión

  * Crear y entrenar el modelo: DecisionTreeClassifier(random_state=42) crea un modelo de árbol de decisión.
  * Predecir y evaluar: accuracy_score y classification_report se utilizan para evaluar el rendimiento del modelo. plot_tree se utiliza para visualizar el árbol de decisión.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

# Crear y entrenar el modelo de árbol de decisión
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = tree_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Árbol de Decisión:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Visualizar el árbol de decisión
plt.figure(figsize=(20, 10))
plot_tree(tree_clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.title('Árbol de Decisión')
plt.show()




---
**Ejemplos prácticos de análisis de datos y machine learning utilizando el conjunto de datos de vinos (load_wine) de scikit-learn, enfocados en proyectos reales.**


---




**Ejemplo 1: Clasificación con K-Nearest Neighbors (KNN)**

Este ejemplo muestra cómo utilizar el algoritmo KNN para clasificar los tipos de vino en el conjunto de datos de vinos.

Clasificación con KNN

  * Crear y entrenar el modelo: KNeighborsClassifier(n_neighbors=3) crea un clasificador KNN con n_neighbors=3.
  * Predecir y evaluar: accuracy_score, classification_report y confusion_matrix se utilizan para evaluar y visualizar el rendimiento del modelo.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos de vinos
wine = load_wine()
X = wine.data
y = wine.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = knn.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo KNN:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()


**Ejemplo 2: Regresión Logística**

Este ejemplo muestra cómo utilizar la regresión logística para clasificar los tipos de vino.

Regresión Logística

  * Crear y entrenar el modelo: LogisticRegression(max_iter=200, random_state=42) crea un modelo de regresión logística con un máximo de 200 iteraciones.
  * Predecir y evaluar: accuracy_score, classification_report y confusion_matrix se utilizan para evaluar y visualizar el rendimiento del modelo.

In [None]:
from sklearn.linear_model import LogisticRegression

# Crear y entrenar el modelo de regresión logística
log_reg = LogisticRegression(max_iter=200, random_state=42)
log_reg.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = log_reg.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Regresión Logística:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()


**Ejemplo 3: Análisis de Componentes Principales (PCA)**

Este ejemplo muestra cómo utilizar PCA para reducir la dimensionalidad del conjunto de datos de vinos y visualizar las características más importantes.

PCA

  * Reducir la dimensionalidad: PCA(n_components=2) reduce los datos a dos componentes principales.
  * Visualizar componentes: sns.scatterplot visualiza los componentes principales en un gráfico de dispersión.

In [None]:
from sklearn.decomposition import PCA

# Reducir la dimensionalidad a 2 componentes principales
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Crear un DataFrame con los componentes principales y las etiquetas
df_pca = pd.DataFrame(X_pca, columns=['Componente 1', 'Componente 2'])
df_pca['Clase de Vino'] = y

# Visualizar los componentes principales
sns.scatterplot(data=df_pca, x='Componente 1', y='Componente 2', hue='Clase de Vino', palette='Set1')
plt.title('Análisis de Componentes Principales (PCA)')
plt.show()


**Ejemplo 4: Árboles de Decisión**

Este ejemplo muestra cómo utilizar un árbol de decisión para clasificar los tipos de vino.

Árboles de Decisión

  * Crear y entrenar el modelo: DecisionTreeClassifier(random_state=42) crea un modelo de árbol de decisión.
  * Predecir y evaluar: accuracy_score, classification_report y confusion_matrix se utilizan para evaluar y visualizar el rendimiento del modelo. plot_tree visualiza la estructura del árbol de decisión.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

# Crear y entrenar el modelo de árbol de decisión
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = tree_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Árbol de Decisión:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Visualizar el árbol de decisión
plt.figure(figsize=(20, 10))
plot_tree(tree_clf, filled=True, feature_names=wine.feature_names, class_names=wine.target_names)
plt.title('Árbol de Decisión')
plt.show()


**Ejemplo 5: Random Forest**

Este ejemplo muestra cómo utilizar un bosque aleatorio (Random Forest) para clasificar los tipos de vino.

Random Forest

  * Crear y entrenar el modelo: RandomForestClassifier(n_estimators=100, random_state=42) crea un modelo de bosque aleatorio con 100 árboles.
  * Predecir y evaluar: accuracy_score, classification_report y confusion_matrix se utilizan para evaluar y visualizar el rendimiento del modelo.

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Crear y entrenar el modelo de Random Forest
rf_clf = RandomForestClassifier(n_estimators=100, random_state=42)
rf_clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = rf_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Random Forest:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()




---
CONCEPTOS TEORICOS


---




Clasificación con K-Nearest Neighbors (KNN)

Conceptos Clave:

  * K-Nearest Neighbors (KNN) es un algoritmo de clasificación supervisado que asigna una clase a un nuevo punto basándose en las clases de sus k vecinos más cercanos.
  * Distancia: Se utiliza una métrica de distancia (comúnmente la distancia Euclidiana) para determinar qué puntos son los más cercanos.
  * Valor de k: El número de vecinos considerados (k) afecta el resultado; un k pequeño puede hacer que el modelo sea sensible al ruido, mientras que un k grande puede suavizar demasiado la clasificación.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos de vinos
wine = load_wine()
X = wine.data
y = wine.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = knn.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo KNN:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()


Regresión Logística

Conceptos Clave:

  * Regresión Logística es un algoritmo de clasificación supervisado utilizado para modelar la probabilidad de una clase binaria. Puede extenderse a problemas de clasificación multiclase.
  * Función Sigmoide: La regresión logística utiliza la función sigmoide para convertir una predicción lineal en una probabilidad.
  * Máxima Verosimilitud: El modelo se ajusta a los datos maximizando la función de verosimilitud, es decir, la probabilidad de observar los datos dados los parámetros del modelo.

In [None]:
from sklearn.linear_model import LogisticRegression

# Crear y entrenar el modelo de regresión logística
log_reg = LogisticRegression(max_iter=200, random_state=42)
log_reg.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = log_reg.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Regresión Logística:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()


Análisis de Componentes Principales (PCA)

Conceptos Clave:

  * Análisis de Componentes Principales (PCA) es una técnica de reducción de dimensionalidad que transforma los datos a un nuevo espacio de características, maximizando la varianza explicada por cada componente.
  * Varianza Explicada: Cada componente principal captura un porcentaje de la varianza total de los datos, ayudando a identificar las características más importantes.
  * Covarianza y Autovalores: PCA se basa en la descomposición de la matriz de covarianza de los datos, utilizando los autovalores y autovectores para proyectar los datos en el nuevo espacio.

In [None]:
from sklearn.decomposition import PCA

# Reducir la dimensionalidad a 2 componentes principales
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Crear un DataFrame con los componentes principales y las etiquetas
df_pca = pd.DataFrame(X_pca, columns=['Componente 1', 'Componente 2'])
df_pca['Clase de Vino'] = y

# Visualizar los componentes principales
sns.scatterplot(data=df_pca, x='Componente 1', y='Componente 2', hue='Clase de Vino', palette='Set1')
plt.title('Análisis de Componentes Principales (PCA)')
plt.show()


Árboles de Decisión

Conceptos Clave:

  * Árboles de Decisión son algoritmos de clasificación y regresión que utilizan una estructura de árbol para tomar decisiones basadas en las características de los datos.
  * Nodos y Hojas: Cada nodo representa una característica, cada rama una decisión basada en esa característica y cada hoja una predicción.
  * Gini y Entropía: Son criterios de medida de la impureza de un nodo, utilizados para decidir las divisiones en los nodos.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

# Crear y entrenar el modelo de árbol de decisión
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = tree_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Árbol de Decisión:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Visualizar el árbol de decisión
plt.figure(figsize=(20, 10))
plot_tree(tree_clf, filled=True, feature_names=wine.feature_names, class_names=wine.target_names)
plt.title('Árbol de Decisión')
plt.show()


Random Forest

Conceptos Clave:

  * Random Forest es un conjunto de árboles de decisión, donde cada árbol se entrena con un subconjunto aleatorio de los datos y características.
  * Bagging (Bootstrap Aggregating): Cada árbol se entrena con una muestra aleatoria con reemplazo de los datos de entrenamiento.
  * Promediar Predicciones: Las predicciones de los árboles individuales se promedian (regresión) o se toma la mayoría de votos (clasificación).

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Crear y entrenar el modelo de Random Forest
rf_clf = RandomForestClassifier(n_estimators=100, random_state=42)
rf_clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = rf_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Random Forest:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()




---


**Ejemplos de Aplicación en Proyectos Reales**


---



**Clasificación de Calidad de Vino**


**Contexto:** Clasificar la calidad del vino en función de sus características químicas.

  **Característica:** Atributos químicos como acidez, azúcar residual, pH, etc.

  **Etiqueta:** Clase de calidad (e.g., baja, media, alta).

**Predicción de Precios de Vino**

 **Contexto:** Predecir el precio de una botella de vino en función de sus características químicas y sensoriales.

 **Característica:** Atributos como año de cosecha, región de producción, Puntuación de críticos.
 **Etiqueta:** Precio de la botella.

Ejemplo práctico utilizando Python y el conjunto de datos de vinos para realizar un análisis exploratorio y construir un modelo de clasificación utilizando el algoritmo de Árbol de Decisión:

*Este ejemplo proporciona una introducción práctica al análisis de datos y machine learning utilizando Python y el conjunto de datos de vinos.*

En este ejemplo, primero cargamos el conjunto de datos de vinos y lo dividimos en conjuntos de entrenamiento y prueba. Luego creamos un modelo de Árbol de Decisión, lo entrenamos con los datos de entrenamiento y realizamos predicciones en el conjunto de prueba. Finalmente, evaluamos el rendimiento del modelo utilizando métricas como precisión, y visualizamos la matriz de confusión para entender mejor los resultados.

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos de vinos
wine = load_wine()
X = pd.DataFrame(wine.data, columns=wine.feature_names)
y = pd.Series(wine.target, name='target')

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de Árbol de Decisión
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = tree_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de Árbol de Decisión:", accuracy)
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Matriz de Confusión')
plt.show()




> *Recopilacion: William Burbano Lima (Ejecutor Técnico Bootcamp Analisis de Datos Nivel Integrador Talento Tech MINTIC COLOMBIA)*

