<a href="https://colab.research.google.com/github/DANCAR1969/programacion/blob/master/ProyectoMachineLearning_Wine_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Descripción del conjunto de datos "Wine":**

El conjunto de datos Wine contiene 178 muestras de vinos provenientes de tres cultivos diferentes. Cada vino tiene 13 características numéricas que corresponden a propiedades físico-químicas del vino, como el contenido de alcohol, la acidez, los flavonoides, entre otros.

Estructura del dataset:

13 características numéricas sobre el vino.

3 clases de vino (cada una correspondiente a un tipo diferente de vino).

In [None]:
#Importación de librerías
import numpy as np  # Operaciones matemáticas y arrays
import pandas as pd  # Importa pandas para manipulación y análisis de datos
import seaborn as sns  # Seaborn para visualización estadística
import matplotlib.pyplot as plt  # Matplotlib para crear gráficos
from sklearn.model_selection import train_test_split  # Función para dividir los datos en entrenamiento y prueba
from sklearn.preprocessing import StandardScaler  # Escalador estándar para normalizar los datos
from sklearn.linear_model import LogisticRegression  # Modelo de regresión logística
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix  # Métricas para evaluar el modelo


In [None]:
#Importar Datasafe
#https://archive.ics.uci.edu/dataset/109/wine
from sklearn.datasets import load_wine  # Importa la función para cargar el dataset Wine de sklearn
data = load_wine()  # Carga el dataset Wine y lo asigna a la variable 'data'
df = pd.DataFrame(data.data, columns=data.feature_names)  # Convierte los datos de características en un DataFrame de pandas
df['target'] = data.target  # Añade la columna 'target' al DataFrame con las etiquetas de las clases (tipos de vino)

# Mapea las etiquetas numéricas de 'target' a los nombres de las clases (tipos de vino)
df['target'] = df['target'].map({0: 'Clase 1', 1: 'Clase 2', 2: 'Clase 3'})

In [None]:
# Exploración inicial
display(df.head())  # Muestra las primeras 5 filas del DataFrame para una vista previa rápida
print(df.info())  # Muestra información general sobre el DataFrame (como el tipo de datos y los valores nulos)
print(df.describe())  # Muestra estadísticas descriptivas de las columnas numéricas del DataFrame


In [None]:
# Visualización de datos
#Elección de columnas para el gráfico de pares
columnas_a_mostrar = ['alcohol', 'malic_acid', 'flavanoids', 'alcalinity_of_ash', 'proanthocyanins', 'total_phenols', 'color_intensity']
# Crear un gráfico de pares solo para las columnas seleccionadas
sns.pairplot(df, hue='target', vars=columnas_a_mostrar)
plt.show()  # Muestra el gráfico generado



In [None]:
# Correlación entre variables
plt.figure(figsize=(8, 6))  # Establece el tamaño de la figura para el gráfico
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')  # Crea un mapa de calor de la matriz de correlación entre las variables numéricas
plt.title("Matriz de Correlación")  # Añade un título al gráfico
plt.show()  # Muestra el gráfico generado


In [None]:
# División en conjunto de entrenamiento y prueba
X = df.drop(columns=['target'])  # Elimina la columna 'target' para obtener las características (X)
y = df['target']  # Asigna la columna 'target' como las etiquetas (y)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # Divide los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)


In [None]:
# Estandarización de datos
scaler = StandardScaler()  # Crea una instancia del escalador para normalizar los datos
X_train_scaled = scaler.fit_transform(X_train)  # Ajusta el escalador a los datos de entrenamiento y los escala
X_test_scaled = scaler.transform(X_test)  # Escala los datos de prueba usando el mismo escalador ajustado

In [None]:
# Modelo de Regresión Logística
model = LogisticRegression(multi_class='ovr', max_iter=200)  # Crea una instancia del modelo de regresión logística con clasificación multi-clase (uno contra el resto) y 200 iteraciones
model.fit(X_train_scaled, y_train)  # Entrena el modelo utilizando los datos de entrenamiento escalados
y_pred = model.predict(X_test_scaled)  # Realiza predicciones sobre los datos de prueba escalados


In [None]:

# Evaluación del modelo
print("Accuracy:", accuracy_score(y_test, y_pred))  # Imprime la precisión del modelo al comparar las predicciones con las etiquetas reales
print("\nReporte de clasificación:\n", classification_report(y_test, y_pred))  # Imprime un reporte con métricas como precisión, recall y f1-score para cada clase
print("\nMatriz de confusión:\n", confusion_matrix(y_test, y_pred))  # Imprime la matriz de confusión para evaluar el desempeño del modelo
