<a href="https://colab.research.google.com/github/YudyMancipe/Data_Analysis_Portfolio/blob/main/vinos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Problema a resolver:**
El objetivo de este proyecto es predecir si la calidad de un vino es "buena" o "mala" basado en varias características químicas del vino, utilizando el algoritmo de K-Nearest Neighbors (KNN). La variable objetivo es la clasificación de la calidad del vino en dos categorías: "buena calidad" (cuando la calidad es igual o mayor a 7) y "mala calidad" (cuando la calidad es inferior a 7). A partir de un conjunto de datos que contiene varias características del vino, se busca entrenar un modelo de clasificación que permita predecir la calidad de un vino con base en dichas características.

# **Objetivos del proyecto:**
**Preprocesamiento de datos:**

Cargar el conjunto de datos de calidad del vino desde un archivo CSV.
Crear una nueva columna en el conjunto de datos para clasificar los vinos en "buena calidad" y "mala calidad".
Seleccionar las características relevantes (variables independientes) y la variable objetivo para la clasificación.

**Escalado de datos:**

Aplicar un escalado estándar (StandardScaler) a las características del conjunto de datos para normalizar los valores y mejorar la precisión del modelo.

**División de datos:**

Dividir el conjunto de datos en conjuntos de entrenamiento (80%) y prueba (20%).

**Entrenamiento del modelo:**

Crear un modelo de clasificación utilizando el algoritmo K-Nearest Neighbors (KNN) con un valor predeterminado de k = 5.
Entrenar el modelo con el conjunto de datos de entrenamiento.

**Evaluación del modelo:**

Realizar predicciones utilizando el conjunto de prueba.
Evaluar el rendimiento del modelo utilizando métricas de rendimiento como la matriz de confusión y el reporte de clasificación (precision, recall, f1-score).

**Análisis de resultados:**

Interpretar y visualizar los resultados obtenidos en la evaluación del modelo.
Analizar las métricas de rendimiento y determinar si el modelo es adecuado para predecir la calidad del vino de manera efectiva.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report


# Asegúrate de dar la ruta correcta al archivo CSV descargado
data = pd.read_csv('winequality-red.csv')

# Mostrar las primeras filas del DataFrame
print(data.head())

print(data.info())

print(data.describe())

# Crear una nueva columna 'good_quality' basada en la columna 'quality'
data['good_quality'] = data['quality'].apply(lambda x: 1 if x >= 7 else 0)

#aqui ya agregamos la nueva columna
print(data.info())

# Seleccionar las características y la variable objetivo
X = data.drop(['quality', 'good_quality'], axis=1)
y = data['good_quality']

print("Imprimiendo x para saber que valores tiene : ",X.head())
print("Imprimiendo y para saber que valores tiene : ",y.head(10))

# Escalar las características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Crear el modelo K-Nearest Neighbors
knn = KNeighborsClassifier(n_neighbors=5)

# Entrenar el modelo con los datos de entrenamiento
knn.fit(X_train, y_train)

# Realizar predicciones con los datos de prueba
y_pred = knn.predict(X_test)

# Evaluar el rendimiento del modelo
print("Matrix de confusion : ",confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))



   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1      9.8        5  
2      9.8        5 