Proyecto Final: Machine Learning para Clasificar la variedad de los Vinos de la empresa JP 🍇🍷
Desarrollado por: Julio Paredes

En este proyecto, realizaremos un análisis exploratorio de datos sobre el conjunto de datos de vinos. 
El objetivo es comprender mejor las características que influyen en la calidad del vino y explorar posibles patrones 
y relaciones entre estas características. El conjunto de datos contiene información sobre diversas propiedades 
físico-químicas de vinos, así como su calidad percibida. Utilizaremos técnicas de visualización y 
resúmenes estadísticos para analizar los datos y responder preguntas clave que permitan clasificar 
los vinos eficientemente mediante un modelo ML.

Preguntas e Hipótesis de Interés (partimos por lo menos con tres preguntas)
¿Existe alguna relación entre las propiedades físico-químicas de los vinos y su calidad percibida?
¿Qué características tienen mayor impacto en la calidad del vino?
¿Cómo varían las propiedades del vino en función de su calidad?
¿Se podrá aplicar algún algoritmo ML que permita conocer la calidad de los vinos y ver a que clase pertenece?
El objetivo de este código es realizar un ejercicio de clasificación utilizando un modelo de regresión logística en 
un conjunto de datos de vinos.

Análisis Exploratorio de Datos
Realizaremos un análisis exploratorio de datos utilizando gráficos interactivos y resúmenes numéricos para responder 
nuestras preguntas de interés y explorar insights preliminares sobre el conjunto de datos de vinos.

Verificación de Valores Nulos
Primero, verificaremos si hay valores nulos en el conjunto de datos y manejaremos los valores faltantes si es necesario.

Visualizaciones Interactivas
Utilizaremos gráficos interactivos para explorar las relaciones entre las características del vino y su calidad percibida. 
Esto nos permitirá visualizar patrones y tendencias de manera más dinámica.

In [2]:
## LIBRERÍAS ##
 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as pex
import altair as alt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [None]:
## Carga del Dataset

df = pd.read_csv('wine.csv')
df.head()       # quick view

Unnamed: 0,Type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,red,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,red,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,red,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,red,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,red,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [4]:
## Exploración

df.shape     # filas * columnas

(6497, 13)

In [5]:
## Exploración

df.info()   # tipo de dato

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Type                  6497 non-null   object 
 1   fixed acidity         6497 non-null   float64
 2   volatile acidity      6497 non-null   float64
 3   citric acid           6497 non-null   float64
 4   residual sugar        6497 non-null   float64
 5   chlorides             6497 non-null   float64
 6   free sulfur dioxide   6497 non-null   float64
 7   total sulfur dioxide  6497 non-null   float64
 8   density               6497 non-null   float64
 9   pH                    6497 non-null   float64
 10  sulphates             6497 non-null   float64
 11  alcohol               6497 non-null   float64
 12  quality               6497 non-null   int64  
dtypes: float64(11), int64(1), object(1)
memory usage: 660.0+ KB


In [9]:
## Exploración

df.isna()   #Devuelve el dataset en FALSE/TRUE, siendo TRUE los valores nulos

Unnamed: 0,Type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6492,False,False,False,False,False,False,False,False,False,False,False,False,False
6493,False,False,False,False,False,False,False,False,False,False,False,False,False
6494,False,False,False,False,False,False,False,False,False,False,False,False,False
6495,False,False,False,False,False,False,False,False,False,False,False,False,False


In [10]:
## Exploración

(df.isna().sum() / df.shape[0]) * 100  # Percentage of missing values per column

# df.isna() - Returns a DataFrame of the same shape as df with True for missing values.
# .sum() - Counts True values (missing values) for each column.
# df.shape[0] - Retrieves the number of rows in the DataFrame (the first element of the tuple df.shape). = 6497


Type                    0.0
fixed acidity           0.0
volatile acidity        0.0
citric acid             0.0
residual sugar          0.0
chlorides               0.0
free sulfur dioxide     0.0
total sulfur dioxide    0.0
density                 0.0
pH                      0.0
sulphates               0.0
alcohol                 0.0
quality                 0.0
dtype: float64