
# ProyectoDSParteI_Hamburg

## Abstract

El presente proyecto tiene como objetivo realizar un análisis exploratorio de datos (EDA) sobre el dataset **Winequality-red.csv**, 
el cual contiene información físico-química y sensorial de diferentes vinos tintos portugueses. A través de este análisis se pretende
identificar patrones y relaciones relevantes entre variables, que permitan entender qué factores influyen en la calidad del vino.

Para ello, se plantean las siguientes hipótesis:
1. Las características químicas como la acidez volátil y el contenido de alcohol tienen un impacto significativo en la calidad del vino.
2. Existe correlación entre ciertas variables fisicoquímicas y la calidad sensorial asignada.
3. Los vinos de mayor calidad presentan distribuciones diferentes en algunas variables clave frente a vinos de menor calidad.

El análisis incluye visualizaciones univariadas, bivariadas y multivariadas, así como métricas numéricas que respaldan las observaciones.
También se identifican valores ausentes y se evalúa la distribución de las variables para proponer mejoras en la preparación de datos
de cara a modelos de machine learning futuros.



In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset (asegurarse de que 'winequality-red.csv' esté en la misma carpeta que este notebook)
df = pd.read_csv('winequality-red.csv', sep=';')
df.head()


In [None]:

df.info()
df.describe()


In [None]:

df.isnull().sum()


In [None]:

# Histograma de la variable 'alcohol'
plt.figure(figsize=(8,5))
sns.histplot(df['alcohol'], kde=True, bins=20)
plt.title('Distribución de Alcohol')
plt.show()


In [None]:

# Relación entre alcohol y calidad
plt.figure(figsize=(8,5))
sns.boxplot(x='quality', y='alcohol', data=df)
plt.title('Alcohol vs Calidad')
plt.show()


In [None]:

# Mapa de calor de correlaciones
plt.figure(figsize=(10,8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Mapa de Calor de Correlaciones')
plt.show()



### Interpretaciones

- Se observa que la variable **alcohol** tiende a tener valores más altos en vinos con mejor calificación de calidad.
- El mapa de calor muestra correlaciones positivas entre el alcohol y la calidad, y correlaciones negativas entre la acidez volátil y la calidad.
- No se detectaron valores nulos en el dataset.
