# Análisis Exploratorio de Datos (EDA) – Wine Quality 🍷

## Objetivo
Realizar un análisis estadístico exploratorio del dataset **Wine Quality (Red Wine)**
para comprender la distribución de variables, detectar patrones, relaciones
y posibles comportamientos relevantes respecto a la variable objetivo `quality`.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from pathlib import Path

DATA_PATH = Path('../data/raw/winequality-red.csv')
df = pd.read_csv(DATA_PATH, sep=';')
df.head()

## 1️⃣ Información General del Dataset
- Número de observaciones
- Tipos de datos
- Valores nulos


In [None]:
print('Dimensiones:', df.shape)
print('\nTipos de datos:')
print(df.dtypes)
print('\nValores nulos por columna:')
print(df.isnull().sum())

## 2️⃣ Estadísticos Descriptivos
Medidas de tendencia central y dispersión.

In [None]:
df.describe()

## 3️⃣ Análisis de Asimetría (Skewness)
Identificar variables con distribución sesgada.

In [None]:
df.skew().sort_values(ascending=False)

## 4️⃣ Distribución de la Variable Objetivo (Quality)
Analizar el balance del dataset.

In [None]:
plt.figure()
df['quality'].value_counts().sort_index().plot(kind='bar')
plt.title('Distribución de la Calidad del Vino')
plt.xlabel('Quality')
plt.ylabel('Frecuencia')
plt.show()

## 5️⃣ Correlación con la Variable Objetivo
Identificar qué variables tienen mayor relación lineal con la calidad.

In [None]:
correlation_with_quality = df.corr()['quality'].sort_values(ascending=False)
correlation_with_quality

## 6️⃣ Visualización: Alcohol vs Quality
Evaluar visualmente la relación entre contenido alcohólico y calidad.

In [None]:
plt.figure()
df.boxplot(column='alcohol', by='quality')
plt.title('Alcohol vs Quality')
plt.suptitle('')
plt.xlabel('Quality')
plt.ylabel('Alcohol')
plt.show()

## 7️⃣ Distribución de una Variable Continua (Alcohol)


In [None]:
plt.figure()
df['alcohol'].hist(bins=30)
plt.title('Distribución del Contenido de Alcohol')
plt.xlabel('Alcohol')
plt.ylabel('Frecuencia')
plt.show()

## 8️⃣ Conclusiones del EDA

- El dataset contiene 1599 observaciones y 11 variables predictoras.
- La calidad se concentra principalmente entre valores 5 y 6 (ligero desbalance).
- El alcohol muestra correlación positiva con la calidad.
- La acidez volátil muestra correlación negativa con la calidad.
- Algunas variables presentan asimetría positiva significativa.

Este análisis permite entender la estructura del dataset antes de modelado o despliegue en producción.