# ProyectoDSParteI_Hamburg

## Abstracto
Este proyecto explora relaciones entre variables fisicoquímicas del vino tinto y la variable de calidad registrada por catadores en una escala ordinal. El objetivo es construir una primera narrativa descriptiva, establecer preguntas e hipótesis y responderlas con resúmenes numéricos y visualizaciones univariadas, bivariadas y multivariadas, siguiendo las prácticas vistas: manejo de datos con Pandas, visualización con Matplotlib/Seaborn y estadística descriptiva básica.

Trabajamos con el archivo **winequality-red.csv** (muestras de vinos tintos portugueses). Las columnas incluyen acidez fija, acidez volátil, ácido cítrico, azúcar residual, cloruros, dióxido de azufre libre y total, densidad, pH, sulfatos, alcohol y una calidad global. Las preguntas guía son: ¿qué variables muestran mayor asociación con la calidad?, ¿existen patrones que sugieran mejoras en la producción?, ¿qué tan frecuentes son outliers o datos ausentes?

Hipótesis de interés: **(H1)** alcohol se asocia positivamente con la calidad; **(H2)** acidez volátil se asocia negativamente con la calidad; **(H3)** sulfatos y SO₂ total pueden mejorar la calidad por su efecto antioxidante; **(H4)** densidad estará fuertemente relacionada con azúcar residual. Para validarlas, construiremos histogramas, boxplots, diagramas de dispersión con codificación por color/tamaño y un mapa de correlaciones. También cuantificamos valores ausentes y outliers mediante IQR.

Los hallazgos preliminares indican que la calidad varía principalmente con alcohol (positiva) y acidez volátil (negativa), mientras que azúcar residual y densidad describen una relación fuerte entre sí, más estructural que sensorial. No se observan datos ausentes y la distribución de calidades es desequilibrada hacia valores 5–6. Estos resultados fundamentan líneas futuras: modelado supervisado simple (p. ej., regresión logística o árboles) y un análisis más fino de interacciones, manteniendo el foco en interpretabilidad y buenas prácticas visuales.

## Preguntas e hipótesis
- **P1.** ¿Mayor alcohol implica mayor calidad? **H1.** Relación positiva.
- **P2.** ¿La acidez volátil degrada la calidad? **H2.** Relación negativa.
- **P3.** ¿Sulfatos y SO₂ total se asocian a mejor calidad? **H3.** Efecto positivo moderado.
- **P4.** ¿Densidad se explica por azúcar residual? **H4.** Relación positiva alta.


In [None]:
!wget -q -O winequality-red.csv https://raw.githubusercontent.com/gerardohamburg/CoderHouse/main/winequality-red.csv

import pandas as pd, numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style="whitegrid")
df = pd.read_csv("winequality-red.csv")
df.columns = (df.columns.str.strip().str.lower().str.replace(" ", "_").str.replace("/", "_", regex=False))

In [None]:
df.shape, df.dtypes

In [None]:
na = df.isna().sum().to_frame("faltantes")
na.T

In [None]:
desc = df.describe().T
desc

In [None]:
df["quality"].value_counts().sort_index()

In [None]:
fig, axs = plt.subplots(2, 2, figsize=(10, 7))
sns.histplot(df["alcohol"], kde=True, ax=axs[0,0])
axs[0,0].set_title("Alcohol")
sns.histplot(df["volatile_acidity"], kde=True, ax=axs[0,1])
axs[0,1].set_title("Acidez volátil")
sns.histplot(df["residual_sugar"], kde=True, ax=axs[1,0])
axs[1,0].set_title("Azúcar residual")
sns.histplot(df["sulphates"], kde=True, ax=axs[1,1])
axs[1,1].set_title("Sulfatos")
plt.tight_layout()
plt.show()

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(15, 4))
sns.boxplot(data=df, x="quality", y="alcohol", ax=axs[0])
axs[0].set_title("Alcohol vs Calidad")
sns.boxplot(data=df, x="quality", y="volatile_acidity", ax=axs[1])
axs[1].set_title("Acidez volátil vs Calidad")
sns.scatterplot(data=df, x="residual_sugar", y="density", ax=axs[2])
axs[2].set_title("Azúcar residual vs Densidad")
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(7,5))
sns.scatterplot(data=df, x="alcohol", y="volatile_acidity", hue="quality", size="sulphates", sizes=(20,120), alpha=0.8)
plt.title("Alcohol vs Acidez volátil por calidad y sulfatos")
plt.legend(bbox_to_anchor=(1.05, 1), loc="upper left", borderaxespad=0.0)
plt.tight_layout()
plt.show()

In [None]:
corr = df.corr(numeric_only=True)
plt.figure(figsize=(9,7))
sns.heatmap(corr, cmap="RdBu_r", center=0, annot=False)
plt.title("Mapa de correlaciones")
plt.tight_layout()
plt.show()
corr["quality"].sort_values(ascending=False)

In [None]:
def iqr_bounds(s):
    q1, q3 = s.quantile(0.25), s.quantile(0.75)
    iqr = q3 - q1
    return q1 - 1.5*iqr, q3 + 1.5*iqr

outs = {}
for c in ["volatile_acidity", "alcohol", "sulphates", "residual_sugar"]:
    lo, hi = iqr_bounds(df[c])
    outs[c] = {"low": float(lo), "high": float(hi), "n_out": int(((df[c] < lo) | (df[c] > hi)).sum())}
pd.DataFrame(outs).T

## Interpretaciones
- No se detectan valores ausentes. La calidad se concentra en 5–6.
- Alcohol muestra asociación positiva con calidad; acidez volátil, negativa.
- Azúcar residual y densidad presentan relación positiva alta.
- El scatter multivariado sugiere que vinos de mayor calidad combinan mayor alcohol con menor acidez volátil y sulfatos moderados.
- El mapa de correlaciones ubica a alcohol como correlación positiva más alta con calidad y a acidez volátil como la más negativa.
- IQR identifica outliers en variables como acidez volátil; conviene revisarlos antes de modelar.
