# ProyectoDSParteI_Hamburg

## Abstracto
Este proyecto explora relaciones entre variables fisicoquímicas del vino tinto y la variable de calidad registrada por catadores en una escala ordinal. El objetivo es construir una narrativa descriptiva, establecer preguntas e hipótesis y responderlas con resúmenes numéricos y visualizaciones univariadas, bivariadas y multivariadas.

Se utiliza el dataset `winequality-red.csv` (muestras de vinos tintos portugueses). Las columnas incluyen acidez fija, acidez volátil, ácido cítrico, azúcar residual, cloruros, dióxido de azufre libre y total, densidad, pH, sulfatos, alcohol y una calidad global.

### Preguntas e hipótesis
1. ¿Mayor alcohol implica mayor calidad? → Relación positiva.
2. ¿La acidez volátil degrada la calidad? → Relación negativa.
3. ¿Sulfatos y SO₂ total mejoran la calidad? → Efecto positivo moderado.
4. ¿Densidad se explica por azúcar residual? → Relación positiva alta.


In [None]:
!wget -q -O winequality-red.csv https://raw.githubusercontent.com/gerardohamburg/CoderHouse/main/winequality-red.csv
import pandas as pd, numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="whitegrid")
df = pd.read_csv("winequality-red.csv")
df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_").str.replace("/", "_")
df.head()

In [None]:
df.shape, df.dtypes

In [None]:
df.isna().sum()

In [None]:
df.describe().T

In [None]:
df["quality"].value_counts().sort_index()

In [None]:
fig, axs = plt.subplots(2, 2, figsize=(10, 7))
sns.histplot(df["alcohol"], kde=True, ax=axs[0,0])
axs[0,0].set_title("Alcohol")
sns.histplot(df["volatile_acidity"], kde=True, ax=axs[0,1])
axs[0,1].set_title("Acidez volátil")
sns.histplot(df["residual_sugar"], kde=True, ax=axs[1,0])
axs[1,0].set_title("Azúcar residual")
sns.histplot(df["sulphates"], kde=True, ax=axs[1,1])
axs[1,1].set_title("Sulfatos")
plt.tight_layout()
plt.show()

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(15, 4))
sns.boxplot(data=df, x="quality", y="alcohol", ax=axs[0])
axs[0].set_title("Alcohol vs Calidad")
sns.boxplot(data=df, x="quality", y="volatile_acidity", ax=axs[1])
axs[1].set_title("Acidez volátil vs Calidad")
sns.scatterplot(data=df, x="residual_sugar", y="density", ax=axs[2])
axs[2].set_title("Azúcar residual vs Densidad")
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(7,5))
sns.scatterplot(data=df, x="alcohol", y="volatile_acidity", hue="quality", size="sulphates", sizes=(20,120), alpha=0.8)
plt.title("Alcohol vs Acidez volátil con color por Calidad y tamaño por Sulfatos")
plt.legend(bbox_to_anchor=(1.05, 1), loc="upper left")
plt.tight_layout()
plt.show()

In [None]:
corr = df.corr(numeric_only=True)
plt.figure(figsize=(9,7))
sns.heatmap(corr, cmap="RdBu_r", center=0, annot=False)
plt.title("Mapa de correlaciones")
plt.tight_layout()
plt.show()
corr["quality"].sort_values(ascending=False)

In [None]:
def iqr_bounds(s):
    q1, q3 = s.quantile(0.25), s.quantile(0.75)
    iqr = q3 - q1
    low, high = q1 - 1.5*iqr, q3 + 1.5*iqr
    return low, high

for col in ["volatile_acidity", "alcohol"]:
    low, high = iqr_bounds(df[col])
    outs = df[(df[col] < low) | (df[col] > high)][col]
    print(col, len(outs))