# Avance de proyecto final - Clasificación de calidad de vinos


In [None]:
import io
import zipfile
from pathlib import Path
from typing import Final

import pandas as pd
import requests

Para el presente trabajo, se están siguiendo las siguientes instrucciones:

> El proyecto final estará enfocado en generar un dashboard interactivo. Por
> ahora, para este avance se pide lo siguiente: Se debe encontrar un conjunto de
> datos, plantear un problema y realizar un análisis exploratorio.
>
> Se debe entregar dos cosas:
>
> - Documento de máximo 2 páginas con formato IEEE, donde se indique: problema,
>   link del conjunto de datos, análisis exploratorio, explicación de lo
>   realizado en el avance y cuáles serán los siguientes pasos a realizar.
> - Video de máximo 3 minutos, explicando el problema y la posible solución.

Se estará empleados el siguiente
[repositorio de datos](https://archive.ics.uci.edu/dataset/186/wine+quality).


In [None]:
dataset_url: Final[str] = (
    "https://archive.ics.uci.edu/static/public/186/wine+quality.zip"
)

In [None]:
response = requests.get(
    dataset_url,
    timeout=10,
)

with zipfile.ZipFile(io.BytesIO(response.content)) as zip_file:
    zip_file.extractall("data")

data_path: Final[Path] = Path("data")
files: list[Path] = [*data_path.iterdir()]

if len(files) != 3:  # noqa: PLR2004
    raise ValueError("Multiple files downloaded, expected only three")  # noqa: EM101, TRY003

raw_dataset_csv_paths: Final[list[Path]] = [
    Path("raw_dataset_red.csv"),
    Path("raw_dataset_white.csv"),
]

for raw_dataset_csv_path in raw_dataset_csv_paths:
    if raw_dataset_csv_path.exists():
        raw_dataset_csv_path.unlink()

files[0].rename(raw_dataset_csv_paths[0])
files[1].rename(raw_dataset_csv_paths[1])

for file in files:
    if file.exists():
        file.unlink()

data_path.rmdir()

In [None]:
dfs = [
    pd.read_csv(raw_dataset_csv_path, sep=";")
    for raw_dataset_csv_path in raw_dataset_csv_paths
]
df = pd.concat(dfs, ignore_index=True)  # noqa: PD901

En los presentes datasets de [vino rojo](./raw_dataset_red.csv) y
[vino blanco](./raw_dataset_white.csv) podemos encontrar las siguientes
columnas:

- `fixed-acidity`: Acidez fija del vino, medida en $\text{g/dm} ^ 3$, influye en
  su sabor y estabilidad.
- `volatile-acidity`: Acidez volátil del vino, medida en $\text{g/dm} ^ 3$,
  niveles altos pueden generar sabores desagradables.
- `citric-acid`: Ácido cítrico presente en el vino, medido en $\text{g/dm} ^ 3$,
  aporta frescura y estabilidad.
- `residual-sugar`: Azúcar residual en el vino, medido en $\text{g/dm} ^ 3$,
  afecta el dulzor del producto final.
- `chlorides`: Contenido de cloruros en el vino, medido en $\text{g/dm} ^ 3$,
  relacionado con la salinidad.
- `free-sulfur-dioxide`: Dióxido de azufre libre en el vino, medido en
  $\text{mg/dm} ^ 3$, protege contra la oxidación y microorganismos.
- `total-sulfur-dioxide`: Dióxido de azufre total en el vino, medido en
  $\text{mg/dm} ^ 3$, suma del $\text{SO}_2$ libre y combinado.
- `density`: Densidad del vino, medida en $\text{g/cm} ^ 3$, depende del
  contenido de azúcar y alcohol.
- `pH`: Nivel de acidez o alcalinidad del vino, escala sin unidad, influye en su
  estabilidad y sabor.
- `sulphates`: Contenido de sulfatos en el vino, medido en $\text{g/dm} ^ 3$,
  afecta la conservación y aroma.
- `alcohol`: Porcentaje de alcohol en el vino, expresado en $\text{\% vol}$,
  influye en el cuerpo y sabor.
- `quality`: Puntuación de calidad del vino, valor entre $0$ y $10$, basada en
  evaluaciones sensoriales.
