# CALIDAD DEL VINO A TRAVES DE SUS PROPIEDADES 


![Vino blanco](../docs/vino-blanco-gatao.jpg)
![Vino rosado](../docs/vino-rosado-gatao.jpg)


### Mi proyecto se centrará en el vino verde, un producto único de la región del Miño (noroeste de Portugal).   
### De graduación alcohólica media, es especialmente apreciado por su frescura (especialmente en verano).   
### Este vino representa el 15% de la producción total portuguesa, y alrededor del 10% se exporta, principalmente vino blanco.   

![Mapa_1](../docs/Mapa_1.png)
![Mapa_2](../docs/Mapa_2.png)


### En este DataSet se analizan las dos variantes más comunes, blanco y rosado, de la región denominación de origen del vino verde.   
### Las muestras se analizaron en la entidad de certificación oficial (CVRVV). La CVRVV es una organización interprofesional cuyo objetivo es mejorar la calidad y la comercialización del vino verde.   
### Los datos se registraron mediante un sistema informático (iLab), que gestiona automáticamente el proceso de análisis de muestras de vino, desde la solicitud del productor hasta el análisis de laboratorio y sensorial.    

### La evaluación de la calidad suele ser parte del proceso de certificación y puede utilizarse para mejorar la elaboración del vino (identificando los factores más influyentes) y para estratificar los vinos como las marcas premium (útil para fijar precios).

## -------------------------OBJETIVO------------------------

Con este proyecto pretendo predecir la calidad que tendrá un vino de denominación 'Vino verde' a partir de sus características Fisico-Quimicas principales.  
El target será entonces 'Quality' y el modelo se basará en la regresión.
Por otro lado, tengo la posibilidad de predecir también con este DataSet si el vino es blanco o rosado, en este caso el modelo se basará en la clasificación.


[Datasets Calidad del vino](https://archive.ics.uci.edu/dataset/186/wine+quality)

In [1]:
import pandas as pd
df = pd.read_csv('../data/wine_qualityl.csv', sep=',')

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   wine_type             6497 non-null   object 
 1   fixed acidity         6497 non-null   float64
 2   volatile acidity      6497 non-null   float64
 3   citric acid           6497 non-null   float64
 4   residual sugar        6497 non-null   float64
 5   chlorides             6497 non-null   float64
 6   free sulfur dioxide   6497 non-null   float64
 7   total sulfur dioxide  6497 non-null   float64
 8   density               6497 non-null   float64
 9   pH                    6497 non-null   float64
 10  sulphates             6497 non-null   float64
 11  alcohol               6497 non-null   float64
 12  quality               6497 non-null   int64  
dtypes: float64(11), int64(1), object(1)
memory usage: 660.0+ KB


In [3]:
df.head(10)

Unnamed: 0,wine_type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,red,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,red,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,red,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,red,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,red,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
5,red,7.4,0.66,0.0,1.8,0.075,13.0,40.0,0.9978,3.51,0.56,9.4,5
6,red,7.9,0.6,0.06,1.6,0.069,15.0,59.0,0.9964,3.3,0.46,9.4,5
7,red,7.3,0.65,0.0,1.2,0.065,15.0,21.0,0.9946,3.39,0.47,10.0,7
8,red,7.8,0.58,0.02,2.0,0.073,9.0,18.0,0.9968,3.36,0.57,9.5,7
9,red,7.5,0.5,0.36,6.1,0.071,17.0,102.0,0.9978,3.35,0.8,10.5,5


### Input variables (basadas en análisis físico-químicos):  
   <span style="color:red">1 - fixed acidity (acidez fija).</span> Acidos no volátiles (tartárico, málico, cítrico)   
   Estructura y frescor del vino. Niveles muy altos = sabor agresivo. (4-10 g/L)          
   <span style="color:red">2 - volatile acidity (acidez volatil).</span> Se evaporan fácilmente (acétco)    
   En exceso olor a vinagre. (< 0.6 g/L)  
   <span style="color:red">3 - citric acid. (acido citrico)</span>   
   Da frescura pero puede ser artificial. (0-1 g/L)     
   <span style="color:red">4 - residual sugar. (azucar residual)</span>   
   Los no fermentados después de la vinificación.    
   Dulzor. Seco (<4 g/L), semiseco (4-12 g/L), dulce (>12 g/L).     
   <span style="color:red">5 - chlorides. (cloruros)</span> Conservante antimicrobiano y antioxidante.    
   En exceso = sabor salado o "agua de mar". (0.01-0.1 g/L.)       
   <span style="color:red">6 - free sulfur dioxide. (SO₂ libre)</span>   
   Protege el vino, pero en exceso = olor a cerilla. (10-50 mg/L).   
   <span style="color:red">7 - total sulfur dioxide. (SO₂ total)</span> Suma de SO₂ libre + combinado    
   Límites legales (ej. 200 mg/L en vinos rosados)   
   <span style="color:red">8 - density. (densidad)</span>      
   Indicador de fermentación. Vinos secos ≈ 0.990-1.000 g/mL.    
   <span style="color:red">9 - pH.</span> Medida de acidez (escala 0-14).   
   Estabilidad microbiológica y color. Vinos típicos: 3.0-3.8.      
   <span style="color:red">10 - sulphates. (sulfatos)</span> Sales del ácido sulfúrico (K₂SO₄).    
   Afecta la fermentación y conservación. Típico: 0.5-1 g/L.      
   <span style="color:red">11 - alcohol. (% vol)</span> Etanol resultante de la fermentación    
   Cuerpo y percepción de dulzor. Típico: 9-15%.     
### Target variable (basado en datos sensoriales):     
   <span style="color:red">12 - quality (score entre 0 y 10).</span> La media de al menos tres evaluaciones hechas por expertos en vino.