# Dataset vinos españoles
Los datos para el análisis se han obtenido de la página Kaglle: 
https://www.kaggle.com/datasets/fedesoriano/spanish-wine-quality-dataset  

Estos datos nos muestran información de diversos tipos de vinos españoles registrados durante el periodo 1910-2021.

**Nombre del dataset:**  wines_SPA.csv



In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math
from IPython.display import display
import io 
import scipy 
import scipy.stats as stats
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler

In [3]:
data = pd.read_csv("wines_SPA.csv")

In [4]:
data.head()

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
0,Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.0,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.5,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0


**Campos que componen el dataset:**

 1. **winery**: Nombre de la bodega.
 2. **wine:** Nombre del vino.
 3. **year:** Año en que se cosecharon las uvas.
 4. **rating:** Puntuación media dada al vino por los usuarios [de 1 a 5].
 5. **num_reviews:** Número de usuarios que revisaron el vino.
 6. **country:** País de origen [España].
 7. **region:** Denominación de Origen del vino [patente].
 8. **price:** Precio en euros [€].
 9. **type:** Variedad de vino.
 10. **body:** Puntuación de cuerpo, definida como la riqueza y el peso del vino en la boca [de 1 a 5].
 11. **acidity:** Puntuación de acidez, definida como la "puckered" o acidez del vino [de 1 a 5].

In [5]:
data.shape
data.info()
data.describe()
print(data.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7500 entries, 0 to 7499
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   winery       7500 non-null   object 
 1   wine         7500 non-null   object 
 2   year         7498 non-null   object 
 3   rating       7500 non-null   float64
 4   num_reviews  7500 non-null   int64  
 5   country      7500 non-null   object 
 6   region       7500 non-null   object 
 7   price        7500 non-null   float64
 8   type         6955 non-null   object 
 9   body         6331 non-null   float64
 10  acidity      6331 non-null   float64
dtypes: float64(4), int64(1), object(6)
memory usage: 644.7+ KB
winery            0
wine              0
year              2
rating            0
num_reviews       0
country           0
region            0
price             0
type            545
body           1169
acidity        1169
dtype: int64


El dataset está compuesto por 7.500 filas y 11 columnas. Cada fila corresponde a un vino y cada columna corresponde a una característica del mismo. 
Incluye 11 características (columnas): el nombre del vino, la bodega de la cual proviene, el año de la cosecha, la calificación promedio obtenida en las reseñas, el número de reseñas sobre el vino, el país de origen (todos provienen de España), la región del vino, el precio en euros, la variedad, la puntuación de cuerpo y la puntuación de acidez.

Tiene
6 campos tipo "object": winery, wine, year, country, region, type.
4 campos tipo "floats": rating, price, body, acidity
1 campo tipo "int": num_reviews

In [6]:
# Obtener valores únicos por columna
for col in data.columns:
    unique_values = data[col].unique()
    print(f"Columna: {col}")
    print(f"Valores únicos ({len(unique_values)}): {unique_values}\n")

Columna: winery
Valores únicos (480): ['Teso La Monja' 'Artadi' 'Vega Sicilia' 'Pago de Carraovejas'
 'Toro Albala' 'Bodegas El Nido' 'Valdespino' 'Dominio de Pingus'
 'Alvaro Palacios' 'Ordonez' 'Bodegas Valduero' 'Vina Sastre'
 'Sierra Cantabria' 'Descendientes de J. Palacios' 'La Rioja Alta'
 'Marques de Murrieta' 'Vinedos de Paganos' 'Emilio Moro'
 'Quinta de la Quietud' 'Bodegas Mauro' 'Bodega Contador (Benjamin Romeo)'
 'Remirez de Ganuza' 'Bodegas San Roman' 'Pago de Los Capellanes'
 'Bodega Numanthia' 'Alto Moncayo' 'Mas Doix' 'Finca Moncloa'
 'Bodegas Roda' 'Martinet' 'Recaredo' 'Clos Erasmus' 'Barbadillo'
 'Gonzalez-Byass' 'Bodegas Amaren' 'Alvear' 'Equipo Navazos' 'Morca'
 'Territorio Luthier' 'Rafael Palacios' 'Terra Remota'
 'Dehesa de Los Canonigos' 'Miguel Merino' 'Gutierrez de la Vega' 'Alion'
 'Aalto' 'Carmelo Rodero' 'Dominio del Bendito' "Mas d'en Gil"
 'Casa Castillo' 'Matarromera' 'Nin-Ortiz' 'Vinas del Vero'
 'Marques de Riscal' 'Arzuaga' 'Bodegas Mas Alta' 'Domin

In [7]:
data['year'].isna().value_counts()

year
False    7498
True        2
Name: count, dtype: int64

In [8]:
data.isna().sum()

winery            0
wine              0
year              2
rating            0
num_reviews       0
country           0
region            0
price             0
type            545
body           1169
acidity        1169
dtype: int64

In [12]:
# Validar si las filas vacías que tienen tanto 'body' como 'acidity' son las mismas
condition = data['body'].dropna()
display(condition)

0       5.0
1       4.0
2       5.0
3       5.0
4       5.0
       ... 
7495    4.0
7496    4.0
7497    4.0
7498    5.0
7499    5.0
Name: body, Length: 6331, dtype: float64

In [13]:
# Visualizar las filas que tienen TODOS los valores (type, body y acidity) vacíos
condition = data['type'].isna() & data['body'].isna() & data['acidity'].isna() 
print("Filas que tienen NaN en todas las columnas especificadas:")
print(data[condition])

Filas que tienen NaN en todas las columnas especificadas:
                      winery                                wine  year  \
120            Finca Moncloa                    Tintilla de Rota  2016   
147          Rafael Palacios           Sorte O Soro Val do Bibei  2019   
156     Gutierrez de la Vega  Recondita Armonia Monastrell Dulce  1987   
254      Costers del Siurana                      Dolc de L'Obac  2006   
288   Francisco Garcia Perez          Adega do Moucho Treixadura  2017   
...                      ...                                 ...   ...   
7440                Binigrau                              Nounat  2020   
7462          Ramon do Casar                          Treixadura  2020   
7465                Binigrau                              Nounat  2020   
7487          Ramon do Casar                          Treixadura  2020   
7490                Binigrau                              Nounat  2020   

      rating  num_reviews country      region      pr

In [None]:
# 1. Verificar nulos por columna (y solo mostrar las que tienen nulos)
nulos_restantes = data.isnull().sum()
print("Nulos restantes por columna:")
print(nulos_restantes[nulos_restantes > 0])

# 2. Verificar el conteo TOTAL
nulos_totales = data.isnull().sum().sum()
print(f"\nConteo TOTAL de NaN en todo el DataFrame: {nulos_totales}")

if nulos_totales == 0:
    print("\n¡Excelente! No queda ningún valor NaN en el DataFrame.")
else:
    print("\nAún quedan valores NaN. Revisa las columnas mostradas arriba para ver dónde.")

Nulos restantes por columna:
year      2
type    106
dtype: int64

Conteo TOTAL de NaN en todo el DataFrame: 108

Aún quedan valores NaN. Revisa las columnas mostradas arriba para ver dónde.


In [None]:
data = data.drop(columns=['country'])
data.head()

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,type,body,acidity
0,Teso La Monja,Tinto,2013,4.9,58,Toro,995.0,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Vino de Espana,313.5,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0


In [21]:
data_clean=data.dropna(subset=["acidity", "body", "type"], how="all")

# Definir las columnas a normalizar
cols_to_norm = ["acidity", "body"]

# Crear el escalador
scaler = MinMaxScaler()

# Aplicar la normalización y reemplazar las columnas originales
data_clean[cols_to_norm] = scaler.fit_transform(data_clean[cols_to_norm])
data_clean.to_csv('./data/vinos.csv', index=False)

print (data_clean)

                    winery             wine  year  rating  num_reviews  \
0            Teso La Monja            Tinto  2013     4.9           58   
1                   Artadi    Vina El Pison  2018     4.9           31   
2             Vega Sicilia            Unico  2009     4.8         1793   
3             Vega Sicilia            Unico  1999     4.8         1705   
4             Vega Sicilia            Unico  1996     4.8         1309   
...                    ...              ...   ...     ...          ...   
7495               Contino          Reserva  2016     4.2          392   
7496  Conreria d'Scala Dei    Les Brugueres  2018     4.2          390   
7497           Mustiguillo  Finca Terrerazo  2017     4.2          390   
7498           Matarromera     Gran Reserva  2011     4.2          389   
7499              Sei Solo         Preludio  2016     4.2          388   

     country            region   price                  type      body  \
0     Espana              Toro  995.0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_clean[cols_to_norm] = scaler.fit_transform(data_clean[cols_to_norm])


Ya que todos los vinos son españoles, se elimina la columna "country" .

In [None]:
data['body'].isna().value_counts()

body
False    6331
True     1169
Name: count, dtype: int64

In [None]:
data['acidity'].isna().value_counts()

acidity
False    6331
True     1169
Name: count, dtype: int64

In [None]:
df = data[
    (data["type"] == 'Cava') &
    (data["acidity"].between(1.9, 3.1)) &
    (data["body"].between(1.9, 3.1))
]
df.head(20)


Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
129,Recaredo,Turo d'en Mota,2007,4.7,64,Espana,Cava,99.0,Cava,2.0,3.0
148,Recaredo,Reserva Particular de Recaredo Brut Nature,2011,4.7,35,Espana,Cava,65.05,Cava,2.0,3.0
271,Recaredo,Reserva Particular de Recaredo Brut Nature,2008,4.6,69,Espana,Cava,74.9,Cava,2.0,3.0
283,Gramona,Cava Enoteca Finca La Plana Brut Nature,2001,4.6,58,Espana,Cava,164.66,Cava,2.0,3.0
466,Recaredo,Turo d'en Mota,2005,4.5,161,Espana,Cava,90.0,Cava,2.0,3.0
471,Recaredo,Turo d'en Mota,2006,4.5,142,Espana,Cava,110.0,Cava,2.0,3.0
502,Mestres,Mas Via Gran Reserva Brut,2004,4.5,102,Espana,Cava,40.33,Cava,2.0,3.0
568,Agusti Torello Mata,Cava Kripta Gran Reserva Brut Nature,2013,4.5,49,Espana,Cava,53.7,Cava,2.0,3.0
621,Gramona,Cava Enoteca Finca de L'Origen Brut Nature,2002,4.5,28,Espana,Cava,142.0,Cava,2.0,3.0
672,Agusti Torello Mata,Cava Kripta Gran Reserva Brut Nature,2008,4.4,1269,Espana,Cava,52.5,Cava,2.0,3.0
