In [2]:
# Importo las librerías que usaré en el proyecto

import pandas as pd
import numpy as np

## Importación del dataset

In [None]:
# Cargo el dataset que voy a utilizar (./datasets/akc-data-latest.csv)

df = pd.read_csv("../datasets/wines_SPA.csv")

## Información general del dataset

In [4]:
# Muestro las columnas y una fila aleatoria del dataset

print(df.columns.unique())
df.sample(1)

Index(['winery', 'wine', 'year', 'rating', 'num_reviews', 'country', 'region',
       'price', 'type', 'body', 'acidity'],
      dtype='object')


Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
4993,Contino,Rioja Graciano,2011,4.2,395,Espana,Rioja,61.94,Rioja Red,4.0,3.0


In [5]:
# Muestro el tipo de dato de cada columna y los valores únicos para identificar variables

print("Tipos de datos por columna:")
print(df.dtypes)
print("\nValores únicos por columna:")
for col in df.columns:
    print(f"{col}: {df[col].nunique()}")

Tipos de datos por columna:
winery          object
wine            object
year            object
rating         float64
num_reviews      int64
country         object
region          object
price          float64
type            object
body           float64
acidity        float64
dtype: object

Valores únicos por columna:
winery: 480
wine: 847
year: 71
rating: 8
num_reviews: 817
country: 1
region: 76
price: 1292
type: 21
body: 4
acidity: 3


In [6]:
# Reviso las estadísticas descriptivas del dataset

df.describe()

Unnamed: 0,rating,num_reviews,price,body,acidity
count,7500.0,7500.0,7500.0,6331.0,6331.0
mean,4.254933,451.109067,60.095822,4.158427,2.946612
std,0.118029,723.001856,150.356676,0.583352,0.248202
min,4.2,25.0,4.99,2.0,1.0
25%,4.2,389.0,18.9,4.0,3.0
50%,4.2,404.0,28.53,4.0,3.0
75%,4.2,415.0,51.35,5.0,3.0
max,4.9,32624.0,3119.08,5.0,3.0


In [7]:
# Reviso los valores nulos por columna

print(df.isnull().sum())

winery            0
wine              0
year              2
rating            0
num_reviews       0
country           0
region            0
price             0
type            545
body           1169
acidity        1169
dtype: int64


In [8]:
# Reviso los valores únicos en la columna "country"
df["country"].unique()

array(['Espana'], dtype=object)

In [9]:
# Al ser todos los vinos de España, elimino la columna "country"
df = df.drop(columns=["country"])

In [10]:
# Compruebo el número de filas duplicadas 

print("Duplicados:", df.duplicated().sum())

Duplicados: 5452


## Gestión de duplicados y nulos

In [11]:
# 8. Elimio las filas duplicadas

df = df.drop_duplicates()
print("Duplicados:", df.duplicated().sum())

Duplicados: 0


In [13]:
# Vuelvo a revisar la información y los valores nulos por columna
    # El número de filas se ha reducido de 7500 a 2048 al eliminar duplicados
    
print(df.info())
print(df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
Index: 2048 entries, 0 to 6100
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   winery       2048 non-null   object 
 1   wine         2048 non-null   object 
 2   year         2046 non-null   object 
 3   rating       2048 non-null   float64
 4   num_reviews  2048 non-null   int64  
 5   region       2048 non-null   object 
 6   price        2048 non-null   float64
 7   type         1942 non-null   object 
 8   body         1777 non-null   float64
 9   acidity      1777 non-null   float64
dtypes: float64(4), int64(1), object(5)
memory usage: 176.0+ KB
None
winery           0
wine             0
year             2
rating           0
num_reviews      0
region           0
price            0
type           106
body           271
acidity        271
dtype: int64


In [12]:
# Miro los valores únicos de algunas columnas importantes para el análisis por si hubiese outliers destacables

print(f"rating: {df["rating"].unique()}")
print(f"price: {df["price"].unique()}")
print(f"body: {df["body"].unique()}")
print(f"acidity: {df["acidity"].unique()}")

rating: [4.9 4.8 4.7 4.6 4.5 4.4 4.3 4.2]
price: [995.   313.5  324.95 ...  16.76  24.45  31.63]
body: [ 5.  4.  3. nan  2.]
acidity: [ 3.  2.  1. nan]


In [14]:
# Reviso los nulos y campos únicos de la columna "year" para saber cómo gestionarlos
    # Tengo 2 valores NaN y algunos valores N.V. que habrá que gestionar

print(df["year"].unique())

print("\nValores nulos:")
df[df["year"].isnull()]



['2013' '2018' '2009' '1999' '1996' '1998' '2010' '1995' '2015' '2011'
 '2016' '1970' '1946' '1962' '2019' '2004' 'N.V.' '1931' '1979' '2005'
 '2020' '2014' '1985' '1929' '2007' '2012' '2017' '2008' nan '2006' '2000'
 '2003' '2002' '1991' '1994' '1990' '1989' '1987' '1986' '1981' '2001'
 '1968' '1964' '1982' '1974' '1983' '1955' '1980' '1972' '1953' '1958'
 '1942' '1965' '1992' '1973' '1997' '1967' '1975' '1910' '1961' '1954'
 '1988' '1969' '1951' '1928' '1976' '1949' '2021' '1959' '1922' '1978'
 '1925']

Valores nulos:


Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,type,body,acidity
46,Vega Sicilia,Unico Reserva Especial Edicion,,4.7,12421,Ribera del Duero,423.5,Ribera Del Duero Red,5.0,3.0
851,La Unica,Fourth Edition,,4.4,131,Vino de Espana,40.0,Tempranillo,4.0,2.0


In [15]:
# Miro cuántos valores N.V. tengo en la columna "year"

print((df["year"] == "N.V.").sum())

70


In [16]:
# Convierto los valores 'N.V.' de la columna 'year' a valores nulos (NaN)
    # Compruebo que haya funcionado correctamente

df["year"] = df["year"].replace("N.V.", np.nan)
print((df["year"] == "N.V.").sum())
print((df["year"].isnull()).sum())

0
72


In [17]:
# Reviso los valores nulos en la columna "type" para decidir cómo gestionarlos
    # Observo un patrón entre los nulos de type, body y acidity
    
df[df["type"].isnull()]

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,type,body,acidity
120,Finca Moncloa,Tintilla de Rota,2016,4.7,92,Cadiz,43.13000,,,
147,Rafael Palacios,Sorte O Soro Val do Bibei,2019,4.7,37,Valdeorras,194.86000,,,
156,Gutierrez de la Vega,Recondita Armonia Monastrell Dulce,1987,4.7,27,Alicante,81.90000,,,
254,Costers del Siurana,Dolc de L'Obac,2006,4.6,94,Priorato,117.23942,,,
288,Francisco Garcia Perez,Adega do Moucho Treixadura,2017,4.6,53,Ribeiro,34.50000,,,
...,...,...,...,...,...,...,...,...,...,...
1934,Gramona,Gessami,2020,4.2,692,Penedes,11.20000,,,
1982,Emilio Moro,La Revelia Godello,2018,4.2,484,Bierzo,21.95000,,,
1995,Culebron,Fondillon Gran Reserva,1964,4.2,432,Alicante,49.95000,,,
2011,Ramon do Casar,Treixadura,2020,4.2,407,Ribeiro,11.95000,,,


In [18]:
# Al revisar los nulos de la columna "type", observo que todos los registros con "type" nulo también tienen "body" y "acidity" nulos
    
mask = df["type"].isnull()
print((df.loc[mask, ["body", "acidity"]].isnull().all(axis=1)).sum())
print(len(df[mask]))

106
106


In [19]:
# Me doy cuenta de que la columna "type" mezcla los tipos de vino por uva, denominación de origen y estilo de vino
    # Esto dificulta el análisis, ya que no es consistente

In [20]:
# Compruebo los valores únicos de body y acidity por tipo de vino antes de eliminar la columna "type"
    # Veo que el valor de body y acidity es igual para cada tipo de vino
    # Por lo tanto, puedo usar esos valores para rellenar body y acidity antes de eliminar la columna "type"
    
print(df.groupby("type")[["body", "acidity"]].nunique())

                      body  acidity
type                               
Albarino                 1        1
Cabernet Sauvignon       1        1
Cava                     1        1
Chardonnay               1        1
Grenache                 1        1
Mencia                   1        1
Monastrell               1        1
Montsant Red             1        1
Pedro Ximenez            1        1
Priorat Red              1        1
Red                      1        1
Ribera Del Duero Red     1        1
Rioja Red                1        1
Rioja White              1        1
Sauvignon Blanc          1        1
Sherry                   1        1
Sparkling                1        1
Syrah                    1        1
Tempranillo              1        1
Toro Red                 1        1
Verdejo                  1        1


In [21]:
# Relleno los nulos de body y acidity usando los valores medios por tipo de vino y elimino la columna "type"

df["body"] = df.groupby("type")["body"].transform(lambda x: x.fillna(x.mean()))
df["acidity"] = df.groupby("type")["acidity"].transform(lambda x: x.fillna(x.mean()))
df = df.drop(columns=["type"])

In [22]:
df.sample(1)

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,body,acidity
597,Altos del Terral,Cuvee Julia Ribera del Duero,2011,4.5,35,Ribera del Duero,157.0,5.0,3.0


In [23]:
# Vuelvo a comprobar los valores nulos tras las transformaciones realizadas

print(df.dtypes)
print("\nValores nulos por columna:")
print(df.isnull().sum())

winery          object
wine            object
year            object
rating         float64
num_reviews      int64
region          object
price          float64
body           float64
acidity        float64
dtype: object

Valores nulos por columna:
winery           0
wine             0
year            72
rating           0
num_reviews      0
region           0
price            0
body           106
acidity        106
dtype: int64


In [None]:
# Reviso los nulos en la columna "body", qué coinciden con los de la columna "acidity", para ver cómo gestionarlos

pd.set_option("display.max_rows", None)
df[df["body"].isnull()]

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,body,acidity
120,Finca Moncloa,Tintilla de Rota,2016.0,4.7,92,Cadiz,43.13,,
147,Rafael Palacios,Sorte O Soro Val do Bibei,2019.0,4.7,37,Valdeorras,194.86,,
156,Gutierrez de la Vega,Recondita Armonia Monastrell Dulce,1987.0,4.7,27,Alicante,81.9,,
254,Costers del Siurana,Dolc de L'Obac,2006.0,4.6,94,Priorato,117.23942,,
288,Francisco Garcia Perez,Adega do Moucho Treixadura,2017.0,4.6,53,Ribeiro,34.5,,
303,Casal de Arman,Finca Misenhora Edicion Limitada,2018.0,4.6,44,Ribeiro,26.2,,
312,Pago de Larrainzar,Rosado de Larrainzar,2020.0,4.6,39,Navarra,12.0,,
318,Finca Moncloa,Tintilla de Rota,2017.0,4.6,37,Cadiz,43.1,,
340,Telmo Rodriguez,Molino Real,2016.0,4.6,28,Malaga,41.69,,
477,Emilio Rojo,Blanco,2017.0,4.5,134,Ribeiro,49.95,,


In [25]:
# Compruebo los valores únicos de body y acidity por región para ver si puedo rellenar los nulos restantes
    # Veo que para muchas regiones el valor de body y acidity es igual, por lo que puedo usar esos valores para rellenar los nulos restantes

print(df.groupby("region")[["body", "acidity"]].nunique())

                                 body  acidity
region                                        
Abona                               0        0
Alella                              2        1
Alicante                            1        1
Almansa                             2        1
Andalucia                           1        1
Aragon                              1        1
Arinzano                            1        1
Arribes                             1        1
Bierzo                              2        1
Binissalem-Mallorca                 1        1
Cadiz                               1        1
Calatayud                           1        1
Campo de Borja                      2        1
Carinena                            2        1
Castilla                            1        1
Castilla y Leon                     3        2
Cataluna                            2        1
Cava                                1        1
Cigales                             1        2
Conca de Barb

In [26]:
# Relleno los nulos posibles de body y acidity usando los valores medios por región
    # No se rellenarán todos los nulos, ya que algunas regiones tienen todos sus valores nulos en body y acidity
    
df["body"] = df.groupby("region")["body"].transform(lambda x: x.fillna(x.mean()))
df["acidity"] = df.groupby("region")["acidity"].transform(lambda x: x.fillna(x.mean()))

In [27]:
# Compruebo qué nulos quedan en body, y si coinciden con los de acidity
    # Decido mantener los valores nulos restantes, ya que son pocos y no quiero introducir sesgos en el dataset

print(df.isnull().sum())
df[df["body"].isnull()]

winery          0
wine            0
year           72
rating          0
num_reviews     0
region          0
price           0
body           23
acidity        23
dtype: int64


Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,body,acidity
147,Rafael Palacios,Sorte O Soro Val do Bibei,2019.0,4.7,37,Valdeorras,194.86,,
488,Rafael Palacios,As Sortes Val do Bibei Godello,2020.0,4.5,115,Valdeorras,55.0,,
744,Rafael Palacios,As Sortes Val do Bibei Godello,2018.0,4.4,412,Valdeorras,55.71,,
757,Rafael Palacios,As Sortes Val do Bibei Godello,2019.0,4.4,333,Valdeorras,46.5,,
801,Dominio do Bibei,Lapola,2019.0,4.4,196,Ribeira Sacra,20.74,,
887,Pago de Los Capellanes,O Luar do Sil Valdeorras Godello Sobre Lias,2020.0,4.4,101,Valdeorras,16.39,,
1265,St. Petroni,Vermello Vermu,,4.3,424,Galicia,10.89,,
1268,Llanos Negros,Los Tabaqueros,2006.0,4.3,419,La Palma,21.95,,
1280,Avancia,Godello,2019.0,4.3,375,Valdeorras,23.4,,
1319,Godeval,Cepas Vellas Godello,2019.0,4.3,272,Valdeorras,18.48,,


## Corrección de tipo de datos

In [28]:
# Compruebo de nuevo la información y las estadísticas descriptivas del dataset tras las transformaciones realizadas

df.info()
print("\n", df.describe())
df.sample(1)

<class 'pandas.core.frame.DataFrame'>
Index: 2048 entries, 0 to 6100
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   winery       2048 non-null   object 
 1   wine         2048 non-null   object 
 2   year         1976 non-null   object 
 3   rating       2048 non-null   float64
 4   num_reviews  2048 non-null   int64  
 5   region       2048 non-null   object 
 6   price        2048 non-null   float64
 7   body         2025 non-null   float64
 8   acidity      2025 non-null   float64
dtypes: float64(4), int64(1), object(4)
memory usage: 160.0+ KB

             rating   num_reviews        price         body      acidity
count  2048.000000   2048.000000  2048.000000  2025.000000  2025.000000
mean      4.401123    573.994629   135.242194     4.244815     2.926960
std       0.147023   1376.153171   272.178316     0.653578     0.319932
min       4.200000     25.000000     4.990000     2.000000     1.000000
25%       4

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,body,acidity
933,Ontanon,Queiron Reserva Vinedos Familiares,2011,4.4,74,Rioja,26.85,4.0,3.0


In [29]:
# Transformo la columna year a numérica
    # Los valores nulos se mantendrán como NaN
    
df["year"] = pd.to_numeric(df["year"], errors='coerce').astype('Int64')
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2048 entries, 0 to 6100
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   winery       2048 non-null   object 
 1   wine         2048 non-null   object 
 2   year         1976 non-null   Int64  
 3   rating       2048 non-null   float64
 4   num_reviews  2048 non-null   int64  
 5   region       2048 non-null   object 
 6   price        2048 non-null   float64
 7   body         2025 non-null   float64
 8   acidity      2025 non-null   float64
dtypes: Int64(1), float64(4), int64(1), object(3)
memory usage: 162.0+ KB


In [30]:
# El resto de columnas ya están en el formato adecuado

## Normalización

- Normalización de la columna rating
    - Se creará la columna rating_norm, qué ofrecerá más claridad a la hora de ver qué vinos tienen más rating
    - Esto es debido a que el rating mínimo de la tabla es 4.2 y el máximo es 4.9

- Creación de la columna calidad precio en base al rating normalizado

In [31]:
df["rating"].unique()

array([4.9, 4.8, 4.7, 4.6, 4.5, 4.4, 4.3, 4.2])

In [32]:
# Normalizo la columna "rating" usando Min-Max

df["rating_norm"] = (df["rating"] - df["rating"].min()) / (df["rating"].max() - df["rating"].min())
print(df[["rating", "rating_norm"]].sample(5))

      rating  rating_norm
1141     4.3     0.142857
1966     4.2     0.000000
828      4.4     0.285714
1720     4.3     0.142857
571      4.5     0.428571


In [33]:
df.sample(1)

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,body,acidity,rating_norm
544,Artadi,Grandes Anadas Rioja,1998,4.5,66,Rioja,467.65,4.0,3.0,0.428571


In [34]:
# Ahora busco la mejor forma de normalizar la columna "price" para obtener la mejor forma de calcular la calidad-precio

df["price"].sort_values(ascending=False)

338     3119.080000
196     2884.040000
115     2814.160000
343     2750.000000
280     2750.000000
92      2087.250000
188     1785.960000
248     1746.940000
98      1715.180000
332     1660.000000
199     1638.950000
16      1620.000000
205     1595.000000
234     1503.000000
83      1500.000000
97      1500.000000
105     1422.960000
127     1410.260000
27      1410.260000
94      1384.540000
595     1373.660000
100     1372.140000
215     1372.140000
235     1372.140000
573     1372.140000
180     1359.750000
191     1350.000000
116     1325.000000
40      1295.000000
42      1289.440000
22      1280.000000
258     1260.000000
123     1252.350000
295     1250.000000
96      1250.000000
314     1238.430000
121     1207.600000
185     1198.720000
84      1190.000000
35      1190.000000
31      1182.770000
113     1150.000000
36      1150.000000
130     1113.200000
232     1106.240000
291     1099.280000
43      1098.900000
45      1094.900000
229     1080.000000
118     1071.450000


In [35]:
# Divido la columna "price" en tres rangos: alto (>1000), medio (50-1000) y bajo (<=50)
    # Esto lo usaré para calcular la relación calidad-precio

df_high_price = df["price"] > 1000
df[df_high_price].count()

winery         51
wine           51
year           51
rating         51
num_reviews    51
region         51
price          51
body           51
acidity        51
rating_norm    51
dtype: int64

In [36]:
df_mid_price = (df["price"] <= 1000) & (df["price"] >= 50)
df[df_mid_price].count()

winery         1017
wine           1017
year            980
rating         1017
num_reviews    1017
region         1017
price          1017
body           1014
acidity        1014
rating_norm    1017
dtype: int64

In [37]:
df_low_price = df["price"] <= 50
df[df_low_price].count()

winery         985
wine           985
year           949
rating         985
num_reviews    985
region         985
price          985
body           965
acidity        965
rating_norm    985
dtype: int64

In [38]:
# Creo la columna "price_group" usando los filtros que he hecho anteriormente para agrupar los precios
    # Compruebo que se ha creado y funciona correctamente

df.loc[df["price"] <= 50, "price_group"] = "low"
df.loc[(df["price"] <= 1000) & (df["price"] > 50), "price_group"] = "mid"
df.loc[df["price"] > 1000, "price_group"] = "high"

print(df[["price", "price_group"]].sample(10))

       price price_group
1199   25.45         low
1319   18.48         low
519    85.95         mid
1405   37.29         low
921   152.60         mid
1284   16.25         low
574    79.55         mid
354    75.00         mid
1637  196.29         mid
1495  135.95         mid


In [None]:
# Calculo el percentil de rating y price dentro de cada grupo de precio
    # Utilizo ese percentil para calcular la métrica calidad/precio de forma que un buen rating y un precio bajo den un buen resultado
    # Este rating de calidad/precio estará entre 0 y 100
    
rating_pct = df.groupby("price_group")["rating_norm"].rank(pct=True)
price_pct = df.groupby("price_group")["price"].rank(pct=True)
df["quality_price_percent"] = ((rating_pct + (1 - price_pct)) / 2) * 100
print(df[["price", "price_group", "rating_norm", "quality_price_percent"]].sample(10))

          price price_group  rating_norm  quality_price_percent
822    80.95000         mid     0.285714              50.568182
1101   15.50000         low     0.285714              85.634518
1176   38.00000         low     0.142857              33.680203
182   890.00000         mid     0.571429              40.884387
1351   30.30000         low     0.142857              46.852792
1586   75.00000         mid     0.142857              41.897233
170   129.95000         mid     0.571429              58.967391
302    53.95000         mid     0.571429              87.697628
1822    4.99000         low     0.000000              54.923858
1779   28.75501         low     0.142857              49.213198


In [40]:
df.sample(5)

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,body,acidity,rating_norm,price_group,quality_price_percent
1992,Adega Familiar Eladio Pineiro,Envidiacochina (Tete de Cuvee),2019,4.2,438,Rias Baixas,18.46,3.0,3.0,0.0,low,47.86802
1772,Mestres,Mas Via Gran Reserva Brut,2002,4.3,29,Cava,76.17,2.0,3.0,0.142857,mid,40.83498
52,Vega Sicilia,Unico,2000,4.7,3127,Ribera del Duero,555.2,5.0,3.0,0.714286,mid,48.517787
1343,Jorge Ordonez,No. 2 Victoria,2017,4.3,232,Malaga,21.4,4.0,3.0,0.142857,low,60.177665
695,Alto Moncayo,Garnacha,2018,4.4,915,Campo de Borja,38.95,5.0,3.0,0.285714,low,50.35533


In [41]:
# Compruebo la información final del dataset tras todas las transformaciones realizadas antes de guardar el dataset limpio

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2048 entries, 0 to 6100
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   winery                 2048 non-null   object 
 1   wine                   2048 non-null   object 
 2   year                   1976 non-null   Int64  
 3   rating                 2048 non-null   float64
 4   num_reviews            2048 non-null   int64  
 5   region                 2048 non-null   object 
 6   price                  2048 non-null   float64
 7   body                   2025 non-null   float64
 8   acidity                2025 non-null   float64
 9   rating_norm            2048 non-null   float64
 10  price_group            2048 non-null   object 
 11  quality_price_percent  2048 non-null   float64
dtypes: Int64(1), float64(6), int64(1), object(4)
memory usage: 210.0+ KB


In [42]:
# Ordeno las columnas del dataset para dejarlo más limpio y legible para la exportación

df = df[["winery", "wine", "year", "rating", "rating_norm","price", "price_group", "region", "body", "acidity", "quality_price_percent"]]
df.sample(1)

Unnamed: 0,winery,wine,year,rating,rating_norm,price,price_group,region,body,acidity,quality_price_percent
180,Dominio de Pingus,Pingus,2010,4.6,0.571429,1359.75,high,Ribera del Duero,5.0,3.0,37.254902


In [None]:
# Guardo el dataset limpio en un nuevo archivo CSV

df.to_csv("../datasets/wines_SPA_cleaned.csv", index=False)