In [None]:
# Importo las librerías que usaré en el proyecto

import pandas as pd
import numpy as np

In [98]:
# Cargo el dataset que voy a utilizar (./datasets/akc-data-latest.csv)

df = pd.read_csv('../datasets/wines_SPA.csv')

In [99]:
# Muestro una fila aleatoria del dataset para ver las columnas y su contenido

df.sample(1)

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
2360,Campillo,Gran Reserva Rioja,2012,4.2,410,Espana,Rioja,22.99,Rioja Red,4.0,3.0


In [100]:
# Muestro el tipo de dato de cada columna y los valores únicos para identificar variables

print("Tipos de datos por columna:")
print(df.dtypes)
print("\nValores únicos por columna:")
for col in df.columns:
    print(f"{col}: {df[col].nunique()}")

Tipos de datos por columna:
winery          object
wine            object
year            object
rating         float64
num_reviews      int64
country         object
region          object
price          float64
type            object
body           float64
acidity        float64
dtype: object

Valores únicos por columna:
winery: 480
wine: 847
year: 71
rating: 8
num_reviews: 817
country: 1
region: 76
price: 1292
type: 21
body: 4
acidity: 3


In [101]:
# Reviso las estadísticas descriptivas del dataset

df.describe()

Unnamed: 0,rating,num_reviews,price,body,acidity
count,7500.0,7500.0,7500.0,6331.0,6331.0
mean,4.254933,451.109067,60.095822,4.158427,2.946612
std,0.118029,723.001856,150.356676,0.583352,0.248202
min,4.2,25.0,4.99,2.0,1.0
25%,4.2,389.0,18.9,4.0,3.0
50%,4.2,404.0,28.53,4.0,3.0
75%,4.2,415.0,51.35,5.0,3.0
max,4.9,32624.0,3119.08,5.0,3.0


In [91]:
# Reviso los valores nulos por columna

print(df.isnull().sum())

winery            0
wine              0
year              2
rating            0
num_reviews       0
country           0
region            0
price             0
type            545
body           1169
acidity        1169
dtype: int64


In [92]:
# Compruebo el número de filas duplicadas 

print("Duplicados:", df.duplicated().sum())

Duplicados: 5452


In [102]:
# 8. Elimio las filas duplicadas

df = df.drop_duplicates()
print("Duplicados:", df.duplicated().sum())

Duplicados: 0


In [103]:
# Miro los valores únicos de algunas columnas importantes para el análisis por si hubiese outliers destacables

print(f"rating: {df["rating"].unique()}")
print(f"price: {df["price"].unique()}")
print(f"body: {df["body"].unique()}")
print(f"acidity: {df["acidity"].unique()}")

rating: [4.9 4.8 4.7 4.6 4.5 4.4 4.3 4.2]
price: [995.   313.5  324.95 ...  16.76  24.45  31.63]
body: [ 5.  4.  3. nan  2.]
acidity: [ 3.  2.  1. nan]


In [95]:
# Vuelvo a revisar la información y los valores nulos por columna
    # El número de filas se ha reducido de 7500 a 2048 al eliminar duplicados
    
print(df.info())
print(df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
Index: 2048 entries, 0 to 6100
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   winery       2048 non-null   object 
 1   wine         2048 non-null   object 
 2   year         2046 non-null   object 
 3   rating       2048 non-null   float64
 4   num_reviews  2048 non-null   int64  
 5   country      2048 non-null   object 
 6   region       2048 non-null   object 
 7   price        2048 non-null   float64
 8   type         1942 non-null   object 
 9   body         1777 non-null   float64
 10  acidity      1777 non-null   float64
dtypes: float64(4), int64(1), object(6)
memory usage: 192.0+ KB
None
winery           0
wine             0
year             2
rating           0
num_reviews      0
country          0
region           0
price            0
type           106
body           271
acidity        271
dtype: int64


In [96]:
# Decido revisar los nulos de la columna "year" para saber cómo gestionarlos

df[df["year"].isnull()]

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
46,Vega Sicilia,Unico Reserva Especial Edicion,,4.7,12421,Espana,Ribera del Duero,423.5,Ribera Del Duero Red,5.0,3.0
851,La Unica,Fourth Edition,,4.4,131,Espana,Vino de Espana,40.0,Tempranillo,4.0,2.0


In [None]:
# Mantengo los nulos en "year" y los gestionaré al convertir la columna a numérica

In [113]:
# Reviso los valores nulos en la columna "type" para decidir cómo gestionarlos
    # Observo un patrón entre los nulos de type, body y acidity
    
df[df["type"].isnull()]

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
120,Finca Moncloa,Tintilla de Rota,2016,4.7,92,Espana,Cadiz,43.13,,,
147,Rafael Palacios,Sorte O Soro Val do Bibei,2019,4.7,37,Espana,Valdeorras,194.86,,,
156,Gutierrez de la Vega,Recondita Armonia Monastrell Dulce,1987,4.7,27,Espana,Alicante,81.9,,,
254,Costers del Siurana,Dolc de L'Obac,2006,4.6,94,Espana,Priorato,117.23942,,,
288,Francisco Garcia Perez,Adega do Moucho Treixadura,2017,4.6,53,Espana,Ribeiro,34.5,,,
303,Casal de Arman,Finca Misenhora Edicion Limitada,2018,4.6,44,Espana,Ribeiro,26.2,,,
312,Pago de Larrainzar,Rosado de Larrainzar,2020,4.6,39,Espana,Navarra,12.0,,,
318,Finca Moncloa,Tintilla de Rota,2017,4.6,37,Espana,Cadiz,43.1,,,
340,Telmo Rodriguez,Molino Real,2016,4.6,28,Espana,Malaga,41.69,,,
477,Emilio Rojo,Blanco,2017,4.5,134,Espana,Ribeiro,49.95,,,


In [None]:
# Al revisar los nulos de la columna "type", observo que todos los registros con "type" nulo también tienen "body" y "acidity" nulos
    
mask = df["type"].isnull()
print((df.loc[mask, ["body", "acidity"]].isnull().all(axis=1)).sum())
print(len(df[mask]))

106
106


In [115]:
# Me doy cuenta de que la columna "type" mezcla los tipos de vino por uva, denominación de origen y estilo de vino
    # Esto dificulta el análisis, ya que no es consistente

In [None]:
# Compruebo los valores únicos de body y acidity por tipo de vino antes de eliminar la columna "type"
    # Veo que el valor de body y acidity es igual para cada tipo de vino
    # Por lo tanto, puedo usar esos valores para rellenar body y acidity antes de eliminar la columna "type"
    
print(df.groupby("type")[["body", "acidity"]].nunique())

                      body  acidity
type                               
Albarino                 1        1
Cabernet Sauvignon       1        1
Cava                     1        1
Chardonnay               1        1
Grenache                 1        1
Mencia                   1        1
Monastrell               1        1
Montsant Red             1        1
Pedro Ximenez            1        1
Priorat Red              1        1
Red                      1        1
Ribera Del Duero Red     1        1
Rioja Red                1        1
Rioja White              1        1
Sauvignon Blanc          1        1
Sherry                   1        1
Sparkling                1        1
Syrah                    1        1
Tempranillo              1        1
Toro Red                 1        1
Verdejo                  1        1


In [117]:
# Relleno los nulos de body y acidity usando los valores medios por tipo de vino y elimino la columna "type"

df["body"] = df.groupby("type")["body"].transform(lambda x: x.fillna(x.mean()))
df["acidity"] = df.groupby("type")["acidity"].transform(lambda x: x.fillna(x.mean()))
df = df.drop(columns=["type"])

In [118]:
df.sample(1)

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,body,acidity
1610,Alvaro Palacios,Finca Dofi,1997,4.3,60,Espana,Priorato,170.0,4.0,3.0


In [125]:
# Vuelvo a comprobar los valores nulos tras las transformaciones realizadas

print(df.dtypes)
print("\nValores nulos por columna:")
print(df.isnull().sum())

winery          object
wine            object
year            object
rating         float64
num_reviews      int64
country         object
region          object
price          float64
body           float64
acidity        float64
dtype: object

Valores nulos por columna:
winery           0
wine             0
year             2
rating           0
num_reviews      0
country          0
region           0
price            0
body           106
acidity        106
dtype: int64
