# Limpieza de datos de vinos

Este notebook realiza la limpieza y preparación del archivo `dataset_vinos_combinado_ultra_limpio_20250717_122604.csv` para análisis y modelado.
## 1. Importar librerías necesarias
Utilizaremos pandas y numpy para el manejo y limpieza de datos.

In [1]:
import pandas as pd
import numpy as np

## 2. Cargar el archivo CSV
Leemos el archivo original en un DataFrame.

In [2]:
# Cargar el archivo CSV
ruta_csv = '../static/dataset_vinos_combinado_ultra_limpio_20250717_122604.csv'
df = pd.read_csv(ruta_csv)
df.head()

Unnamed: 0,archivo_origen,año,bodega,categoria_busqueda,categoria_calidad,descuento,disponibilidad,nombre_completo,nombre_vino,num_reviews,...,posicion_global,posicion_pagina,precio_eur,precio_original,rating,region,session_id,timestamp,tipo_vino,url
0,vivino_diversificado_20250716_130100.csv,2019.0,Morca Garnacha,Ribera del Duero,Great Value,,Disponible,"Morca Garnacha 2019 Campo de Borja,España Grea...",,5.0,...,1.0,,34.95,,4.526,Campo de Borja,20250716_125646,2025-07-16 12:57:43,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
1,vivino_diversificado_20250716_130100.csv,2021.0,Bodegas Ateca Atteca,Ribera del Duero,Great Value,,Disponible,Bodegas AtecaAtteca Armas Garnacha Old Vines 2...,,1.0,...,1.0,,34.2,,4.418,Calatayud,20250716_125646,2025-07-16 12:57:43,Tinto,https://www.vivino.com/bodegas-ateca-atteca-ar...
2,vivino_diversificado_20250716_130100.csv,2022.0,Ahorra7,Ribera del Duero,Amazing Value,,Disponible,Ahorra Morca Godina Garnacha 2022 Campo de Bor...,,3.0,...,1.0,,18.5,,4.42,Campo de Borja,20250716_125646,2025-07-16 12:57:43,Tinto,https://www.vivino.com/morca-godina-garnacha/w...
3,vivino_diversificado_20250716_130100.csv,2022.0,Morca Garnacha,Ribera del Duero,Great Value,,Disponible,"Morca Garnacha 2022 Campo de Borja,EspañaGreat...",,4.0,...,1.0,,32.6,,4.411,Campo de Borja,20250716_125646,2025-07-16 12:57:43,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
4,vivino_diversificado_20250716_130100.csv,2021.0,Morca Garnacha,Ribera del Duero,Great Value,,Disponible,"Morca Garnacha 2021 Campo de Borja,EspañaGreat...",,7.0,...,1.0,,36.85,,4.424,Campo de Borja,20250716_125646,2025-07-16 12:57:43,Tinto,https://www.vivino.com/morca-garnacha/w/524834...


## 3. Explorar las primeras filas y tipos de datos
Mostramos las primeras filas y el tipo de cada columna para identificar problemas.

In [None]:
# Mostrar primeras filas y tipos de datos
df.info()
df.head()
# Verificar valores nulos por columna
df.isnull().sum()

## 4. Eliminar columnas irrelevantes
Eliminamos columnas que no aportan valor al análisis.

In [3]:
# Eliminar columnas irrelevantes
drop_cols = ['session_id','descuento','disponibilidad','nombre_vino', 'timestamp', 'precio_global', 'archivo_origen', 'pagina', 'posicion', 'posicion_global', 'posicion_pagina', 'precio_original']
df = df.drop(columns=[col for col in drop_cols if col in df.columns])
df.head()

Unnamed: 0,año,bodega,categoria_busqueda,categoria_calidad,nombre_completo,num_reviews,precio_eur,rating,region,tipo_vino,url
0,2019.0,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2019 Campo de Borja,España Grea...",5.0,34.95,4.526,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
1,2021.0,Bodegas Ateca Atteca,Ribera del Duero,Great Value,Bodegas AtecaAtteca Armas Garnacha Old Vines 2...,1.0,34.2,4.418,Calatayud,Tinto,https://www.vivino.com/bodegas-ateca-atteca-ar...
2,2022.0,Ahorra7,Ribera del Duero,Amazing Value,Ahorra Morca Godina Garnacha 2022 Campo de Bor...,3.0,18.5,4.42,Campo de Borja,Tinto,https://www.vivino.com/morca-godina-garnacha/w...
3,2022.0,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2022 Campo de Borja,EspañaGreat...",4.0,32.6,4.411,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
4,2021.0,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2021 Campo de Borja,EspañaGreat...",7.0,36.85,4.424,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...


## 5. Limpiar valores nulos y duplicados
Eliminamos filas con valores nulos en columnas clave y duplicados.

In [4]:
# Eliminar filas con nulos en columnas clave
cols_clave = ['año', 'bodega', 'categoria_calidad', 'nombre_completo', 'num_reviews', 'precio_eur', 'rating', 'region', 'tipo_vino']
df = df.dropna(subset=[col for col in cols_clave if col in df.columns])
# Eliminar duplicados
antes = len(df)
df = df.drop_duplicates()
despues = len(df)
print(f"Filas eliminadas por duplicados: {antes - despues}")
df.head()

Filas eliminadas por duplicados: 181


Unnamed: 0,año,bodega,categoria_busqueda,categoria_calidad,nombre_completo,num_reviews,precio_eur,rating,region,tipo_vino,url
0,2019.0,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2019 Campo de Borja,España Grea...",5.0,34.95,4.526,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
1,2021.0,Bodegas Ateca Atteca,Ribera del Duero,Great Value,Bodegas AtecaAtteca Armas Garnacha Old Vines 2...,1.0,34.2,4.418,Calatayud,Tinto,https://www.vivino.com/bodegas-ateca-atteca-ar...
2,2022.0,Ahorra7,Ribera del Duero,Amazing Value,Ahorra Morca Godina Garnacha 2022 Campo de Bor...,3.0,18.5,4.42,Campo de Borja,Tinto,https://www.vivino.com/morca-godina-garnacha/w...
3,2022.0,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2022 Campo de Borja,EspañaGreat...",4.0,32.6,4.411,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
4,2021.0,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2021 Campo de Borja,EspañaGreat...",7.0,36.85,4.424,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...


In [5]:
#quitar el decimal en la acolumna del año
if 'año' in df.columns:
    df['año'] = df['año'].astype(str).str.replace('.0', '', regex=False).astype(int)  
      

## 6. Normalizar nombres de columnas
Renombramos columnas para mayor legibilidad y consistencia.

In [6]:
# Renombrar columnas a minúsculas y sin espacios
df.columns = [col.strip().lower().replace(' ', '_') for col in df.columns]
df.head()

Unnamed: 0,año,bodega,categoria_busqueda,categoria_calidad,nombre_completo,num_reviews,precio_eur,rating,region,tipo_vino,url
0,2019,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2019 Campo de Borja,España Grea...",5.0,34.95,4.526,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
1,2021,Bodegas Ateca Atteca,Ribera del Duero,Great Value,Bodegas AtecaAtteca Armas Garnacha Old Vines 2...,1.0,34.2,4.418,Calatayud,Tinto,https://www.vivino.com/bodegas-ateca-atteca-ar...
2,2022,Ahorra7,Ribera del Duero,Amazing Value,Ahorra Morca Godina Garnacha 2022 Campo de Bor...,3.0,18.5,4.42,Campo de Borja,Tinto,https://www.vivino.com/morca-godina-garnacha/w...
3,2022,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2022 Campo de Borja,EspañaGreat...",4.0,32.6,4.411,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
4,2021,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2021 Campo de Borja,EspañaGreat...",7.0,36.85,4.424,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...


## 7. Corregir formatos de precios y ratings
Convertimos precios y ratings a tipo numérico, eliminando símbolos y caracteres extraños.

In [7]:
# Limpiar y convertir precios y ratings
def limpiar_precio(valor):
    try:
        return float(str(valor).replace('€', '').replace(',', '.').strip())
    except:
        return np.nan

def limpiar_rating(valor):
    try:
        return float(str(valor).replace(',', '.').strip())
    except:
        return np.nan

df['precio_eur'] = df['precio_eur'].apply(limpiar_precio)
df['rating'] = df['rating'].apply(limpiar_rating)
df = df.dropna(subset=['precio_eur', 'rating'])
df.head()

Unnamed: 0,año,bodega,categoria_busqueda,categoria_calidad,nombre_completo,num_reviews,precio_eur,rating,region,tipo_vino,url
0,2019,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2019 Campo de Borja,España Grea...",5.0,34.95,4.526,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
1,2021,Bodegas Ateca Atteca,Ribera del Duero,Great Value,Bodegas AtecaAtteca Armas Garnacha Old Vines 2...,1.0,34.2,4.418,Calatayud,Tinto,https://www.vivino.com/bodegas-ateca-atteca-ar...
2,2022,Ahorra7,Ribera del Duero,Amazing Value,Ahorra Morca Godina Garnacha 2022 Campo de Bor...,3.0,18.5,4.42,Campo de Borja,Tinto,https://www.vivino.com/morca-godina-garnacha/w...
3,2022,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2022 Campo de Borja,EspañaGreat...",4.0,32.6,4.411,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...
4,2021,Morca Garnacha,Ribera del Duero,Great Value,"Morca Garnacha 2021 Campo de Borja,EspañaGreat...",7.0,36.85,4.424,Campo de Borja,Tinto,https://www.vivino.com/morca-garnacha/w/524834...


In [8]:
# cuantos vinos hay en este csv
print(f"Total de vinos en el dataset: {len(df)}")

Total de vinos en el dataset: 468


In [10]:
# listar todo el dataset
df.to_csv('../static/dataset_vinos_limpio.csv', index=False)
# print("Dataset limpio guardado en 'dataset_vinos_limpio.csv'")

print('dataset_vinos_limpio.csv')

dataset_vinos_limpio.csv


In [11]:
# haz cuantos vinos hay de cada tipo
vinos_por_tipo = df['tipo_vino'].value_counts()
print("Cantidad de vinos por tipo:")
print(vinos_por_tipo)

Cantidad de vinos por tipo:
tipo_vino
Blanco    350
Tinto     118
Name: count, dtype: int64


## 8. Guardar el DataFrame limpio
Exportamos el DataFrame limpio a un nuevo archivo CSV para su uso posterior.

In [12]:
# Guardar el DataFrame limpio
df.to_csv('../static/dataset_vinos_limpio.csv', index=False)
print('Archivo limpio guardado como dataset_vinos_limpio.csv')

Archivo limpio guardado como dataset_vinos_limpio.csv
