# Limpieza y Análisis de Datos con Vino

Este notebook trabaja con el archivo `data\winemag-data-130k-v2.csv`.

Objetivos:
1. Cargar datos y explorarlos.
2. Detectar y tratar valores nulos.
3. Eliminar duplicados.
4. Arreglar tipos de datos.
5. Limpiar texto.
6. Detectar columnas vacías y borrarlas.
7. Guardar el dataset limpio.
8. Hacer un mini análisis final.

## 1. Importación y exploración inicial

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el CSV (si lo tienes guardado como 'wines.csv')
df = pd.read_csv("data/winemag-data-130k-v2.csv")

# Mostrar primeras filas
print(df.head())

# Ver información general
print(df.info())

print(df.describe())


   id   country                                        description  \
0   0     Italy  Aromas include tropical fruit, broom, brimston...   
1   1  Portugal  This is ripe and fruity, a wine that is smooth...   
2   2        US  Tart and snappy, the flavors of lime flesh and...   
3   3        US  Pineapple rind, lemon pith and orange blossom ...   
4   4        US  Much like the regular bottling from 2012, this...   

                          designation  points  price           province  \
0                        Vulkà Bianco      87    NaN  Sicily & Sardinia   
1                            Avidagos      87   15.0              Douro   
2                                 NaN      87   14.0             Oregon   
3                Reserve Late Harvest      87   13.0           Michigan   
4  Vintner's Reserve Wild Child Block      87   65.0             Oregon   

              region_1           region_2         taster_name  \
0                 Etna                NaN       Kerin O’Keefe  

## 2. Detección y manejo de valores nulos (NaN)

In [4]:
print("Valores nulos por columna:")
#Conteo valores nulos
print(df.isna().sum())

# Eliminar filas sin país o sin puntos (por ejemplo)
df = df.dropna(subset=['price','country'])

# Rellenar valores faltantes en 'price' con 0
df['points'] = df['points'].fillna(0)

print('\nDespues de limpieza de NAN:')
print(df.isna().sum())

display(df.head())


Valores nulos por columna:
id                           0
country                      0
description                  0
designation              34768
points                       0
price                        0
province                     0
region_1                 19516
region_2                 70624
taster_name              24496
taster_twitter_handle    29416
title                        0
variety                      1
winery                       0
dtype: int64

Despues de limpieza de NAN:
id                           0
country                      0
description                  0
designation              34768
points                       0
price                        0
province                     0
region_1                 19516
region_2                 70624
taster_name              24496
taster_twitter_handle    29416
title                        0
variety                      1
winery                       0
dtype: int64


Unnamed: 0,id,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
5,5,Spain,Blackberry and raspberry aromas show a typical...,Ars In Vitro,87,15.0,Northern Spain,Navarra,,Michael Schachner,@wineschach,Tandem 2011 Ars In Vitro Tempranillo-Merlot (N...,Tempranillo-Merlot,Tandem


## 3. Eliminación de duplicados

In [5]:
# Detectar filas duplicadas completas
duplicados = df[df.duplicated()]

print("Filas duplicadas detectadas:")
display(duplicados)

# Eliminar duplicados
df.drop_duplicates(inplace=True)

print("Tamaño tras eliminar duplicados:", df.shape)

Filas duplicadas detectadas:


Unnamed: 0,id,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery


Tamaño tras eliminar duplicados: (120916, 14)


## 4. Conversión de tipos de datos

In [7]:
print("Tipos ANTES:")
print(df.dtypes)

# Convertir y asegurar que las  columnas numéricas puedan venir como texto
df['id'] = pd.to_numeric(df['id'], errors='coerce').astype('Int64')
df['price'] = pd.to_numeric(df['price'], errors='coerce').astype(float)
df['points'] = pd.to_numeric(df['points'], errors='coerce').astype('Int64')

# Puede tener mezcla de enteros y strings -> forzamos conversión segura
df = df.astype({col: "string" for col in df.select_dtypes(include="object").columns})

print("TIPOS DESPUÉS:")
print(df.dtypes)

display(df.head())

Tipos ANTES:
id                                int64
country                  string[python]
description              string[python]
designation              string[python]
points                            int64
price                           float64
province                 string[python]
region_1                 string[python]
region_2                 string[python]
taster_name              string[python]
taster_twitter_handle    string[python]
title                    string[python]
variety                  string[python]
winery                   string[python]
dtype: object
TIPOS DESPUÉS:
id                                Int64
country                  string[python]
description              string[python]
designation              string[python]
points                            Int64
price                           float64
province                 string[python]
region_1                 string[python]
region_2                 string[python]
taster_name              string[python

Unnamed: 0,id,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
5,5,Spain,Blackberry and raspberry aromas show a typical...,Ars In Vitro,87,15.0,Northern Spain,Navarra,,Michael Schachner,@wineschach,Tandem 2011 Ars In Vitro Tempranillo-Merlot (N...,Tempranillo-Merlot,Tandem


## 5. Eliminación de columnas vacías

In [9]:
# Columnas vacías (todas sus filas son NaN)
cols_vacias = df.columns[df.isna().all()].tolist()

print("Columnas que se van a eliminar:", cols_vacias)

# Eliminar columnas vacías
df.dropna(axis=1, how='all', inplace=True)

print("\nColumnas actuales después de eliminar:")
print(df.columns.tolist())


Columnas que se van a eliminar: []

Columnas actuales después de eliminar:
['id', 'country', 'description', 'designation', 'points', 'price', 'province', 'region_1', 'region_2', 'taster_name', 'taster_twitter_handle', 'title', 'variety', 'winery']


## 6. Limpieza y normalización de texto (`.str` en Pandas)

In [None]:
# Normalizar nombres de variedades:
# - quitar espacios iniciales y finales
# - poner en mayúscula inicial cada palabra
# - eliminar espacios internos ( "Pinot Noir" → "Pinotnoir" )

df['variety_norm'] = (
    df['variety']
        .astype(str)
        .str.strip()
        .str.title()
        .str.replace(' ', '', regex=False)
)

display(df[['variety', 'variety_norm']].head(10))

# Buscar todas las filas que contienen "Pinot"
pinot_rows = df[df['variety_norm'].str.contains('Pinot', case=False, na=False)]
print("Filas con Pinot:")
display(pinot_rows)



Unnamed: 0,variety,variety_norm
1,Portuguese Red,PortugueseRed
2,Pinot Gris,PinotGris
3,Riesling,Riesling
4,Pinot Noir,PinotNoir
5,Tempranillo-Merlot,Tempranillo-Merlot
6,Frappato,Frappato
7,Gewürztraminer,Gewürztraminer
8,Gewürztraminer,Gewürztraminer
9,Pinot Gris,PinotGris
10,Cabernet Sauvignon,CabernetSauvignon


## 7. Métodos extra de cadena (`str.len`, `str.startswith`, etc.)

In [13]:
# Longitud del nombre de la variedad normalizada
df['variety_len'] = df['variety_norm'].str.len()

# Variedades que empiezan por 'P' (por ejemplo Pinot, Petit Verdot, etc.)
varieties_p = df[df['variety_norm'].str.startswith('P', na=False)]

print("Variedades que empiezan por 'P':")
display(varieties_p[['variety', 'variety_norm', 'variety_len']].drop_duplicates())

# Mostrar algunas filas con la longitud de la variedad
display(df[['variety', 'variety_norm', 'variety_len']].head())


Variedades que empiezan por 'P':


Unnamed: 0,variety,variety_norm,variety_len
1,Portuguese Red,PortugueseRed,13
2,Pinot Gris,PinotGris,9
4,Pinot Noir,PinotNoir,9
38,Primitivo,Primitivo,9
51,Petit Verdot,PetitVerdot,11
...,...,...,...
101010,Premsal,Premsal,7
103326,Picapoll,Picapoll,8
114407,Petit Courbu,PetitCourbu,11
116516,Parraleta,Parraleta,9


Unnamed: 0,variety,variety_norm,variety_len
1,Portuguese Red,PortugueseRed,13
2,Pinot Gris,PinotGris,9
3,Riesling,Riesling,8
4,Pinot Noir,PinotNoir,9
5,Tempranillo-Merlot,Tempranillo-Merlot,18


## 8. Detección de tipos mezclados en columnas

In [14]:
print("Tipos actuales:")
print(df.dtypes)

print("\nTipo real de cada celda en las primeras filas:")
display(df.applymap(type).head())

# Convertir automáticamente al tipo más adecuado (opcional)
df = df.convert_dtypes()

print("\nTipos tras convert_dtypes():")
print(df.dtypes)


Tipos actuales:
id                                Int64
country                  string[python]
description              string[python]
designation              string[python]
points                            Int64
price                           float64
province                 string[python]
region_1                 string[python]
region_2                 string[python]
taster_name              string[python]
taster_twitter_handle    string[python]
title                    string[python]
variety                  string[python]
winery                   string[python]
variety_norm                     object
variety_len                       int64
dtype: object

Tipo real de cada celda en las primeras filas:


  display(df.applymap(type).head())


Unnamed: 0,id,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,variety_norm,variety_len
1,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'float'>,<class 'str'>,<class 'pandas._libs.missing.NAType'>,<class 'pandas._libs.missing.NAType'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>
2,<class 'int'>,<class 'str'>,<class 'str'>,<class 'pandas._libs.missing.NAType'>,<class 'int'>,<class 'float'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>
3,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'float'>,<class 'str'>,<class 'str'>,<class 'pandas._libs.missing.NAType'>,<class 'str'>,<class 'pandas._libs.missing.NAType'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>
4,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'float'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>
5,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'float'>,<class 'str'>,<class 'str'>,<class 'pandas._libs.missing.NAType'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>



Tipos tras convert_dtypes():
id                                Int64
country                  string[python]
description              string[python]
designation              string[python]
points                            Int64
price                             Int64
province                 string[python]
region_1                 string[python]
region_2                 string[python]
taster_name              string[python]
taster_twitter_handle    string[python]
title                    string[python]
variety                  string[python]
winery                   string[python]
variety_norm             string[python]
variety_len                       Int64
dtype: object


## 9. Guardar el dataset limpio

In [None]:

df.to_csv('data/winemag-data-130k-v2_clean.csv', index=False)

print('Archivo winemag-data-130k-v2_clean.csv guardado correctamente.')

Archivo screentime_analysis_clean.csv guardado correctamente.


## 10. Mini análisis final por aplicación

In [None]:
# ¿Qué provincia tiene el precio promedio más alto? 
# ¿Y de aquellas con al menos 10 vinos?


# ¿El número de puntos predice el precio del vino? 
# Si es así, ¿qué tan fuerte es la correlación?


# Analizar tendencias a nivel de crítico/reviewer. 
# ¿Los críticos tienden a especializarse en una o dos provincias? 
# ¿Se especializan en ciertas variedades?


# Analizar la columna 'description'. 
# ¿Cuáles son algunos de los términos más comunes en las reseñas positivas? 
# ¿Y en las negativas?

#Cuales son los mejores vinos de españa?

#Cuales son la media de los vinos co una  clasificación mayor alta?

#Cual es el país más productor de vinos?

#Cual es el país con los vinos mejor valorados?

