# 1.2 Limpieza

Descarga de base de datos mundial obtenida de la Organización de la Viña y el vino.


Fuente: https://www.oiv.int/es/que-hacemos/datos

#### Paso 1 Descripción de los datos

El objetivo de este notebook es limpiar los datasets de registros duplicados, valores nulos, consistencia en el tipo de dato, etc.

### Tabla 1. referido al consumo del vino a lo largo de la historia alrededor del mundo.

Comenzamos por importar un CSV 

In [76]:
#Importamos Librerias

import pandas as pd

In [77]:
historia_vino = pd.read_csv('csv_data_vinos_OVI.csv', encoding="latin", sep=";")
historia_vino.head()

Unnamed: 0,Continent,Region/Country,Product,Variable,Year,Unit,Quantity
0,Asia,Afganistán,Uvas de mesa,Consumo,1995.0,toneladas,189 800
1,Asia,Afganistán,Uvas pasas,Consumo,1995.0,toneladas,8 050
2,Asia,Afganistán,Uvas frescas,Exportaciones,1995.0,toneladas,11 500
3,Asia,Afganistán,Uvas pasas,Exportaciones,1995.0,toneladas,20 000
4,Asia,Afganistán,Uvas frescas,Importaciones,1995.0,toneladas,0


In [78]:
historia_vino.shape

(52798, 7)

In [79]:
historia_vino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52798 entries, 0 to 52797
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Continent       52797 non-null  object 
 1   Region/Country  52796 non-null  object 
 2   Product         52796 non-null  object 
 3   Variable        52796 non-null  object 
 4   Year            52796 non-null  float64
 5   Unit            52796 non-null  object 
 6   Quantity        52796 non-null  object 
dtypes: float64(1), object(6)
memory usage: 2.8+ MB


In [80]:
historia_vino.describe()

Unnamed: 0,Year
count,52796.0
mean,2008.086105
std,7.857716
min,1995.0
25%,2001.0
50%,2008.0
75%,2015.0
max,2023.0


a) Limpieza de datos
1. Revisamos si existen columnas no informativas y columnas con valores constantes.
2. Eliminaremos las columnas que no necesitemos.
3. Unificaremos criterios para estandarizar la tabla.

Veamos de una en una cada columna:
    1. Continent = Refiere al continente donde se ubica la data.
    2. Region = País donde se ubica la data.
    3. Product = tipo de material utilizado, en este caso la Uva.
    4. Variable = Refiere a importación, exportación o consumo.
    5. Year = Año al que refiere la data.
    6. Unit = Unidad de medida utilizado, en este caso, toneladas.
    7. Quantity = Cantidad de toneladas al año

In [111]:
# Hay un criterio unificado en todas las columnas, cada una comienza con la primera letra en mayuscula y posterior minusculas.
# En este caso no es necesario utilizar ningun metodo ni función prederterminada.
# No es necesario renombrar ninguna columna.
# Es importante que todas lleven el mismo formato.
historia_vino.columns

Index(['Continent', 'Region/Country', 'Product', 'Variable', 'Year', 'Unit',
       'Quantity'],
      dtype='object')

In [112]:
# Valores duplicados:
historia_vino.duplicated().sum()

0

In [113]:
# Eliminamos el valor duplicado: 
historia_vino.drop_duplicates(inplace=True)

historia_vino.duplicated().sum()

0

In [114]:
# Valores invalidos o no necesarios:
historia_vino.isna().sum()

Continent         0
Region/Country    1
Product           1
Variable          1
Year              1
Unit              1
Quantity          1
dtype: int64

In [115]:
# Eliminamos los valores nulos.
historia_vino.dropna(how='all', inplace = True)
historia_vino.isna().sum()

Continent         0
Region/Country    1
Product           1
Variable          1
Year              1
Unit              1
Quantity          1
dtype: int64

In [116]:
historia_vino.shape

(52797, 7)

In [117]:
historia_vino.head()

Unnamed: 0,Continent,Region/Country,Product,Variable,Year,Unit,Quantity
0,Asia,Afganistán,Uvas de mesa,Consumo,1995.0,toneladas,189 800
1,Asia,Afganistán,Uvas pasas,Consumo,1995.0,toneladas,8 050
2,Asia,Afganistán,Uvas frescas,Exportaciones,1995.0,toneladas,11 500
3,Asia,Afganistán,Uvas pasas,Exportaciones,1995.0,toneladas,20 000
4,Asia,Afganistán,Uvas frescas,Importaciones,1995.0,toneladas,0


### Tabla 2. referido a los datos obtenidos tras el escraping

Comenzamos por importar el CSV tras el escraping

In [197]:
nombre =  pd.read_csv('listado.csv', encoding="latin", sep=",")
informacion =  pd.read_csv('listado2.csv', encoding="latin", sep=",")
nutricional = pd.read_csv('listado3.csv', encoding="latin", sep=",")

Concatenamos las tres tablas:

In [198]:
vinos = pd.concat([nombre, informacion, nutricional], axis=1)
vinos.head()

Unnamed: 0,nombre,variedad,precio,volumen,graduacion,productor,pais,etiqueta,notas de cata,url,calorias,proteinas,grasa,hidratos de carbono,azucar,sal
0,Carl Jung RosÃ© â Vino Rosado Sin Alcohol,Vino Rosado Sin Alcohol,6.86,75,"<0,5 %",Carl Jung (Alemania),Alemania,Vegano,"De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...,194,0,0,42,35,"<0,1 g"
1,Schloss Raggendorf Shiraz RosÃ© â Vino Rosad...,Vino Rosado Sin Alcohol,6.86,75,"0,5%",Carl Jung (Alemania),Alemania,Syrah,"De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...,79.(,5,0,48,42,"<0,1 g"
2,Carl Jung Cabernet Sauvignon â Vino Tinto Si...,Vino Rosado Sin Alcohol,6.86,75,"<0,5 %",Carl Jung (Alemania),Alemania,"Cabernet Sauvignon, Vegano","De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...,194,0,0,42,35,"<0,1 g"
3,Carl Jung Merlot â Vino Tinto Sin Alcohol,Vino Rosado Sin Alcohol,6.86,75,"<0,5 %",Carl Jung (Alemania),Alemania,"Merlot, Vegano","De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...,229,0,0,47,40,"<0,1 g"
4,Schloss Raggendorf Zweigelt â Vino Tinto Sin...,Vino Rosado Sin Alcohol,6.86,75,"0,5%",Carl Jung (Alemania),Alemania,No Disponible,"De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...,95.(,5,3,56,46,"<0,1 g"


In [199]:
vinos.shape

(63, 16)

In [200]:
vinos.info

<bound method DataFrame.info of                                                nombre  \
0         Carl Jung RosÃ© â Vino Rosado Sin Alcohol   
1   Schloss Raggendorf Shiraz RosÃ© â Vino Rosad...   
2   Carl Jung Cabernet Sauvignon â Vino Tinto Si...   
3         Carl Jung Merlot â Vino Tinto Sin Alcohol   
4   Schloss Raggendorf Zweigelt â Vino Tinto Sin...   
..                                                ...   
58         Lussory AirÃ©n â Vino Sin Alcohol Blanco   
59          Lussory Merlot â Vino Sin Alcohol Tinto   
60     Lussory Tempranillo â Vino Sin Alcohol Tinto   
61   Alternativa 0.0 Tinto â Vino Sin Alcohol Tinto   
62  Ãlivo Zero Zero Blanco â Vino Sin Alcohol B...   

                   variedad  precio  volumen graduacion  \
0   Vino Rosado Sin Alcohol    6.86       75     <0,5 %   
1   Vino Rosado Sin Alcohol    6.86       75       0,5%   
2   Vino Rosado Sin Alcohol    6.86       75     <0,5 %   
3   Vino Rosado Sin Alcohol    6.86       75   

In [201]:
vinos.describe()

Unnamed: 0,precio,volumen
count,63.0,63.0
mean,6.86,75.0
std,8.953125e-15,0.0
min,6.86,75.0
25%,6.86,75.0
50%,6.86,75.0
75%,6.86,75.0
max,6.86,75.0


b) Limpieza de datos

Revisamos si existen columnas no informativas y columnas con valores constantes.
Eliminaremos las columnas que no necesitemos.
Unificaremos criterios para estandarizar la tabla.

In [202]:
# Hay un criterio unificado en todas las columnas
# Estandarizamos cada nombre de columna con la primera letra en mayuscula y posterior minusculas.
# En este caso no es necesario utilizar ningun metodo ni función prederterminada.
# No es necesario renombrar ninguna columna.
# Es importante que todas lleven el mismo formato.

vinos.columns

Index(['nombre', 'variedad', 'precio', 'volumen', 'graduacion', 'productor',
       'pais', 'etiqueta', 'notas de cata', 'url', 'calorias', 'proteinas',
       'grasa', 'hidratos de carbono', 'azucar', 'sal'],
      dtype='object')

In [203]:
vinos.columns =  vinos.columns.str.title()
vinos.columns

Index(['Nombre', 'Variedad', 'Precio', 'Volumen', 'Graduacion', 'Productor',
       'Pais', 'Etiqueta', 'Notas De Cata', 'Url', 'Calorias', 'Proteinas',
       'Grasa', 'Hidratos De Carbono', 'Azucar', 'Sal'],
      dtype='object')

In [204]:
# Valores duplicados:
vinos.duplicated().sum()

0

In [205]:
# Valores invalidos o no necesarios:
vinos.isna().sum()

Nombre                 0
Variedad               0
Precio                 0
Volumen                0
Graduacion             0
Productor              0
Pais                   0
Etiqueta               0
Notas De Cata          0
Url                    0
Calorias               0
Proteinas              0
Grasa                  0
Hidratos De Carbono    0
Azucar                 0
Sal                    0
dtype: int64

In [206]:
vinos.Calorias.unique()

array(['19,4', '79.(', '22,9', '95.(', '20,1', '185,', '19,5', '18,3',
       '88.(', '78,4', '79,9', '80,3', '80.(', '80..', '12', '81.(',
       '185K', '77.(', '43kc', '308.', '73.(', '36kc', '22,4', '204K',
       '21,1', '85.(', '189K', '222K', '22,2', '22,8', '20', '24(1',
       '25(1', '64.(', '32', '20,9', '17', '70.(', '18', '19', '13', '5'],
      dtype=object)

In [207]:
vinos.Proteinas.unique()

array(['0,0', '0,5', '0,3', '0,1', '< 0,02', '< 0,2', '<0,3', '< 0,5',
       '2,7', '0,00'], dtype=object)

In [208]:
vinos.Grasa.unique()

array(['0,0', '0,3', '1', '0,5', '0,1', '0,00'], dtype=object)

In [209]:
vinos.Azucar.unique()

array(['3,5', '4,2', '4,0', '4,6', '4,4', '3,6', '3,7', '3,8', '4', '2,9',
       '2,4', '4,5', '18,1', '4,3', '2,0', '5,5', '4,7', '2,7', '2,3',
       '4,9', '4,1'], dtype=object)

In [210]:
vinos.Sal.unique()

array(['<0,1 g', 'Sal:<0,1 g', ' <0,1 g', '0,02 g', '0 g', '0,01 g',
       '<0,06 g', '<0,01 g'], dtype=object)

Limpieza de datos de columnas:

In [211]:
# Funcion de limpieza:
def clean_values (column,dictio_clean):
    column = column.replace(dictio_clean)
    return column

In [212]:
# Reemplazar valores de la columna Calorias: 

cal_values = {"88.(": "88", "79.(": "79", "73.(": "73", "95.(": "9,5","80..": "80", "80.(": "80", "81.(": "8,1", "185,": "18,5", "185K": "18,5" , "77.(":"7,7" ,"43kc": "4,3" , "308": "30,8" , "73.( ": "73" , "36kc": "36" , "204K": "20,4" , "85.(": "85" , "189K" : "18,9" , "222K": "22" , "24(1": "24" , "25(1" : "25" , "64.(": "64" , "70.(" : "70" , "'5']": "5" }

vinos.Calorias = clean_values(vinos.Calorias,cal_values)
vinos.Calorias.unique()

array(['19,4', '79', '22,9', '9,5', '20,1', '18,5', '19,5', '18,3', '88',
       '78,4', '79,9', '80,3', '80', '12', '8,1', '7,7', '4,3', '308.',
       '73', '36', '22,4', '20,4', '21,1', '85', '18,9', '22', '22,2',
       '22,8', '20', '24', '25', '64', '32', '20,9', '17', '70', '18',
       '19', '13', '5'], dtype=object)

In [213]:
# Reemplazar valores de la columna Proteinas: 
prot_values = {"< 0,02": "0,2" , "< 0,2": "0,2" , "<0,3" : "0,3" , "< 0,5": "0,5" }

vinos.Proteinas = clean_values(vinos.Proteinas,prot_values)
vinos.Proteinas.unique()

array(['0,0', '0,5', '0,3', '0,1', '0,2', '2,7', '0,00'], dtype=object)

In [214]:
# Reemplazar valores de la columna Sal:

sal_values = {"Sal:<0,1 g": "<0,1 g" , "<0,01 g": "<0,1 g" , "0,02 g" : "<0,2 g" }

vinos.Sal = clean_values(vinos.Sal,sal_values)
vinos.Sal.unique()

array(['<0,1 g', ' <0,1 g', '<0,2 g', '0 g', '0,01 g', '<0,06 g'],
      dtype=object)

Descargo los datos limpios de la tabla final tras la concatenacion:

In [220]:
vinos.to_csv("vinos.csv", index = False)