# 1.2 Limpieza

Descarga de base de datos mundial obtenida de la Organización de la Viña y el vino.


Fuente: https://www.oiv.int/es/que-hacemos/datos

#### Paso 1 Descripción de los datos

El objetivo de este notebook es limpiar los datasets de registros duplicados, valores nulos, consistencia en el tipo de dato, etc.

### Tabla 1. referido al consumo del vino a lo largo de la historia alrededor del mundo.

Comenzamos por importar un CSV 

In [30]:
#Importamos Librerias

import pandas as pd

In [31]:
historia_vino = pd.read_csv('csv_data_vinos_OVI.csv', encoding="latin", sep=";")
historia_vino.head()

Unnamed: 0,Continent,Region/Country,Product,Variable,Year,Unit,Quantity
0,Asia,Afganistán,Uvas de mesa,Consumo,1995.0,toneladas,189 800
1,Asia,Afganistán,Uvas pasas,Consumo,1995.0,toneladas,8 050
2,Asia,Afganistán,Uvas frescas,Exportaciones,1995.0,toneladas,11 500
3,Asia,Afganistán,Uvas pasas,Exportaciones,1995.0,toneladas,20 000
4,Asia,Afganistán,Uvas frescas,Importaciones,1995.0,toneladas,0


In [32]:
historia_vino.shape

(52798, 7)

In [33]:
historia_vino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52798 entries, 0 to 52797
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Continent       52796 non-null  object 
 1   Region/Country  52796 non-null  object 
 2   Product         52796 non-null  object 
 3   Variable        52796 non-null  object 
 4   Year            52796 non-null  float64
 5   Unit            52796 non-null  object 
 6   Quantity        52796 non-null  object 
dtypes: float64(1), object(6)
memory usage: 2.8+ MB


In [35]:
historia_vino.describe()

Unnamed: 0,Year
count,52796.0
mean,2008.086105
std,7.857716
min,1995.0
25%,2001.0
50%,2008.0
75%,2015.0
max,2023.0


a) Limpieza de datos
1. Revisamos si existen columnas no informativas y columnas con valores constantes.
2. Eliminaremos las columnas que no necesitemos.
3. Unificaremos criterios para estandarizar la tabla.

Veamos de una en una cada columna:
    1. Continent = Refiere al continente donde se ubica la data.
    2. Region = País donde se ubica la data.
    3. Product = tipo de material utilizado, en este caso la Uva.
    4. Variable = Refiere a importación, exportación o consumo.
    5. Year = Año al que refiere la data.
    6. Unit = Unidad de medida utilizado, en este caso, toneladas.
    7. Quantity = Cantidad de toneladas al año

In [39]:
# Hay un criterio unificado en todas las columnas, cada una comienza con la primera letra en mayuscula y posterior minusculas.
# En este caso no es necesario utilizar ningun metodo ni función prederterminada.
# No es necesario renombrar ninguna columna.
# Es importante que todas lleven el mismo formato.
historia_vino.columns

Index(['Continent', 'Region/Country', 'Product', 'Variable', 'Year', 'Unit',
       'Quantity'],
      dtype='object')

In [40]:
# Valores duplicados:
historia_vino.duplicated().sum()

1

In [41]:
# Eliminamos el valor duplicado: 
historia_vino.drop_duplicates(inplace=True)

historia_vino.duplicated().sum()

0

In [26]:
# Valores invalidos o no necesarios:
historia_vino.isna().sum()

Continent         1
Region/Country    2
Product           2
Variable          2
Year              2
Unit              2
Quantity          2
dtype: int64

In [51]:
# Eliminamos los valores nulos.
historia_vino.dropna(how='all', inplace = True)
historia_vino.isna().sum()

Continent         0
Region/Country    0
Product           0
Variable          0
Year              0
Unit              0
Quantity          0
dtype: int64

In [52]:
historia_vino.shape

(52796, 7)

In [54]:
historia_vino.head()

Unnamed: 0,Continent,Region/Country,Product,Variable,Year,Unit,Quantity
0,Asia,Afganistán,Uvas de mesa,Consumo,1995.0,toneladas,189 800
1,Asia,Afganistán,Uvas pasas,Consumo,1995.0,toneladas,8 050
2,Asia,Afganistán,Uvas frescas,Exportaciones,1995.0,toneladas,11 500
3,Asia,Afganistán,Uvas pasas,Exportaciones,1995.0,toneladas,20 000
4,Asia,Afganistán,Uvas frescas,Importaciones,1995.0,toneladas,0


### Tabla 2. referido a los datos obtenidos tras el escraping

Comenzamos por importar el CSV tras el escraping

In [57]:
tipos_vino =  pd.read_csv('lista_vinos', encoding="latin", sep=",")
tipos_vino.head()

Unnamed: 0,nombre,variedad,precio,volumen,graduacion,productor,pais,etiqueta,notas de cata,url
0,Carl Jung RosÃ© â Vino Rosado Sin Alcohol,Vino Rosado Sin Alcohol,6.86,75,"<0,5 %",Carl Jung (Alemania),Alemania,Vegano,"De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...
1,Schloss Raggendorf Shiraz RosÃ© â Vino Rosad...,Vino Rosado Sin Alcohol,6.86,75,"0,5%",Carl Jung (Alemania),Alemania,Syrah,"De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...
2,Carl Jung Cabernet Sauvignon â Vino Tinto Si...,Vino Rosado Sin Alcohol,6.86,75,"<0,5 %",Carl Jung (Alemania),Alemania,"Cabernet Sauvignon, Vegano","De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...
3,Carl Jung Merlot â Vino Tinto Sin Alcohol,Vino Rosado Sin Alcohol,6.86,75,"<0,5 %",Carl Jung (Alemania),Alemania,"Merlot, Vegano","De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...
4,Schloss Raggendorf Zweigelt â Vino Tinto Sin...,Vino Rosado Sin Alcohol,6.86,75,"0,5%",Carl Jung (Alemania),Alemania,No Disponible,"De color rosa sutil, ligeramente brillante, fi...",https://www.thebluedolphinstore.com/producto/v...


In [58]:
tipos_vino.shape

(63, 10)

In [59]:
tipos_vino.info

<bound method DataFrame.info of                                                nombre  \
0         Carl Jung RosÃ© â Vino Rosado Sin Alcohol   
1   Schloss Raggendorf Shiraz RosÃ© â Vino Rosad...   
2   Carl Jung Cabernet Sauvignon â Vino Tinto Si...   
3         Carl Jung Merlot â Vino Tinto Sin Alcohol   
4   Schloss Raggendorf Zweigelt â Vino Tinto Sin...   
..                                                ...   
58         Lussory AirÃ©n â Vino Sin Alcohol Blanco   
59          Lussory Merlot â Vino Sin Alcohol Tinto   
60     Lussory Tempranillo â Vino Sin Alcohol Tinto   
61   Alternativa 0.0 Tinto â Vino Sin Alcohol Tinto   
62  Ãlivo Zero Zero Blanco â Vino Sin Alcohol B...   

                   variedad  precio  volumen graduacion  \
0   Vino Rosado Sin Alcohol    6.86       75     <0,5 %   
1   Vino Rosado Sin Alcohol    6.86       75       0,5%   
2   Vino Rosado Sin Alcohol    6.86       75     <0,5 %   
3   Vino Rosado Sin Alcohol    6.86       75   

In [62]:
tipos_vino.describe()

Unnamed: 0,precio,volumen
count,63.0,63.0
mean,6.86,75.0
std,8.953125e-15,0.0
min,6.86,75.0
25%,6.86,75.0
50%,6.86,75.0
75%,6.86,75.0
max,6.86,75.0


b) Limpieza de datos

Revisamos si existen columnas no informativas y columnas con valores constantes.
Eliminaremos las columnas que no necesitemos.
Unificaremos criterios para estandarizar la tabla.

In [68]:
# Hay un criterio unificado en todas las columnas
# Estandarizamos cada nombre de columna con la primera letra en mayuscula y posterior minusculas.
# En este caso no es necesario utilizar ningun metodo ni función prederterminada.
# No es necesario renombrar ninguna columna.
# Es importante que todas lleven el mismo formato.

tipos_vino.columns

Index(['nombre', 'variedad', 'precio', 'volumen', 'graduacion', 'productor',
       'pais', 'etiqueta', 'notas de cata', 'url'],
      dtype='object')

In [71]:
tipos_vino.columns =  tipos_vino.columns.str.capitalize()
tipos_vino.columns

Index(['Nombre', 'Variedad', 'Precio', 'Volumen', 'Graduacion', 'Productor',
       'Pais', 'Etiqueta', 'Notas de cata', 'Url'],
      dtype='object')

In [72]:
# Valores duplicados:
tipos_vino.duplicated().sum()

0

In [73]:
# Valores invalidos o no necesarios:
tipos_vino.isna().sum()

Nombre           0
Variedad         0
Precio           0
Volumen          0
Graduacion       0
Productor        0
Pais             0
Etiqueta         0
Notas de cata    0
Url              0
dtype: int64