<img src="img/Marca-ITBA-Color-ALTA.png" width="200">

# Programación para el Análisis de Datos

## Clase 2 - parte 2 - Limpieza y preprocesamiento de datos

#### Referencias y bibliografía de consulta:

- Python for Data Analysis by Wes McKinney (O’Reilly) 2018 - capítulo 7
- Introduction to Machine Learning with Python by Andreas C. Müller and Sarah Guido (O’Reilly) 2017 - capítulo 4

### Introducción

Generalmente, los datos no vienen limpios y listos para entrenar modelos. Lo más frecuente es que el trabajo de recolectar, procesar, limpiar y transformar los datos, de acuerdo a los objetivos de nuestro proyecto, representen un porcentaje muy elevado del tiempo de trabajo en el proyecto. Depende mucho del proyecto, pero se estima que estas tareas representan aproximadamente un 80% del tiempo de un proyecto. 

En la sección de **limpieza de datos** de este módulo vamos a aprender a detectar y a subsanar a los principales problemas que se suelen encontrar en los dataset:

- **Datos duplicados**
- **Datos faltantes**
- **Valores extremos (outliers)**

Otra tarea importante de la limpieza de datos es la de resolver problemas de formato. Ya vimos algunas formas de resolver estos problemas en los primeros módulos de `Pandas`.

Además, en la sección de **procesamiento**, vamos a ver cómo trabajar con variables categóricas. La mayoría de los modelos solamente puede recibir valores numéricos como input, y por lo tanto vamos a tener que transformar a las variables categóricas en variables numéricas. En esta clase vamos a ver cómo.


### 1) Limpieza de datos

Vamos a comenzar importando `Numpy` y `Pandas` con sus alias, como de costumbre. Vamos a importar también un dataset de ejemplo con información sobre vinos.

In [None]:
import numpy as np
import pandas as pd

In [None]:
dataset = pd.read_csv('data/winemag-data-130k-v2.csv', index_col=0)

dataset.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [None]:
dataset.shape

(65499, 13)

In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 65499 entries, 0 to 65498
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   country                65467 non-null  object 
 1   description            65499 non-null  object 
 2   designation            46588 non-null  object 
 3   points                 65499 non-null  int64  
 4   price                  60829 non-null  float64
 5   province               65467 non-null  object 
 6   region_1               54744 non-null  object 
 7   region_2               25170 non-null  object 
 8   taster_name            51856 non-null  object 
 9   taster_twitter_handle  49467 non-null  object 
 10  title                  65499 non-null  object 
 11  variety                65499 non-null  object 
 12  winery                 65499 non-null  object 
dtypes: float64(1), int64(1), object(11)
memory usage: 7.0+ MB


#### 1.1) Detección y filtrado de valores duplicados

`Pandas` provee métodos para detectar y filtrar datos duplicados. 

- `duplicated()` identificando los datos duplicados. Devuelve valores booleanos. 
-  `drop_duplicates()` filtra los casos duplicados 

In [None]:
dataset.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
65494    False
65495    False
65496    False
65497    False
65498    False
Length: 65499, dtype: bool

In [None]:
dataset[dataset.duplicated()].index

Int64Index([ 2408,  2409,  2410,  2412,  2413,  2414,  2694,  3431,  3432,
             3433,
            ...
            65462, 65463, 65464, 65465, 65466, 65467, 65468, 65475, 65476,
            65477],
           dtype='int64', length=2660)

El método `pd.duplicated()` devuelve valores booleanos. Para saber si y cuántos duplicados hay, podemos sumar estos valores. Los `True` van a sumar 1 y los `False` van a sumar 0.  

In [None]:
dataset.duplicated().sum()

2660

Hay 2.660 valores duplicados.

Con el parámetro `keep` podemos determinar cuál de los valores duplicados marcar como duplicados:

In [None]:
dataset[dataset.duplicated(keep='last')].index

Int64Index([   41,    42,    45,    46,    47,    48,    49,    50,    52,
               53,
            ...
            63275, 63276, 63277, 63284, 63285, 63286, 63287, 63288, 63289,
            64002],
           dtype='int64', length=2660)

Podemos ajustar el criterio y considerar solamente un subset de columnas para identificar los duplicados. Al especificar un subset, 2 filas serán consideradas duplicados si los valores de dichas columnas están duplicadas, independientemente de los valores de las demás. 

In [None]:
dataset.duplicated(['winery','variety', 'title', 'taster_name']).sum()

2910

Vemos que el número de duplicados se incrementó a 2.910.

##### drop_duplicates()

In [None]:
dataset.drop_duplicates()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65494,France,Made from young vines from the Vaulorent porti...,Fourchaume Premier Cru,90,45.0,Burgundy,Chablis,,Roger Voss,@vossroger,William Fèvre 2005 Fourchaume Premier Cru (Ch...,Chardonnay,William Fèvre
65495,Australia,"This is a big, fat, almost sweet-tasting Caber...",,90,22.0,South Australia,McLaren Vale,,Joe Czerwinski,@JoeCz,Tapestry 2005 Cabernet Sauvignon (McLaren Vale),Cabernet Sauvignon,Tapestry
65496,US,"Much improved over the unripe 2005, Fritz's 20...",Estate,90,20.0,California,Dry Creek Valley,Sonoma,,,Fritz 2006 Estate Sauvignon Blanc (Dry Creek V...,Sauvignon Blanc,Fritz
65497,US,This wine wears its 15.8% alcohol better than ...,Block 24,90,31.0,California,Napa Valley,Napa,,,Hendry 2004 Block 24 Primitivo (Napa Valley),Primitivo,Hendry


In [None]:
dataset.drop_duplicates(['winery','variety', 'title', 'taster_name'], \
                             keep='last', inplace=True)

In [None]:
dataset.shape

(62589, 13)

#### 1.2) Detección, filtrado e imputación de datos faltantes

Es frecuente que en los datasets haya **datos faltantes**. Puede ser por algún error en el proceso de carga o recolección de los datos. También puede ser que la información provenga de diferentes fuentes y en alguna de las fuentes no haya datos para alguna observación. 

En cualquier caso, uno de los objetivos de `Pandas` es hacer que el trabajo con los datos faltantes sea lo menos doloroso posible. Por ejemplo, todas las estadísticas descriptivas de los objetos `Pandas` ignoran por default a los datos que faltan.

La principales formas que tiene `Pandas` de representar a los datos nulos son las siguentes:

- `None`: objeto de Python que representa ausencia de dato
- `NaN` (Not a Number): representación de datos faltantes para datos numéricos
- `NaT`: se utiliza para valores faltantes del tipo Timestamp

##### Detección de datos faltantes

Los objetos de `Pandas` tienen el método `isnull()` que nos permite identificar datos faltantes. 

Veamos si nuestro dataset tiene datos faltantes:

In [None]:
dataset.isnull()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,False,False,False,False,True,False,False,True,False,False,False,False,False
1,False,False,False,False,False,False,True,True,False,False,False,False,False
2,False,False,True,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,True,False,True,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65494,False,False,False,False,False,False,False,True,False,False,False,False,False
65495,False,False,True,False,False,False,False,True,False,False,False,False,False
65496,False,False,False,False,False,False,False,False,True,True,False,False,False
65497,False,False,False,False,False,False,False,False,True,True,False,False,False


Como el método `isnull()` devuelve valores boolenanos, frecuentemente es más cómodo aplicar el método `sum()` al output, de modo tal de tener un conteo de los datos faltantes por columna. 

Recordemos que el método `sum()` tomará como `1` a los valores `True` y como `0` a los `False`.  

In [None]:
dataset.isnull().sum()

country                     32
description                  0
designation              18136
points                       0
price                     4489
province                    32
region_1                 10277
region_2                 38442
taster_name              13176
taster_twitter_handle    15455
title                        0
variety                      0
winery                       0
dtype: int64

##### Filtrado de datos faltantes: `dropna()`

`Pandas` nos provee de un método para identificar y filtrar datos faltantes en un solo paso. Este es el método `dropna()`.

Apliquémoslo a nuestro dataset con datos nulos.

In [None]:
dataset_dropna = dataset.dropna()

Vamos a comparar los `shape` del dataset con nulos y el dataset con los nulos filtrados, para ver el resultado del filtro:

In [None]:
print(dataset.shape)
print(dataset_dropna.shape)

(62589, 13)
(10516, 13)


De las 62.589 observaciones (filas), nos quedaron 10.516. Esto sucede porque el argumento `how` viene por default con el valor `'any'`. Esto quiere decir que es suficiente con que haya 1 valor nulo en la fila para que ésta sea filtrada. El análisis se hace por fila porque también por default `axis=0`. Podemos pedir que el análisis sea por columna cambiando el valor a 1.

Como se pueden imaginar, filtrar toda la fila por tener un dato nulo puede representar un problema. Veamos cómo podemos ajustar el criterio:

In [None]:
dataset_dropna_fullrow = dataset.dropna(how = 'all')

Ahora le pedimos al método que solamente filtre la fila si todos los datos son nulos. Veamos el resultado:

In [None]:
print(dataset.shape)
print(dataset_dropna_fullrow.shape)

(62589, 13)
(62589, 13)


No filtramos nada. Tal vez `how= 'all'` es un criterio demasiado restrictivo. Veamos si podemos establecer un criterio más flexible:

In [None]:
# Tolero como máximo 4 columnas con datos nulos por fila:
umbral = dataset.shape[1] - 4
dataset_dropna_tresh = dataset.dropna(axis = 0, thresh=umbral)
print(dataset.shape)
print(dataset_dropna_tresh.shape)

(62589, 13)
(62282, 13)


Con el uso del argumento `thresh`(de umbral) puedo definir un criterio que se amolde a las necesidades de mi análisis.

También podemos usar el argumento `subset` para filtrar considerando solamente un subconjunto de columnas.

In [None]:
dataset_dropna_subset = dataset.dropna(subset=['price', 'province'])
print(dataset.shape)
print(dataset_dropna_subset.shape)

(62589, 13)
(58072, 13)


In [None]:
dataset.shape[0] - dataset_dropna_subset.shape[0]

4517

Vemos que, como por default, el argumento `how = any`, entonces se eliminan las filas que tengan un nulo en por lo menos una de las columnas. Podemos modificar esto para que todas las columnas del subset sean nulas para que el registro sea eliminado. 

In [None]:
dataset_dropna_subset = dataset.dropna(how = 'all', subset=['price', 'province'])
print(dataset.shape)
print(dataset_dropna_subset.shape)

(62589, 13)
(62585, 13)


In [None]:
dataset.shape[0] - dataset_dropna_subset.shape[0]

4

##### Imputación

Una alternativa a filtrar los datos es completar el valor que falta con algún valor que podamos estimar o definir de acuerdo a algún criterio. La técnica de completar los datos faltantes se llama **imputación**.

`Pandas` provee un método para completar los datos faltantes: `fillna()`. Como primer paso, imputamos a cada dato faltante por el valor promedio de la columna:

In [None]:
dataset['price'].mean()

35.32779690189329

In [None]:
dataset['price'].fillna(dataset['price'].mean())

0        35.327797
1        15.000000
2        14.000000
3        13.000000
4        65.000000
           ...    
65494    45.000000
65495    22.000000
65496    20.000000
65497    31.000000
65498    10.000000
Name: price, Length: 62589, dtype: float64

También podemos usar el `groupby` para dividir el dataset en grupos e imputar por la media de estos grupos. 

En este caso, vamos a asumir que una distinción relevante es calcular la media agrupando por variety. 

In [None]:
dataset.groupby('variety')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x136052e20>

In [None]:
# Usamos groupby para imputar:

dataset[['variety', 'price']].groupby('variety').transform('mean')

Unnamed: 0,price
0,22.677998
1,25.304428
2,23.211852
3,31.284515
4,47.720209
...,...
65494,35.152988
65495,47.007251
65496,20.341443
65497,25.351351


In [None]:
dataset.fillna(dataset[['variety', 'price']].groupby('variety').transform('mean'), inplace=True)

In [None]:
dataset.isnull().sum()

country                     32
description                  0
designation              18136
points                       0
price                       10
province                    32
region_1                 10277
region_2                 38442
taster_name              13176
taster_twitter_handle    15455
title                        0
variety                      0
winery                       0
dtype: int64

In [None]:
dataset[['variety', 'price']].groupby('variety').mean().isnull().sum()

price    8
dtype: int64

In [None]:
dataset['price'].fillna(dataset['price'].mean(), inplace=True)

dataset.isnull().sum()

country                     32
description                  0
designation              18136
points                       0
price                        0
province                    32
region_1                 10277
region_2                 38442
taster_name              13176
taster_twitter_handle    15455
title                        0
variety                      0
winery                       0
dtype: int64

La **imputación** de datos faltantes es un tema amplio y existen diferentes técnicas. No es necesario imputar siempre por la media, por ejemplo. Se puede imputar usando los métodos de `Pandas` pero  también hay que tener en cuenta que hay disponibles librerías muy útiles que simplifican la tarea de la imputación. 

Por ejemplo, `Sklearn`, una biblioteca de Python que provee implementaciones de algoritmos de machine learning ofrece la clase `SimpleImputer`. Dejamos el link, pero como todavía no aprendimos a trabajar con `Sklearn`, no vamos a entrar en detalle ahora:

https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer

#### 1.3) Detectar y filtrar outliers

No existe un criterio que sea válido en todos los casos para identificar los outliers. 

En esta práctica consideraremos como outliers a los datos que sean mayores al tercer cuartil más 1.5 veces el rango intercuartil o menores al primer cuartil menos 1.5 veces el rango intercuartil. 

Vamos a generar una máscaras booleanas que nos van a servir para identificar a los outliers.

In [None]:
dataset.loc[:, 'price'].max()

2500.0

In [None]:
dataset.loc[:, 'price'].quantile(0.5)

26.0

In [None]:
q1 = dataset.loc[:, 'price'].quantile(0.25)
q3 = dataset.loc[:, 'price'].quantile(0.75)
iqr = q3 - q1

In [None]:
q1

18.0

In [None]:
q3

44.471774193548384

In [None]:
# Rango intercuartil
iqr

26.471774193548384

Una forma frecuente de considerar a valores como outliers, es si superan el Q3 + 1.5 * RI o Q1 - 1.5 * RI.

Este es el criterio que por ejemplo se utiliza en los box-plots.

In [None]:
q3 + 1.5 * iqr

84.17943548387096

In [None]:
q1 - 1.5 * iqr

-21.707661290322577

Vemos que el valor Q1 - 1.5 * RI es negativo, por lo cual, para este caso de uso, carece de sentido, y por lo tanto no lo vamos a considerar. 

In [None]:
mask_high = (dataset.loc[:, 'price'] > (q3 + 1.5 * iqr))

In [None]:
dataset.loc[mask_high==True,:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
60,US,"Syrupy and dense, this wine is jammy in plum a...",Estate,86,100.0,California,Napa Valley,Napa,Virginie Boone,@vboone,Okapi 2013 Estate Cabernet Sauvignon (Napa Val...,Cabernet Sauvignon,Okapi
111,US,This 100% varietal wine opens in a heady aroma...,Wolff Vineyard,87,85.0,California,Yountville,Napa,Virginie Boone,@vboone,Piña 2013 Wolff Vineyard Cabernet Sauvignon (Y...,Cabernet Sauvignon,Piña
139,France,"Beautiful deep gold color. Intense, concentrat...",Cuvée Jerémy Sélection de Grains Nobles,90,112.0,Alsace,Alsace,,,,Kuentz-Bas 2007 Cuvée Jerémy Sélection de Grai...,Pinot Gris,Kuentz-Bas
144,US,"Thick and brooding, this dark, sweetly tannic ...",K Block,91,85.0,California,Spring Mountain District,Napa,Virginie Boone,@vboone,Terra Valentine 2013 K Block Cabernet Sauvigno...,Cabernet Sauvignon,Terra Valentine
236,US,"Shows rich, firm mountain tannins and well-rip...",Kiss Ridge Vineyard,85,85.0,California,Diamond Mountain District,Napa,,,Meeker 2004 Kiss Ridge Vineyard Cabernet Sauvi...,Cabernet Sauvignon,Meeker
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65357,France,This most powerful of Grand Cru vineyards has ...,,96,496.0,Burgundy,Chambertin,,Roger Voss,@vossroger,Roche de Bellene 2011 Chambertin,Pinot Noir,Roche de Bellene
65359,France,Spice and mint dominate this intensely aromati...,,95,295.0,Burgundy,Clos de la Roche,,Roger Voss,@vossroger,Roche de Bellene 2011 Clos de la Roche,Pinot Noir,Roche de Bellene
65363,France,With just a touch of bottle age giving a toast...,Comtes de Champagne Blanc de Blancs Brut,95,170.0,Champagne,Champagne,,Roger Voss,@vossroger,Taittinger 2005 Comtes de Champagne Blanc de B...,Chardonnay,Taittinger
65364,France,Rich black fruits are supported by a dark stru...,,95,262.0,Burgundy,Echézeaux,,Roger Voss,@vossroger,Roche de Bellene 2011 Echézeaux,Pinot Noir,Roche de Bellene


In [None]:
mask_high

0        False
1        False
2        False
3        False
4        False
         ...  
65494    False
65495    False
65496    False
65497    False
65498    False
Name: price, Length: 62589, dtype: bool

Hay que tener mucho cuidado con el filtrado o la corrección de valores extremos. Antes de realizar una modificación en los datos tenemos que estar seguros que esos valores extremos en realidad no sean información valiosa.

En el caso de este dataset, lo más probable es que los vinos con precio muy alto sean simplemente vinos de alta gama. De todos modos, el caso de querer corregir valores extremos, podríamos realizarlo del siguiente modo:

In [None]:
dataset.loc[mask_high, 'price'] = dataset.loc[mask_high, 'price'].apply(lambda x: (q3 + 1.5 * iqr))

In [None]:
dataset['price'].max()

84.17943548387096

Otro criterio que podríamos usar para detectar valores extremos es buscar valores que están a más de 3 desvíos estándar de la media. 

### 2) Variables categóricas 


La forma más común de representar las variables categóricas es el uso de la codificación $one-hot-encoding$ también conocida como `variables dummy`. La idea detrás de las variables ficticias es reemplazar una variable categórica con una o más nuevas características que pueden tener los valores 0 y 1. 

Veamos un ejemplo tomado del manual de Andreas C. Müller and Sarah Guido:

<img src="img/one_hot.png" width="350">


`Pandas` cuenta con el método `pd.get_dummies()` que recibe una serie o una lista de series y realiza el one-hot-encoding.

Recordemos que una variable con `k` categorías se puede representar con `k-1` variables.

Por eso un parámetro clave de `pd.get_dummies()` es `drop_first = True` que genera `k-1` categorías en lugar de `k`. 

In [None]:
pd.get_dummies(dataset['country'])

Unnamed: 0,Argentina,Armenia,Australia,Austria,Bosnia and Herzegovina,Brazil,Bulgaria,Canada,Chile,Croatia,...,Serbia,Slovakia,Slovenia,South Africa,Spain,Switzerland,Turkey,US,Ukraine,Uruguay
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65494,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
65495,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
65496,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
65497,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [None]:
dataset['country'].unique()

array(['Italy', 'Portugal', 'US', 'Spain', 'France', 'Germany',
       'Argentina', 'Chile', 'Australia', 'Austria', 'South Africa',
       'New Zealand', 'Israel', 'Hungary', 'Greece', 'Romania', 'Mexico',
       'Canada', nan, 'Turkey', 'Czech Republic', 'Slovenia',
       'Luxembourg', 'Croatia', 'Uruguay', 'Lebanon', 'Serbia', 'Georgia',
       'Brazil', 'Morocco', 'Peru', 'India', 'Bulgaria', 'Cyprus',
       'Armenia', 'Moldova', 'England', 'Switzerland',
       'Bosnia and Herzegovina', 'Ukraine', 'Slovakia', 'Macedonia'],
      dtype=object)

Podemos agregar un prefijo para identificar la categoría:

El método `pd.get_dummies()` genera como output un `DataFrame`. Vamos a almacenar este objeto en la variable `dummies`. Vamos a pasar también el argumento `drop_first=True`.

In [None]:
dummies = pd.get_dummies(dataset['country'], prefix='country', \
                         drop_first=True)
dummies

Unnamed: 0,country_Armenia,country_Australia,country_Austria,country_Bosnia and Herzegovina,country_Brazil,country_Bulgaria,country_Canada,country_Chile,country_Croatia,country_Cyprus,...,country_Serbia,country_Slovakia,country_Slovenia,country_South Africa,country_Spain,country_Switzerland,country_Turkey,country_US,country_Ukraine,country_Uruguay
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65494,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
65495,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
65496,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
65497,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


Podemos generar un dataset con dummies directamente pasando un `DataFrame` con las variables numéricas y las categoricas. `Pandas` va a ignorar las variables numéricas. Además, por ejecutar la función sobre un `DataFrame`, `Pandas` va a agregar automáticamente el prefijo usando el nombre de la columna.

In [None]:
pd.get_dummies(dataset[['province', 'country', 'price', 'points']], drop_first=True)

Unnamed: 0,price,points,province_Aconcagua Costa,province_Aconcagua Valley,province_Aegean,province_Agioritikos,province_Ahr,province_Alenquer,province_Alentejano,province_Alentejo,...,country_Serbia,country_Slovakia,country_Slovenia,country_South Africa,country_Spain,country_Switzerland,country_Turkey,country_US,country_Ukraine,country_Uruguay
0,22.677998,87,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,15.000000,87,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,14.000000,87,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,13.000000,87,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,65.000000,87,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65494,45.000000,90,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
65495,22.000000,90,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
65496,20.000000,90,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
65497,31.000000,90,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


### 3) Expresiones Regulares

Una **expresión regular** es una secuencia de caracteres que define un patrón de búsqueda de texto. Las regex constituyen lenguaje muy flexible que sirve para identificar y extraer información de un cuerpo de caracteres no estructurado.

**Referencia:** https://regex101.com/

In [None]:
with pd.option_context('display.max_colwidth', 10000):
    display(dataset['title'].sample(10, random_state=20))

39400                             29 & Oak Wines 2013 Reserve Cabernet Sauvignon (Oakville)
37091                          Seven Falls 2015 GPS Jones Vineyard Viognier (Wahluke Slope)
8823                                                       Château Reysson 2011  Haut-Médoc
49001                                    Cantina Cortaccia 2014 Kofl Sauvignon (Alto Adige)
63033                                                   Arrayán 2007 Premium Red (Mentrida)
58642                                       V. Sattui 2013 Reserve Chardonnay (Napa Valley)
25381    Williams Selyem 2012 Burt Williams' Morning Dew Ranch Pinot Noir (Anderson Valley)
18586                        Herdade dos Templários 2011 Vale das Donas Branco White (Tejo)
48520                             Lantides 2014 Ancient Varietal Moschofilero (Peloponnese)
12860                                            Wiese & Krohn 1964 Branco Colheita  (Port)
Name: title, dtype: object

Vamos a crear una expresión regular simple para extraer el año del texto de título.

In [None]:
import re

pattern = "(\d{4})"
r = re.compile(pattern)

In [None]:
type(r)

re.Pattern

In [None]:
s1 = '29 & oak wines 2013 reserve cabernet sauvignon (oakville)'

In [None]:
match = r.search(s1)
match

<re.Match object; span=(15, 19), match='2013'>

In [None]:
match.groups()

('2013',)

In [None]:
match[0]

'2013'

¿Qué sucedería si tuviéramos más de una ocurrencia? Vamos a combinar 2 títulos para tener 2 años. 

In [None]:
s2 = '''
seven falls 2015 gps jones vineyard viognier (wahluke slope). 
v. sattui 2013 reserve chardonnay (napa valley)
'''

In [None]:
match = r.search(s2)
match

<re.Match object; span=(13, 17), match='2015'>

In [None]:
match.groups()

('2015',)

El método `search()` nos trae solamente la primera ocurrencia. Para obtener todas podemos usar el método `findall()`

In [None]:
r.findall(s2)

['2015', '2013']

In [None]:
dataset['year'] = dataset['title'].apply(lambda x: r.search(x)[0] if isinstance(x, str) and r.search(x) else None)

In [None]:
dataset[['title', 'year']].sample(10)

Unnamed: 0,title,year
58424,Rocca delle Macìe 2009 Occhio a Vento Vermenti...,2009
50884,Jermann 2015 Pinot Grigio (Friuli Venezia Giulia),2015
10276,Louis M. Martini 2010 Cabernet Sauvignon (Sono...,2010
1218,Bucci 2014 Villa Bucci Riserva (Verdicchio de...,2014
59845,Nisia 2014 Old Vines Verdejo (Rueda),2014
36539,Marqués de Riscal 2007 Reserva (Rioja),2007
42115,Fortant 2016 Coast Select Grenache Rosé (Pays ...,2016
58743,Ojai 2013 White Hawk Vineyard Sangiovese (Sant...,2013
13002,Aitor Ider Balbo 2006 El Encanto Cabernet Sauv...,2006
56767,Emmerich Knoll 2007 Ried Kreutles Smaragd Grün...,2007


In [None]:
dataset['year'].dtype

dtype('O')

In [None]:
dataset.loc[dataset['year'].isnull(), ['title', 'year']]

Unnamed: 0,title,year
63,Roland Champion NV Brut Rosé (Champagne),
69,Collet NV Brut Rosé (Champagne),
237,Consorzio Vini Tipici di San Marino NV Moscato...,
326,Marsuret NV Extra Dry (Prosecco di Valdobbiad...,
332,Sommariva NV Palazzo Rosso Brut (Prosecco di ...,
...,...,...
65261,Vicente Gandia NV Sandara Sparkling (Spain),
65274,Ca' Momi NV Ca' Secco Sparkling (California),
65351,Honora NV Cabernet Sauvignon (America),
65426,Cairdeas NV Tri Red (Columbia Valley (WA)),


In [None]:
dataset['year'].isnull().sum()

2090

Hay 2.090 vinos que son NV, es decir nonvintage, que normalmente son blends dos o más años. Podríamos imputar como 'NV' y dejar a year como una variable categórica o pasar a int y buscar otra forma de imputar a los NV. La estrategia a utilizar dependerá de nuestro proyecto.

In [None]:
dataset['year'].fillna('NV', inplace=True)

In [None]:
dataset[['title', 'year']].sample(15)

Unnamed: 0,title,year
54805,Pride Mountain 2008 Viognier (Sonoma County),2008
47839,Le Brun de Neuville NV Lady de N. Cuvée Clovis...,NV
37020,Bokisch 2010 Tempranillo (Lodi),2010
18152,El Xamfrà 2011 Brut Sparkling (Cava),2011
45056,Terre di Leone 2006 Amarone della Valpolicell...,2006
53026,Chatter Creek 2006 Cabernet Sauvignon (Columbi...,2006
7844,Gordon Brothers 1999 Cabernet Sauvignon (Colum...,1999
15943,Pazo Pondal 2013 Albariño (Rías Baixas),2013
13504,Tasca d'Almerita 2010 Regaleali White (Sicilia),2010
61128,Shea 2013 West Hill Pinot Noir (Willamette Val...,2013


## Sintaxis en expresiones regulares en Python


#### Metacaracteres

    .  símbolo que indica cualquier caracter con excepción de nueva línea (\n)
    ^  símbolo que indica comienzo del string
    $  símbolo que indica fin del string
    \  símbolo que escapa caracteres reservados
    |  o lógico 
    \d símbolo que indica cualquier dígito del 0 al 9
    \w símbolo que indica cualquier caracter alfanumérico (A-Z, a-z, 0-9 y _)
    \s símbolo que indica cualquier espacio en blanco (espacio, tabulado, nueva línea, etc.)
    \D símbolo que indica cualquier caracter que no sea dígito
    \W símbolo que indica cualquier caracter que no sea alfanumérico
    \S símbolo que indica cualquier caracter que no sea espacio en blanco

        
#### Cuantificadores

    *  símbolo que indica cero o más ocurrencias
    +  símbolo que indica una o más ocurrencias
    ?  símbolo que indica optativo (puede estar o no)
    {m}  donde m es un número entero, indica exactamente m repeticiones 
    {m,n}  donde m y n son números enteros, indica al menos m repeticiones y como máximo n repeticiones

#### Opciones 

    [abc]  indica un caracter perteneciente al conjunto de valores posibles especificado entre corchetes
    [a-z]  indica un caracter perteneciente al intervalo de valores posibles especificado entre corchetes

#### Grupos 
    ( )  define un grupo
    (?P<group_name> ) define un grupo etiquetado
    
#### Ejemplos de sintaxis:

`\d+` encuentra números de un dígito o más

`.*` encuentra cadenas de caracteres de cualquier longitud, incluso vacías.

`\w{2,6}` encuentra un conjunto de caracteres alfanuméricos con una longitud que va de 2 a 6 caracteres

`[a-zA-Z]` encuentra lo mismo que `[a-zA-Z]{1}` que es cualquier caracter entre a y z minúscula o A y Z mayúscula

`[a-zA-Z]+` encuentra cadenas de caracteres con letras entre a y z y A y Z de longitud al menos 1

`(\d\d\d\d)` encuentra lo mismo que `\d{4}` que son cadenas de cuatro dígitos

`(?P<num>\d\d\d\d)` encuentra  cadenas de cuatro dígitos y etiqueta a ese grupo como "num"


### ¡Muchas gracias por su atención!