# Algoritmos disponibles en machine learning

![image info](../img/tipos_ml.png)

# Análisis exploratorio de datos

## Importamos librerías necesarias

In [1]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

## Lectura de los datos iniciales

In [2]:
directorio_data = '../data/'

In [3]:
file_dataset_inicial = directorio_data + 'beer_reviews.csv'

df = pd.read_csv(file_dataset_inicial)
df.drop(columns=['index'], inplace=True)
df = df.loc[:, ['beer_beerid','beer_name', 'brewery_id','brewery_name', 'beer_style','beer_abv', 'review_profilename','review_time','review_overall','review_aroma','review_appearance','review_palate','review_taste']]
df.head(5)

FileNotFoundError: [Errno 2] No such file or directory: '../data/beer_reviews.csv'

## Entendiendo nuestros datos

#### ¿Qué significa cada campo?

(https://www.singingboysbrewing.com/blog/tasting-and-evaluating-your-beer-an-introduction)

1. **beer_beerid** a unique ID indicating the beer reviewed

1. **beer_name** name of the beer

1. **brewery_id** a unique ID indicating the brewery

1. **brewery_name** the brewery name

1. **beer_style** the style of the beer

1. **beer_abv** the alcohol by volume of the beer

1. **review_profilename** profile name of the user

1. **review_time** the date/time of the review

1. **review_aroma** <br> Smell first - there are volatile compounds that may quickly dissipate. Plus, aroma helps set up our sense of taste. You can help concentrate the aromas by covering the top of the glass with your hand and gently swirling the beer. Short, quick sniffs are most effective, usually. Look for: <br>
    1. malt and grain aromas (bread, caramel, biscuit, toast, chocolate, roasted, coffee)
    1. hop aromas (earthiness, citrus, spice, pine, floral, herbal)
    1. esters (pit fruits, plums, cherries, apples, pears)
    1. other (spices like pepperiness or other additions like fruit the brewer may have used)


    Aromas trigger memories - linger on those memories, use them to help you describe the aroma. 

1. **review_appearance** <br> The color of the beer, the clarity of the beer, and the color/size/retention of the head.

1. **review_palate** <br> Take a sip of the beer and hold it in your mouth for a moment before swallowing. Just as you did when evaluating the aroma, look for malt, grain and hop flavors. <br> In addition to hop flavors, hops also add bitterness and, when tasting the beer, you can note the level of bitterness and its quality.  Another component of flavor is the balance between malt flavors and bitterness. Look for the balance of the flavors, whether the beer is malt-forward or dominated by a strong bracing bitterness, or in balance. Look for both components of hops – bitterness and flavor, they are different. <br> Similar to ester aromas, you should note esters in the flavors, which often arise from yeast and fermentation.  Other yeast and fermentation character can also present, such as spices like black pepper or coriander. <br> Some beers will have purposeful tartness or sourness. Acidity plays an important role in beer flavor. Is the beer dry or sweet? Some flavors hit your palate first and fade, others last throughout the finish and aftertaste. <br> As you taste, try a technique called 'aspiration' - either hold some of the beer in your mouth as you breathe in and out over it or immediately after swallowing the beer, breathe out through your nose. Aspiration gets aroma molecules up into your nose, which enhances your perception of flavors, as aroma and flavor are interconnected. 

1. **review_taste** (mouthfeel) <br> While tasting the beer, pay attention to its character and qualities on your tongue. Is the beer full-, medium-, or light-bodied? Is the carbonation effervescent, medium or low? Is there astringency or a creaminess to the beer? Alcohol warmth?

1. **review_overall** <br> After you’ve looked at all the individual elements, you need to see if the components come together into an enjoyable, harmonious whole.  Were there any significant flaws or off-flavors in the beer (plastic, medicinal, unintended sourness, oxidation, etc.)?  How would this beer pair with different foods? In what contexts would you enjoy this beer - sipping by the fire on a cold winter's night or drinking by the pint on the back porch on a warm summer day?  In a competition, does the beer fit within the style?  Also, this is where you might offer a suggestion on how the brewer might improve the beer or address a flaw. 

#### Número de reseñas

In [None]:
total_resenias = len(df)
total_resenias

## Trabajando con múltiples reseñas

#### ¿Existen usuarios que hayan hecho más de un review a una misma cerveza?

In [None]:
df_resenias = df[['beer_beerid', 'review_profilename', 'review_time']].copy().drop_duplicates()
df_resenias.groupby(['beer_beerid', 'review_profilename'])['review_time'].size().reset_index(name='counts').sort_values(by=['counts'], ascending=False)

#### ¿Qué hacemos cuando un usuario realiza más de una reseña? ¿Qué estrategias podemos utilizar?

1. ¿Nos quedamos con todas las reseña que hizo?
1. ¿Generamos un promedio sobre las reseña que hizo?
1. ¿Nos quedamos con la primera reseña?
1. ¿Nos quedamos con la última reseña?
1. ¿Descartamos todas las reseñas que un catador hizo sobre una misma cerveza?

¿Cuál son los pros y los contras de cada estrategia?

#### Estrategia elegida: quedarnos con la última reseña de cada usuario

In [None]:
idx = df.groupby(['beer_beerid', 'review_profilename'])['review_time'].transform(max) == df['review_time']
df_resenias_unicas = df[idx]
df_resenias_unicas.head(5)

#### ¿Cómo afecta al dataset quedarnos con una única reseña por usuario?

In [None]:
resenias_unicas = len (df_resenias_unicas)
resenias_duplicadas = total_resenias - resenias_unicas

data = [resenias_unicas, resenias_duplicadas]
labels = ['Reseñas únicas', 'Reseñas duplicadas']

y=np.array(data)
porcent = 100.*y/y.sum()

labels = ['{0} - ({2:,}) {1:1.2f} %'.format(i,j,h) for i,j,h in zip(labels, porcent, data)]

colors = sns.color_palette('pastel')[0:5]
plt.title('Distribución de reseñas')
plt.pie(data, colors = colors, startangle=90)
plt.legend(labels, loc='lower left', bbox_to_anchor=(-0.1, 0.1), fontsize=8)
plt.show()

#### Guardamos el nuevo dataset

In [None]:
file_resenias_unicas = directorio_data + 'cervezas_resenias_unicas.csv'

df_resenias_unicas.to_csv(file_resenias_unicas, index=False)

In [None]:
df = pd.read_csv(file_resenias_unicas)
df.head(5)

## Valores nulos

### ¿Existen valores nulos?

In [None]:
df.loc[:, ['review_overall', 'review_aroma', 'review_appearance', 'review_palate', 'review_taste', 'beer_abv']].isna().sum()

#### ¿Qué estrategias tenemos disponibles?

1. Interpor: Estimar valores faltanes en función de los valores observados en las filas cercanas
1. Rellenar: 
    1. Valor por fijo por defecto.
    1. Valor calculado (p.e. media)
1. Imputar (un algoritmo que prediga el valor faltante)

Pros y contras de cada estrategia


#### Nuestra estrategia: eliminar si la cantidad de registros eliminados no es significativa

In [None]:
df.loc[:, ['review_overall', 'review_aroma', 'review_appearance', 'review_palate', 'review_taste', 'beer_abv']].isna().sum()

In [None]:
resenias_unicas

Porcentaje perdido de registros

67429 / 1571487 * 100 = 4.29%

#### Marcamos los registros que se deben eliminar

In [None]:
df['eliminar'] = 'NO'

In [None]:
df.loc[df['beer_abv'].isnull(), ('eliminar')] = 'SI'

In [None]:
df.groupby(['eliminar'])['eliminar'].count()

## Valores atipicos

#### ¿Qué es un valor atípico?

(tomado de wikipedia sin permiso)

En estadística, tales como muestras estratificadas, un valor atípico (en inglés outlier) es una observación que es numéricamente distante del resto de los datos

Los valores atípicos son en ocasiones una cuestión subjetiva, y existen numerosos métodos para clasificarlos. El método más impartido académicamente por su sencillez y resultados es el test de Tukey, que toma como referencia la diferencia entre el primer cuartil y el tercer cuartil, o rango intercuartílico. En un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo).

#### ¿Está bien o mal que haya valores atípicos?

1. Edades
1. Pesos
1. Temperaturas

#### Ejemplo de cálculo de valores atípicos o outliers

In [None]:
tmp_data = np.array([1, 4, 5, 7, 20, 25, 26, 30, 35, 37, 39, 145, 1200])

#### Q1: cuartil 1 (25% de los datos)

In [None]:
q1 = np.quantile(tmp_data, 0.25)
q1

#### Q2: cuartil 2 (50% de los datos, tambien llamado mediana)

In [None]:
q2 = np.quantile(tmp_data, 0.5)
q2

#### Q3: cuartil 3 (75% de los datos)

In [None]:
q3 = np.quantile(tmp_data, 0.75)
q3

#### Rango intercuartílico (Q3 - Q1)

In [None]:
ri = q3 - q1
ri

#### Valores atipicos leves (valores entre  Q1 - 1.5*ri)

In [None]:
q1 - 1.5*ri

In [None]:
tmp_data[np.where(tmp_data < q1 - 1.5*ri)]

#### Bigote superior (valores superiores a  Q3 - 1.5*ri )

In [None]:
q3 + 1.5*ri

In [None]:
tmp_data[np.where(tmp_data > q3 + 1.5*ri)]

#### Review overall

In [None]:
data = df['review_overall']
titulo = 'Review overall'
g1 = sns.boxplot(data=data, orient='h')
g1.set(title=titulo)
plt.show()

#### Review aroma

In [None]:
data = df['review_aroma']
titulo = 'Review aroma'
g1 = sns.boxplot(data=data, orient='h')
g1.set(title=titulo)
plt.show()

#### Review appearance

In [None]:
data = df['review_appearance']
titulo = 'Review appearance'
g1 = sns.boxplot(data=data, orient='h')
g1.set(title=titulo)
plt.show()

#### Review palate

In [None]:
data = df['review_palate']
titulo = 'Review palate'
g1 = sns.boxplot(data=data, orient='h')
g1.set(title=titulo)
plt.show()

#### Review taste

In [None]:
data = df['review_taste']
titulo = 'Review taste'
g1 = sns.boxplot(data=data, orient='h')
g1.set(title=titulo)
plt.show()

#### Review abv

In [None]:
data = df.loc[:, ('beer_beerid', 'beer_abv')].drop_duplicates()['beer_abv']
titulo = 'Alcohol by volume'
g1 = sns.boxplot(data=data, orient='h')
g1.set(title=titulo)
plt.show()

In [None]:
data_sin_nan = data[np.logical_not(np.isnan(data))]
q_1_2_3 = np.quantile(data_sin_nan, [0.25, 0.5, 0.75])
q_1_2_3

In [None]:
ri = q_1_2_3[2] - q_1_2_3[0]
ri

In [None]:
outliers_superiores = q_1_2_3[2] + 1.5*ri
outliers_superiores

In [None]:
data_sin_nan[data_sin_nan > outliers_superiores]

In [None]:
tmp_data = df[['beer_beerid', 'beer_name', 'brewery_id', 'brewery_name', 'beer_style', 'beer_abv']].drop_duplicates()

tmp_data[(~tmp_data['beer_abv'].isnull()) & (tmp_data['beer_abv']>outliers_superiores)].sort_values(by=['beer_abv'], ascending=False)

### Definiendo la popularidad

#### Numero de catadores

In [None]:
numero_de_catadores = len(pd.unique(df['review_profilename']))
numero_de_catadores

  #### Nos quedamos solo con las cervezas que no hay que eliminar

In [None]:
df2 = df[df['eliminar'] == 'NO'].copy().drop(['eliminar'], axis=1)
df2

#### Agrupamos por cerveza para obtener la cantidad de puntuaciones y calculo de promedios en las puntuaciones

In [None]:
df = df2.groupby(['beer_beerid', 'beer_name', 'brewery_id', 'brewery_name', 'beer_style', 'beer_abv']).agg(
    votaciones = pd.NamedAgg(column='review_profilename', aggfunc='count'),
    review_overall = pd.NamedAgg(column='review_overall', aggfunc='mean'),
    review_aroma = pd.NamedAgg(column='review_aroma', aggfunc='mean'),
    review_appearance = pd.NamedAgg(column='review_appearance', aggfunc='mean'),
    review_palate = pd.NamedAgg(column='review_palate', aggfunc='mean'),
    review_taste = pd.NamedAgg(column='review_taste', aggfunc='mean'),
)

df['porcentaje_catadores'] = df['votaciones'] / numero_de_catadores * 100
df.drop(['votaciones'], axis=1)
df = df.reset_index()
df.sort_values(by=['porcentaje_catadores'], ascending=False)

In [None]:
total_de_cervezas =len(df)
total_de_cervezas

In [None]:
txt = "{porcentaje_de_cervezas:.2f}% de cervezas fueron probadas por al menos el {porcentaje_catadores:.2f}% de los catadores"

for porcentaje_de_cata in [10,9.5,9,8.5,8,7.5,7,6.5,6,5.5,5,4.5,4,3.5,3,2.5,2,1.5,1,0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1,0.05]:
    porcentaje_de_cervezas =len(df[df['porcentaje_catadores'] > porcentaje_de_cata]) / total_de_cervezas * 100
    print(txt.format(porcentaje_catadores = porcentaje_de_cata, porcentaje_de_cervezas = porcentaje_de_cervezas))

In [None]:
porcentaje_de_cata = 1

df['POPULAR'] = 'NO'
df.loc[df['porcentaje_catadores']>porcentaje_de_cata, 'POPULAR'] = 'SI'

df.groupby(['POPULAR'])['POPULAR'].size().reset_index(name='counts').sort_values(by=['counts'], ascending=False)

In [None]:
file_puntuacion_agrupada = directorio_data + 'cerveza_puntuacion_agrupada_total.csv'

df.to_csv(file_puntuacion_agrupada, index=False)
df

### ¿Qué es training, qué es testing y qué es validación?

* Training: un conjunto de datos que utilizamos para generar el modelo
* Validation: un conjunto de datos que utilizamos para obtener las métricas de nuestro modelo
* Testing: un conjunto de datos del que se desconoce la clase objetivo, generalmente este es el dataset final sobre el que nuestro modelo debe generar las predicciones

Usualmente, los términos testing y validación se suelen utilizar indistintamente.

![image info](../img/Sets.png)

In [None]:
X = df[["review_overall", "review_aroma", "review_appearance", "review_palate", "review_taste"]]
y = df["POPULAR"]
X_training, X_testing, y_traininig, y_testing = train_test_split(X, y, train_size=0.8, stratify=y)

x_training_file = directorio_data + 'x_traininig.csv'
y_training_file = directorio_data + 'y_traininig.csv'
x_testing_file = directorio_data + 'x_testing.csv'
y_testing_file = directorio_data + 'y_testing.csv'

X_training.to_csv(x_training_file, index=False)
y_traininig.to_csv(y_training_file, index=False)

X_testing.to_csv(x_testing_file, index=False)
y_testing.to_csv(y_testing_file, index=False)

In [None]:
y_traininig.value_counts(normalize=True)

In [None]:
y_testing.value_counts(normalize=True)