## **Reseñas de cerveza de Beer Advocate**

#### **Acerca de este conjunto de datos**

¿Te encanta la cerveza? ¿Te encanta probar nuevas cervezas y calificarlas? ¡Pues este conjunto de datos es perfecto para ti! Contiene 1,5 millones de reseñas de cervezas de Beer Advocate, lo que lo hace ideal para poner a prueba tus habilidades con los datos. Los datos incluyen calificaciones en función de cinco aspectos: apariencia, aroma, paladar, sabor e impresión general. Las reseñas también incluyen información sobre el producto y el usuario. ¿A qué estás esperando? ¡Empieza hoy mismo!

#### **Cómo utilizar el conjunto de datos**

Este gran conjunto de datos de Beer Advocate consta de 1,5 millones de reseñas de cerveza, lo que lo hace ideal para poner a prueba las habilidades con los datos. Los datos incluyen calificaciones en función de cinco aspectos: apariencia, aroma, paladar, sabor e impresión general. Las reseñas también incluyen información sobre el producto y el usuario.

Para utilizar este conjunto de datos de forma eficaz, es importante comprender la estructura de los datos y las relaciones entre las diferentes columnas. La columna 'brewery_name' es un buen punto de partida para explorar los datos, ya que proporciona una descripción general de todas las cervecerías representadas en el conjunto de datos. A partir de ahí, es posible encontrar reseñas de cervecerías específicas mediante las columnas 'review_time' y 'review_profilename'.

La columna 'beer_style' también es importante, ya que proporciona información sobre el tipo de cerveza de cada reseña. Esto se puede utilizar para filtrar los datos de modo que solo se tengan en cuenta las reseñas de un determinado tipo de cerveza. Además, la columna 'beer_abv' se puede utilizar para averiguar qué cervezas tienen mayor o menor contenido de alcohol.

Por último, las columnas 'review_overall', 'review_aroma', 'review_appearance', 'review_palate' y 'review_taste' contienen calificaciones para cada aspecto de la cerveza que se está evaluando. Estas calificaciones se pueden utilizar para comparar diferentes cervezas o para determinar qué aspectos son los más importantes para los evaluadores.

#### **Ideas de investigación**

Desarrollar un modelo para predecir la probabilidad de que una cerveza sea evaluada mucho antes de ser creada.
Cómo crear un sistema de recomendación de cerveza
Cree una aplicación web que utilice el conjunto de datos para ayudar a los usuarios a encontrar cervecerías cercanas según sus preferencias de sabor.

#### **Expresiones de gratitud**

Me gustaría agradecer a [Beer Advocate](https://www.beeradvocate.com/) por proporcionar este conjunto de datos.



In [1]:
# Libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split

import requests
from io import StringIO

In [3]:
df_raw = pd.read_csv("../data/raw/beer_reviews.csv", encoding='latin1')
df_raw.sample(10, random_state=42)

Unnamed: 0,index,brewery_id,brewery_name,review_time,review_overall,review_aroma,review_appearance,review_profilename,beer_style,review_palate,review_taste,beer_name,beer_abv,beer_beerid
859964,859964,13307,Mikkeller ApS,1317606533,4.0,4.5,4.5,Ghenna,American Barleywine,3.5,3.5,Big Worst,18.5,56831
581443,581443,126,Pete's Brewing Company,1195281294,2.5,3.0,3.5,hwwty4,Cream Ale,3.0,2.5,Pete's Wicked Wanderlust Cream Ale,5.6,19950
1270456,1270456,203,Greene King / Morland Brewery,1224109943,4.0,3.5,4.0,dsa7783,English Pale Ale,3.5,3.5,Abbot Ale,5.0,910
477415,477415,167,Brewery Lobkowicz,1070489226,4.5,4.0,3.5,TastyTaste,Czech Pilsener,4.0,4.5,Lobkowicz Knight,4.8,444
1408999,1408999,664,Wells & Young's Ltd,1172208746,5.0,4.0,5.0,BadRockBeer,Milk / Sweet Stout,5.0,5.0,Young's Double Chocolate Stout,5.2,73
640888,640888,30,Avery Brewing Company,1161643310,3.5,4.5,4.5,AaronHomoya,Quadrupel (Quad),4.0,4.0,The Reverend,10.0,2014
366834,366834,22,Unibroue,1215184654,3.0,2.5,3.0,cvstrickland,Fruit / Vegetable Beer,3.0,3.0,ÃphÃ©mÃ¨re (Apple),5.5,3523
1279880,1279880,224,St. Pauli Brauerei C.L. Wilh. Brandt Gmbh & Co.,1276036822,2.0,2.5,3.0,PapaGemutlich,Munich Dunkel Lager,3.0,2.5,St. Pauli Girl Special Dark,4.8,698
1188553,1188553,10099,Dogfish Head Brewery,1192893550,3.5,4.5,4.0,jaxon53,American Barleywine,4.0,4.0,Olde School Barleywine,15.04,6533
571637,571637,9897,Jolly Pumpkin Artisan Ales,1288755942,4.0,4.0,4.0,Mora2000,Pumpkin Ale,4.0,4.0,La Parcela,6.0,45723


In [5]:
df_raw.shape

(1586614, 14)

In [4]:
print(df_raw.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1586614 entries, 0 to 1586613
Data columns (total 14 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   index               1586614 non-null  int64  
 1   brewery_id          1586614 non-null  int64  
 2   brewery_name        1586599 non-null  object 
 3   review_time         1586614 non-null  int64  
 4   review_overall      1586614 non-null  float64
 5   review_aroma        1586614 non-null  float64
 6   review_appearance   1586614 non-null  float64
 7   review_profilename  1586266 non-null  object 
 8   beer_style          1586614 non-null  object 
 9   review_palate       1586614 non-null  float64
 10  review_taste        1586614 non-null  float64
 11  beer_name           1586614 non-null  object 
 12  beer_abv            1518829 non-null  float64
 13  beer_beerid         1586614 non-null  int64  
dtypes: float64(6), int64(4), object(4)
memory usage: 169.5+ MB
None


In [6]:
(df_raw.isnull().sum() / len(df_raw)) * 100

index                 0.000000
brewery_id            0.000000
brewery_name          0.000945
review_time           0.000000
review_overall        0.000000
review_aroma          0.000000
review_appearance     0.000000
review_profilename    0.021934
beer_style            0.000000
review_palate         0.000000
review_taste          0.000000
beer_name             0.000000
beer_abv              4.272306
beer_beerid           0.000000
dtype: float64

In [None]:
#Tranformacion y preprocesamiento
df_interim = (
    df_raw
    .copy()
    .set_axis(
        df_raw.columns.str.replace(" ", "_") #encuentra los espacios blancos y remplazalo por _
        .str.replace(r"\W", "", regex=True) #remplazar caracteres no alfabeticos por nada 
        .str.lower() # resultado de lo que cambiamos lo pasamos a minuscula
        .str.slice(0, 40),axis=1 # slice sirve para cortar el texto hasta un maximo de 40 caracteres
        
    )
    .drop_duplicates()
    .drop("style", axis=1)
    .rename(columns={"styleid": "target"})
    .astype({"brewery_name": "category",
             "review_profilename": "category", 
             "beer_style": "category", 
             "beer_name": "category"}) #drop duplicate para desacernos de los duplicados reanme para cambiar nombre de columnas

In [None]:
df_interim.info()

In [None]:
df = df_interim.copy().reset_index()

In [None]:
df_train, df_test = train_test_split(df, 
                                     random_state=2024, 
                                     test_size=0.20, 
                                     stratify=df['target'])
df_train.info()

In [None]:
display(df_train.describe(include="number").T)
display(df_train.describe(include="category").T)

In [None]:
df_train.hist(figsize=(20, 20))
plt.show()

In [None]:
sns.pairplot(data=df_train)
plt.show