# Beer Wizard
### Programma che classifica per nome/stile una birra in base alle caratteristiche fornite
\
Progetto d'esame di Programmazione di Applicazioni Data Intensive \
a.a. 2023/2024 \
DISI - Università di Bologna, Cesena \
**Realizzato da:**
* Martino Pagliarani 0001028890 martino.pagliarani@studio.unibo.it


### Inizializzazione dell'ambiente
Il primo passo è quello di analizzare i dati, per farlo è necessario importare le seguenti librerie:
* *numpy* &rarr; utilizzato per l'analisi numerica dei dati sotto forma di array
* *pandas* &rarr; utilizzato per l'analisi numerica dei dati sotto forma di tabelle
* *pyplot* &rarr; utilizzato per la visualizzazione dei dati sotto forma di grafici

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Caricamento dei dati
Carichiamo i dati da [Kaggle](https://www.kaggle.com/datasets/stephenpolozoff/top-beer-information?select=beer_data_set.csv "Title"). \
Al momento della scrittura, l'ultimo update del dataset risale al 2021 e contiene 5318 birre e le tutte le informazioni relative ad esse. Il dataset è stato ricavato dal sito: [BeerAdvocate](https://www.beeradvocate.com). \
Ogni birra contiene i seguenti dati:
* `Name` &rarr; nome della birra
* `key` &rarr; chiave univoca della birra
* `Style` &rarr; stile della birra
* `Style_key` &rarr; chiave univoca dello stile della birra
* `Brewery` &rarr; birrificio che produce la birra
* `Description` &rarr; descrizione della birra
* `ABV` &rarr; "alcohol by volume" gradazione alcolica della birra
* `Avg Rating` &rarr; valutazione media della birra
* `Min IBU` &rarr; valore minimo dell'indice di amarezza
* `Max IBU` &rarr; valore massimo dell'indice di amarezza
* `Astringency` &rarr; astringenza della birra
* `Body` &rarr; corpo della birra
* `Alcohol` &rarr; quanto si sente l'alcol nella birra
* `Bitter` &rarr; amarezza della birra
* `Sweet` &rarr; dolcezza della birra
* `Sour` &rarr; acidità della birra
* `Salty` &rarr; quanto è salata la birra
* `Fruits` &rarr; quanto è fruttata la birra
* `Hoppy` &rarr; quanto è luppolata la birra
* `Spices` &rarr; quanto è speziata la birra
* `Malty` &rarr; quanto è maltata la birra

In [2]:
import os.path
file = "./beer_data_set.csv"
if not os.path.exists(file):
    print("Missing dataset, download it manually from Kaggle: https://www.kaggle.com/datasets/stephenpolozoff/top-beer-information?select=beer_data_set.csv")

wine = pd.read_csv(file, index_col=1)

In [3]:
wine.head(1)

Unnamed: 0_level_0,Name,Style,Style Key,Brewery,Description,ABV,Ave Rating,Min IBU,Max IBU,Astringency,Body,Alcohol,Bitter,Sweet,Sour,Salty,Fruits,Hoppy,Spices,Malty
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
251,Amber,Altbier,8,Alaskan Brewing Co.,"Notes:Richly malty and long on the palate, wit...",5.3,3.65,25,50,13,32,9,47,74,33,0,33,57,8,111


Per il nostro specifico caso d'uso, non ci interessano tutti i dati presenti nel dataset, quindi rimuoviamo i dati non necessari.

In [4]:
wine.drop(columns=["Style Key", "Brewery", "Description"], inplace=True)

In [5]:
wine.head(2)

Unnamed: 0_level_0,Name,Style,ABV,Ave Rating,Min IBU,Max IBU,Astringency,Body,Alcohol,Bitter,Sweet,Sour,Salty,Fruits,Hoppy,Spices,Malty
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
251,Amber,Altbier,5.3,3.65,25,50,13,32,9,47,74,33,0,33,57,8,111
252,Double Bag,Altbier,7.2,3.9,25,50,12,57,18,33,55,16,0,24,35,12,84


Inoltre vogliamo creare una nuova variabile chiamata `Avg IBU` che rappresenta la media tra `Min IBU` e `Max IBU` e eliminare le due variabili. Rinominiamo anche la variabile `Ave Rating` in `Avg Rating`. Infine riordiniamo le colonne.

In [6]:
# Crea la variabile Avg IBU facendo la media tra Min IBU e Max IBU e poi elimina le due colonne e mette per terza la nuova colonna
wine["Avg IBU"] = wine[["Min IBU", "Max IBU"]].mean(axis=1)
wine.drop(columns=["Min IBU", "Max IBU"], inplace=True)
wine = wine.rename(columns={"Ave Rating": "Avg Rating"})
wine = wine[["Name", "Style", "Avg IBU", "Avg Rating", "ABV", "Astringency", "Body", "Alcohol", "Bitter", "Sweet", "Sour", "Salty", "Fruits", "Hoppy", "Spices", "Malty"]]

In [7]:
wine.head()

Unnamed: 0_level_0,Name,Style,Avg IBU,Avg Rating,ABV,Astringency,Body,Alcohol,Bitter,Sweet,Sour,Salty,Fruits,Hoppy,Spices,Malty
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
251,Amber,Altbier,37.5,3.65,5.3,13,32,9,47,74,33,0,33,57,8,111
252,Double Bag,Altbier,37.5,3.9,7.2,12,57,18,33,55,16,0,24,35,12,84
253,Long Trail Ale,Altbier,37.5,3.58,5.0,14,37,6,42,43,11,0,10,54,4,62
254,Doppelsticke,Altbier,37.5,4.15,8.5,13,55,31,47,101,18,1,49,40,16,119
255,Scurry,Altbier,37.5,3.67,5.3,21,69,10,63,120,14,0,19,36,15,218


TODO: aggiungere descrizione del dataset