# Job 2 - Results analysis

In [2]:
%%python
import os
import re
import pathlib

projectDir = str(pathlib.Path(os.getcwd()).parent.parent.parent)

outputDirPath = f"{projectDir}/output"
outputPath = f"{outputDirPath}/job2-output"
fileNameRegex = re.compile(r"part-\d{5}.*\.csv")

fileName = next(
  (f for f in os.listdir(outputPath) if fileNameRegex.match(f)),
  None
)
outputFilePath = f"{outputPath}/{fileName}"
print(outputFilePath)

/Users/teo/Universita/Magistrale/BIG_DATA/bd-project25/output/job2-output/part-00000-e416f88f-3de2-4fe4-a9b4-8f375896fea6-c000.csv


In [3]:
%%python

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# === CONFIG ===
CSV_FILE = outputFilePath  # Cambia se il tuo file ha un altro nome
PRICE_ORDER = ['*', '**', '***','****']  # Ordine logico delle fasce di prezzo

# === CARICAMENTO DATI ===
df = pd.read_csv(CSV_FILE)

# Assicura che le colonne siano nei tipi corretti
df['year'] = df['year'].astype(int)
df['avg_rating'] = df['avg_rating'].astype(float)
price_mapping = {
    '*': 'Low',
    '**': 'Medium',
    '***': 'High',
    '****': 'Premium',
}
df['price'] = df['price'].replace(price_mapping)
print(df['price'])


# === GRAFICO 1: HEATMAP Stato vs Prezzo ===
plt.figure(figsize=(10, 6))
heatmap_data = df.groupby(['state', df['price']])['avg_rating'].mean().unstack()
sns.heatmap(heatmap_data, annot=True, cmap='YlGnBu', fmt=".2f")
plt.title('ðŸ“Š Media delle valutazioni per Stato e Fascia di Prezzo')
plt.xlabel('Fascia di Prezzo')
plt.ylabel('Stato')
plt.tight_layout()
plt.savefig('grafico_heatmap.png')
plt.show()

# === GRAFICO 2: Andamento temporale ===
plt.figure(figsize=(10, 6))
sns.lineplot(data=df, x='year', y='avg_rating', estimator='mean', ci=None)
plt.title('ðŸ“ˆ Andamento temporale delle valutazioni medie')
plt.ylabel('Valutazione Media')
plt.xlabel('Anno')
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('grafico_linechart_temporale.png')
plt.show()

# === GRAFICO 3: Boxplot per fascia di prezzo ===
plt.figure(figsize=(8, 6))
sns.boxplot(data=df, x='price', y='avg_rating')
plt.title('Distribuzione delle valutazioni per Fascia di Prezzo')
plt.xlabel('Fascia di Prezzo')
plt.ylabel('Valutazione Media')
plt.tight_layout()
plt.savefig('grafico_boxplot_prezzo.png')
plt.show()

# === GRAFICO 4: Mappa coropletica per stato ===
state_avg = df.groupby('state', as_index=False)['avg_rating'].mean()
fig = px.choropleth(
    state_avg,
    locations='state',
    locationmode='USA-states',
    color='avg_rating',
    color_continuous_scale='Viridis',
    scope='usa',
    title='Valutazione media per Stato'
)
fig.write_html('grafico_mappa_stati.html')
fig.show()

print("Grafici generati e salvati:")
print("- grafico_heatmap.png")
print("- grafico_linechart_temporale.png")
print("- grafico_boxplot_prezzo.png")
print("- grafico_mappa_stati.html")


0           Low
1           Low
2        Medium
3           Low
4        Medium
          ...  
29430    Medium
29431       Low
29432       Low
29433    Medium
29434    Medium
Name: price, Length: 29435, dtype: object


{'application/vnd.plotly.v1+json': {'data': [{'coloraxis': 'coloraxis', 'geo': 'geo', 'hovertemplate': 'state=%{location}<br>avg_rating=%{z}<extra></extra>', 'locationmode': 'USA-states', 'locations': ['AL', 'MS', 'NH', 'NM', 'Unknown', 'WA'], 'name': '', 'z': {'dtype': 'f8', 'bdata': 'QLqVGqPBEEA4UNjTz5EQQMuAF40kkxBABSyrFCFxEEDzXhPkAKoQQKlTWmBSwRBA'}, 'type': 'choropleth'}], 'layout': {'template': {'data': {'histogram2dcontour': [{'type': 'histogram2dcontour', 'colorbar': {'outlinewidth': 0, 'ticks': ''}, 'colorscale': [[0.0, '#0d0887'], [0.1111111111111111, '#46039f'], [0.2222222222222222, '#7201a8'], [0.3333333333333333, '#9c179e'], [0.4444444444444444, '#bd3786'], [0.5555555555555556, '#d8576b'], [0.6666666666666666, '#ed7953'], [0.7777777777777778, '#fb9f3a'], [0.8888888888888888, '#fdca26'], [1.0, '#f0f921']]}], 'choropleth': [{'type': 'choropleth', 'colorbar': {'outlinewidth': 0, 'ticks': ''}}], 'histogram2d': [{'type': 'histogram2d', 'colorbar': {'outlinewidth': 0, 'ticks': ''}

Grafici generati e salvati:
- grafico_heatmap.png
- grafico_linechart_temporale.png
- grafico_boxplot_prezzo.png
- grafico_mappa_stati.html
