In [63]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [95]:
# Load the data
file_path = '../../data/raw/clustered_data.parquet'
data = pd.read_parquet(file_path)


In [None]:
data.info()

In [None]:
data.head()

## Analysis Results
Visualization of Features Distribution for Clusters and Interpretation of Results.
Provide representative graphs for the clusters, in order to visualize the distribution of features within the different clusters. This analysis will be useful in understanding how the various characteristics are distributed among the various groups identified by clustering. Additionally, interpret and validate the results obtained.

# Visualizzazione della distribuzione delle caratteristiche per i cluster
Per visualizzare la distribuzione delle caratteristiche per i cluster, creeremo dei grafici rappresentativi che mostrano come le varie caratteristiche sono distribuite tra i diversi gruppi identificati dal clustering. Questa analisi sarà utile per comprendere come le varie caratteristiche sono distribuite tra i vari gruppi identificati dal clustering. Inoltre, interpretare e convalidare i risultati ottenuti.

### Età 
Visualizzazione della distribuzione delle età per i cluster.

In [None]:
# Calcola la percentuale di appartenenza a ciascun cluster per ogni fascia d'età
df_crosstab = pd.crosstab(data['fascia_eta'], data['cluster'], normalize='index') * 100

# Trova il cluster con la percentuale maggiore per ogni fascia d'età
df_max_cluster = df_crosstab.idxmax(axis=1)

# Extract the corresponding highest percentages for each age group
df_max_percentage = df_crosstab.max(axis=1)

print("Percentuale maggiore per ogni fascia d'età:")
print(df_max_percentage)
# Visualizza la tabella delle percentuali
print(df_crosstab)

# Visualizza il cluster con la percentuale maggiore per ogni fascia d'età
print("Cluster con la percentuale maggiore per ogni fascia d'età:")
print(df_max_cluster)

In [None]:
import nbformat
print(nbformat.__version__)


In [94]:
# Create a DataFrame for the bar chart
pie_data = pd.DataFrame({
    'fascia_eta': df_max_cluster.index,
    'percentage': df_max_percentage,
    'cluster': df_max_cluster.values
})

# Define a color map for clusters
cluster_colors = {
    0: 'skyblue',
    1: 'lightgreen',
    2: 'lightcoral',
    3: 'gold',
    # Add more colors if there are more clusters
}

# Create a bar chart using Plotly
fig = px.bar(
    pie_data,
    x='fascia_eta',
    y='percentage',
    color='cluster',
    color_discrete_map=cluster_colors,
    title='Percentuale massima di appartenenza a un cluster per fascia d\'età',
    labels={'fascia_eta': 'Fascia d\'età', 'percentage': 'Percentuale massima di appartenenza al cluster (%)'}
)

# Customize the chart
fig.update_layout(
    xaxis_title='Fascia d\'età',
    yaxis_title='Percentuale massima di appartenenza al cluster (%)',
    legend_title='Cluster',
    xaxis_tickangle=-45
)

# Show the chart
fig.show()

### Analisi della distrubuzione dell'incremento delle teleassistenze per cluster
Visualizzazione della distribuzione delle variazioni delle teleassistenze per i cluster.


In [None]:
# Calcola la frequenza di ciascuna categoria di 'incremento' per cluster
cluster_counts = data.groupby(['cluster', 'incremento_teleassistenze']).size().reset_index(name='count')

#Crea un grafico a barre interattivo con Plotly
fig = px.bar(
    cluster_counts,
    x='cluster',
    y='count',
    color='incremento_teleassistenze',
    title='Distribuzione delle variazioni di teleassistenze per cluster',
    labels={'cluster': 'Cluster', 'count': 'Numero di occorrenze', 'incremento_teleassistenze': 'Variazione di teleassistenze'},
    barmode='group',
    color_discrete_sequence=px.colors.qualitative.Pastel
)

# Personalizza il grafico
fig.update_layout(
    xaxis_title='Cluster',
    yaxis_title='Numero di occorrenze',
    legend_title='Variazione di teleassistenze',
    xaxis_tickangle=-45
)

# Mostra il grafico
fig.show()

### Analisi della distribuzione delle tipologie di professionisti sanitari per cluster
Visualizzazione della distribuzione delle tipologie di professionisti sanitari per i cluster.


In [None]:
import pandas as pd
import plotly.express as px

# Calcola la frequenza di ciascuna tipologia di professionista per cluster
cluster_counts = data.groupby(['cluster', 'tipologia_professionista_sanitario']).size().reset_index(name='count')

# Crea un grafico a barre interattivo con Plotly
fig = px.bar(
    cluster_counts,
    x='cluster',
    y='count',
    color='tipologia_professionista_sanitario',
    title='Distribuzione delle tipologie di professionisti sanitari per cluster',
    labels={'cluster': 'Cluster', 'count': 'Numero di professionisti', 'tipologia_professionista_sanitario': 'Tipologia di professionista'},
    barmode='group',
    color_discrete_sequence=px.colors.qualitative.Pastel
)

# Personalizza il grafico
fig.update_layout(
    xaxis_title='Cluster',
    yaxis_title='Numero di professionisti',
    legend_title='Tipologia di professionista',
    legend=dict(
        x=1.05,  # Posizione orizzontale della legenda
        y=1,      # Posizione verticale della legenda
        traceorder='normal'  # Ordine delle voci nella legenda
    )
)

# Mostra il grafico
fig.show()

### Analisi della distribuzione della tipologia di professionista sanitario per cluster
Visualizzazione della distribuzione della tipologia di professionista sanitario per i cluster.


In [None]:
import plotly.express as px

fig = px.bar(cluster_counts, x='cluster', y='count', color='tipologia_professionista_sanitario', barmode='group')
fig.show()

### Analisi della distribuzione delle regioni di residenza per cluster
Visualizzazione della distribuzione delle regioni di residenza per i cluster.

In [None]:
# Calcola la frequenza di ciascuna area geografica per cluster
area_counts = data.groupby(['cluster', 'regione_residenza']).size().reset_index(name='count')

# Crea un grafico a barre interattivo con Plotly
fig = px.bar(area_counts, x='cluster', y='count', color='regione_residenza', barmode='group',
             title='Distribuzione della regione di residenza per cluster',
             labels={'cluster': 'Cluster', 'count': 'Numero di occorrenze', 'regione_residenza': 'regione residenza'})

fig.update_layout(legend_title_text='Regione di Residenza')

# Mostra il grafico
fig.show()

### Analisi della distribuzione del sesso per cluster
Visualizzazione della distribuzione del sesso per i cluster.

In [None]:
# Calcola la percentuale di appartenenza di ciascun sesso per cluster
sex_crosstab = pd.crosstab( data['sesso'], data['cluster'], normalize='index') * 100

# Trova il sesso con la percentuale maggiore per ciascun cluster
max_sex_per_cluster = sex_crosstab.idxmax(axis=1)

# Estrai le percentuali corrispondenti
max_percentage_per_cluster = sex_crosstab.max(axis=1)

print("Percentuale di appartenenza di ciascun sesso per cluster:")
print(sex_crosstab)

print("\nSesso con la percentuale maggiore per ciascun cluster:")
print(max_sex_per_cluster)

print("\nPercentuale maggiore per ciascun cluster:")
print(max_percentage_per_cluster)


In [118]:

# Calculate the percentage of each gender within each cluster
gender_crosstab = pd.crosstab(data['sesso'], data['cluster'], normalize='columns') * 100

# Melt the crosstab DataFrame for easier plotting
melted_gender_data = gender_crosstab.reset_index().melt(id_vars='sesso', var_name='cluster', value_name='percentage')

# Create a bar chart using Plotly
fig = px.bar(
    melted_gender_data,
    x='cluster',
    y='percentage',
    color='sesso',
    title='Distribuzione di uomini e donne per cluster',
    labels={'cluster': 'Cluster', 'percentage': 'Percentuale (%)', 'sesso': 'Sesso'},
    barmode='group',
    color_discrete_map={'female': '#FF69B4', 'male': '#1E90FF'}
    
)

# Customize the chart
fig.update_layout(
    xaxis_title='Cluster',
    yaxis_title='Percentuale',
    legend_title='Sesso',
    bargap=0.4
)

# Show the chart
fig.show()





### Analisi della distribuzione geografica (regione_residenza) per cluster
Calcolo della percentuale di appartenenza a ciascun cluster per regione di residenza e visualizzazione dei risultati.

In [ ]:
# Add latitude and longitude for each region
region_coords = {
    'Abruzzo': (42.351221, 13.398438),
    'Basilicata': (40.639470, 15.805148),
    'Calabria': (38.905975, 16.594401),
    'Campania': (40.839565, 14.250849),
    'Emilia-Romagna': (44.494887, 11.342616),
    'Friuli Venezia Giulia': (45.649526, 13.776818),
    'Lazio': (41.892770, 12.482520),
    'Liguria': (44.411308, 8.932699),
    'Lombardia': (45.466797, 9.190498),
    'Marche': (43.616759, 13.518875),
    'Molise': (41.561918, 14.668747),
    'Piemonte': (45.070312, 7.686856),
    'Puglia': (41.125595, 16.866667),
    'Sardegna': (39.215311, 9.110616),
    'Sicilia': (37.600000, 14.015356),
    'Toscana': (43.769560, 11.255814),
    'Trentino-Alto Adige': (46.499334, 11.356624),
    'Umbria': (43.112203, 12.388784),
    'Valle d\'Aosta': (45.737502, 7.320149),
    'Veneto': (45.434904, 12.338452)
}

# Convert the dictionary to a DataFrame
coords_df = pd.DataFrame.from_dict(region_coords, orient='index', columns=['latitude', 'longitude']).reset_index()
coords_df.rename(columns={'index': 'regione_residenza'}, inplace=True)

# Merge the data with the coordinates
data = pd.merge(data, coords_df, on='regione_residenza')

# Calculate the percentage of each cluster for each region
region_cluster_crosstab = pd.crosstab(data['regione_residenza'], data['cluster'], normalize='index') * 100

# Identify the cluster with the highest percentage for each region
max_cluster_per_region = region_cluster_crosstab.idxmax(axis=1)

# Extract the corresponding highest percentages for each region
max_percentage_per_region = region_cluster_crosstab.max(axis=1)

# Print the cluster with the highest percentage for each region
for region, cluster in max_cluster_per_region.items():
    print(f"Regione: {region}, Cluster: {cluster}, Percentuale: {max_percentage_per_region[region]:.2f}%")

Grafico che visualizza la mappa dell'Italia,ed ogni punto rappresenta una regione, il colore del punto rappresenta il cluster con la percentuale maggiore di appartenenza per quella regione.

In [None]:
# Create a DataFrame for the map
map_data = pd.DataFrame({
    'regione_residenza': max_cluster_per_region.index,
    'cluster': max_cluster_per_region.values,
    'percentage': max_percentage_per_region.values
})

# Merge with coordinates
map_data = pd.merge(map_data, coords_df, on='regione_residenza')

# Create a scatter map with Plotly
fig = px.scatter_mapbox(
    map_data,
    lat='latitude',
    lon='longitude',
    color='cluster',
    size='percentage',
    hover_name='regione_residenza',
    hover_data=['percentage'],
    title='Cluster con percentuale di appartenenza maggiore per regione in Italia',
    color_continuous_scale=px.colors.cyclical.IceFire,
    mapbox_style='carto-positron',
    zoom=5
)

# Customize the map
fig.update_layout(
    mapbox=dict(
        center=dict(lat=41.8719, lon=12.5674),  # Centered on Italy
        zoom=5
    ),
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0.99,  # Positioned at the top right
        y=0.99,  # Positioned at the top right
        xanchor='right',
        yanchor='top',
        traceorder='normal',
        font=dict(size=12),
        bgcolor='rgba(0, 0, 0, 0.7)',  # Dark background color with transparency
        bordercolor='white',  # White border color
        borderwidth=1  # Border width
    )
)

# Show the map
fig.show()

Grafico che visualizza la mappa dell'Italia,ed ogni punto rappresenta una regione, il colore del punto rappresenta il cluster con la percentuale maggiore di appartenenza per quella regione.La dimensione dei punti è proporzionale alla percentuale di appartenenza al cluster dominante.

In [None]:
# Melt the crosstab DataFrame for easier plotting
melted_data = region_cluster_crosstab.reset_index().melt(id_vars='regione_residenza', var_name='cluster', value_name='percentage')

# Merge with coordinates
melted_data = pd.merge(melted_data, coords_df, on='regione_residenza')

# Create a scatter map with Plotly
fig = px.scatter_mapbox(
    melted_data,
    lat='latitude',
    lon='longitude',
    color='cluster',
    size='percentage',
    hover_name='regione_residenza',
    hover_data=['percentage'],
    title='Percentuale di appartenenza a ciascun cluster per regione in Italia',
    color_continuous_scale=px.colors.cyclical.IceFire,
    mapbox_style='carto-positron',
    zoom=5
)

# Customize the map
fig.update_layout(
    mapbox=dict(
        center=dict(lat=41.8719, lon=12.5674),  # Centered on Italy
        zoom=5
    ),
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0.99,  # Positioned at the top right
        y=0.99,  # Positioned at the top right
        xanchor='right',
        yanchor='top',
        traceorder='normal',
        font=dict(size=12),
        bgcolor='rgba(0, 0, 0, 0.7)',  # Dark background color with transparency
        bordercolor='white',  # White border color
        borderwidth=1  # Border width
    )
)

# Adjust marker size to ensure visibility
fig.update_traces(marker=dict(sizemin=5))

# Show the map
fig.show()