# Scaricare il file JSON
Scarico il file JSON. Uso la libreria requests per fare una richiesta HTTP e ottenere i dati.

In [21]:
import requests

url = 'https://dati.regione.sicilia.it/dataset/1550ec68-e4d2-49ee-b86e-6556b6cae303/resource/5c7f9425-f36e-47b3-9854-3d277b41bb7d/download/cause_morte.json'
response = requests.get(url)

# Verifica se la richiesta è stata eseguita con successo
if response.status_code == 200:
    print("File scaricato con successo!")
    data = response.json()
else:
    print("Errore nel download del file:", response.status_code)


File scaricato con successo!


# Carico i dati in un Dataframe

In [22]:
import pandas as pd

# Carico i dati nel DataFrame
df = pd.DataFrame(data)

# Visualizzo le prime righe per capire la struttura dei dati
print(df.head())


     PERIODO TERRITORIO                          PATOLOGIA MASCHI FEMMINE
0  2009-2017     081001  Malattie infettive e parassitarie      4       6
1  2009-2017     081001                        Tubercolosi      1       1
2  2009-2017     081001                     Epatite virale      1       0
3  2009-2017     081001                             Tumore    560     435
4  2009-2017     081001                     Tumori maligni    545     426


# Esporto i dati in un file CSV

In [23]:

df.to_csv('cause_morte_sicilia.csv', index=False)

print("File CSV esportato con successo!")


File CSV esportato con successo!


# Raggruppare i dati per patologia e territorio

Poiché le patologie si ripetono per ogni territorio,  raggruppo i dati prima per PATOLOGIA e poi per TERRITORIO. In questo modo posso sommare i decessi per MASCHI e FEMMINE e avere il totale delle morti per ciascun gruppo.

In [24]:
# Raggruppare i dati per patologia e territorio e sommare i valori per maschi e femmine
df_aggregato = df.groupby(['PERIODO', 'PATOLOGIA', 'TERRITORIO']).agg({
    'MASCHI': 'sum',
    'FEMMINE': 'sum'
}).reset_index()

# Aggiungere una colonna "TOTALE" che è la somma dei decessi maschili e femminili
df_aggregato['TOTALE'] = df_aggregato['MASCHI'] + df_aggregato['FEMMINE']

# Visualizzare i dati aggregati
df_aggregato.head()


Unnamed: 0,PERIODO,PATOLOGIA,TERRITORIO,MASCHI,FEMMINE,TOTALE
0,2009-2017,AIDS (malattia da HIV),83032,1,0,10
1,2009-2017,AIDS (malattia da HIV),87011,1,0,10
2,2009-2017,AIDS (malattia da HIV),87015,2,2,22
3,2009-2017,AIDS (malattia da HIV),87025,1,0,10
4,2009-2017,Abuso di alcool (compresa psicosi alcolica),81001,1,0,10


In [25]:
df_aggregato.to_csv('cause_morte_sicilia_aggregato.csv', index=False)


# *Top 10 patologie con il maggior numero di casi nei maschi*

In [26]:

df['MASCHI'] = pd.to_numeric(df['MASCHI'], errors='coerce')  # Converte a numerico, tralasciando errori

# Calcola le top 10 patologie per maschi
top_10_patologie_maschi = df.groupby('PATOLOGIA')['MASCHI'].sum().sort_values(ascending=False).head(10)

# Visualizza il risultato
print(top_10_patologie_maschi)


PATOLOGIA
Malattie del sistema circolatorio                             81203
Tumore                                                        66537
Tumori maligni                                                65183
Malattie ischemiche del cuore                                 23722
Malattie cerebrovascolari                                     23689
Tumori maligni della laringe e della trachea/bronchi/polm.    18343
Malattie del sistema respiratorio                             16800
Altre malattie del cuore                                      16310
Malattie endocrine, nutrizionali e metaboliche                11474
Diabete mellito                                               10548
Name: MASCHI, dtype: int64


 # *Top 10 patologie con il maggior numero di casi nelle femmine*

In [27]:

df['FEMMINE'] = pd.to_numeric(df['FEMMINE'], errors='coerce')  # Converte a numerico, tralasciando errori

# Calcola le top 10 patologie per maschi
top_10_patologie_femmine = df.groupby('PATOLOGIA')['MASCHI'].sum().sort_values(ascending=False).head(10)

# Visualizza il risultato
print(top_10_patologie_femmine)


PATOLOGIA
Malattie del sistema circolatorio                             81203
Tumore                                                        66537
Tumori maligni                                                65183
Malattie ischemiche del cuore                                 23722
Malattie cerebrovascolari                                     23689
Tumori maligni della laringe e della trachea/bronchi/polm.    18343
Malattie del sistema respiratorio                             16800
Altre malattie del cuore                                      16310
Malattie endocrine, nutrizionali e metaboliche                11474
Diabete mellito                                               10548
Name: MASCHI, dtype: int64


In [28]:
df['TOTALE'] = df['MASCHI'] + df['FEMMINE']

# *Territorio con maggior numero di patologie*

In [29]:

territorio_top = df.groupby('TERRITORIO')['TOTALE'].sum().sort_values(ascending=False).head(1)

print(territorio_top)

TERRITORIO
082053    111706
Name: TOTALE, dtype: int64


CODICE ISTAT 082053 = PALERMO

# Top 10 Territori con il Maggior Numero di Patologie Totali

In [30]:

top_10_territori = df.groupby('TERRITORIO')['TOTALE'].sum().sort_values(ascending=False).head(10)

print(top_10_territori)


TERRITORIO
082053    111706
087015     59181
083048     45949
089017     20622
081011     15672
088009     13599
081021     13022
085004     11513
085007     11149
084001     10292
Name: TOTALE, dtype: int64


082053: Palermo
087015: Mazara del Vallo
083048: Catania
089017: Messina
081011: Marsala
088009: Ragusa
081021: Trapani
085004: Enna
085007: Caltanissetta
084001: Agrigento

# Patologie più comuni in un territorio specifico (Canicattì)
CODICE ISTAT = 084001

In [31]:

territorio_analizzato = '084001'  # Codice ISTAT CANICATTI
patologie_territorio = df[df['TERRITORIO'] == territorio_analizzato].groupby('PATOLOGIA')['TOTALE'].sum().sort_values(ascending=False).head(15)
print(patologie_territorio)



PATOLOGIA
Malattie del sistema circolatorio                             2171
Tumore                                                        1415
Tumori maligni                                                1396
Malattie cerebrovascolari                                      579
Malattie ischemiche del cuore                                  541
Altre malattie del cuore                                       461
Malattie del sistema respiratorio                              327
Malattie endocrine, nutrizionali e metaboliche                 303
Tumori maligni della laringe e della trachea/bronchi/polm.     298
Diabete mellito                                                272
Malattie del sistema nervoso e degli organi di senso           193
Malattie croniche delle basse vie respiratorie                 186
Malattie dell'apparato digerente                               186
Malattie del sistema genitourinario                            163
Malattie del rene e dell'uretere                    

# Le patologie più comuni in ciascun territorio

In [32]:
patologie_territorio = df.groupby(['TERRITORIO', 'PATOLOGIA'])['TOTALE'].sum().unstack().fillna(0)
top_patologie_per_territorio = patologie_territorio.apply(lambda x: x.idxmax(), axis=1)
print(top_patologie_per_territorio)


TERRITORIO
081001    Malattie del sistema circolatorio
081002    Malattie del sistema circolatorio
081003    Malattie del sistema circolatorio
081004    Malattie del sistema circolatorio
081005    Malattie del sistema circolatorio
                        ...                
089017    Malattie del sistema circolatorio
089018    Malattie del sistema circolatorio
089019    Malattie del sistema circolatorio
089020    Malattie del sistema circolatorio
089021    Malattie del sistema circolatorio
Length: 390, dtype: object


*Si evince che le malattie cardiovascolari sono la prima causa di morte in tutto il territorio*

# Distribuzione delle patologie per territorio (barplot)
Un grafico a barre che mostra la somma totale di tutte le patologie per ogni territorio. Questo ci aiuta a capire quale territorio ha il maggior numero complessivo di casi. 

In [4]:
!pip install matplotlib



In [5]:
import matplotlib
matplotlib.use('TkAgg')  # O puoi provare 'Qt5Agg' o altri supportati

import matplotlib.pyplot as plt


ValueError: Key backend: 'module://matplotlib_inline.backend_inline' is not a valid value for backend; supported values are ['gtk3agg', 'gtk3cairo', 'gtk4agg', 'gtk4cairo', 'macosx', 'nbagg', 'notebook', 'qtagg', 'qtcairo', 'qt5agg', 'qt5cairo', 'tkagg', 'tkcairo', 'webagg', 'wx', 'wxagg', 'wxcairo', 'agg', 'cairo', 'pdf', 'pgf', 'ps', 'svg', 'template']

In [6]:
import matplotlib
matplotlib.rcParams['backend'] = 'TkAgg'  # O prova un altro backend come 'Qt5Agg'
import matplotlib.pyplot as plt



ValueError: Key backend: 'module://matplotlib_inline.backend_inline' is not a valid value for backend; supported values are ['gtk3agg', 'gtk3cairo', 'gtk4agg', 'gtk4cairo', 'macosx', 'nbagg', 'notebook', 'qtagg', 'qtcairo', 'qt5agg', 'qt5cairo', 'tkagg', 'tkcairo', 'webagg', 'wx', 'wxagg', 'wxcairo', 'agg', 'cairo', 'pdf', 'pgf', 'ps', 'svg', 'template']