In [73]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Analizzare i dati presenti nella tabella alla pagina 

https://www.comuniecitta.it/province-italiane

### Mostrare gli abitanti di ciascuna regione ordinandoli per numero di abitanti in ordine decrescente

Recupero i dati nella tabella della pagina indicata

In [74]:
url_popolazione = "https://www.comuniecitta.it/province-italiane"

p = pd.read_html(url_popolazione)[0]
p.head(5)

Unnamed: 0,Provincia,Sigla,Popolazione,Regione
0,Agrigento,AG,445.129,Sicilia
1,Alessandria,AL,428.826,Piemonte
2,Ancona,AN,476.192,Marche
3,Arezzo,AR,345.11,Toscana
4,Ascoli Piceno,AP,210.066,Marche


Per effettuare il calcolo richiesto occorre **raggruppare i dati per "Regione"** e quindi **sommare i valori presenti nella colonna "Popolazione"**.

Per poter sommare i valori è necessario che questi siano di tipo numerico.

Verifichiamo quindi per prima cosa i tipi di dato presenti nella tabella.

In [75]:
p.dtypes

Provincia      object
Sigla          object
Popolazione    object
Regione        object
dtype: object

Vediamo che la colonna "Popolazione" è di tipo "object", occorre quindi a trasformarla in intero. Possiamo usare la funzione `to_numeric`

In [76]:
# Provate ad applicare la funzione somma senza convertire l'oggetto in intero, cosa succede?
# p['Popolazione'].sum()

In [77]:
p['Popolazione'] = pd.to_numeric(p['Popolazione'])

ValueError: Unable to parse string "1.263.820" at position 7

Non funziona perchè non riesce ad interpretare correttamente il punto che è stato usato come separatore delle migliaia.

Dobbiamo quindi ad eliminare il punto prima di applicare la funzione.

In [78]:
p['Popolazione'] = pd.to_numeric(p['Popolazione'].str.replace('.',''))

p.dtypes

Provincia      object
Sigla          object
Popolazione     int64
Regione        object
dtype: object

Adesso che la colonna è di tipo intero possiamo applicare le funzioni di **group** by sulla colonna **"Regione"** e di **somma** sulla colonna **"Popolazione"**

Ci sono diversi modi per farlo.

In [79]:
# "Estraggo" dal dataframe raggruppato una sola colonna quindi sto lavorando su una serie
# https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html

p.groupby(['Regione'])['Popolazione'].sum().sort_values(ascending=False)

Regione
Lombardia                10008349
Lazio                     5888472
Campania                  5850850
Sicilia                   5074261
Veneto                    4915123
Emilia Romagna            4448146
Piemonte                  4404246
Puglia                    4077166
Toscana                   3744398
Calabria                  1970521
Sardegna                  1658138
Liguria                   1571053
Marche                    1543752
Abruzzo                   1326513
Friuli Venezia Giulia     1221218
Trentino-Alto Adige       1059114
Umbria                     891181
Basilicata                 573694
Molise                     312027
Valle d'Aosta              127329
Name: Popolazione, dtype: int64

Vediamo i vari tipi di dato utilizzati nei vari passaggi

In [80]:
print('"p" è di tipo ' + str(type(p)))

print()
x = p.groupby(['Regione'])
print('"x" è di tipo ' + str(type(x)))

print()
y = x['Popolazione']
print('"y" è di tipo ' + str(type(y)))

print()
z = y.sum()
print('"z" è di tipo ' + str(type(z)))

"p" è di tipo <class 'pandas.core.frame.DataFrame'>

"x" è di tipo <class 'pandas.core.groupby.generic.DataFrameGroupBy'>

"y" è di tipo <class 'pandas.core.groupby.generic.SeriesGroupBy'>

"z" è di tipo <class 'pandas.core.series.Series'>


In alternativa si potrebbe applicare la funziona somma all'intero dataframe, specificando di utilizzare le sole colonne di tipo numerico.

In [81]:
# Nota che questo sommerebbe TUTTE le colonne
# p.groupby(['Regione']).sum()

p.groupby(['Regione']).sum(numeric_only=True).sort_values(['Popolazione'], ascending=False)
# in questo caso stiamo lavorando su un dataframe
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

Unnamed: 0_level_0,Popolazione
Regione,Unnamed: 1_level_1
Lombardia,10008349
Lazio,5888472
Campania,5850850
Sicilia,5074261
Veneto,4915123
Emilia Romagna,4448146
Piemonte,4404246
Puglia,4077166
Toscana,3744398
Calabria,1970521


In [82]:
type(p.groupby(['Regione']).sum(numeric_only=True))

pandas.core.frame.DataFrame