#**Analisi dei flussi degli utenti Vodafone**

Lo studio dei flussi di persone all'interno delle aree urbane è di fondamentale importanza per comprendere al meglio le criticità emergenti nella mobilità locale e per esplorare le aree di potenziale miglioramento delle infrastrutture e dei trasporti locali.<br>
La mobilità degli utenti all'interno e verso Padova è stata monitorata utilizzando i dati forniti dal gestore di telefonia mobile Vodafone, che fornisce informazioni basate sulle connessioni degli utenti alle celle della rete.<br>
I dati forniti dal carrier comprendono il monitoraggio degli utenti connessi alla rete Vodafone di Padova in un periodo di quattro mesi, da febbraio a maggio 2018.<br>
Per fornire approfondimenti statistici sul numero e sul flusso di utenti, i dati sono stati aggregati in base all'origine e ai movimenti degli utenti, calcolando la media del numero di connessioni durante il periodo di monitoraggio.<br>
Per evitare ulteriori problemi di violazione della privacy, tutte le osservazioni con meno di 30 unità (ad esempio le aree giornaliere per le quali <30 utenti hanno contribuito) sono state scartate e/o accorpate in categorie dedicate (indicate con "altro").<br>

## **Set di dati** 

I dataset si trovano al seguente link: https://www.dropbox.com/scl/fo/jra3xy77imdqc6hjc8luu/h?dl=0&rlkey=3ui6k9bhie88zxsk70zs317ow . La cartella comprende parecchi dati, si invita ad anallizzarli adeguatamente alle esigenze del problema ed eventualmente scartare dati inutili ai fini del progetto. I dati sono in diversi formati ed alcuni di questi sono descritti di seguito.

* __day_od.csv__: tabella delle origini e delle destinazioni degli utenti mediate per giorno della settimana. I dati sono forniti con il dettaglio del mese, del tipo di utente (residente a Padova/visitatore italiano/visitatore straniero), del Paese di provenienza, insieme alla provincia e al comune dell'utente (se disponibili).
* __utenti_distinti_giorno.csv__: tabella del numero di utenti distinti per provenienza. I dati sono forniti con il dettaglio del mese, del tipo di utente (residente a Padova/visitatore italiano/visitatore straniero), del Paese di provenienza, insieme alla provincia e al comune dell'utente (se disponibili).

Le informazioni sono memorizzate nei campi secondo il seguente schema: 

- MONTH: mese analizzato
- DOW: giorno analizzato
- ORIGIN: area di provenienza dell'utente
- DESTINATION: area di destinazione dell'utente
- CUST_CLASS: tipo di utente (residente / visitatore italiano / visitatore straniero)
- COD_COUNTRY: codice paese dell'utente (es. 222=Italia)
- COD_PRO: codice della provincia dell'utente (ad es. 12=Varese) 
- PRO_COM: codice del comune dell'utente (es. 12026=Busto Arsizio)
- FLOW: numero di movimenti per una determinata data-ora (con un minimo di 30 utenti)
- VISITORS: numero complessivo di utenti 

Insieme ai file di dati, vengono fornite tre tabelle di ricerca che permettono di abbinare i codici ISTAT di paese, provincia e comune ai nomi reali.

* __codici_istat_comune.csv__: file di lookup contenente la mappatura dei codici ISTAT dei comuni
* __codici_istat_provincia.csv__: file di ricerca contenente la mappatura dei codici ISTAT della provincia
* __codici_nazioni.csv__: file di lookup contenente la mappatura del codice _paese_ con il suo nome

Ulteriori informazioni, utili per lo studio dei flussi di utenti, come il numero di abitanti di ogni provincia e la distanza tra Padova e tutte le altre province italiane, possono essere estratte sulla base dei dati raccolti dall'ISTAT (es. http://dati.istat.it/Index.aspx?lang=en&SubSessionId=bcd553a8-280a-4b08-afee-cf7a72fd2ad9, http://www.istat.it/storage/cartografia/matrici_distanze/Veneto.zip).


## Assegnazione

1. Preparazione dei dati: i file csv provengono da fonti diverse e quindi presentano differenze di codifica e di fine riga che devono essere prese in considerazione nella fase di preparazione dei dati. Assicurarsi che ogni file .csv sia interpretato correttamente.
* Classifica dei visitatori provenienti da paesi stranieri: in base al numero di visitatori totali per ogni paese, creare una classifica dei primi 20 paesi con il maggior numero di visitatori.
* Classifica dei visitatori italiani per provincia, ponderata per il numero di abitanti: in base al numero di visitatori totali per provincia italiana, creare una classifica delle prime 20 province con più visitatori tenendo conto del numero di abitanti.
* Studio dei flussi di visitatori: ipotizziamo di essere chiamati a fornire indicazioni su come investire risorse per migliorare la mobilità verso Padova. Definite le tre principali direzioni dei visitatori e dei pendolari che raggiungono Padova attraverso le autostrade italiane (sud: A13 verso Bologna-Roma / ovest: A4 verso Milano-Torino / nord-est: A4 verso Venezia-Trieste), valutare quale delle tre direzioni deve essere privilegiata:
 1. Considerare un caso semplificato che coinvolge solo la mobilità di fascia media, in base al numero di visitatori/pendolari provenienti solo dalle regioni vicine
 2. Considerare le province situate sulle tre direzioni che contribuiscono maggiormente al flusso di visitatori del fine settimana e di pendolari giornalieri, effettuando uno studio più dettagliato dei flussi in base al giorno della settimana.
 3. Utilizzate i dati disponibili per fornire quella che ritenete la migliore risposta possibile. 
* Tracciare la distribuzione del numero di visitatori in base alla distanza della provincia di origine. Determinare il tipo di legge da utilizzare per descrivere la distribuzione.
 * Supponendo che si possa usare una forma analitica per descrivere l'andamento, create una regressione per stimare il numero atteso di visitatori in base alla distanza della provincia di origine. Illustrare la differenza tra la regressione ottenuta e i numeri forniti dal monitoraggio Vodafone, evidenziando le cinque discrepanze più evidenti rispetto alle aspettative.
* Utilizzate tutti i dati disponibili (ed eventualmente quelli aggiuntivi di fonte ISTAT) per estrarre un'altra informazione interessante sulla mobilità e sul flusso di visitatori e pendolari.

In [112]:
import pandas as pd


In [113]:
df_day = pd.read_csv("DATA/day_od.csv")
df_distinct_users = pd.read_csv("DATA/distinct_users_day.csv", encoding="ANSI")
df_provincie = pd.read_csv("DATA/codici_istat_provincia.csv", encoding="ANSI")
df_comuni = pd.read_csv("DATA/codici_istat_comune.csv", encoding="ANSI")
df_nazioni = pd.read_csv("DATA/codici_nazioni.csv", encoding="ANSI")

df_day[(df_day.MONTH == "Marzo") & (df_day.DOW == "Martedì")]


Unnamed: 0,MONTH,DOW,ORIGIN,DESTINATION,CUST_CLASS,COD_COUNTRY,COD_PRO,PRO_COM,FLOW
7,Marzo,Martedì,110,107,resident,222,28.0,28060.0,66
17,Marzo,Martedì,106,101,visitor,222,28.0,-999.0,84
43,Marzo,Martedì,105,300,visitor,222,24.0,24061.0,40
44,Marzo,Martedì,122,213,visitor,222,28.0,28003.0,48
52,Marzo,Martedì,300,111,visitor,222,27.0,27042.0,36
...,...,...,...,...,...,...,...,...,...
193465,Marzo,Martedì,101,105,visitor,222,10.0,10025.0,60
193469,Marzo,Martedì,300,117,visitor,222,23.0,-999.0,36
193487,Marzo,Martedì,104,218,resident,222,28.0,28060.0,36
193490,Marzo,Martedì,110,202,Altro,-999,-999.0,-999.0,36


In [114]:
df_foreign_data = df_distinct_users[df_distinct_users.COD_COUNTRY != 222]
grouped_df_foreign_data = df_foreign_data.groupby(by="COD_COUNTRY").sum().sort_values("VISITORS", ascending=False).iloc[:20, :]
grouped_df_foreign_data

Unnamed: 0_level_0,COD_PRO,PRO_COM,VISITORS
COD_COUNTRY,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
208.0,0.0,0.0,129672
228.0,0.0,0.0,116884
262.0,0.0,0.0,109176
460.0,0.0,0.0,107796
232.0,0.0,0.0,96776
214.0,0.0,0.0,71872
204.0,0.0,0.0,70432
310.0,0.0,0.0,64160
226.0,0.0,0.0,59012
234.0,0.0,0.0,46180


In [115]:
grouped_df_foreign_data.reset_index(inplace=True)
grouped_df_foreign_data

Unnamed: 0,COD_COUNTRY,COD_PRO,PRO_COM,VISITORS
0,208.0,0.0,0.0,129672
1,228.0,0.0,0.0,116884
2,262.0,0.0,0.0,109176
3,460.0,0.0,0.0,107796
4,232.0,0.0,0.0,96776
5,214.0,0.0,0.0,71872
6,204.0,0.0,0.0,70432
7,310.0,0.0,0.0,64160
8,226.0,0.0,0.0,59012
9,234.0,0.0,0.0,46180


In [116]:
grouped_df_foreign_data["COD_COUNTRY"] = grouped_df_foreign_data["COD_COUNTRY"].apply(lambda x: df_nazioni[df_nazioni.COD_COUNTRY == x].COUNTRY_NAME_IT.values[0])
grouped_df_foreign_data

Unnamed: 0,COD_COUNTRY,COD_PRO,PRO_COM,VISITORS
0,Francia,0.0,0.0,129672
1,Svizzera,0.0,0.0,116884
2,Germania,0.0,0.0,109176
3,Cina,0.0,0.0,107796
4,Austria,0.0,0.0,96776
5,Spagna,0.0,0.0,71872
6,Paesi Bassi,0.0,0.0,70432
7,Stati Uniti d'America,0.0,0.0,64160
8,Romania,0.0,0.0,59012
9,Gran Bretagna,0.0,0.0,46180


In [117]:
df_population_data =  pd.read_csv("DATA/DCIS_POPRES1_28032023144458463.csv")
df_population_data

Unnamed: 0,ITTER107,Territorio,TIPO_DATO15,Tipo di indicatore demografico,SEXISTAT1,Sesso,ETA1,Età,STATCIV2,Stato civile,TIME,Seleziona periodo,Value,Flag Codes,Flags
0,IT,Italia,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,59030133,,
1,ITC,Nord-ovest,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,15831941,,
2,ITC1,Piemonte,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,4256350,,
3,ITC11,Torino,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,2208370,,
4,ITC12,Vercelli,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,166083,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
130,ITG14,Agrigento,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,415887,,
131,ITG19,Siracusa,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,385900,,
132,ITG28,Oristano,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,151655,,
133,IT108,Monza e della Brianza,JAN,popolazione al 1º gennaio,9,totale,TOTAL,totale,99,totale,2022,2022,870407,,


In [118]:
df_population_data = df_population_data.loc[:,["Territorio" , "Value"]]
df_population_data

Unnamed: 0,Territorio,Value
0,Italia,59030133
1,Nord-ovest,15831941
2,Piemonte,4256350
3,Torino,2208370
4,Vercelli,166083
...,...,...
130,Agrigento,415887
131,Siracusa,385900
132,Oristano,151655
133,Monza e della Brianza,870407


In [119]:
df_population_data.sort_values("Value", ascending=True)

Unnamed: 0,Territorio,Value
92,Isernia,80564
11,Valle d'Aosta / Vallée d'Aoste,123360
12,Valle d'Aosta / Vallée d'Aoste,123360
47,Gorizia,137899
81,Rieti,151143
...,...,...
30,Nord-est,11541332
59,Centro,11724035
85,Sud,13512083
1,Nord-ovest,15831941


In [120]:
df_population_data.drop(12 , inplace=True)
df_population_data

Unnamed: 0,Territorio,Value
0,Italia,59030133
1,Nord-ovest,15831941
2,Piemonte,4256350
3,Torino,2208370
4,Vercelli,166083
...,...,...
130,Agrigento,415887
131,Siracusa,385900
132,Oristano,151655
133,Monza e della Brianza,870407


In [121]:
df_provincie.drop(107, inplace=True)

In [123]:
df_provincie

Unnamed: 0,COD_REG,COD_PRO,PROVINCIA,PROV_SIGLA
0,1,1,Torino,TO
1,1,2,Vercelli,VC
2,1,3,Novara,NO
3,1,4,Cuneo,CN
4,1,5,Asti,AT
...,...,...,...,...
102,20,90,Sassari,SS
103,20,91,Nuoro,NU
104,20,92,Cagliari,CA
105,20,95,Oristano,OR


In [124]:
df_population_data

Unnamed: 0,Territorio,Value
0,Italia,59030133
1,Nord-ovest,15831941
2,Piemonte,4256350
3,Torino,2208370
4,Vercelli,166083
...,...,...
130,Agrigento,415887
131,Siracusa,385900
132,Oristano,151655
133,Monza e della Brianza,870407


In [136]:
# aggiunta di values al dataframe delle provincie
df_provincie["Value"] = df_provincie["PROVINCIA"].map(df_population_data.set_index("Territorio")["Value"])
df_provincie

Unnamed: 0,COD_REG,COD_PRO,PROVINCIA,PROV_SIGLA,Value
0,1,1,Torino,TO,2208370.0
1,1,2,Vercelli,VC,166083.0
2,1,3,Novara,NO,361916.0
3,1,4,Cuneo,CN,580155.0
4,1,5,Asti,AT,208286.0
...,...,...,...,...,...
102,20,90,Sassari,SS,476516.0
103,20,91,Nuoro,NU,200376.0
104,20,92,Cagliari,CA,421688.0
105,20,95,Oristano,OR,151655.0


In [126]:
#df_provincie["Value"] = df_provincie["PROVINCIA"].apply(lambda x: df_population_data[df_population_data.Territorio == x].Value.values[0])
#df_provincie

In [127]:
#df_provincie["Value"] = df_provincie["Value"].apply(lambda x: int(x[0]))
#df_provincie

In [128]:
#df_provincie["Value"]

In [129]:
#int(df_provincie["Value"][0])

In [130]:
#df_provincie["Value"] = df_provincie["Value"].apply(lambda x: x[1:-1])
#df_provincie