# MIT Parco Macchine Italia

## Data cleaning


Il Ministero dei Trasporti pubblica in formato aperto i dati relativi al parco macchine circolante e le patenti di guida regione per regione.


### Patenti di guida

- [Patenti di guida](http://dati.mit.gov.it/catalog/dataset/patenti)

Descrizione: Il dataset contiene l'elenco delle patenti di guida attive, ossia delle autorizzazioni amministrative alla guida di autoveicoli e motoveicoli, provenienti dall'archivio nazionale abilitati alla guida su strada gestito dalla Motorizzazione.

I dati si riferiscono alla situazione dell'archivio dei conducenti al 26/05/2017.

In questo notebook non verranno analizzati i dati relativi alle patenti di guida ma unicamente il parco macchine.


In [2]:
%matplotlib inline
import numpy as np
import os
import glob
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
pd.set_option('display.width', 500)
pd.set_option('display.max_columns', 100)

In [19]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [29]:
# Seaborn for pairplots
sns.set_context('talk', font_scale=1.2);

## Patenti
### Part 1: Loading and Cleaning with Pandas 


In [None]:
folder_dati = "../data/patenti"
folder = glob.glob('./'+folder_dati+'/*.csv')

list_ =[]
for file_ in folder:
    print (file_)
    name = (os.path.basename(file_)).split(".")[0]
    
    #leggo il dataset originario
    df = pd.read_csv(file_, sep=",", encoding="ISO-8859-1", decimal=",",low_memory=False)
    list_.append(df)
patenti = pd.concat(list_)
len(patenti)

In [14]:
patenti.dtypes

id                               int64
anno_nascita                   float64
comune_residenza                object
provincia_residenza             object
regione_residenza               object
stato_estero_nascita            object
sesso                           object
categoria_patente               object
data_rilascio                   object
abilitato_a                     object
data_abilitazione_a             object
data_scadenza                   object
stato_estero_primo_rilascio     object
punti_patente                    int64
dtype: object

In [15]:
patenti.head(5)

Unnamed: 0,id,anno_nascita,comune_residenza,provincia_residenza,regione_residenza,stato_estero_nascita,sesso,categoria_patente,data_rilascio,abilitato_a,data_abilitazione_a,data_scadenza,stato_estero_primo_rilascio,punti_patente
0,29768021,1969.0,PIZZONE,ISERNIA,MOLISE,,F,B,1990-10-26 00:00:00,N,1990-10-26 00:00:00,2020-12-20 00:00:00,,30
1,50428563,1983.0,BARANELLO,CAMPOBASSO,MOLISE,,F,B,2002-11-25 00:00:00,N,2002-11-25 00:00:00,2023-08-11 00:00:00,,30
2,47513723,1977.0,VENAFRO,ISERNIA,MOLISE,,F,B,1998-06-29 00:00:00,N,1998-06-29 00:00:00,2018-06-24 00:00:00,,30
3,51766645,1984.0,TORO,CAMPOBASSO,MOLISE,,F,B,2004-06-21 00:00:00,N,2014-06-17 00:00:00,2024-12-28 00:00:00,,30
4,34715483,1969.0,ORATINO,CAMPOBASSO,MOLISE,,M,DE,1990-02-02 00:00:00,S,2015-01-23 00:00:00,2020-01-22 00:00:00,,30
5,54158448,1986.0,TERMOLI,CAMPOBASSO,MOLISE,,F,B,2005-06-04 00:00:00,N,2015-06-10 00:00:00,2025-08-09 00:00:00,,30
6,38879641,1942.0,RICCIA,CAMPOBASSO,MOLISE,,F,B,1984-07-09 00:00:00,S,2016-03-01 00:00:00,2018-03-01 00:00:00,,30
7,34834217,1964.0,TERMOLI,CAMPOBASSO,MOLISE,,F,B,1985-11-21 00:00:00,S,2016-03-31 00:00:00,2022-03-15 00:00:00,,30
8,34725697,1977.0,BOIANO,CAMPOBASSO,MOLISE,,F,B,1997-10-28 00:00:00,N,1997-10-28 00:00:00,2017-09-24 00:00:00,,30
9,47439931,1957.0,AGNONE,ISERNIA,MOLISE,,,B,1985-12-31 00:00:00,S,1985-12-31 00:00:00,2019-02-23 00:00:00,,30
