# Esplorare i dati

Quando ci interessiamo a un problema e vogliamo rispondere a delle domande specifiche in maniera **quantitativa** attraverso l'analisi di dati, per prima cosa dobbiamo chiederci che tipo di dati relativi al problema sono disponibili, se dobbiamo occuparci noi della raccolta e selezione (aggregazione e "pulizia" dei dati) o se qualcuno, tipicamente un'Istituto di ricerca o un'ente pubblico o un soggetto privato (ad es Google), ha già fatto il lavoro per noi e ci mette a disposizione in rete una _base di dati_, di solito chiamato _Dataset_. 

I _Dataset_ possono variare per: 

1. **dimensioni**, da una tabella di qualche decina di righe e colonne fino a raggiungere una scala di TeraByte di informazioni (1 TB = 1 _bilione_ di byte). Le grandi basi di dati richiedono importanti risorse e strumenti dedicati, e generalmente vengono indicate come **Big Data**. Possiamo analizzare i dati tutti insieme oppure solo una porzione selezionata secondo alcuni criteri scelti da noi in modo che rappresenti un _campione statisticamente significativo_, e assumere che sia rappresentativo di tutto l'insieme di dati. Una volta le risorse tecnologiche permettevano di analizzare solo un campione dei dati, mentre le tecnologie Big Data ora permettono di fare analisi su **tutti** i dati in nostro possesso.

2. **struttura e accessibilità**, cioè il modo in cui vengono strutturati e resi accessibili: ormai tutti i Dataset sono archiviati su supporto digitale. Per essere analizzati, i dati devono essere trasferiti dall'unità di archiviazione (hard disk o Cloud) alla memoria RAM del computer, che per i personal computer di solito è dell'ordine di qualche GB. Per questo motivo le grandi basi di dati non possono essere archiviate in un unico gigantesco file e caricate nella RAM, ma vengono strutturate e organizzate da software dedicati, i _database_, che si occupano di organizzare i dati in maniera efficiente ed effettuare ricerche al loro interno su richiesta di un utente esterno. L'utente si interfaccia col database tramite un linguaggio dedicato (uno dei più comuni si chiama SQL) e richiede un'operazione di ricerca, una **Query**. Nel PCTO non lavoreremo né sui Big Data né sui database, ma quello che impareremo vale anche in quei casi.

3. **formato**, cioè il modo specifico in cui i dati sono organizzati: per righe e colonne, in file leggibili da noi umani (caratteri alfanumerici) oppure solo dal computer (in binario, solo 101010, in questa modalità occupano molto meno spazio su disco). Ogni tipo di formato scelto per un dataset può venire letto da una specifica funzione di una libreria del linguaggio di programmazione (Python). Qui useremo database nel formato ".csv": i dati sono organizzati nel file per righe e in ogni riga le colonne sono separate da un _delimiter_ un carattere scelto come separatore, dove la prima riga conterrà i nomi delle colonne. Nella libreria Pandas di Python, la funzione che leggerà il file _csv_ del dataset e assegnerà i dati a una struttura dati interna chiamata _dataframe_ (una struttura dati è un'insieme di variabili che si riferiscono alla stessa unità di informazione), si chiamerà _pandas.read_csv()_


In [2]:
# Colleghiamo Colab a GDrive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Nella prima fase dell'analisi dei dati si dà un'occhiata ai dati, cioè si carica il dataset in memoria e si associa a una struttura dati, si vedono che cosa rappresentano le colonne di dati presenti, si calcolano gli indici statistici descrittivi come media, mediana e deviazione e si visualizza graficamente una porzione dei dati o tutti.

Per ordine e comodità abbiamo raccolto tutti i Dataset in una cartella all'interno del _repository_ GitHub, a cui potete accedere da Colab se avete completato correttamente la procedura del noteboook `Filesystem_startup.ipynb`.

il _path_ della cartella è: `/content/drive/MyDrive/Github/cd5050-LauraBassi/Datasets/`

In [5]:
# assegnamo il path della cartella dei dataset a una variabile stringa di caratteri
data_path = '/content/drive/MyDrive/Github/cd5050-LauraBassi/Datasets/'
print(data_path)
# ora andiamo nella cartella Dataset e guardiamo quali dataset sono disponibili
%cd /content/drive/MyDrive/Github/cd5050-LauraBassi/Datasets/
# l'istruzione seguente produce una lista di tutti i file che hanno estensione csv
# ('*' qui sta per 'qualsiasi nome di file') 
%ls -la *.csv

/content/drive/MyDrive/Github/cd5050-LauraBassi/Datasets/
/content/drive/MyDrive/Github/cd5050-LauraBassi/Datasets
-rw------- 1 root root   49 Feb 22 07:47 csv_toy.csv
-rw------- 1 root root 2559 Feb 22 07:47 DATI_ISTAT.csv


Scegliamo un dataset su cui lavorare, per esempio *DATI_ISTAT.csv*

In [None]:
# Segnaliamo che vogliamo utilizzare la libreria pandas
import pandas  
# Carichiamo il file DATI_ISTAT.csv del dataset in memoria RAM 
# e mettiamo tutte le informazioni in una struttura dati
# a cui assegnamo il nome 'data'                       
data = pandas.read_csv('DATI_ISTAT.csv', delimiter=";")    
# con questo comando stampiamo le prime righe del file (head = testa del file)
# da cui vediamo i nomi delle colonne e i primi dati
data.head()                             

Possiamo vedere che i dati seguono la struttura che abbiamo visto anche sul sito dell'ISTAT.

Su ogni riga abbiamo una **ossevazione**, mentre a ogni colonna corrisponde una **variabile** (da non confondere con il concetto di variabile nel coding) misurata.



Per prima cosa, vediamo quante sono le righe del file, cioè le **osservazioni**:

In [None]:
print("Le righe del file sono: " + str(len(data))) # La funzione len ci dice quante righe sono contenute nel file

Vediamo quali e quante sono le colonne del file, cioè le **variabili**.

In [None]:
print("Le colonne del file sono " + str(len(data.columns)) + " cioè: " + str(data.columns))

Per le nostre analisi, spesso guarderemo solo alcune delle variabili del dataset. 

Per selezionare solo alcune colonne, possiamo utilizzare:

In [None]:
# Selezioniamo solo le colonne "Regione", "ScuoleSuperiori", "ClassiScuoleSuperiori", "IscrittiScuoleSuperiori", "RipetentiScuoleSuperiori"
colonne_interessanti = ["Regione", "ScuoleSuperiori", "ClassiScuoleSuperiori",
       "IscrittiScuoleSuperiori", "RipetentiScuoleSuperiori"]
dati_puliti = data[colonne_interessanti]
dati_puliti.head()

Selezionando un solo campo, possiamo utilizzarlo come fosse una lista. Per esempio, possiamo calcolare:

In [None]:
import numpy
print("In ogni regione italiana, ci sono in media " + str(numpy.mean(dati_puliti["ScuoleSuperiori"])) + " scuole superiori")

**ESERCIZIO:** Per il numero di scuole superiori, calcola anche la mediana, la deviazione standard, e il coefficiente di variazione.

In [None]:
# Scrivi il codice qui

Possiamo anche calcolare il minimo e il massimo del numero di scuole nelle regioni italiane:

In [None]:
print("Il numero minimo di scuole nelle diverse regioni è :" + str(numpy.min(dati_puliti["ScuoleSuperiori"]))) # Utilizziamo la funzione min

In [None]:
print("Il numero massimo di scuole nelle diverse regioni è :" + str(numpy.max(dati_puliti["ScuoleSuperiori"]))) # Utilizziamo la funzione max

**ESERCIZIO:** Provate ora a rappresentare graficamente i dati con i vari tipi di grafici che abbiamo visto a lezione, come lo Scatter Plot, la Pie Plot etc