# Basi di Serie e DataFrame

In [109]:
import pandas as pd

## Serie

*  Una serie è un elenco di valori (una lista) in colonna. La colonna non ha nome.
*  Ogni Serie ha un *indice* che identifica ogni riga. l'indice può non essere un numero.

In [110]:
nani = pd.read_csv("https://github.com/gdv/python-alfabetizzazione/raw/master/data/7-nani.csv", 
                  header = None,
                  squeeze = True)

nani

0    Brontolo
1    Cucciolo
2       Dotto
3        Eolo
4     Gongolo
5     Mammolo
6      Pisolo
Name: 0, dtype: object

In [111]:
type(nani)

pandas.core.series.Series

## Data Frame

*  Un DataFrame è una tabella dove ogni colonna ha un nome.
*  Un DataFrame ha un *indice* che identifica ogni riga, esattamente come una Serie.

In [112]:
artisti = pd.read_csv("https://github.com/tategallery/collection/raw/master/artist_data.csv")

In [113]:
artisti

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath,url
0,10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,,http://www.tate.org.uk/art/artists/magdalena-a...
1,0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom",http://www.tate.org.uk/art/artists/edwin-austi...
2,2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States",http://www.tate.org.uk/art/artists/berenice-ab...
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom",http://www.tate.org.uk/art/artists/lemuel-fran...
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",,http://www.tate.org.uk/art/artists/ivor-abraha...
5,2606,Absalon,Male,1964–1993,1964.0,1993.0,"Tel Aviv-Yafo, Yisra'el","Paris, France",http://www.tate.org.uk/art/artists/absalon-2606
6,9550,"Abts, Tomma",Female,born 1967,1967.0,,"Kiel, Deutschland",,http://www.tate.org.uk/art/artists/tomma-abts-...
7,623,"Acconci, Vito",Male,born 1940,1940.0,,"New York, United States",,http://www.tate.org.uk/art/artists/vito-acconc...
8,624,"Ackling, Roger",Male,1947–2014,1947.0,2014.0,"Isleworth, United Kingdom",,http://www.tate.org.uk/art/artists/roger-ackli...
9,625,"Ackroyd, Norman",Male,born 1938,1938.0,,"Leeds, United Kingdom",,http://www.tate.org.uk/art/artists/norman-ackr...


## Metodi comuni

Diversi metodi sono condivisi da DataFrame e Serie. Ad esempio:

*  `head` mostra le prime righe
*  `tail` mostra le ultime righe
*  `count` mostra il numero di righe con valori non mancanti

In [114]:
nani.count()

7

## Head e Tail

Entrambi i metodi hanno un argomento opzionale che è il numero di righe da mostrare

In [115]:
artisti.head(4)

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath,url
0,10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,,http://www.tate.org.uk/art/artists/magdalena-a...
1,0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom",http://www.tate.org.uk/art/artists/edwin-austi...
2,2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States",http://www.tate.org.uk/art/artists/berenice-ab...
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom",http://www.tate.org.uk/art/artists/lemuel-fran...


In [116]:
nani.tail(2)

5    Mammolo
6     Pisolo
Name: 0, dtype: object

## Variabili

*  `shape` mostra il numero di righe e colonne
*  `columns` è la lista delle colonne di un DataFrame
*  `index` è l'indice del DataFrame

In [117]:
artisti.shape

(3532, 9)

In [118]:
artisti.columns

Index(['id', 'name', 'gender', 'dates', 'yearOfBirth', 'yearOfDeath',
       'placeOfBirth', 'placeOfDeath', 'url'],
      dtype='object')

Nel caso di una Serie, la `shape` può riportare solo il numero di righe.

In [119]:
nani.shape

(7,)

## Indice

L'indice è memorizzato nella variabile `index` del DataFrame o della Serie

In [120]:
nani.index

RangeIndex(start=0, stop=7, step=1)

La variabile `values` memorizza i valori del DataFrame

In [121]:
artisti.values

array([[10093, 'Abakanowicz, Magdalena', 'Female', ..., 'Polska', nan,
        'http://www.tate.org.uk/art/artists/magdalena-abakanowicz-10093'],
       [0, 'Abbey, Edwin Austin', 'Male', ...,
        'Philadelphia, United States', 'London, United Kingdom',
        'http://www.tate.org.uk/art/artists/edwin-austin-abbey-0'],
       [2756, 'Abbott, Berenice', 'Female', ...,
        'Springfield, United States', 'Monson, United States',
        'http://www.tate.org.uk/art/artists/berenice-abbott-2756'],
       ...,
       [621, 'Zuccarelli, Francesco', 'Male', ..., 'Italia', 'Firenze',
        'http://www.tate.org.uk/art/artists/francesco-zuccarelli-621'],
       [2187, 'Zuloaga, Ignacio', 'Male', ..., 'España', 'España',
        'http://www.tate.org.uk/art/artists/ignacio-zuloaga-2187'],
       [2188, 'Zyw, Aleksander', 'Male', ..., 'Polska', nan,
        'http://www.tate.org.uk/art/artists/aleksander-zyw-2188']],
      dtype=object)

## Estrarre campioni

Per estrarre un insieme casuale di righe da un DataFrame, si può usare il metodo `sample` che vuole il numero di righe da estrarre.

In [122]:
artisti.sample(3)

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath,url
489,2396,"Callery, Simon",Male,born 1960,1960.0,,"London, United Kingdom",,http://www.tate.org.uk/art/artists/simon-calle...
2457,9107,"Parreno, Philippe",Male,born 1964,1964.0,,"Oran, Al-Jaza'ir",,http://www.tate.org.uk/art/artists/philippe-pa...
2228,8296,"Monk, Jonathan",Male,born 1969,1969.0,,"Leicester, United Kingdom",,http://www.tate.org.uk/art/artists/jonathan-mo...


In questo caso, ogni esecuzione del comando sopra produrrà un risultato diverso dal precedente. Normalmente ripetere l'esecuzione di uno stesso comando produce sempre lo stesso risultato.

## Estrarre colonne da un DataFrame

Estrarre una colonna equivale a costruire una serie. Notare che la colonna dei dati non ha nome, ma c'è un indice.

In [123]:
artisti["name"].head(3)

0    Abakanowicz, Magdalena
1       Abbey, Edwin Austin
2          Abbott, Berenice
Name: name, dtype: object

Selezionare un insieme di colonne. Notare le doppie parentesi quadre: quelle esterne rappresentano l'estrazione di colonne, quelle interne creano una lista di colonne.

In [124]:
artisti[["name", "placeOfBirth", "yearOfBirth"]]
artisti.head(3)

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath,url
0,10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,,http://www.tate.org.uk/art/artists/magdalena-a...
1,0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom",http://www.tate.org.uk/art/artists/edwin-austi...
2,2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States",http://www.tate.org.uk/art/artists/berenice-ab...


# Indice

## Indice

Di solito l'indice viene utilizzato per identificare ogni riga di un DataFrame (o Serie), ma in realtà ciò non è garantito (a differenza di una chiave in una tabella).

Un indice può essere visto come:
*  una lista immutabile;
*  un insieme ordinato.

Spesso l'indice è formato da una sequenza di numeri interi consecutivi: in questo caso vedremo che l'indice ha tipo `RangeIndex`. Ad esempio, andiamo a vedere l'indice di `nani`:

In [127]:
indice = nani.index
indice

RangeIndex(start=0, stop=7, step=1)

In generale l'indice è formato da elementi arbitrari. In questo caso vediamo la lista dei valori.

In [128]:
artisti.sample(3).index

Int64Index([3389, 2081, 1559], dtype='int64')

## Accedere a parti dell'indice

Siccome un indice è una lista, è possibile accedere a elementi o porzioni dell'indice usando la notazione usuale delle liste.


In [129]:
indice[3]

3

In [130]:
indice[2:5]

RangeIndex(start=2, stop=5, step=1)

Ma non è possibile modificare elementi dell'indice (è immutabile)

In [131]:
indice[4] = 'Biancaneve'

TypeError: Index does not support mutable operations

## Estrarre righe da un DataFrame: da un indice

E' possibile estrarre righe sfruttando:
1.  l'indice implicito (non ha un nome) con la `iloc` (la *i* significa *implicito*)
2.  l'indice esplicito con la `loc`

Vediamo adesso più in dettaglio il concetto di indice *implicito*. Un DataFrame può essere visto come una lista di righe. In questo caso l'indice implicito è esattamente l'indice di questa lista: inizia con 0 e termina con il numero di righe meno 1.

Siccome il DataFrame viene visto come una lista, posso accedere a elementi o insiemi di righe usando le espressioni tipiche delle liste, però usando il metodo `iloc`.

In [132]:
artisti.iloc[0]

id                               10093
name            Abakanowicz, Magdalena
gender                          Female
dates                        born 1930
yearOfBirth                       1930
yearOfDeath                        NaN
placeOfBirth                    Polska
placeOfDeath                       NaN
Name: 0, dtype: object

In [133]:
artisti.iloc[3:5]

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",


Notare che, esattamente come nelle liste, quando si estrae una slice l'ultimo elemento indicato è escluso dal risultato.

## Indice esplicito

L'indice *esplicito* è invece quello corrispondente al metodo `index`. In questo modo, usando il metodo `loc` è possibile estrarre:
*  una singola riga
*  un insieme di righe (l'insieme viene specificato con una lista

In [134]:
artisti.loc[6]

id                           9550
name                  Abts, Tomma
gender                     Female
dates                   born 1967
yearOfBirth                  1967
yearOfDeath                   NaN
placeOfBirth    Kiel, Deutschland
placeOfDeath                  NaN
Name: 6, dtype: object

In [135]:
artisti.loc[[3, 4, 5]]

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",
5,2606,Absalon,Male,1964–1993,1964.0,1993.0,"Tel Aviv-Yafo, Yisra'el","Paris, France"


Notare che l'ultima `loc` presenta due coppie di parentesi quadre: la coppia esterna è dovuta al fatto che `loc` vuole gli argomenti fra parentesi quadre (è un indizio mnemonico per ricordare che accedo ad una parte dei dati), mentre la coppia interna è la sintassi che specifica che si tratta di una lista.

## Indice esplicito: slice

Quando accediamo a porzioni di liste, una delle modalità più frequenti è lo slice: in questo caso specifichiamo una porzione di DataFrame identificata dal suo inizio e dalla sua fine.

L'utilizzo di uno slice con la `loc` ha due particolarità:
1.  Per usare la `loc` con uno slice, è necessario prima ordinare il DataFrame rispetto all'indice, con la `sort_index` (eventualmente con `inplace = True` se non desideriamo creare un nuovo DataFrame);
2.  il risultato includerà *entrambi* gli estremi indicati nello slice (mentre con l'indice implicito, il risultato di uno slice non include l'estremo finale).

In [136]:
artisti.sort_index(inplace = True)

In [137]:
artisti.loc[3:5]

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",
5,2606,Absalon,Male,1964–1993,1964.0,1993.0,"Tel Aviv-Yafo, Yisra'el","Paris, France"


Possiamo verificare immediatamente che il risultato della `loc` include la riga con indice 5.

## Determinare l'indice del DataFrame

Talvolta abbiamo un DataFrame in cui una colonna è adatta ad essere un indice esplicito migliore di quello di default (l'indice implicito, formato da una sequenza di numeri a partire da 0).

Per trasformare una colonna in indice è necessario assegnare il risultato di `set_index` ad un nuovo DataFrame.
Notare che anche questa operazione crea un nuovo DataFrame.

In [138]:
artisti = artisti.set_index("id")
artisti.head(3)

Unnamed: 0_level_0,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,
0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom"
2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States"


## Decidere l'indice durante la lettura

Leggendo il DataFrame con `read_csv` o `read_json` è possibile selezionare una colonna come indice, utilizzando l'opzione `index_col`.

In [139]:
artisti2 = pd.read_csv("https://github.com/tategallery/collection/raw/master/artist_data.csv",
                      index_col = "id")

In [140]:
artisti.head(3)

Unnamed: 0_level_0,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,
0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom"
2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States"


Bisogna però capire se è più utile avere una variabile identificativa oppure un indice:

*  l'indice permette un accesso veloce alle righe, soprattutto tramite uno slice
*  alcune funzionalità (ad esempio la `groupby` che vedremo più avanti) sono possibili solo con le colonne.

## Resettare l'indice

Per alcune operazioni, diventa utile trasformare l'indice in una colonna, ottenendo un nuovo DataFrame.
Notare che il risultato di questa operazione è sempre un DataFrame, anche a partire da una Serie.

L'istruzione necessaria è `reset_index`

In [141]:
artisti3 = artisti.reset_index()
artisti3.head(6)

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
0,10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,
1,0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom"
2,2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States"
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",
5,2606,Absalon,Male,1964–1993,1964.0,1993.0,"Tel Aviv-Yafo, Yisra'el","Paris, France"


# Gestione DataFrame

## Fancy indexing

In precedenza abbiamo visto come estrarre alcune righe da un DataFrame sfruttando l'indice (sia esplicito che implicito).

Una modalità più sofisticata per estrarre righe consiste nel *fancy indexing* dove viene fornito un array booleano di lunghezza pari al numero di righe del DataFrame. L'array booleano viene utilizzato al posto dell'indice e il risultato è formato dalle righe nelle posizioni vere (`True` dell'array).

Vediamo un esempio sulla Serie `nani` che ha 7 elementi. Costruiamo una lista di 7 booleani dove i valori veri sono in posizione 0, 3, 6.

In [142]:
lista = [ True, False, False, True, False, False, True]

Il risultato del fancy indexing con argomento `lista` corrisponde alle righe in posizione 0, 3, 6 di nani.

In [143]:
nani[lista]

0    Brontolo
3        Eolo
6      Pisolo
Name: 0, dtype: object

## Estrarre righe da un DataFrame: con una condizione

Il fancy indexing avrebbe utilità molto limitata se dovessimo costruire esplicitamente l'array booleano.

Possiamo costruirlo scrivendo una condizione sui valori. Ciò permette di selezionare con facilità tutte le righe del DataFrame che soddisfano una condizione.

Come esempio, selezioniamo gli artisti che sono donne. Scriviamo inizialmente la condizione che è vera se il valore della colonna `gender` è `True`.

In [144]:
artisti['gender'] == 'Female'

id
10093     True
0        False
2756      True
1        False
622      False
2606     False
9550      True
623      False
624      False
625      False
2411     False
626      False
627      False
628      False
629      False
630      False
2608      True
631      False
632      False
633       True
2        False
3098      True
8208     False
634      False
635      False
14744    False
7794      True
3067      True
636      False
637      False
         ...  
2386      True
619      False
2178     False
2179      True
16784     True
8297      True
2180     False
15539    False
1326     False
2181     False
2182     False
11598    False
13771    False
14306     True
2183     False
2184     False
6730     False
2185     False
14153    False
10126    False
13099    False
9937     False
2395      True
13100    False
620      False
12542    False
2186     False
621      False
2187     False
2188     False
Name: gender, Length: 3532, dtype: bool

Il fatto che `dtype` vale `bool` indica che abbiamo effettivamente costruito un array booleano.

## Estrarre righe da un DataFrame: con una condizione (2)

Adesso possiamo sfruttare la condizione scritta in precedenza per estrarre le righe interessanti.

Dobbiamo solo usare l'array come se fosse un indice.

In [145]:
artisti[artisti['gender'] == 'Female']

Unnamed: 0_level_0,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,
2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States"
9550,"Abts, Tomma",Female,born 1967,1967.0,,"Kiel, Deutschland",
2608,"Adshead, Mary",Female,1904–1995,1904.0,1995.0,"London, United Kingdom","Hampstead, United Kingdom"
633,"Agar, Eileen",Female,1899–1991,1899.0,1991.0,"Ayacucho, Argentina","London, United Kingdom"
3098,"Ahtila, Eija-Liisa",Female,born 1959,1959.0,,"Hämeenlinna, Suomi",
7794,"Al-Ani, Jananne",Female,born 1966,1966.0,,"Kirkuk, Al-‘Iraq",
3067,"Albers, Anni",Female,1899–1994,1899.0,1994.0,"Berlin, Deutschland","Orange, United States"
641,"Allan, Julian Phelps",Female,1892–1996,1892.0,1996.0,"Southampton, United Kingdom",
642,"Alley, Anthea",Female,1927–1993,1927.0,1993.0,"Seremban, Malaysia",


Nell'istruzione dobbiamo scrivere due volte `artisti`: la prima volta è perchè vogliamo estrarre righe dal DataFrame `artisti`, la seconda per costruire la condizione.

Non è obbligatorio che il DataFrame coinvolto nella condizione sia lo stesso da cui estrarre le righe: l'unica condizione è che l'array usato come indice abbia tanti elementi quante sono le righe del DataFrame di cui vogliamo selezionare le righe.

## Estrarre righe con condizioni composte

Le condizioni composte richiedono l'uso di `~` (not), `|` (or), `&` (and). Non è possibile utilizzare le parole riservate di Python `and`, `or` e `not` per una questione tecnica.

Inoltre alcune condizioni devono essere racchiuse fra parentesi per evitare problemi di precedenza degli operatori. Per evitare possibili confusioni, si raccomanda di racchiudere *sempre* le condizioni fra parentesi.

In [146]:
artisti[(artisti['gender'] == 'Female') & 
        (artisti['yearOfBirth'] >= 1731) &
        (artisti['yearOfBirth'] <= 1800)]

Unnamed: 0_level_0,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2553,"Damer, Anne Seymour",Female,1748–1828,1748.0,1828.0,"Sundridge, United Kingdom","London, United Kingdom"
2577,"Gordon, Lady",Female,1775–1867,1775.0,1867.0,,
303,"Kauffman, Angelica",Female,1741–1807,1741.0,1807.0,"Chur, Schweiz","Roma, Italia"
2570,"Long, Amelia",Female,1772–1837,1772.0,1837.0,"London, United Kingdom","Kent, United Kingdom"
2523,"Percy, Lady Susan Elizabeth",Female,1782–1847,1782.0,1847.0,,
2539,"Sanders, Ann",Female,active 1778,1778.0,1778.0,,
2573,"Scott, Frances",Female,1750–1817,1750.0,1817.0,,
517,"Spilsbury, Maria",Female,1777–c.1823,1777.0,1823.0,"London, United Kingdom",Éire
2575,"Sutherland, Elizabeth Leveson-Gower, Duchess-C...",Female,1765–1839,1765.0,1839.0,,
2576,"Wharncliffe, Lady",Female,c.1776–1853,1776.0,1853.0,,


## Valori mancanti

In Python i valori mancanti sono rappresentanti con `None`. In Pandas possono anche essere rappresentati da `numpy.nan`: in questo caso è necessario importare la libreria `numpy`.

Inoltre bisogna capire come i valori mancanti sono rappresentati nel dataset, perchè talvolta si preferisce avere un valore (detto *sentinella*) ritenuto impossibile che rappresenta in realtà il fatto che il valore è mancante. Ad esempio una data nell'anno 9999, oppure una temperatura -999.

Questi casi vanno gestiti con attenzione perchè è necessario capire la natura dei dati da trattare. Pandas non può aiutarci, perchè non è possibile trovare una soluzione che sia sempre corretta.

In [147]:
istituti = pd.read_csv("https://git.io/fhYGh", 
                       sep = ',')
istituti.head(3)

Unnamed: 0,DENOMINAZIONE,RETTORE_DIRETTORE,INDIRIZZO,CAP,COMUNE,CIVICO,EMAIL,TELEFONO,FAX,iscritti_aa_2013_2014,...,iscritti_aa_2010_2011,iscritti_aa_2009_2010,borse_aa_2013_2014,borse_aa_2012_2013,borse_aa_2011_2012,borse_aa_2010_2011,borse_aa_2009_2010,coorY,coorX,location
0,UNIVERSITA' DEGLI STUDI DI BERGAMO,Stefano Paleari,Via Salvecchio,24100,Bergamo,19,rettore@unibg.it,035-2052242,035-243054,14786,...,15758.0,15221.0,1114,906,614,1069.0,1119.0,45.704354,9.660394,"(45.70435374, 9.66039439)"
1,UNIVERSITA' DEGLI STUDI DI PAVIA,Fabio Rugge,Strada Nuova,27100,Pavia,65,rettore@unipv.it,0382/984201-02,0382/984633,20968,...,23743.0,22137.0,1763,1654,1400,2181.0,2401.0,45.187108,9.15592,"(45.1871083, 9.15592)"
2,UNIVERSITA' CATTOLICA DEL SACRO CUORE,Franco Anelli,Largo A. Gemelli,20123,Milano,1,rettore@unicatt.it,02-72342288,02-72342704,34982,...,38036.0,38404.0,2549,2278,1817,2101.0,2865.0,45.463075,9.176896,"(45.46307478, 9.17689589)"


La colonna `RETTORE_DIRETTORE` può contenere valori mancanti, come possiamo vedere di seguito:

In [148]:
istituti.iloc[12:15]

Unnamed: 0,DENOMINAZIONE,RETTORE_DIRETTORE,INDIRIZZO,CAP,COMUNE,CIVICO,EMAIL,TELEFONO,FAX,iscritti_aa_2013_2014,...,iscritti_aa_2010_2011,iscritti_aa_2009_2010,borse_aa_2013_2014,borse_aa_2012_2013,borse_aa_2011_2012,borse_aa_2010_2011,borse_aa_2009_2010,coorY,coorX,location
12,ACCADEMIA DI BELLE ARTI SANTA GIULIA - BRESCIA,Riccardo Romagnoli,Via N. Tommaseo,25128,Brescia,49,direzione@accademiasantagiulia.it,030.383368,303389557,652,...,525.0,474.0,11,10,10,7.0,31.0,45.551205,10.213958,"(45.55120497, 10.21395831)"
13,ACCADEMIA L.A.B.A. - BRESCIA,Roberto Dolzanelli,Via Don G. Vender,25128,Brescia,66,info@laba.edu,030.380894,303391503,791,...,744.0,650.0,27,29,30,25.0,53.0,45.55978,10.203186,"(45.55978042, 10.20318641)"
14,"ACCADEMIA DI BELLE ARTI ""A.GALLI"" - COMO",,Via Petrarca,22100,Como,9,info@accademiagalli.com,031.30.14.30,31302418,131,...,76.0,58.0,1,1,1,1.0,2.0,45.806178,9.092173,"(45.80617779, 9.09217337)"


## Estrarre le righe con valori mancanti

Per individuare le righe dove sono presenti valori mancanti esiste la funzione `isnull`, che può essere combinata con un fancy indexing per estrarre le righe con il valore mancante.

In [149]:
istituti[istituti['RETTORE_DIRETTORE'].isnull()]

Unnamed: 0,DENOMINAZIONE,RETTORE_DIRETTORE,INDIRIZZO,CAP,COMUNE,CIVICO,EMAIL,TELEFONO,FAX,iscritti_aa_2013_2014,...,iscritti_aa_2010_2011,iscritti_aa_2009_2010,borse_aa_2013_2014,borse_aa_2012_2013,borse_aa_2011_2012,borse_aa_2010_2011,borse_aa_2009_2010,coorY,coorX,location
14,"ACCADEMIA DI BELLE ARTI ""A.GALLI"" - COMO",,Via Petrarca,22100,Como,9,info@accademiagalli.com,031.30.14.30,031302418,131,...,76.0,58.0,1,1,1,1.0,2.0,45.806178,9.092173,"(45.80617779, 9.09217337)"
25,SCUOLA SUPERIORE PER MEDIATORI LINGUISTICI SOC...,,Via Daverio,20122,Milano,7,umanitaria@umanitaria.it,02.5796831,025111846,29,...,22.0,17.0,0,0,0,2.0,1.0,45.459202,9.200738,"(45.4592021, 9.20073839)"
26,"SCUOLA SUPERIORE PER MEDIATORI LINGUISTICI ""CA...",,Via Simone Martini,20143,Milano,23,sede.mi@ssmlcarlobo.it,02.81.80.85.55,0281808527,703,...,556.0,459.0,26,17,19,23.0,34.0,45.440372,9.159492,"(45.440372, 9.1594924)"
27,SCUOLA SUPERIORE PER MEDIATORI LINGUISTICI - V...,,Via Cavour,21100,Varese,30,direzione@ssml-varese.it,0332.237304,0332240455,140,...,125.0,125.0,8,15,13,14.0,9.0,45.819181,8.829511,"(45.81918135, 8.82951075)"
29,ISTITUTO EUROPEO di DESIGN IED,,Via Amatore Sciesa,20135,Milano,4,,02 5796951,02 55012613,2906,...,,,19,12,13,,,45.461668,9.209483,"(45.46166838, 9.20948291)"


## Ancora dati mancanti

Normalmente valori mancanti rappresentano un'informazione, sebbe parziale: l'assenza di un dato oppure la non conoscenza di un'informazione.
Per questo motivo i valori mancanti vengono mantenuti (anche se bisogna sempre controllare che non siano dovuti ad errori in fase di importazione dei dati).

Nei rari casi in cui si voglia invece rimuovere le righe con valori mancanti si può utilizzare il metodo `dropna` che verrà spiegato più avanti.

### Date o timestamp mancanti

Mentre un numero mancante viene rappresentato dalla stringa `NaN` (not a number), nel caso di dati di tipo data o timestamp, il valore mancante viene rappresentato da `NaT` (not a timestamp).

## Funzioni su DataFrame

Alcuni metodi possono essere applicati ad una colonna di DataFrame o una Serie. Le principali sono:

*  `mean()` calcola il valore medio
*  `median()` calcola il valore mediano
*  `sum()`  calcola la somma
*  `size()` calcola il numero di elementi dei gruppi
*  `count()` calcola il numero di elementi non mancanti nei gruppi
*  `min()` calcola il minimo valore di ogni gruppo
*  `max()` calcola il massimo valore di ogni gruppo

In [152]:
artisti['età'].min()

0.0

I metodi possono essere applicati anche ad un intero DataFrame. In questo caso il metodo viene applicato a tutte le colonne che contengono valori numerici.

In [153]:
artisti.max()

name           Štyrský, Jindrich
yearOfBirth                 2004
yearOfDeath                 2014
età                          199
dtype: object