# Indice

In [109]:
import pandas as pd

## Indice

Di solito l'indice viene utilizzato per identificare ogni riga di un DataFrame (o Serie), ma in realtà ciò non è garantito (a differenza di una chiave in una tabella).

Un indice può essere visto come:
*  una lista immutabile;
*  un insieme ordinato.

Spesso l'indice è formato da una sequenza di numeri interi consecutivi: in questo caso vedremo che l'indice ha tipo `RangeIndex`. Ad esempio, andiamo a vedere l'indice di `nani`:

In [127]:
indice = nani.index
indice

RangeIndex(start=0, stop=7, step=1)

In generale l'indice è formato da elementi arbitrari. In questo caso vediamo la lista dei valori.

In [128]:
artisti.sample(3).index

Int64Index([3389, 2081, 1559], dtype='int64')

## Accedere a parti dell'indice

Siccome un indice è una lista, è possibile accedere a elementi o porzioni dell'indice usando la notazione usuale delle liste.


In [129]:
indice[3]

3

In [130]:
indice[2:5]

RangeIndex(start=2, stop=5, step=1)

Ma non è possibile modificare elementi dell'indice (è immutabile)

In [131]:
indice[4] = 'Biancaneve'

TypeError: Index does not support mutable operations

## Estrarre righe da un DataFrame: da un indice

E' possibile estrarre righe sfruttando:
1.  l'indice implicito (non ha un nome) con la `iloc` (la *i* significa *implicito*)
2.  l'indice esplicito con la `loc`

Vediamo adesso più in dettaglio il concetto di indice *implicito*. Un DataFrame può essere visto come una lista di righe. In questo caso l'indice implicito è esattamente l'indice di questa lista: inizia con 0 e termina con il numero di righe meno 1.

Siccome il DataFrame viene visto come una lista, posso accedere a elementi o insiemi di righe usando le espressioni tipiche delle liste, però usando il metodo `iloc`.

In [132]:
artisti.iloc[0]

id                               10093
name            Abakanowicz, Magdalena
gender                          Female
dates                        born 1930
yearOfBirth                       1930
yearOfDeath                        NaN
placeOfBirth                    Polska
placeOfDeath                       NaN
Name: 0, dtype: object

In [133]:
artisti.iloc[3:5]

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",


Notare che, esattamente come nelle liste, quando si estrae una slice l'ultimo elemento indicato è escluso dal risultato.

## Indice esplicito

L'indice *esplicito* è invece quello corrispondente al metodo `index`. In questo modo, usando il metodo `loc` è possibile estrarre:
*  una singola riga
*  un insieme di righe (l'insieme viene specificato con una lista

In [134]:
artisti.loc[6]

id                           9550
name                  Abts, Tomma
gender                     Female
dates                   born 1967
yearOfBirth                  1967
yearOfDeath                   NaN
placeOfBirth    Kiel, Deutschland
placeOfDeath                  NaN
Name: 6, dtype: object

In [135]:
artisti.loc[[3, 4, 5]]

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",
5,2606,Absalon,Male,1964–1993,1964.0,1993.0,"Tel Aviv-Yafo, Yisra'el","Paris, France"


Notare che l'ultima `loc` presenta due coppie di parentesi quadre: la coppia esterna è dovuta al fatto che `loc` vuole gli argomenti fra parentesi quadre (è un indizio mnemonico per ricordare che accedo ad una parte dei dati), mentre la coppia interna è la sintassi che specifica che si tratta di una lista.

## Indice esplicito: slice

Quando accediamo a porzioni di liste, una delle modalità più frequenti è lo slice: in questo caso specifichiamo una porzione di DataFrame identificata dal suo inizio e dalla sua fine.

L'utilizzo di uno slice con la `loc` ha due particolarità:
1.  Per usare la `loc` con uno slice, è necessario prima ordinare il DataFrame rispetto all'indice, con la `sort_index` (eventualmente con `inplace = True` se non desideriamo creare un nuovo DataFrame);
2.  il risultato includerà *entrambi* gli estremi indicati nello slice (mentre con l'indice implicito, il risultato di uno slice non include l'estremo finale).

In [136]:
artisti.sort_index(inplace = True)

In [137]:
artisti.loc[3:5]

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",
5,2606,Absalon,Male,1964–1993,1964.0,1993.0,"Tel Aviv-Yafo, Yisra'el","Paris, France"


Possiamo verificare immediatamente che il risultato della `loc` include la riga con indice 5.

## Determinare l'indice del DataFrame

Talvolta abbiamo un DataFrame in cui una colonna è adatta ad essere un indice esplicito migliore di quello di default (l'indice implicito, formato da una sequenza di numeri a partire da 0).

Per trasformare una colonna in indice è necessario assegnare il risultato di `set_index` ad un nuovo DataFrame.
Notare che anche questa operazione crea un nuovo DataFrame.

In [138]:
artisti = artisti.set_index("id")
artisti.head(3)

Unnamed: 0_level_0,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,
0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom"
2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States"


## Decidere l'indice durante la lettura

Leggendo il DataFrame con `read_csv` o `read_json` è possibile selezionare una colonna come indice, utilizzando l'opzione `index_col`.

In [139]:
artisti2 = pd.read_csv("https://github.com/tategallery/collection/raw/master/artist_data.csv",
                      index_col = "id")

In [140]:
artisti.head(3)

Unnamed: 0_level_0,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,
0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom"
2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States"


Bisogna però capire se è più utile avere una variabile identificativa oppure un indice:

*  l'indice permette un accesso veloce alle righe, soprattutto tramite uno slice
*  alcune funzionalità (ad esempio la `groupby` che vedremo più avanti) sono possibili solo con le colonne.

## Resettare l'indice

Per alcune operazioni, diventa utile trasformare l'indice in una colonna, ottenendo un nuovo DataFrame.
Notare che il risultato di questa operazione è sempre un DataFrame, anche a partire da una Serie.

L'istruzione necessaria è `reset_index`

In [141]:
artisti3 = artisti.reset_index()
artisti3.head(6)

Unnamed: 0,id,name,gender,dates,yearOfBirth,yearOfDeath,placeOfBirth,placeOfDeath
0,10093,"Abakanowicz, Magdalena",Female,born 1930,1930.0,,Polska,
1,0,"Abbey, Edwin Austin",Male,1852–1911,1852.0,1911.0,"Philadelphia, United States","London, United Kingdom"
2,2756,"Abbott, Berenice",Female,1898–1991,1898.0,1991.0,"Springfield, United States","Monson, United States"
3,1,"Abbott, Lemuel Francis",Male,1760–1803,1760.0,1803.0,"Leicestershire, United Kingdom","London, United Kingdom"
4,622,"Abrahams, Ivor",Male,born 1935,1935.0,,"Wigan, United Kingdom",
5,2606,Absalon,Male,1964–1993,1964.0,1993.0,"Tel Aviv-Yafo, Yisra'el","Paris, France"
