## Pandas

Pandas è una libreria scritta per Python per la manipolazione e l'analisi dei dati. In particolare, offre strutture dati e operazioni per manipolare tabelle numeriche e serie temporali.

In [1]:
import pandas as pd

### Series

Una Series è un array unidimensionale che può contenere più tipi di dato.

Le etichette di riga in una Series sono gli '**indici**'.

Una Series può essere ottenuto a partire da Tuple, Liste e Dizionari.

#### Conversione di Tupla in Series

In [2]:
tupla = ('kotio', 'giannino', 23, 88.12)

s = pd.Series(tupla)
print(type(s))
print(s)
print(s.shape)
print(len(s))

# Si vede che di default gli indici vengono inizializzati a numeri naturali a partire dallo 0

<class 'pandas.core.series.Series'>
0       kotio
1    giannino
2          23
3       88.12
dtype: object
(4,)
4


#### Conversione di Dizionario in Series

In [3]:
diz = {'name': 'Enrico', 'surname':'Marino', 'age': 27}
s2 = pd.Series(diz)

print(type(s2))
print(s2)

# Questa volta gli indici vengono inizializzati con le chiavi del dizionario

<class 'pandas.core.series.Series'>
name       Enrico
surname    Marino
age            27
dtype: object


#### Conversione di Lista in Series

In [4]:
lista = [34, 'jtrr', 22.12]
s3 = pd.Series(lista)

print(type(s3))
print(s3)

# Gli indici vengono inizializzati a numeri naturali a partire dallo 0

<class 'pandas.core.series.Series'>
0       34
1     jtrr
2    22.12
dtype: object


### Accesso agli elementi della Series

Si può accedere a un elemento di una Series andando a indicare il suo indice

In [5]:
print(s3[0:2])              # lista

                            # nel caso dei dizionari possiamo usare:
print(s2[0:2])              # indice numerico
print(s2['surname'])        # indice corrispondente alla chiave del dizionario (perchè durante questo tipo di conversione
                            # gli indici della Series vengono inizializzati alle chiavi del dizionario)

print(s[:])                 # tupla

0      34
1    jtrr
dtype: object
name       Enrico
surname    Marino
dtype: object
Marino
0       kotio
1    giannino
2          23
3       88.12
dtype: object


E' possibile anche utilizzare una doppia parentesi quadra per indicare uno o più indici (ma non l'operatore porzione).

In [6]:
print(s3[[0,1]])
print(s2[['name','surname']])
print(s[[0,1,2]])

0      34
1    jtrr
dtype: object
name       Enrico
surname    Marino
dtype: object
0       kotio
1    giannino
2          23
dtype: object


## Dataframe

I Dataframe sono array bidimensionali, motivo per cui hanno 2 indici: **column-index** e **row-index**.

### Creazione di un Dataframe da Dizionario

In [7]:
diz = {'nome':['Kotio','Giulio','Andrea'], 'cognome':['Marino','Andreotti','Faringe'], 'eta' : [27,87,12]}

# creo dataframe da dizionario
df = pd.DataFrame(diz)
print(type(df))
print(df.shape)
print(df)

<class 'pandas.core.frame.DataFrame'>
(3, 3)
     nome    cognome  eta
0   Kotio     Marino   27
1  Giulio  Andreotti   87
2  Andrea    Faringe   12


### Accesso ai dati di Dataframe

#### Accesso ai dati tramite column-index

In [8]:
print(df['nome'])
print(type(df['nome']))  # è una Series

0     Kotio
1    Giulio
2    Andrea
Name: nome, dtype: object
<class 'pandas.core.series.Series'>


#### Accesso ai dati tramite row-index

In [9]:
print(df.loc[0])
print(type(df.loc[0]))   # è una Series

nome        Kotio
cognome    Marino
eta            27
Name: 0, dtype: object
<class 'pandas.core.series.Series'>


#### Accesso a una specifica cella del Dataframe

In [10]:
print(df.loc[0,'cognome'])    # specifico row-index, column-index

Marino


#### Accesso a tutti i dati di una colonna

In [11]:
print(df.loc[:,'nome'])

0     Kotio
1    Giulio
2    Andrea
Name: nome, dtype: object


#### Accesso a tutti i dati di una riga

In [12]:
print(df.loc[1,:])

nome          Giulio
cognome    Andreotti
eta               87
Name: 1, dtype: object


### Modifica di un Dataframe

#### Aggiunta di una nuova colonna

In [13]:
df['nazione'] = ['Italia','Grecia','Germania']

print(df)

     nome    cognome  eta   nazione
0   Kotio     Marino   27    Italia
1  Giulio  Andreotti   87    Grecia
2  Andrea    Faringe   12  Germania


#### Aggiunta di una nuova riga

In [14]:
new_row = {'nome':'Panke','cognome':'Marino','eta':28,'nazione':'Spagna'}
df = df.append(new_row, ignore_index=True)
print(df)

     nome    cognome  eta   nazione
0   Kotio     Marino   27    Italia
1  Giulio  Andreotti   87    Grecia
2  Andrea    Faringe   12  Germania
3   Panke     Marino   28    Spagna


#### Modifica degli indici

In [15]:
df.index = ['uno','due','tre','quattro']

# con questo metodo possiamo riscrivere gli indici a nostro piacimento
print(df)

           nome    cognome  eta   nazione
uno       Kotio     Marino   27    Italia
due      Giulio  Andreotti   87    Grecia
tre      Andrea    Faringe   12  Germania
quattro   Panke     Marino   28    Spagna


Posso anche scegliere una colonna da settare come indice.

In [16]:
df = df.set_index('eta')
print(df)

       nome    cognome   nazione
eta                             
27    Kotio     Marino    Italia
87   Giulio  Andreotti    Grecia
12   Andrea    Faringe  Germania
28    Panke     Marino    Spagna


### Eliminazione di righe e colonne

In [17]:
print(df)

       nome    cognome   nazione
eta                             
27    Kotio     Marino    Italia
87   Giulio  Andreotti    Grecia
12   Andrea    Faringe  Germania
28    Panke     Marino    Spagna


#### Eliminazione di una colonna

In [18]:
del df['nazione']
print(df)

       nome    cognome
eta                   
27    Kotio     Marino
87   Giulio  Andreotti
12   Andrea    Faringe
28    Panke     Marino


In [19]:
# oppure in alternativa
#df = df.drop('eta', axis=1)    # axis=1 indica le colonne
print(df)

       nome    cognome
eta                   
27    Kotio     Marino
87   Giulio  Andreotti
12   Andrea    Faringe
28    Panke     Marino


#### Eliminazione di una riga

In [20]:
df = df.drop(87, axis = 0) # axis=0 indica le righe
print(df)

       nome  cognome
eta                 
27    Kotio   Marino
12   Andrea  Faringe
28    Panke   Marino
