# Modificare i dati

In [54]:
import pandas as pd

In [55]:
df = pd.DataFrame([("Mario Rossi", "Modena"), ("Giuseppe Verdi", "Bologna"),("Maria Bianchi", "Milano")], columns=["Nominativo",	"Residenza"])
df

Unnamed: 0,Nominativo,Residenza
0,Mario Rossi,Modena
1,Giuseppe Verdi,Bologna
2,Maria Bianchi,Milano


Aggiungere/modificare/eliminare righe/colonne
Per aggiungere una singola colonna in un dataframe si può fare

`df['nome nuova colonna'] = elenco di valori`

L’elenco di valori deve essere un elemento iterabile (array, lista, etc.) della stessa lunghezza del numero di righe del dataframe.
Lo stesso metodo può essere usato anche per sostituire i valori di una colonna già esistente.

In [56]:
df['Età'] = [30, 28, 29]
df

Unnamed: 0,Nominativo,Residenza,Età
0,Mario Rossi,Modena,30
1,Giuseppe Verdi,Bologna,28
2,Maria Bianchi,Milano,29


Per inserire una nuova riga si può usare il metodo `.loc[indice] = record`, specificando come valore di indice un nuovo indice, record deve essere un elemento iterabile (lista, tupla, etc.) che contiene lo stesso numero di elementi del numero di colonne del dataframe.
Se si mette un indice già esistente, si va a sostituire quella riga.

In [57]:
df.loc[3] = ('Giulia Loschi', 'Napoli', 31)
df

Unnamed: 0,Nominativo,Residenza,Età
0,Mario Rossi,Modena,30
1,Giuseppe Verdi,Bologna,28
2,Maria Bianchi,Milano,29
3,Giulia Loschi,Napoli,31


Per eliminare una o più righe/colonne si usa il metodo `drop(labels, axis=0, inplace=False)` impostando axis=0 (default) significa che vogliamo eliminare delle righe, impostando axis=1 significa che si vogliono eliminare delle colonne. label può essere un valore singolo oppure più valori che rappresenta il valore dell’indice (se axis=0) o della colonna che si vuole eliminare (se axis=1).

Se inplace=False (default) restituisce una copia del dataframe, se è impostato a True modifica direttamente il dataframe su cui è applicato.

In [58]:
# Elimina i record con indice 0 e 3
df.drop([0, 3], inplace=True)

df

Unnamed: 0,Nominativo,Residenza,Età
1,Giuseppe Verdi,Bologna,28
2,Maria Bianchi,Milano,29


In [59]:
# Elimina la colonna residenza
df.drop("Residenza", axis=1, inplace=True)
df

Unnamed: 0,Nominativo,Età
1,Giuseppe Verdi,28
2,Maria Bianchi,29


## Trasformazioni

È possibile modificare i dati contenuti in un dataframe tramite semplici operazioni aritmetiche oppure applicando funzioni su di essi.

Supponiamo di avere un dataframe df fatto in questo modo. Per ogni ordine (idO) e prodotto acquistato (idP) viene riportata la quantità e il prezzo del singolo prodotto.

In [60]:
df = pd.DataFrame([(1, 3, 10, 20), (1, 2, 3, 5), (2, 5, 1, 25), (2, 4, 3, 4)], columns=["idO", "idP", "Qta", "Prezzo"])
df

Unnamed: 0,idO,idP,Qta,Prezzo
0,1,3,10,20
1,1,2,3,5
2,2,5,1,25
3,2,4,3,4


Potremmo aumentare la quantità di uno

In generale, si possono usare tutte le operazioni aritmetiche solite: somma (+), sottrazione (-), moltiplicazione (*), divisione (/), modulo (%), etc.



In [61]:
df['Qta'] += 1
df

Unnamed: 0,idO,idP,Qta,Prezzo
0,1,3,11,20
1,1,2,4,5
2,2,5,2,25
3,2,4,4,4


È anche possibile combinare più colonne, ad esempio supponiamo di voler calcolare il totale parziale di ogni riga come quantità per prezzo, si può fare:

In [62]:
df['TotRiga'] = df['Qta']*df['Prezzo']

df

Unnamed: 0,idO,idP,Qta,Prezzo,TotRiga
0,1,3,11,20,220
1,1,2,4,5,20
2,2,5,2,25,50
3,2,4,4,4,16


Funzioni più complesse possono essere applicate sull’intero dataframe oppure sulle singole colonne utilizzando il metodo apply.

Applicandolo su singola colonna (e quindi su un oggetto di tipo Series) apply(func) applica la funzione su ognuno dei dati in ingresso, è equivalente alla funzione map di Python.

In [63]:
# Ad esempio incrementa il prezzo del 20%
df['Prezzo'].apply(lambda v: v*1.2)

Unnamed: 0,Prezzo
0,24.0
1,6.0
2,30.0
3,4.8


Applicando apply sull’intero dataframe si ha disposizione un ulteriore parametro axis, se axis=0 la funzione viene applicata colonna per colonna (default), se axis=1 la funzione viene applicata riga per riga.

Quindi se si fa: df.apply(f, axis=0) a f verranno passati i valori colonna per colonna, quindi prima tutti i valori di idO, poi idP e così via. Invece, se si fa df.apply(f, axis=1) a f verrà passata la prima riga, poi la seconda, e così via.



In [64]:
# Altro modo per calcolare il totale di riga
df.apply(lambda r: r['Prezzo']*r['Qta'], axis=1)

Unnamed: 0,0
0,220
1,20
2,50
3,16
