In [33]:
import pandas as pd

people = {
    "first": ["Corey", 'Jane', 'John'], 
    "last": ["Schafer", 'Doe', 'Doe'], 
    "email": ["CoreyMSchafer@gmail.com", 'JaneDoe@email.com', 'JohnDoe@email.com']
}

df = pd.DataFrame(people)
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [34]:
df.columns

Index(['first', 'last', 'email'], dtype='object')

In [35]:
# Per modificare i nomi delle colonne posso procedere in diversi modi
# Nel modo seguente devo passare tutti i nomi di colonna.. è scomodo
df.columns = ['First name', 'Last Name', 'email']
df

Unnamed: 0,First name,Last Name,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [36]:
# Per rendere maiuscoli i nomi di colonna uso list comprehension
df.columns = [x.upper() for x in df.columns]
df

Unnamed: 0,FIRST NAME,LAST NAME,EMAIL
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [37]:
# Per sostituire gli spazi con underscore nei nomi delle colonne
df.columns = df.columns.str.replace(' ', '_')
df

Unnamed: 0,FIRST_NAME,LAST_NAME,EMAIL
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [38]:
# Nel caso si vogliano modificare solo alcune colonne.
df.rename(columns={'FIRST_NAME' : 'first'})
# In questo modo viene solo mostrato il nuovo df (l'originale non viene modificato)
# per modificare effettivamente il DataFrame originale si deve utilizzare inplace=True
df.rename(columns={'FIRST_NAME' : 'first'}, inplace=True)
df

Unnamed: 0,first,LAST_NAME,EMAIL
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [39]:
# Normalizzo i nomi per avere una situazione pulita
df.columns = ['first', 'last', 'email']
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [40]:
# Per modificare tutti i valori  presenti su una  row
df.loc[2] = ['Mic', 'Sonc', 'ms@gmail.com']
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,Mic,Sonc,ms@gmail.com


In [41]:
# Per modificare solo alcuni valori  presenti su una  row
df.loc[2, ['first', 'email']] = ['michi', 'miso@gmail.com']
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,michi,Sonc,miso@gmail.com


In [42]:
# Per modificare un solo valore
df.loc[2, 'email'] = 'mail@gmail.com'
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,michi,Sonc,mail@gmail.com


In [43]:
# Altra possibilità analoga al caso precedente (forse per ragioni di performace)
df.at[2, 'email'] = 'ms@gmail.com'
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,michi,Sonc,ms@gmail.com


In [44]:
# Modificare un  valore senza utilizzare .loc o .at è pericoloso in quanto si rischia di modificare una copia dei dati.
# Ad esempio utilizzando  un filtro e modificando direttamente il risultato
# Per utilizzare il filtro è necessario passarlo a .loc() (o .at())

In [45]:
filt = df['last'] == 'Sonc'
df.loc[filt, 'last'] = 'Sonci'
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,michi,Sonci,ms@gmail.com


In [46]:
# Per modificare multiple row ci sono più modi.
# Per rendere minuscoli tutti i valori di una colonna :
# - estraiamo la Series che corrisponde ai valori della colonna
# - la convertiamo in string con str
# - richiamiamo  il metodo lower() della stringa

In [47]:
df['email'].str.lower()

0    coreymschafer@gmail.com
1          janedoe@email.com
2               ms@gmail.com
Name: email, dtype: object

In [48]:
# Per modificare effettivamente la colonna coi nuovi valori
df['email'] = df['email'].str.lower()
df

Unnamed: 0,first,last,email
0,Corey,Schafer,coreymschafer@gmail.com
1,Jane,Doe,janedoe@email.com
2,michi,Sonci,ms@gmail.com


Per modifiche più avanzate ci sono 4 metodi :
- apply
- map
- applymap
- replace


## apply 
Utilizzato per richiamare una funzione sul valore. Opera sia su DataFrame che su Series ma opera in modo diverso per i 2 oggetti

In [49]:
# Per Series (applico la funzione len per avere la lunghezza delle email)
df['email'].apply(len)

0    23
1    17
2    12
Name: email, dtype: int64

In [50]:
# E' possibile definire funzioni personalizzate e passarle ad apply
def update_email(email):
    return email.upper()
df['email'].apply(update_email)

0    COREYMSCHAFER@GMAIL.COM
1          JANEDOE@EMAIL.COM
2               MS@GMAIL.COM
Name: email, dtype: object

In [51]:
# Anche in  questo caso, per modificare effettivamente la colonna coi nuovi valori
df['email'] = df['email'].apply(update_email)
df

Unnamed: 0,first,last,email
0,Corey,Schafer,COREYMSCHAFER@GMAIL.COM
1,Jane,Doe,JANEDOE@EMAIL.COM
2,michi,Sonci,MS@GMAIL.COM


In [52]:
# Per funzioni semplici come quella sopra è possibile utilizzare lambda function
df['email'] = df['email'].apply(lambda x : x.lower())
df

Unnamed: 0,first,last,email
0,Corey,Schafer,coreymschafer@gmail.com
1,Jane,Doe,janedoe@email.com
2,michi,Sonci,ms@gmail.com


In [53]:
# Anche per i DataFrame si può utilizzare il metodo .apply()
# Passando apply direttamente al DataFrame, la funzione viene eseguita sulle Series che compongono il DataFrame,
# non sui valori contenuti in essa
# Nel caso seguente conta le righe 
df.apply(len)
# corrisponde a df.apply(len, axis='rows')

first    3
last     3
email    3
dtype: int64

In [54]:
# Per contare le colonne
df.apply(len, axis='columns')

0    3
1    3
2    3
dtype: int64

In [55]:
# Per applicare una funzione a tutti i valori del DataFrame si utilizza .applymap. E' utilizzabile solo sui DataFrame
df.applymap(len)

Unnamed: 0,first,last,email
0,5,7,23
1,4,3,17
2,5,5,12


In [56]:
# Per rendere minuscoli tutti i valori di un DataFrame
df.applymap(str.lower) # Non funzionerebbe se il DataFrame avesse valori numerici!

Unnamed: 0,first,last,email
0,corey,schafer,coreymschafer@gmail.com
1,jane,doe,janedoe@email.com
2,michi,sonci,ms@gmail.com


In [57]:
# Il metodo .map funziona solo x le Series e serve per sostire un  valore di una Series con un altro
df['first'].map({'Jane' : 'janee', 'michi' : 'mic'})
# Se un  valore iniziale non è presente nelle sostituzioni, viene perso

0    NaN
1    NaN
2    mic
Name: first, dtype: object

In [58]:
# Per ottenere la stessa funzionalità mantenendo i valori iniziali inalterati in caso di mancata sostituizione, 
# si utilizza .replace()
df['first'].replace({'jane' : 'janee', 'michi' : 'mic'})

0    Corey
1     Jane
2      mic
Name: first, dtype: object

In [60]:
# Per modificare effettivamente il DataFrame è necessario
df['first'] = df['first'].replace({'jane' : 'janee', 'michi' : 'mic'})
df

Unnamed: 0,first,last,email
0,Corey,Schafer,coreymschafer@gmail.com
1,Jane,Doe,janedoe@email.com
2,mic,Sonci,ms@gmail.com
