# Modificare il tipo di dato
Pandas implementa un metodo `convert_dtypes()` che cerca automaticamente di convertire ogni colonna nel tipo di dato migliore.

Di default Pandas assegna un tipo di dato object ad ognuna delle colonne.

Ad esempio, creando questo dataframe:


In [2]:
import pandas as pd

df = pd.DataFrame([["Mario Rossi", "31", "Modena"], ["Giuseppe Verdi", "30", "Carpi"]], columns=["Nominativo", "Età", "Città"])
df

Unnamed: 0,Nominativo,Età,Città
0,Mario Rossi,31,Modena
1,Giuseppe Verdi,30,Carpi


In [3]:
df.dtypes

Unnamed: 0,0
Nominativo,object
Età,object
Città,object


In [5]:
df = df.convert_dtypes()
df.dtypes

Unnamed: 0,0
Nominativo,string[python]
Età,string[python]
Città,string[python]


Il campo età pur rappresentando un intero non è stato correttamente convertito, in questo caso si può effettuare una conversione manuale del tipo di dato della singola colonna usando il metodo `colonna.astype(tipo_di_dato)`.

Convertire le colonne nel giusto tipo di dato è importante, specialmente con dataset di grandi dimensioni, poiché consente di risparmiare memoria, ad esempio il numero “12345678” memorizzato come stringa occupa 8 byte, mentre come intero ne occupa solo 4, risparmiamo metà della memoria!

Ad esempio, si potrebbe fare (supponendo di aver fatto import numpy as np):
`df['Età'] = df['Età'].astype(np.int8)` per convertirla in un intero a 8 bit che consente di rappresentare fino al valore 255 sufficiente per l’età.


In [6]:
import numpy as np

df['Età'] = df['Età'].astype(np.int8)

df.dtypes

Unnamed: 0,0
Nominativo,string[python]
Età,int8
Città,string[python]


# Lavorare con le stringhe
Pandas consente di applicare funzioni sulle stringhe contenute in una Series (e quindi una colonna del dataframe) metodo `colonna.str.metodo_stringa()`

Dove `metodo_stringa()` è uno dei metodi che possono essere applicati sulle stringhe di Python.

Un elenco completo dei metodi può essere trovato qui https://pandas.pydata.org/docs/user_guide/text.html

Tra i più comuni abbiamo:
*	len() ritorna la lunghezza di una stringa;
*	lower() converte la stringa in minuscolo;
*	upper() converte la stringa in maiuscolo;
*	split(separatore) divide la stringa in un array sulla base di un carattere separatore;
*	replace(valore, rimpiazzo) sostituisce le occorrenze di valore con un rimpiazzo;
*	contains(valore) ritorna True se la stringa contiene quel valore;
*	startswith(valore) ritorna True se la stringa inizia per quel valore;
*	endswith(valore) ritorna True se la stringa finisce per quel valore;
*	strip() elimina gli spazi bianchi all’inizio e alla fine delle stringa, ci sono anche le varianti rstrip() e lstrip() che eliminano gli spazi bianchi solo a sinistra e solo a destra;
*	isnumeric() ritorna True se la stringa rappresenta un numero;
*	isdecimal() ritorna True se la stringa rappresenta un numero decimale intero.

Per esempio si potrebbe convertire tutti i nominativi in minuscolo


In [8]:
df['Nominativo'] = df['Nominativo'].str.lower()
df

Unnamed: 0,Nominativo,Età,Città
0,mario rossi,31,Modena
1,giuseppe verdi,30,Carpi


Oppure  cercare tutte le persone che hanno il nominativo che inizia per m

In [10]:
df[df['Nominativo'].str.startswith('m')]

Unnamed: 0,Nominativo,Età,Città
0,mario rossi,31,Modena
