In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# PANDAS

Pandas permette di fare analisi e manipolazione di dati.

È una libreria molto diffusa, anche se è nata in ambito finanziario (la inventata uno che lavorava per un azienda finanziaria, nel 2008) oggi è utilizzata in tutti gli ambiti.


Pandas è piu potente di numpy nella manipolazione di dati, è stato creato in particolare per manipolare i dati sottoforma tabellare (**tabelle, database, csv, ecc...**).

Pandas però permette anche di manipolare dati non tabellari come i **file json**.

È molto efficiente e veloce e permette di manipolare grandi quantità di dati. Permette di gesitre anche dati più grandi della ram andando a slvare su disco. Questo è molto utile per i dataset di training dato che sono molto grandi.
    
    
Pandas ha due tipi di strutture dati:
- **SERIES** → fatte per memorizzare serie di dati. La serie è una sequenza di valori dove ognuno ha un indice. Indice può essere una data o un id incrementale. Funziona un po' come un dizionario. Un esempio sono le serie di prezzo di un azione o le temperatura.

- **DATAFRAME** → permette id memorizzare più valori. È a tutti gli effetti una tabella. Dove abbiamo gli indici che identificano una riga e le colonne con i loro nomi che sono diversi. Ogni riga di un dataframe contiene un *record*.

Per creare dataframe (o anche series), esiste un costruttore che è `pd.DataFrame` che è in grado di prendere moltissimi tipi differenti.

Un'altra cosa importante di pandas è il fatto che è in grado di leggere dati in diversi formati come **csv, xls, html, json, sql, gqb** e di salvare in diversi formati.

Grazie al supporto del formato `sql` pandas permette di interfacciare python con qualunque database.
Inoltre `gbq` è Google Big Query. 

---

Di solito la funzione che legge è **`read_tipo`** ad esempio: `read_excel`, `read_csv`, ...

Di solito la funzione per memorizzare i dati è (boh)

---

In pandas è molto facile fare un filtro come quelli di excel e gestire i _dati mancati_, questo fatto è molto importante per addestrare un algoritmo di intelligenza artificiale.

Inoltre pandas si **integra con `matplotlib`**. Ci sono dei metodi di pandas con cui è possibile fare grafici di matplotlib, oppure anche utilizzando il `.values` con cui lo si converte in un array numpy.

In [4]:
"""
CREAZIONE DATAFRAME

Per la creazione di dataframe è comodo usare un dizionario.
Dove le varie chiavi costituiranno il nome delle colonne mentre i valori costrituiranno i dati.
"""

dizionario = {"nome":["A", "B", "C", "D"], "sesso":["M", "F", "M", "F"], "voto":[7, 8, 9, 10]}
dizionario

{'nome': ['A', 'B', 'C', 'D'],
 'sesso': ['M', 'F', 'M', 'F'],
 'voto': [7, 8, 9, 10]}

In [5]:
df = pd.DataFrame(dizionario)
df

Unnamed: 0,nome,sesso,voto
0,A,M,7
1,B,F,8
2,C,M,9
3,D,F,10


In [13]:
"""
info(): permette di avere delle informazioni sul dataframe.
N.B. Le stringhe sono gestite come tipo object da pandas, permette di gestire anche numeri, ecc..
     Pandas in automatico cerca di capire i tipi.
"""

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nome    4 non-null      object
 1   sesso   4 non-null      object
 2   voto    4 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


In [14]:
"""
describe(): permette di avere delle informazioni di tipo statistico.
Sono calcolati solo su colonne di tipo numerico.
DATI:
- count: numero di valori
- media
- variazione standard
- valor min
- valore max
- percentivi: sono un dato statistico 
"""

df.describe()

Unnamed: 0,voto
count,4.0
mean,8.5
std,1.290994
min,7.0
25%,7.75
50%,8.5
75%,9.25
max,10.0


In [16]:
"""
Con include="all" includo nelle statistiche anche le colonne non numeriche 
Si può vedere che sono comparsi dei campi nuovi come:
- unique: guarda i valori univoci
- top: 
- freq: 

N.B. NaN significa Not a Number

"""
df.describe(include="all")

Unnamed: 0,nome,sesso,voto
count,4,4,4.0
unique,4,2,
top,C,F,
freq,1,2,
mean,,,8.5
std,,,1.290994
min,,,7.0
25%,,,7.75
50%,,,8.5
75%,,,9.25


In [18]:

"""
I NaN per pandas sono i valori mancanti, esiste anche in numpy il NaN (np.NAN).
Nella codifca IEEE 754 sono definiti anche i casi particolari come il NAN (viene restituito per es quando si 
divide un numero per zero).
"""

pinguini = pd.read_csv("./penguins_size.csv")
pinguini

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,FEMALE
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,MALE
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,FEMALE


In [20]:
pinguini.head(5) # stampo le prime 5 righe

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE


In [21]:
pinguini.tail(5) # stampo le ultime 5 righe

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,FEMALE
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,MALE
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,FEMALE
343,Gentoo,Biscoe,49.9,16.1,213.0,5400.0,MALE


In [25]:
# SI GUARDANO I DATI
pinguini.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   culmen_length_mm   342 non-null    float64
 3   culmen_depth_mm    342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                334 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [29]:
"""
Quando si fanno algoritmi di machine learning c'è l'ingegneria delle feature, nella quale l'umano deve dire 
quali dati siano utili per imparare.

C'è un arte che permette di capire quale colonne selezionare ed in seguito eliminare i dati nulli.
"""

"\nQuando si fanno algoritmi di machine learning c'è l'ingegneria delle feature, nella quale l'umano deve dire \nquali dati siano utili per imparare.\n\nC'è un arte che permette di capire quale colonne selezionare ed in seguito eliminare i dati nulli.\n"

In [27]:
# SI GUARDANO LE STATISTICHE
pinguini.describe()

Unnamed: 0,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


In [31]:
# PER PRENDERE UNA COLONNA
pinguini["body_mass_g"] # quello che ritorna è una series con i loro valori e i relativi indici

0      3750.0
1      3800.0
2      3250.0
3         NaN
4      3450.0
        ...  
339       NaN
340    4850.0
341    5750.0
342    5200.0
343    5400.0
Name: body_mass_g, Length: 344, dtype: float64

In [35]:
# PER PRENDERE PIÙ COLONNE
pinguini_ridotto = pinguini[["body_mass_g", "sex"]] # così ho preso più colonne è ho creato una copia del dataframe
# in realtà per creare una vera copia dovrei fare: pd.DataFrame(pinguini_ridotto)
pinguini_ridotto

Unnamed: 0,body_mass_g,sex
0,3750.0,MALE
1,3800.0,FEMALE
2,3250.0,FEMALE
3,,
4,3450.0,FEMALE
...,...,...
339,,
340,4850.0,FEMALE
341,5750.0,MALE
342,5200.0,FEMALE


In [36]:
pinguini[pinguini["sex"] == "MALE"] # creazione filtro per pinguini solo maschi

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,MALE
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,MALE
13,Adelie,Torgersen,38.6,21.2,191.0,3800.0,MALE
14,Adelie,Torgersen,34.6,21.1,198.0,4400.0,MALE
...,...,...,...,...,...,...,...
333,Gentoo,Biscoe,51.5,16.3,230.0,5500.0,MALE
335,Gentoo,Biscoe,55.1,16.0,230.0,5850.0,MALE
337,Gentoo,Biscoe,48.8,16.2,222.0,6000.0,MALE
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,MALE


In [37]:
pinguini[(pinguini["sex"] == "MALE") & (pinguini["species"] == "Adelie")] # creazione filtro per pinguini solo maschi della specie Adelie

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,MALE
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,MALE
13,Adelie,Torgersen,38.6,21.2,191.0,3800.0,MALE
14,Adelie,Torgersen,34.6,21.1,198.0,4400.0,MALE
...,...,...,...,...,...,...,...
143,Adelie,Dream,40.7,17.0,190.0,3725.0,MALE
145,Adelie,Dream,39.0,18.7,185.0,3650.0,MALE
146,Adelie,Dream,39.2,18.6,190.0,4250.0,MALE
149,Adelie,Dream,37.8,18.1,193.0,3750.0,MALE


In [43]:
island_series = pinguini[(pinguini["sex"] == "MALE") & (pinguini["species"] == "Adelie")]["island"] # così prendo il nome delle isole dove sono stati trovati pinguini maschi della specie Adelie
island_series.values

array(['Torgersen', 'Torgersen', 'Torgersen', 'Torgersen', 'Torgersen',
       'Torgersen', 'Torgersen', 'Biscoe', 'Biscoe', 'Biscoe', 'Biscoe',
       'Biscoe', 'Dream', 'Dream', 'Dream', 'Dream', 'Dream', 'Dream',
       'Dream', 'Dream', 'Dream', 'Dream', 'Biscoe', 'Biscoe', 'Biscoe',
       'Biscoe', 'Biscoe', 'Biscoe', 'Biscoe', 'Biscoe', 'Biscoe',
       'Torgersen', 'Torgersen', 'Torgersen', 'Torgersen', 'Torgersen',
       'Torgersen', 'Torgersen', 'Torgersen', 'Dream', 'Dream', 'Dream',
       'Dream', 'Dream', 'Dream', 'Dream', 'Dream', 'Biscoe', 'Biscoe',
       'Biscoe', 'Biscoe', 'Biscoe', 'Biscoe', 'Biscoe', 'Biscoe',
       'Torgersen', 'Torgersen', 'Torgersen', 'Torgersen', 'Torgersen',
       'Torgersen', 'Torgersen', 'Torgersen', 'Dream', 'Dream', 'Dream',
       'Dream', 'Dream', 'Dream', 'Dream', 'Dream', 'Dream', 'Dream'],
      dtype=object)

In [45]:
pinguini[["culmen_length_mm", "culmen_depth_mm"]].values

array([[39.1, 18.7],
       [39.5, 17.4],
       [40.3, 18. ],
       [ nan,  nan],
       [36.7, 19.3],
       [39.3, 20.6],
       [38.9, 17.8],
       [39.2, 19.6],
       [34.1, 18.1],
       [42. , 20.2],
       [37.8, 17.1],
       [37.8, 17.3],
       [41.1, 17.6],
       [38.6, 21.2],
       [34.6, 21.1],
       [36.6, 17.8],
       [38.7, 19. ],
       [42.5, 20.7],
       [34.4, 18.4],
       [46. , 21.5],
       [37.8, 18.3],
       [37.7, 18.7],
       [35.9, 19.2],
       [38.2, 18.1],
       [38.8, 17.2],
       [35.3, 18.9],
       [40.6, 18.6],
       [40.5, 17.9],
       [37.9, 18.6],
       [40.5, 18.9],
       [39.5, 16.7],
       [37.2, 18.1],
       [39.5, 17.8],
       [40.9, 18.9],
       [36.4, 17. ],
       [39.2, 21.1],
       [38.8, 20. ],
       [42.2, 18.5],
       [37.6, 19.3],
       [39.8, 19.1],
       [36.5, 18. ],
       [40.8, 18.4],
       [36. , 18.5],
       [44.1, 19.7],
       [37. , 16.9],
       [39.6, 18.8],
       [41.1, 19. ],
       [37.5,

In [48]:
# RIMOZIONE VALORI MANCANTI

pinguini_senza_NAN = pinguini[["culmen_length_mm", "culmen_depth_mm"]].dropna()
# dropna: se in una riga c'è anche un solo valore mancante rimuove tutta la riga
pinguini_senza_NAN

Unnamed: 0,culmen_length_mm,culmen_depth_mm
0,39.1,18.7
1,39.5,17.4
2,40.3,18.0
4,36.7,19.3
5,39.3,20.6
...,...,...
338,47.2,13.7
340,46.8,14.3
341,50.4,15.7
342,45.2,14.8


In [51]:
# Per agire direttamente modificando l'istanza di quell'oggetto uso INPLACE

pinguini[["culmen_length_mm", "culmen_depth_mm"]].dropna(inplace=True)
pinguini

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pinguini[["culmen_length_mm", "culmen_depth_mm"]].dropna(inplace=True)


Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,FEMALE
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,MALE
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,FEMALE


In [54]:
"""
FUNZIONI DI AGGREGAZIONE: agiscono su un intero insieme di dati è restituiscono un solo numero

METODI PER STATISTICHE:
- min()
- max()
- unique()
- std()
- ecc...
"""
pinguini["body_mass_g"].min()

2700.0