## La libreria Pandas

Gli arrey di Numpy sono ottimizzati per accesso ad ati di tipo omogeneo. <br>
Nella DataScience non sempre abbiamo a disposizione dati omogenei: molte applicazioni hanno dati di diverso tipo, frammentari, che richiedono una buona dose di manipolazioni prima di essere fruibili.<br>
Pandas e' la libreria piu' utilizzata per questo tipo di manipolazioni. <br>
E' strettamente cnnsessa e legata a Numpy: molte delle operazioni che possiamo fare su un array con Numpy puo' essere eseguita anche su Pandas. Per questa ragione il piu' delle volte la troviamo gia' istallata tra le dipendenze di Numpy o MatplotLyb. In caso contrario il classico `pip install pandas` risolve qualsiasi problema
Pandas permette l'accesso a due oggetti chiave:
- _Series_: per collezioni monodimensionali
- _DataFrame_: per collezioni bidimensionali

In [1]:
# Import della libreria:
import pandas as pd

### Series
GLi oggetti di tipo _Series_ sono sostanzialmente deggli array potenziati. A differenza degli array monodimensionali di Numpy possono essere indicizzati con oggetti diversi dai sempici numeri interi, possono gestire senza grossi problemi dati mancanti, i quali vengono emplicemente ignorti

#### Creiamo un oggetto Series contenente 3 numeri interi

In [4]:
valutazioni = pd.Series([18,27,30])

#### Visualizzare un oggetto di tipo series

In [5]:
valutazioni

0    18
1    27
2    30
dtype: int64

L'oggetto viene automaticamente visualizzato su due colonne: la prima colonna contiene l'indice. La secodna i dati.

#### Accedere ad un elemento della Series
L'accesso avviene principalmente attraverso il nome dell'indice:
`nomedellaSerie[indice]`

In [6]:
valutazioni[0]

18

#### Stampare statistiche relative alla Series
Moltissime delle operazioni statistiche piu' utilizzate sono nativamente disponibili per una serie:
- `count`: conta gli elementi della serie
- `min` e `max`: resitituisce gli elementi piu' piccolo e piu' grande
- `mean`: media della serie
- `std`: deviazione standard della serie
- `describe`: che produce tutte le statistiche appena viste e altre ancora

In [7]:
valutazioni.count()

3

In [8]:
valutazioni.min(), valutazioni.max()

(18, 30)

In [9]:
valutazioni.mean()

25.0

In [10]:
valutazioni.std()

6.244997998398398

In [11]:
valutazioni.describeribe()

count     3.000000
mean     25.000000
std       6.244998
min      18.000000
25%      22.500000
50%      27.000000
75%      28.500000
max      30.000000
dtype: float64

25%, 50% e 75% rappresentano i quartili della serie: 
- 50% e' la mediana dei valori
- 25% e' la mediana della prima meta' dei valori ordinati
- 75% e' la mediana della seconda meta' dei valori ordinati

#### Indici personalizzati
Una delle caratteristiche distintive delle Series di Pandas rispetto a Numpy e' la possibilita' di personalizzare gli indici

In [13]:
numeri_di_scarpe = pd.Series([38, 37, 44, 45], index=['Caterina', 'Nina', 'Alfredo', 'Pippo'])
numeri_di_scarpe

Caterina    38
Nina        37
Alfredo     44
Pippo       45
dtype: int64

#### Series da un dizionario
Se creo una Series a partire da un dizionario, in modo automatico, le chiavi del dizionario diventeranno indici della Series

In [20]:
dizionario_num_scarpe = {"Pippo": 44, "Caterina": 38, "Gianfranco": 45, "Pablo": 40, "Carlo Alberto": 44}
numeri_di_scarpe = pd.Series(dizionario_num_scarpe)
numeri_di_scarpe

Pippo            44
Caterina         38
Gianfranco       45
Pablo            40
Carlo Alberto    44
dtype: int64

#### Accedere agli elementi di una series con indici personalizzati:
E' possibile usare la dot notation se l'indice e' una stringa rappresentante un identificatore python valido. In qualsiasi atro caso la classica indicizzazione con parentesi quadre:
1. `mia_serie.indice`
2. `mia_serie["indice"]`


In [21]:
numeri_di_scarpe.Pippo

44

In [22]:
numeri_di_scarpe["Pippo"]

44

In [23]:
# "Carlo Alberto" non e' un identificatore python valido poiche contiene uno spazio. Puo' essere utilizzato solo il metodo 2

In [24]:
numeri_di_scarpe.Carlo Alberto

SyntaxError: invalid syntax (Temp/ipykernel_9204/4151688045.py, line 1)

In [25]:
numeri_di_scarpe["Carlo Alberto"]

44

#### `dtype`, `vaues`
Ogni Series possiede gli attributi `dtype` che restituisce il tipo della serie e `values` che restituisce i valori in fomra di array

In [31]:
numeri_di_scarpe.dtype

dtype('int64')

In [32]:
numeri_di_scarpe.values

array([44, 38, 45, 40, 44], dtype=int64)

#### Series di stringhe
Un oggetto Series puo' contenere anche oggetti non numerici

In [36]:
animali = pd.Series(["cane", "pollo", "fenicottero", "maiale"])
animali

0           cane
1          pollo
2    fenicottero
3         maiale
dtype: object

Le Series di pandas integrano funzioni che agiscono su tutti gli elementi della Series con cicli iterativi interni; E' possibile ad esempio stampare la serie con iniziale maiuscola facendo ricorso alla funzione `capitalize` che troviamo dentro alla raccolta di metodi `str`.

In [37]:
animali.str.capitalize()

0           Cane
1          Pollo
2    Fenicottero
3         Maiale
dtype: object

In [38]:
animali.str.upper()

0           CANE
1          POLLO
2    FENICOTTERO
3         MAIALE
dtype: object

### DataFrame
Un DataFrame e' un array bidimensionale potenziato. Ciascuna colonna di un DataFrame e' un oggetto Series.

#### Creazione di un DF a partire da un dizionario:

In [39]:
voti = pd.DataFrame({"Pippo" : [15,18,30], "Pallino": [34,30,26], "Pinco": [16,18,30]})

In [40]:
voti

Unnamed: 0,Pippo,Pallino,Pinco
0,15,34,16
1,18,30,18
2,30,26,30


#### Modifica dell'indice di un DataFrame:

In [41]:
voti.index = ['Test1', 'Test2', 'Test3']
voti

Unnamed: 0,Pippo,Pallino,Pinco
Test1,15,34,16
Test2,18,30,18
Test3,30,26,30


In [43]:
voti = pd.DataFrame({"Pippo" : [40,38,30], "Pallino": [24,30,26], "Pinco": [16,8,30]}, index = ['Test1', 'Test2', 'Test3'])
voti

Unnamed: 0,Pippo,Pallino,Pinco
Test1,40,24,16
Test2,38,30,8
Test3,30,26,30


In [44]:
voti.Pippo

Test1    40
Test2    38
Test3    30
Name: Pippo, dtype: int64