<a href="https://colab.research.google.com/github/nickprock/corso_data_science/blob/devs/intro_librerie_python/02_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

[Pandas](https://pandas.pydata.org/index.html) (*Python Data Analysis Library*) è una libreria open source basata su numpy che fornisce strutture dati semplici e pronte all'utilizzo oltre che funzioni di analisi per queste ultime.

<br>

![logoPandas](https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg)

<br>

[**Image Credit**](https://en.wikipedia.org/wiki/File:Pandas_logo.svg)

<br>

Per approfondire consultare il [cheatsheet](https://www.kdnuggets.com/2017/01/pandas-cheat-sheet.html) ufficiale.

Pandas ha due strutture dati fondamentali:
* *Series*: array indicizzati
* *DataFrame*: stutture dati molto simili a tabelle dove ogni colonna è una Series

<br>
<img src='https://www.kdnuggets.com/wp-content/uploads/pandas-02.png'>

<br>

[Image Credit](https://www.kdnuggets.com/2017/01/pandas-cheat-sheet.html)

<br>

## Creare un DataFrame da più Series

In [0]:
import pandas as pd

purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])
df.head() # restituisce le prime 5 righe del DataFrame, analogamente df.tail() restituisce le ultime

## Selezionare un sottoinsieme di dati

In [0]:
# Selezionare una colonna
df['Name'] # restituisce una Series

df[['Name']] # restituisce un DataFrame

In [0]:
# Selezionare una riga

df[:1]

In [0]:
# selezione per posizione
df.iloc[1,1]

In [0]:
# selezione per etichetta
df.loc["Store 1","Name"]

In [0]:
# selezione per condizione
df[df.Cost>3] # analogamente df[df['Cost']>3]

## Operazioni sulle colonne
### Creare una copia e eliminare elementi

In [0]:
df1 = df.copy()

In [0]:
# eliminare una colonna
df1.drop("Name", axis=1, inplace=True) # inplace=True vuol dire che le modifiche saranno memorizzate sull'oggetto, se si vuole eliminare una riga axis=0
# df2 = df1.drop("Name", axis=1, inplace=False) #se non si vuole modificare df1
df1

In [0]:
# creare una nuova colonna
df["NewCol"] = "CIAO"
print(df)
df.drop("NewCol", axis=1, inplace=True)
print("\n")
print(df)

### Ordinamento

In [0]:
# secondo una colonna
df.sort_values(by="Cost")

In [0]:
# secondo un indice
df.sort_index(ascending=False)

### Concatenazione

Per maggiori informazioni e approfondimenti consultare la [pagina ufficiale](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html).

<br>
<img src='https://pandas.pydata.org/pandas-docs/stable/_images/merging_concat_axis1_join_axes.png'>

<br>

[Image Credit](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

<br>

In [0]:
# concatenare le righe

df3 = df.append(df1)
# df3 = pd.concat([df,df1], axis=0)
df3

In [0]:
# concatenare le colonne

df3 = pd.concat([df,df1], axis=1)
df3

In [0]:
# unire i DataFrame "stile" SQL

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']})

result = pd.merge(left, right, on='key')
# per unire in base a più chiavi và passata una lista al parametro on

![merge](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key.png)
<br>
[Image Credit](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

### Importare ed Esportare DataFrame

![Import](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fappdividend.com%2Fwp-content%2Fuploads%2F2019%2F01%2FPython-Pandas-DataFrame-read_csv-tutorial-with-example-from-scratch.png&f=1&nofb=1)

<br>

[Image Credits](https://appdividend.com/wp-content/uploads/2019/01/Python-Pandas-DataFrame-read_csv-tutorial-with-example-from-scratch.png)

<br>

Come Data Scientist, troverai spesso che i dati di cui hai bisogno non si trovano in un singolo file. Può essere distribuito su un numero di file di testo, fogli di calcolo o database. Pandas mette a disposizione dei metodi per leggere e scrivere file.

I metodi di lettura sono solitamente preceduti dal prefisso *read_* ad esempio:
* read_csv
* read_json
* read_excel
* read_html

I metodi per scrivere dei nuovi file sono preceduti dal prefisso *to_* ad esempio:
* to_csv
* to_json
* to_excel

e vanno richiamati come metodi dell'oggetto DataFrame.

```
data = pd.read_csv('myinput.csv')
data.to_json("myoutput.json", orient = "records")
```

In questo notebook non ci occuperemo dei metodi di Import/Export che potete vedere sulla documentazione ufficiale di Pandas.

### Trovare e sostituire valori nulli




In [0]:
df_null = df.copy()

1. Inseriamo un valore nullo, mediante *np.nan*
2. Troviamo il valore nullo
3. Sostituiamo con la media *(analogamente ai vettori anche Series e DataFrame hanno metodi di calcolo)*

**N.B. Ci sono diversi modi di imputare i valori mancanti, questo tema dovrebbe essere trattato nel modulo sul preprocessing dei dati** 

In [0]:
import numpy as np

# inseriamo un valore mancante
df_null.loc[:1,["Cost"]] = np.nan

print(df_null)
print("\n")

# troviamo la posizione del valore nullo
print(df_null["Cost"].isna())
print("\n")

# sostituiamo con la media della colonna
df_null.fillna(df_null.Cost.mean())

### Estrarre informazioni dal DataFrame

Ci sono diverse operazioni che permettono di estrarre informazioni e statistiche riassuntive dal nostro DataFrame. Sta anche alle abilità e fantasia del Data Scientist combinarle per estrarre informazioni interessanti dai dati.

In [0]:
# numero di righe e colonne

print("numero di righe: ", df.shape[0]," e colonne: ", df.shape[1])
print("\n")

# restituire l'indice di riga
print(df.index)
print("\n")

# restituire una lista con i nomi delle colonne
print(df.columns)
print("\n")

# numero di valori non nulli
print("Valori non nulli")
print(df.count())
print("\n")

# informazioni sul DataFrame
print(df.info())
print("\n")

# statistiche riassuntive sulle colonne numeriche del DataFrame
print("Summary", "\n",df.describe())

### Variabili qualitative ordinali. Da stringhe a fattori.

Prendiamo il grado di soddisfazione di un cliente per un dato servizio, può essere indicato con un numero ma anche con un'etichetta del tipo "buono", questi valori possono essere ordinati nonostante siano stringhe, vediamo un veloce esempio.

Creiamo un dataset senza il nome colonna che assegneremo successivamente, se il nome colonna non è indicato Pandas nomina con un indice da 0 a numero colonne meno uno.

In [0]:
df = pd.DataFrame(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D'],
                  index=['excellent', 'excellent', 'excellent', 'good', 'good', 'good', 'ok', 'ok', 'ok', 'poor', 'poor'])
df.rename(columns={0: 'Grades'}, inplace=True)
df

Convertire la variabile appena creata da stringa a categoria e dare un orinamento.

In [0]:
df['Grades'].astype('category').head()

In [0]:
from pandas.api.types import CategoricalDtype
grades = df.Grades.astype(CategoricalDtype(categories=['D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+'], ordered=True))

# selzioniamo i livelli maggiori di C

grades > "C"

### Lavorare con le date

#### Tipi di variabile temporale

In [0]:
# Timestamp
print("Timestamp: ",pd.Timestamp('9/1/2016 10:05AM'))

# Period
# pd.Period('1/2016')
pd.Period('3/5/2016')

#### Utilizzare le dati o i periodi come indice di un DataFrame

In [0]:
t1 = pd.Series(list('abc'), [pd.Timestamp('2016-09-01'), pd.Timestamp('2016-09-02'), pd.Timestamp('2016-09-03')])
t1

In [0]:
t2 = pd.Series(list('def'), [pd.Period('2016-09'), pd.Period('2016-10'), pd.Period('2016-11')])
t2

In [0]:
# utilizzare un generatore di periodi per costruire un intervallo di date

t3 = pd.DataFrame(np.random.rand(9), index=pd.date_range('10-01-2016', periods=9, freq='2W-SUN'), columns=["A"])
t3

#### Convertire il formato della data

Può capitare di avere dati sporchi o provenienti da fonti eterogenee che utilizzano diversi formati (e stringhe) per indicare una data, vediamo come uniformare.

In [0]:
d1 = ['2 June 2013', 'Aug 29, 2014', '2015-06-26', '7/12/16']
ts3 = pd.DataFrame(np.random.randint(10, 100, (4,2)), index=d1, columns=list('ab'))
ts3

In [0]:
ts3.index = pd.to_datetime(ts3.index)
ts3

In [0]:
# altro esempio, non si capisce se è il 4 Luglio o il 7 Aprile

pd.to_datetime('4.7.12', dayfirst=True)

#### Operazioni sulle date

Le operazioni sulle date restituiscono un oggetto Timedelta.
Le operazioni tra Timestamp e Timedelta restituiscono un Timestamp.

In [0]:
pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016')

In [0]:
pd.Timestamp('9/2/2016 8:10AM') + pd.Timedelta('12D 3H')

In [0]:
# trasformare un timedelta in float
x = pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016')
xf = float(x.total_seconds()) # total seconds restituisce la data in secondi

# conversione in giorni

x_day = ((xf/60)/60)/24
print("The delta is ",x_day, " days")