<a href="https://colab.research.google.com/github/emamanni/AnalisiDeiDati24-25/blob/main/05_LaLibreriaPandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python for Data Science hands-on review: la libreria pandas

`Pandas` è una libreria Python utilizzata per la manipolazione e l'analisi dei dati. Fornisce strutture di dati ad alte prestazioni e facili da usare e strumenti di analisi dei dati per lavorare con dati strutturati (tabellari). `Pandas` si basa su `NumPy`.

In `Pandas` gli insiemi di dati sono rappresentati come “dataframes”, cioè oggetti della classe `DataFrame`. I dataframe sono spesso chiamati “df”. Ma qui li chiameremo “dataset”.

I `DataFrame` sono essenzialmente array multidimensionali con etichette di riga e colonna, spesso con tipi eterogenei e/o dati mancanti.

Creazione di un dataset vuoto con
- codice fiscale (troncato): identificativo riga (cliente)
- caratteristiche (colonne): 'Name', 'Surname', 'Job', 'Subscribed', 'Nationality'.

In [None]:
import pandas as pd

dataset = pd.DataFrame(index=['AAABBB', 'AAACCC', 'AAADDD', 'AAAEEE', 'AAAFFF'],
                       columns=['Name', 'Surname', 'Job', 'Subscribed', 'Nationality'])
print(dataset)

       Name Surname  Job Subscribed Nationality
AAABBB  NaN     NaN  NaN        NaN         NaN
AAACCC  NaN     NaN  NaN        NaN         NaN
AAADDD  NaN     NaN  NaN        NaN         NaN
AAAEEE  NaN     NaN  NaN        NaN         NaN
AAAFFF  NaN     NaN  NaN        NaN         NaN


Assegnazione di un valore ...

In [None]:
dataset.at['AAABBB', 'Job'] = 'Engineer'
print(dataset)

       Name Surname       Job Subscribed Nationality
AAABBB  NaN     NaN  Engineer        NaN         NaN
AAACCC  NaN     NaN       NaN        NaN         NaN
AAADDD  NaN     NaN       NaN        NaN         NaN
AAAEEE  NaN     NaN       NaN        NaN         NaN
AAAFFF  NaN     NaN       NaN        NaN         NaN


Modo alternativo per assegnare un valore (.loc accetta anche due o più righe/colonne; v. sotto) ...

In [None]:
dataset.loc['AAACCC', 'Job']= 'Biologist'
print(dataset)

       Name Surname        Job Subscribed Nationality
AAABBB  NaN     NaN   Engineer        NaN         NaN
AAACCC  NaN     NaN  Biologist        NaN         NaN
AAADDD  NaN     NaN        NaN        NaN         NaN
AAAEEE  NaN     NaN        NaN        NaN         NaN
AAAFFF  NaN     NaN        NaN        NaN         NaN


Rinominare un identificatore chiave (riga/cliente) (`inplace=True` specifica che la modifica deve essere applicata direttamente al DataFrame senza restituirne una copia)

In [None]:
dataset.rename(index={'AAABBB': 'WWWZZZ'}, inplace=True)
print(dataset)

       Name Surname        Job Subscribed Nationality
WWWZZZ  NaN     NaN   Engineer        NaN         NaN
AAACCC  NaN     NaN  Biologist        NaN         NaN
AAADDD  NaN     NaN        NaN        NaN         NaN
AAAEEE  NaN     NaN        NaN        NaN         NaN
AAAFFF  NaN     NaN        NaN        NaN         NaN


In alternativa ...

In [None]:
dataset=dataset.rename(index={'AAACCC': 'BBBBBB'})
print(dataset)

       Name Surname        Job Subscribed Nationality
WWWZZZ  NaN     NaN   Engineer        NaN         NaN
BBBBBB  NaN     NaN  Biologist        NaN         NaN
AAADDD  NaN     NaN        NaN        NaN         NaN
AAAEEE  NaN     NaN        NaN        NaN         NaN
AAAFFF  NaN     NaN        NaN        NaN         NaN


Rinominare una colonna ...

In [None]:
dataset.rename(columns={'Surname':'Last name'}, inplace=True)
print(dataset)

       Name Last name        Job Subscribed Nationality
WWWZZZ  NaN       NaN   Engineer        NaN         NaN
BBBBBB  NaN       NaN  Biologist        NaN         NaN
AAADDD  NaN       NaN        NaN        NaN         NaN
AAAEEE  NaN       NaN        NaN        NaN         NaN
AAAFFF  NaN       NaN        NaN        NaN         NaN


Slicing (consente di ottenere una nuova struttura dati che contiene gli elementi di un intervallo di indici specificato) ...

In [None]:
dataset_2 = dataset.loc[['WWWZZZ', 'AAADDD'], 'Job':'Nationality']
print(dataset_2)

             Job Subscribed Nationality
WWWZZZ  Engineer        NaN         NaN
AAADDD       NaN        NaN         NaN


Lettura di un dataset da un file csv ...

In [None]:
from google.colab import drive
import os

drive.mount("/content/drive", force_remount=True)
folder_path = '/content/drive/MyDrive/Colab Notebooks/Python review/FileDiSupporto'

Mounted at /content/drive


In [None]:
file_path = os.path.join(folder_path, 'data.csv')
dataset3 = pd.read_csv(file_path, header=0)   # la riga 0 contiene l'intestazione
print(dataset3)

  Line       Type  Capacity  UnitCost  Saturation
0    A  automated      1000      1.20        0.80
1    B   assisted      2000      1.15        0.75
2    C  automated      1000      1.21        0.55


Modifica di alcuni dati ...

In [None]:
dataset3.at[2, 'Type'] = 'assisted'
print(dataset3)

  Line       Type  Capacity  UnitCost  Saturation
0    A  automated      1000      1.20        0.80
1    B   assisted      2000      1.15        0.75
2    C   assisted      1000      1.21        0.55


Salvataggio del dataset in formato csv ...

In [None]:
file_path_out_csv = os.path.join(folder_path, 'out.csv')
dataset3.to_csv(file_path_out_csv)

Salvataggio del dataset in formato json ...

In [None]:
file_path_out_json = os.path.join(folder_path, 'out.json')
dataset3.to_json(file_path_out_json)

Lettura di un dataset in formato json ...

In [None]:
dataset4 = pd.read_json(file_path_out_json)
print(dataset4)

  Line       Type  Capacity  UnitCost  Saturation
0    A  automated      1000      1.20        0.80
1    B   assisted      2000      1.15        0.75
2    C   assisted      1000      1.21        0.55
