[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alesaccoia/IULM_DDM2324_Notebooks/blob/main/04_introduzione_a_pandas.ipynb)

# Introduzione a Pandas
Pandas è una libreria Python open source che fornisce strutture dati e strumenti di analisi dei dati, ad alte prestazioni e facili da usare.

# Installazione

In [None]:
!pip install pandas


# Importazione della libreria
L'alias classico é "pd"

In [None]:
import pandas as pd

# Creazione di DataFrames
Un DataFrame è una struttura a 2 dimensioni simile a un foglio di calcolo o a una tabella SQL.

## Creazione da un dizionario

In [None]:
data = {
    'Nome': ['Anna', 'Marco', 'Giulia', 'Luca'],
    'Età': [25, 30, 29, 27],
    'Città': ['Roma', 'Milano', 'Napoli', 'Torino']
}

df = pd.DataFrame(data)

print(df)

## Lettura da File

In [None]:
# Supponendo di avere un file 'data.csv'
df = pd.read_csv('data/sample_data.csv')

# Lettura da un file Excel
# df_from_excel = pd.read_excel('data.xlsx', sheet_name='Sheet1')

print(df)

# Selezionare gli elementi del DataFrame

## Selezionare le colonne

In Pandas, hai due modi principali per accedere alle colonne di un DataFrame: usando la notazione con il punto (.) e usando la notazione con le parentesi quadre ([]).

### Notazione .nome_colonna
Quando il nome della colonna è un identificatore valido (ossia segue le regole per i nomi delle variabili in Python), puoi utilizzare la notazione con il punto:

In [None]:
print(df.Nome)

#### Vantaggi:

Più breve e più leggibile (quando è possibile).

#### Svantaggi:

Non funziona se il nome della colonna contiene spazi o caratteri speciali.

Potrebbe entrare in conflitto con i metodi o gli attributi esistenti di un DataFrame. Ad esempio, un DataFrame potrebbe avere un metodo chiamato sum e una colonna chiamata sum. In tal caso, df.sum si riferirà al metodo, non alla colonna.

### Notazione ['nome_colonna']

La notazione con le parentesi quadre è più flessibile e consente di accedere a colonne con qualsiasi nome:

In [None]:
print(df['Nome'])

#### Vantaggi

Funziona con qualsiasi nome di colonna, anche se contiene spazi o caratteri speciali.
Non c'è rischio di conflitto con metodi o attributi esistenti del DataFrame.

#### Svantaggi

Richiede più caratteri rispetto alla notazione con il punto.

### Considerazioni aggiuntive

Se hai bisogno di accedere a più di una colonna contemporaneamente, devi usare la notazione con le parentesi quadre: df[['age', 'city']].
La notazione con il punto restituisce una vista sulla colonna, quindi modifiche apportate alla Serie restituita si rifletteranno nel DataFrame originale (ma fai attenzione quando reassegni l'intera Serie, perché potresti rompere il collegamento).

La notazione con le parentesi quadre quando si accede a una singola colonna (ad es. df['age']) restituisce anch'essa una vista. Tuttavia, quando si accede a più colonne (ad es. df[['age', 'city']]), viene restituita una copia.


## Slicing del DataFrame: loc e iloc

- loc è basato su etichette, cioè nomi di colonne/indice.
- iloc è basato su posizioni intere.


In [None]:
# Usare loc per selezionare per etichetta
print(df.loc[1, "Nome"])  # Restituisce 'Anna'

# Usare iloc per selezionare per posizione
print(df.iloc[1, 0])  # Restituisce 'Anna'


# All'interno del DataFrame
Le colonne di un DataFrame sono oggetti Series. Ogni "Serie" è praticamente un array unidimensionale.

In [None]:
# Selezionare una colonna
s = df['Nome']
print(type(s))
print(s)


# Modifica di un DataFrame

In [None]:
# Aggiungere una nuova colonna
df['Lavoro'] = ['Ingegnere', 'Designer', 'Medico', 'Avvocato', 'Informatico']

# Modificare valori specifici
df.at[0, 'Nome'] = 'Giovanni'

# Rinominare colonne
df.rename(columns={"Nome": "Nome Completo"}, inplace=True)

df


# Passare DataFrame come Argomenti
Se si passa un DataFrame a una funzione, è importante capire come vengono gestite le modifiche all'interno della funzione.

In [None]:
def modify_dataframe(dataframe):
    dataframe['Età'] += 1
    return dataframe

# Chiamare la funzione
new_df = modify_dataframe(df)



df avrà le età aggiornate anche se non era l'intento

In [None]:
df

## Selezionare più colonne

In [None]:
## Selezionare più colonne utilizzando una lista di nomi di colonne
subset = df[['Nome Completo', 'Cittá']]
print(subset)


## Selezionare righe e colonne contemporaneamente

In [None]:
# Usando iloc
print(df.iloc[0:2, 1:3])  # Prende le prime 2 righe e la colonna 2 e 3

# Usando loc
print(df.loc[0:2, ['Età', 'Cittá']])


# Convenzione per nominare le colonne

Durante questo corso cercheremo, ove possibile, di nominare le colonne in pandas con un nome inglese e in 'lowercase': ammettiamo come caratteri speciali solo ed esclusivamente l'underscore.

Esempio:

In [None]:
# L'argomento inplace=True faccia sí che le modifiche vengano salvate senza bisogno di riassegnare la variabile
df.rename(columns={"Nome Completo": "name",
                   "Cittá": "city",
                   "Età": "age",
                   "Lavoro": "job" }, inplace=True)
df


# Iterare su Righe e Colonne

Pandas fornisce metodi come iterrows() e items() per iterare attraverso il DataFrame.

In [None]:
# Iterare su righe usando iterrows
for index, row in df.iterrows():
    print(row['name'], row['city'])



In [None]:
# Iterare su colonne usando iteritems
for label, content in df.items():
    print('Colonna:', label)
    print('Contenuto:', content)

## Nota importante!

iterrows() è un metodo generatore che restituisce un indice e una Serie per ogni riga. Tuttavia, è importante ricordare che le operazioni fatte sulla Serie restituita da iterrows() non modificano il DataFrame originale. Questo è perché la Serie restituita è una copia dei dati, non una vista sul DataFrame originale. Pertanto, se desideri effettuare modifiche, dovresti utilizzare l'indice per fare riferimento alla riga originale.

In [None]:
# Tentativo di modifica usando iterrows()
for index, row in df.iterrows():
    row['name'] = row['name'].upper()

df # Non vedremo le modifiche

In [None]:
# Modifica corretta usando iterrows()
for index, row in df.iterrows():
    df.at[index, 'name'] = row['name'].upper()

print(df)  # Ora le modifiche sono visibili

items() itera sulle colonne, restituendo ogni volta una coppia composta dal nome della colonna e il contenuto della colonna come una Serie. Anche in questo caso, la Serie restituita è una copia, quindi le modifiche alla Serie non modificheranno il DataFrame originale. Se vuoi modificare il contenuto, dovresti utilizzare il nome della colonna per fare riferimento al DataFrame originale.

In [None]:
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'city': ['Rome', 'Paris', 'London']
}
df_cities = pd.DataFrame(data)


# Tentativo di modifica usando iteritems()
for label, content in df_cities.items():
    content = content.str.lower()  # Questo non modifica il DataFrame originale

print(df_cities)  # Non vedremo le modifiche

# Modifica corretta usando iteritems()
for label, content in df_cities.items():
    df_cities[label] = content.str.lower()

print(df_cities)  # Ora le modifiche sono visibili


# Usare Apply
apply() è un potente strumento in Pandas che ti permette di applicare una funzione a ciascun elemento (o riga/colonna) del DataFrame.



In [None]:
def add_suffix(name):
    return name + "_suffix"

# Applicare la funzione a una colonna
df['name'] = df['name'].apply(add_suffix)

In [None]:
df