[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/alesaccoia/IULM_DDM2324_Notebooks/blob/main/04_introduzione_a_pandas.ipynb)

# Introduzione a Pandas
Pandas è una libreria Python open source che fornisce strutture dati e strumenti di analisi dei dati, ad alte prestazioni e facili da usare.

# Installazione

In [79]:
!pip install pandas




# Importazione della libreria
L'alias classico é "pd"

In [80]:
import pandas as pd

# Creazione di DataFrames
Un DataFrame è una struttura a 2 dimensioni simile a un foglio di calcolo o a una tabella SQL.

## Creazione da un dizionario

In [81]:
data = {
    'Nome': ['Anna', 'Marco', 'Giulia', 'Luca'],
    'Eta': [25, 30, 29, 27],
    'Citta': ['Roma', 'Milano', 'Napoli', 'Torino']
}

df = pd.DataFrame(data)

print(df)

     Nome  Eta   Citta
0    Anna   25    Roma
1   Marco   30  Milano
2  Giulia   29  Napoli
3    Luca   27  Torino


## Lettura da File

In [83]:
# Supponendo di avere un file 'data.csv'
!wget "https://raw.githubusercontent.com/LeoLin72/IULM_DDM2324_Notebooks/main/data/sample_data.csv"
df = pd.read_csv('sample_data.csv')

# Lettura da un file Excel
# df_from_excel = pd.read_excel('data.xlsx', sheet_name='Sheet1')

print(df)

--2024-04-09 10:44:42--  https://raw.githubusercontent.com/LeoLin72/IULM_DDM2324_Notebooks/main/data/sample_data.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 96 [text/plain]
Saving to: ‘sample_data.csv’


2024-04-09 10:44:43 (8.47 MB/s) - ‘sample_data.csv’ saved [96/96]

      Nome    Citta  Eta
0    Marco   Milano   32
1     Anna     Roma   28
2   Giulio   Genova   31
3  Roberta  Palermo   44
4    Fabio   Torino   25


# Selezionare gli elementi del DataFrame

## Selezionare le colonne

In Pandas, hai due modi principali per accedere alle colonne di un DataFrame: usando la notazione con il punto (.) e usando la notazione con le parentesi quadre ([]).

### Notazione .nome_colonna
Quando il nome della colonna è un identificatore valido (ossia segue le regole per i nomi delle variabili in Python), puoi utilizzare la notazione con il punto:

In [84]:
print(df.Nome)

0      Marco
1       Anna
2     Giulio
3    Roberta
4      Fabio
Name: Nome, dtype: object


#### Vantaggi:

Più breve e più leggibile (quando è possibile).

#### Svantaggi:

Non funziona se il nome della colonna contiene spazi o caratteri speciali.

Potrebbe entrare in conflitto con i metodi o gli attributi esistenti di un DataFrame. Ad esempio, un DataFrame potrebbe avere un metodo chiamato sum e una colonna chiamata sum. In tal caso, df.sum si riferirà al metodo, non alla colonna.

### Notazione ['nome_colonna']

La notazione con le parentesi quadre è più flessibile e consente di accedere a colonne con qualsiasi nome:

In [85]:
print(df['Nome'])

0      Marco
1       Anna
2     Giulio
3    Roberta
4      Fabio
Name: Nome, dtype: object


#### Vantaggi

Funziona con qualsiasi nome di colonna, anche se contiene spazi o caratteri speciali.
Non c'è rischio di conflitto con metodi o attributi esistenti del DataFrame.

#### Svantaggi

Richiede più caratteri rispetto alla notazione con il punto.

### Considerazioni aggiuntive

Se hai bisogno di accedere a più di una colonna contemporaneamente, devi usare la notazione con le doppie parentesi quadre: df[['age', 'city']].
La notazione con il punto restituisce una vista sulla colonna, quindi modifiche apportate alla Serie restituita si rifletteranno nel DataFrame originale (ma fai attenzione quando reassegni l'intera Serie, perché potresti rompere il collegamento).

La notazione con le parentesi quadre quando si accede a una singola colonna (ad es. df['age']) restituisce anch'essa una vista. Tuttavia, quando si accede a più colonne (ad es. df[['age', 'city']]), viene restituita una copia.


## Slicing del DataFrame: loc e iloc

- **loc** è basato su etichette, cioè nomi di colonne/indice.
- **iloc** è basato su posizioni intere.


In [86]:
# Usare loc per selezionare per etichetta
print(df.loc[1, "Nome"])  # Restituisce 'Anna'

# Usare iloc per selezionare per posizione
print(df.iloc[1, 0])  # Restituisce 'Anna'


Anna
Anna


# All'interno del DataFrame
Le colonne di un DataFrame sono oggetti Series. Ogni "Serie" è praticamente un array unidimensionale.

In [87]:
# Selezionare una colonna
s = df['Nome']
print(type(s))
print(s)


<class 'pandas.core.series.Series'>
0      Marco
1       Anna
2     Giulio
3    Roberta
4      Fabio
Name: Nome, dtype: object


I valori di ogni colonna possono essere presi in formato numpy array attraverso l'attributo .values

In [88]:
df['Nome'].values

array(['Marco', 'Anna', 'Giulio', 'Roberta', 'Fabio'], dtype=object)

# Modifica di un DataFrame

In [89]:
# Aggiungere una nuova colonna
df['Lavoro'] = ['Ingegnere', 'Designer', 'Medico', 'Avvocato', 'Informatico']

# Modificare valori specifici
df.at[0, 'Nome'] = 'Giovanni'

# Rinominare colonne
df.rename(columns={"Nome": "Nome Completo"}, inplace=True)

df


Unnamed: 0,Nome Completo,Citta,Eta,Lavoro
0,Giovanni,Milano,32,Ingegnere
1,Anna,Roma,28,Designer
2,Giulio,Genova,31,Medico
3,Roberta,Palermo,44,Avvocato
4,Fabio,Torino,25,Informatico


# Passare DataFrame come Argomenti
Se si passa un DataFrame a una funzione, è importante capire come vengono gestite le modifiche all'interno della funzione.

In [90]:
def modify_dataframe(dataframe):
    dataframe['Eta'] += 1
    return dataframe

# Chiamare la funzione
new_df = modify_dataframe(df)



df avrà le Eta aggiornate anche se non era l'intento

In [91]:
df

Unnamed: 0,Nome Completo,Citta,Eta,Lavoro
0,Giovanni,Milano,33,Ingegnere
1,Anna,Roma,29,Designer
2,Giulio,Genova,32,Medico
3,Roberta,Palermo,45,Avvocato
4,Fabio,Torino,26,Informatico


## Selezionare più colonne

In [92]:
## Selezionare più colonne utilizzando una lista di nomi di colonne
subset = df[['Nome Completo', 'Citta']]
print(subset)


  Nome Completo    Citta
0      Giovanni   Milano
1          Anna     Roma
2        Giulio   Genova
3       Roberta  Palermo
4         Fabio   Torino


## Selezionare righe e colonne contemporaneamente

In [93]:
# Usando iloc
print(df.iloc[0:2, 1:3])  # Prende le prime 2 righe e la colonna 2 e 3

# Usando loc
print(df.loc[0:2, ['Eta', 'Citta']])


    Citta  Eta
0  Milano   33
1    Roma   29
   Eta   Citta
0   33  Milano
1   29    Roma
2   32  Genova


# Convenzione per nominare le colonne

Durante questo corso cercheremo, ove possibile, di nominare le colonne in pandas con un nome inglese e in 'lowercase': ammettiamo come caratteri speciali solo ed esclusivamente l'underscore.

Esempio:

In [94]:
# L'argomento inplace=True faccia sí che le modifiche vengano salvate senza bisogno di riassegnare la variabile
df.rename(columns={"Nome Completo": "name",
                   "Citta": "city",
                   "Eta": "age",
                   "Lavoro": "job" }, inplace=True)
df


Unnamed: 0,name,city,age,job
0,Giovanni,Milano,33,Ingegnere
1,Anna,Roma,29,Designer
2,Giulio,Genova,32,Medico
3,Roberta,Palermo,45,Avvocato
4,Fabio,Torino,26,Informatico


# Iterare su Righe e Colonne

Pandas fornisce metodi come iterrows() e items() per iterare attraverso il DataFrame.

In [95]:
# Iterare su righe usando iterrows
for index, row in df.iterrows():
    print(row['name'], row['city'])



Giovanni Milano
Anna Roma
Giulio Genova
Roberta Palermo
Fabio Torino


In [96]:
# Iterare su colonne usando iteritems
for label, content in df.items():
    print('Colonna:', label)
    print('Contenuto:', content)

Colonna: name
Contenuto: 0    Giovanni
1        Anna
2      Giulio
3     Roberta
4       Fabio
Name: name, dtype: object
Colonna: city
Contenuto: 0     Milano
1       Roma
2     Genova
3    Palermo
4     Torino
Name: city, dtype: object
Colonna: age
Contenuto: 0    33
1    29
2    32
3    45
4    26
Name: age, dtype: int64
Colonna: job
Contenuto: 0      Ingegnere
1       Designer
2         Medico
3       Avvocato
4    Informatico
Name: job, dtype: object


## Nota importante!

iterrows() è un metodo generatore che restituisce un indice e una Serie per ogni riga. Tuttavia, è importante ricordare che le operazioni fatte sulla Serie restituita da iterrows() non modificano il DataFrame originale. Questo è perché la Serie restituita è una copia dei dati, non una vista sul DataFrame originale. Pertanto, se desideri effettuare modifiche, dovresti utilizzare l'indice per fare riferimento alla riga originale.

In [97]:
# Tentativo di modifica usando iterrows()
for index, row in df.iterrows():
    row['name'] = row['name'].upper()

df # Non vedremo le modifiche

Unnamed: 0,name,city,age,job
0,Giovanni,Milano,33,Ingegnere
1,Anna,Roma,29,Designer
2,Giulio,Genova,32,Medico
3,Roberta,Palermo,45,Avvocato
4,Fabio,Torino,26,Informatico


In [98]:
# Modifica corretta usando iterrows()
for index, row in df.iterrows():
    df.at[index, 'name'] = row['name'].upper()

print(df)  # Ora le modifiche sono visibili

       name     city  age          job
0  GIOVANNI   Milano   33    Ingegnere
1      ANNA     Roma   29     Designer
2    GIULIO   Genova   32       Medico
3   ROBERTA  Palermo   45     Avvocato
4     FABIO   Torino   26  Informatico


items() itera sulle colonne, restituendo ogni volta una coppia composta dal nome della colonna e il contenuto della colonna come una Serie. Anche in questo caso, la Serie restituita è una copia, quindi le modifiche alla Serie non modificheranno il DataFrame originale. Se vuoi modificare il contenuto, dovresti utilizzare il nome della colonna per fare riferimento al DataFrame originale.

In [99]:
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'city': ['Rome', 'Paris', 'London']
}
df_cities = pd.DataFrame(data)


# Tentativo di modifica usando iteritems()
for label, content in df_cities.items():
    content = content.str.lower()  # Questo non modifica il DataFrame originale

print(df_cities)  # Non vedremo le modifiche

# Modifica corretta usando iteritems()
for label, content in df_cities.items():
    df_cities[label] = content.str.lower()

print(df_cities)  # Ora le modifiche sono visibili


      name    city
0    Alice    Rome
1      Bob   Paris
2  Charlie  London
      name    city
0    alice    rome
1      bob   paris
2  charlie  london


# Usare Apply
apply() è un potente strumento in Pandas che ti permette di applicare una funzione a ciascun elemento (o riga/colonna) del DataFrame.



In [100]:
def add_suffix(name):
    return name + "_suffix"

# Applicare la funzione a una colonna
df['name'] = df['name'].apply(add_suffix)

In [101]:
df

Unnamed: 0,name,city,age,job
0,GIOVANNI_suffix,Milano,33,Ingegnere
1,ANNA_suffix,Roma,29,Designer
2,GIULIO_suffix,Genova,32,Medico
3,ROBERTA_suffix,Palermo,45,Avvocato
4,FABIO_suffix,Torino,26,Informatico
