<a href="https://colab.research.google.com/github/anmancuso/TutorialPython/blob/main/Introduzione_a_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduzione a Pandas
Pandas è una libreria open-source per la manipolazione e l'analisi dei dati in Python. Fornisce strutture dati e funzioni per lavorare con dati strutturati, come tabelle e serie temporali. In questo tutorial, esploreremo alcune delle funzionalità principali di Pandas.

## Importazione di Pandas
Per utilizzare Pandas nel tuo codice Python, devi importarlo:

In [1]:
import pandas as pd

## Strutture dati
Pandas fornisce due principali strutture dati: il DataFrame e la Serie. Noi siamo interessati al dataframe per lo più

### DataFrame
Il DataFrame di Pandas è una struttura dati tabulare bidimensionale simile a una tabella in un database relazionale o a un foglio di calcolo. Può contenere dati di diversi tipi e supporta operazioni efficienti per l'indicizzazione, il filtraggio, l'aggregazione e altro ancora.

In [2]:
# Creare un DataFrame da un dizionario
data = {'Nome': ['Alice', 'Bob', 'Charlie'],
        'Età': [25, 30, 35],
        'Città': ['Roma', 'Milano', 'Torino']}
df = pd.DataFrame(data)
print(df)

      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Torino


In [4]:
# Salvare il dataframe in un formato csv: 
df.to_csv("dati.csv",index=False)

## Caricamento Dati
Pandas offre diverse funzioni per caricare dati da diverse fonti, come file CSV, Excel, database, e altro ancora. Utilizzeremo il caricamento dei dati da un file CSV come esempio.

In [5]:
# Caricare dati da un file CSV
df = pd.read_csv('dati.csv')
print(df)

      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Torino


## Esplorazione Dati
Pandas fornisce molte funzioni per esplorare i dati e ottenere informazioni statistiche.

In [6]:
# Visualizzare le prime righe del DataFrame
print(df.head())

# Visualizzare le informazioni sul DataFrame
print(df.info())

# Calcolare statistiche descrittive
print(df.describe())

# Selezionare una colonna specifica
colonna = df['Nome']
print(colonna)

# Filtrare le righe basate su una condizione
filtro = df[df['Età'] > 25]
print(filtro)

# Ordinare il DataFrame per una colonna
ordinato = df.sort_values('Età')
print(ordinato)

      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Torino
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    3 non-null      object
 1   Età     3 non-null      int64 
 2   Città   3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
None
        Età
count   3.0
mean   30.0
std     5.0
min    25.0
25%    27.5
50%    30.0
75%    32.5
max    35.0
0      Alice
1        Bob
2    Charlie
Name: Nome, dtype: object
      Nome  Età   Città
1      Bob   30  Milano
2  Charlie   35  Torino
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Torino


## Manipolazione dati
Pandas offre molte funzioni per manipolare i dati, come l'aggiunta o la rimozione di colonne, il raggruppamento dei dati, la sostituzione dei valori mancanti e altro ancora.

In [7]:
# Aggiungere una nuova colonna
df['Nuova colonna'] = [True, False, True]
print(df)

# Rimuovere una colonna
df = df.drop('Nuova colonna', axis=1)
print(df)

# Raggruppare i dati e calcolare statistiche di gruppo
gruppo = df.groupby('Città')
statistiche = gruppo['Età'].mean()
print(statistiche)

# Sostituire i valori mancanti con un valore specifico
df = df.fillna(0)
print(df)

      Nome  Età   Città  Nuova colonna
0    Alice   25    Roma           True
1      Bob   30  Milano          False
2  Charlie   35  Torino           True
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Torino
Città
Milano    30.0
Roma      25.0
Torino    35.0
Name: Età, dtype: float64
      Nome  Età   Città
0    Alice   25    Roma
1      Bob   30  Milano
2  Charlie   35  Torino


## Combiniamo Pandas e numpy!
In questo esempio, creiamo un DataFrame da un array NumPy e applichiamo diverse funzioni avanzate. Utilizziamo NumPy per calcolare la radice quadrata di una colonna, trovare il valore massimo di una colonna e aggregare i dati delle colonne A, B e C. Utilizziamo anche Pandas per applicare una funzione personalizzata agli elementi di una colonna utilizzando il metodo apply().

In [8]:
import numpy as np
import pandas as pd

In [9]:
# Creare un DataFrame da un array NumPy
array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(array, columns=['A', 'B', 'C'])
print(df)

# Applicare una funzione NumPy agli elementi di una colonna
df['D'] = np.sqrt(df['C'])
print(df)

# Calcolare il valore massimo di una colonna utilizzando NumPy
max_value = np.max(df['B'])
print("Valore massimo:", max_value)

# Aggregazione dei dati utilizzando NumPy
aggregated_data = np.sum(df[['A', 'B', 'C']], axis=0)
print("Dati aggregati:", aggregated_data)

# Applicare una funzione personalizzata agli elementi di una colonna utilizzando Pandas e NumPy
def custom_function(x):
    return np.sqrt(x) * 2

df['E'] = df['C'].apply(custom_function)
print(df)

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9
   A  B  C         D
0  1  2  3  1.732051
1  4  5  6  2.449490
2  7  8  9  3.000000
Valore massimo: 8
Dati aggregati: A    12
B    15
C    18
dtype: int64
   A  B  C         D         E
0  1  2  3  1.732051  3.464102
1  4  5  6  2.449490  4.898979
2  7  8  9  3.000000  6.000000


## Funzioni più avanzate di Pandas 


In [11]:
# Unione di DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})
merged_df = pd.concat([df1, df2])
print("DataFrame uniti:")
print(merged_df)

DataFrame uniti:
   A   B
0  1   4
1  2   5
2  3   6
0  7  10
1  8  11
2  9  12


In [12]:
# Operazioni di join tra DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['x', 'y', 'z']})
df2 = pd.DataFrame({'A': [1, 2, 4], 'C': ['p', 'q', 'r']})
joined_df = pd.merge(df1, df2, on='A', how='inner')
print("DataFrame con join:")
print(joined_df)

DataFrame con join:
   A  B  C
0  1  x  p
1  2  y  q


In [13]:
# Gestione di valori mancanti
df = pd.DataFrame({'A': [1, 2, None, 4, 5], 'B': [None, 2, 3, 4, None]})
cleaned_df = df.dropna()  # Rimuovi le righe con valori mancanti
filled_df = df.fillna(0)  # Sostituisci i valori mancanti con un valore specifico
print("DataFrame pulito:")
print(cleaned_df)
print("DataFrame con valori mancanti sostituiti:")
print(filled_df)

DataFrame pulito:
     A    B
1  2.0  2.0
3  4.0  4.0
DataFrame con valori mancanti sostituiti:
     A    B
0  1.0  0.0
1  2.0  2.0
2  0.0  3.0
3  4.0  4.0
4  5.0  0.0


In [14]:
# Applicazione di funzioni a gruppi di dati
df = pd.DataFrame({'A': ['x', 'x', 'y', 'y', 'z'],
                   'B': [1, 2, 3, 4, 5],
                   'C': [6, 7, 8, 9, 10]})
grouped_df = df.groupby('A').agg({'B': 'sum', 'C': 'mean'})
print("DataFrame raggruppato:")
print(grouped_df)

DataFrame raggruppato:
   B     C
A         
x  3   6.5
y  7   8.5
z  5  10.0


In [15]:
# Creazione di una nuova colonna basata su una condizione
df['D'] = df['B'].apply(lambda x: 'high' if x > 3 else 'low')
print("DataFrame con nuova colonna:")
print(df)

DataFrame con nuova colonna:
   A  B   C     D
0  x  1   6   low
1  x  2   7   low
2  y  3   8   low
3  y  4   9  high
4  z  5  10  high
