# Equivalenza con SQL


### SELECT (Selezione delle colonne)

**SQL:**
```sql
SELECT Nome, Età FROM tabella;
```

**Pandas:**
```python
df[['Nome', 'Età']]
```
oppure
```python
df.loc[:, ['Nome', 'Età']]
```

### WHERE (Filtro sulle righe)

**SQL:**
```sql
SELECT * FROM tabella WHERE Età > 30;
```

**Pandas:**
```python
df[df['Età'] > 30]
```

### SELECT + WHERE

**SQL:**
```sql
SELECT Nome, Punteggio FROM tabella WHERE Età > 30 AND Sesso = 'M';
```

**Pandas:**
```python
df.loc[(df['Età'] > 30) & (df['Sesso'] == 'M'), ['Nome', 'Punteggio']]
```

### ORDER BY (Ordinamento)

**SQL:**
```sql
SELECT * FROM tabella ORDER BY Età DESC;
```

**Pandas:**
```python
df.sort_values('Età', ascending=False)
```

### GROUP BY (Raggruppamento)

**SQL:**
```sql
SELECT Sesso, AVG(Età) FROM tabella GROUP BY Sesso;
```

**Pandas:**
```python
df.groupby('Sesso')['Età'].mean()
```

### JOIN (Unione di DataFrame)

**SQL:**
```sql
SELECT * FROM tabella1 JOIN tabella2 ON tabella1.ID = tabella2.ID;
```

**Pandas:**
```python
pd.merge(df1, df2, on='ID')
```

### LIMIT (Limitare i risultati)

**SQL:**
```sql
SELECT * FROM tabella LIMIT 3;
```

**Pandas:**
```python
df.head(3)
```

### DISTINCT (Valori unici)

**SQL:**
```sql
SELECT DISTINCT Sesso FROM tabella;
```

**Pandas:**
```python
df['Sesso'].unique()
```
oppure
```python
df[['Sesso']].drop_duplicates()
```

----

In [1]:
import pandas as pd

data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Emma'],
        'Età': [25, 30, 35, 40, 22],
        'Sesso': ['F', 'M', 'M', 'M', 'F'],
        'Punteggio': [85, 90, 88, 92, 78]}

df = pd.DataFrame(data)
df

Unnamed: 0,Nome,Età,Sesso,Punteggio
0,Alice,25,F,85
1,Bob,30,M,90
2,Charlie,35,M,88
3,David,40,M,92
4,Emma,22,F,78


In [2]:
# 1. Seleziona solo la colonna 'Nome'
nome_c = df['Nome']
nome_c

0      Alice
1        Bob
2    Charlie
3      David
4       Emma
Name: Nome, dtype: object

In [3]:
# 2. Seleziona le colonne 'Nome' e 'Età' (SELECT Nome, Età FROM tabella;)
nome_eta_c = df[['Nome', 'Età']]
nome_eta_c

Unnamed: 0,Nome,Età
0,Alice,25
1,Bob,30
2,Charlie,35
3,David,40
4,Emma,22


In [4]:
# 3. Filtra le righe dove l'età è superiore a 30
df_filtrato = df[ (df['Età'] > 30) ] # (SELECT * FROM tabella WHERE Età > 30;)
df_filtrato

Unnamed: 0,Nome,Età,Sesso,Punteggio
2,Charlie,35,M,88
3,David,40,M,92


In [5]:
df_filtrato = df[ (df['Età'] > 30) & (df['Punteggio']> 90) ] # (SELECT * FROM tabella WHERE 'Età' > 30 and 'Punteggio'>90;)
df_filtrato

Unnamed: 0,Nome,Età,Sesso,Punteggio
3,David,40,M,92


In [6]:
# 4. Aggiungi una nuova colonna chiamata 'Voto' con valori casuali tra 60 e 100
import numpy as np
df['Voto']=np.random.randint(60, 101, size=len(df))
df

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto
0,Alice,25,F,85,80
1,Bob,30,M,90,93
2,Charlie,35,M,88,95
3,David,40,M,92,75
4,Emma,22,F,78,65


In [7]:
# 5. Ordina il DataFrame in base alla colonna 'Punteggio' in ordine decrescente
df_ordinato = df.sort_values('Punteggio', ascending=False)
df_ordinato

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto
3,David,40,M,92,75
1,Bob,30,M,90,93
2,Charlie,35,M,88,95
0,Alice,25,F,85,80
4,Emma,22,F,78,65


In [8]:
# 6. Calcola la media dei punteggi
media = df['Punteggio'].mean()
media

86.6

In [9]:
# 7. Trova la persona con il punteggio massimo
punt = df[ (df['Punteggio'] == df['Punteggio'].max()) ]
punt

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto
3,David,40,M,92,75


In [10]:
# 8. Cambia il sesso di 'Alice' a 'test'
id_alice=list(df.to_dict()['Nome'].values()).index('Alice') #trova indice Alice
df.at[id_alice, 'Sesso'] = 'test' # modifca
df

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto
0,Alice,25,test,85,80
1,Bob,30,M,90,93
2,Charlie,35,M,88,95
3,David,40,M,92,75
4,Emma,22,F,78,65


In [11]:
df.at[id_alice, 'Sesso'] = 'F' # ripristina
df

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto
0,Alice,25,F,85,80
1,Bob,30,M,90,93
2,Charlie,35,M,88,95
3,David,40,M,92,75
4,Emma,22,F,78,65


In [12]:
# 9. Conta il numero di persone per sesso
#df_new=df.groupby('Sesso').count()
conteggio_sesso = df['Sesso'].value_counts()
conteggio_sesso

Sesso
M    3
F    2
Name: count, dtype: int64

In [13]:
# 10. Rimuovi la colonna 'Voto'
# del df["Voto"] # https://pandas.pydata.org/docs/user_guide/dsintro.html
df_rimosso = df.drop('Voto', axis=1)
df_rimosso

Unnamed: 0,Nome,Età,Sesso,Punteggio
0,Alice,25,F,85
1,Bob,30,M,90
2,Charlie,35,M,88
3,David,40,M,92
4,Emma,22,F,78


In [14]:
# 11. Calcola la somma cumulativa della colonna 'Età'
df['Età'].sum()

152

In [15]:
# 12. Trova le persone con punteggio superiore a 80 e età inferiore a 35
trovate = df[ (df['Punteggio'] > 80)  &  (df['Età'] < 35)   ]
trovate

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto
0,Alice,25,F,85,80
1,Bob,30,M,90,93


In [16]:
# 13. Calcola la deviazione standard della colonna 'Punteggio'
df['Punteggio'].std()

5.458937625582473

In [17]:
# 14. Raggruppa il DataFrame per sesso e calcola la media delle età
conteggio_sesso = df.groupby('Sesso')['Età'].mean()
conteggio_sesso

Sesso
F    23.5
M    35.0
Name: Età, dtype: float64

In [18]:
# 15. Rinomina la colonna 'Nome' in 'Cognome'
df['Cognome']=df['Nome']
df.drop('Nome', axis=1)

Unnamed: 0,Età,Sesso,Punteggio,Voto,Cognome
0,25,F,85,80,Alice
1,30,M,90,93,Bob
2,35,M,88,95,Charlie
3,40,M,92,75,David
4,22,F,78,65,Emma


In [19]:
df['Nome']=df['Cognome'] # Ripristina
df.drop('Cognome', axis=1)

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto
0,Alice,25,F,85,80
1,Bob,30,M,90,93
2,Charlie,35,M,88,95
3,David,40,M,92,75
4,Emma,22,F,78,65


In [20]:
# 16. Fai una fusione (merge) con un secondo DataFrame
data2 = {'Cognome': ['Alice', 'Bob', 'Charlie', 'David', 'Emma'],
         'Lavoro': ['Ingegnere', 'Analista', 'Manager', 'Programmatore', 'Designer']}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Cognome,Lavoro
0,Alice,Ingegnere
1,Bob,Analista
2,Charlie,Manager
3,David,Programmatore
4,Emma,Designer


In [21]:
df_merged = pd.merge(df, df2, left_on='Nome', right_on='Cognome',how='left')
df_merged

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto,Cognome_x,Cognome_y,Lavoro
0,Alice,25,F,85,80,Alice,Alice,Ingegnere
1,Bob,30,M,90,93,Bob,Bob,Analista
2,Charlie,35,M,88,95,Charlie,Charlie,Manager
3,David,40,M,92,75,David,David,Programmatore
4,Emma,22,F,78,65,Emma,Emma,Designer


In [22]:
# togli doppi
df_merged = df_merged.drop('Cognome_x', axis=1)
df_merged = df_merged.drop('Cognome_y', axis=1)
df_merged

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto,Lavoro
0,Alice,25,F,85,80,Ingegnere
1,Bob,30,M,90,93,Analista
2,Charlie,35,M,88,95,Manager
3,David,40,M,92,75,Programmatore
4,Emma,22,F,78,65,Designer


In [23]:
# 17. Salva il DataFrame in un file CSV
# df.to_csv('dati.csv', sep=';', index=False)
# df.to_csv('dati.csv', index=False, encoding='utf-8')
# df.to_csv('dati.csv', index=False, header=False)
df_merged.to_csv('dati.csv', index=False)

In [24]:
# 18. Carica un DataFrame da un file CSV
# df = pd.read_csv('dati.csv', sep=';')
# df = pd.read_csv('dati.csv', encoding='utf-8')
# df = pd.read_csv('dati.csv', header=None)
# df = pd.read_csv('dati.csv', header=None, names=['Colonna1', 'Colonna2', 'Colonna3'])
df_loaded = pd.read_csv('dati.csv')
df_loaded

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto,Lavoro
0,Alice,25,F,85,80,Ingegnere
1,Bob,30,M,90,93,Analista
2,Charlie,35,M,88,95,Manager
3,David,40,M,92,75,Programmatore
4,Emma,22,F,78,65,Designer


In [25]:
# 19. Aggiungi una riga al DataFrame
nuova_riga = {'Nome': 'Emma', 'Età': 22, 'Sesso': 'F', 'Punteggio':99 , 'Voto' : 90 , 'Lavoro':'Imprenditore'}
df_concat = pd.concat([df_loaded, pd.DataFrame([nuova_riga])], ignore_index=True)
df_concat

Unnamed: 0,Nome,Età,Sesso,Punteggio,Voto,Lavoro
0,Alice,25,F,85,80,Ingegnere
1,Bob,30,M,90,93,Analista
2,Charlie,35,M,88,95,Manager
3,David,40,M,92,75,Programmatore
4,Emma,22,F,78,65,Designer
5,Emma,22,F,99,90,Imprenditore
