<font color="blue" font size="10">AI</font><font color="black" font size="8">ntroduction</font> <font color="grey" font size="4">by Delphi Analytics</font>

# Lezione 2: Librerie

## Cos'è una Libreria?

In Python, una libreria è una raccolta di codice pre-scritto che puoi utilizzare per svolgere compiti in modo più efficiente. Le librerie forniscono funzioni e strumenti riutilizzabili che ti aiutano a evitare di dover riscrivere codice per compiti comuni. Sono essenziali per la scienza dei dati, permettendoti di gestire dati, eseguire calcoli numerici e creare visualizzazioni con facilità.

Alcune librerie comuni utilizzate nella scienza dei dati includono:

1. **Numpy**: Per i calcoli numerici, soprattutto con gli array.
2. **Pandas**: Per la manipolazione e l'analisi dei dati.
3. **Matplotlib**: Per creare visualizzazioni e grafici.

> "*Una buona libreria è come una cassetta degli attrezzi: scegli lo strumento giusto per il lavoro giusto.*" ~ Data Scientist, 2024

---

## Come Installare le Librerie

Prima di immergerci nell'uso di `Numpy`, `Pandas` e `Matplotlib`, dobbiamo assicurarci che siano installate sul tuo computer.

### Guida Passo-Passo all'Installazione

Puoi installare queste librerie utilizzando `pip`, il gestore di pacchetti Python, eseguendo i seguenti comandi nel terminale o nel prompt dei comandi:

1. **Installare Numpy**:
    ```bash
    pip install numpy
    ```

2. **Installare Pandas**:
    ```bash
    pip install pandas
    ```

3. **Installare Matplotlib**:
    ```bash
    pip install matplotlib
    ```

### Verifica dell'Installazione

Dopo aver installato le librerie, puoi verificare che siano state installate correttamente importandole in uno script o notebook Python:

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

print("Librerie installate e importate con successo!")
```

Se non compaiono errori, sei pronto per utilizzare queste librerie nel tuo progetto Python!

In [1]:
!pip install numpy pandas matplotlib geopandas --quiet

In [2]:
#TODO Esercizio 1: importa le librerie necessarie, e controlla la loro versione.

# Introduzione a Numpy

`Numpy` è una libreria che semplifica enormemente il lavoro con dati numerici in Python, soprattutto grazie all'uso degli **array**. Senza `Numpy`, molte operazioni matematiche su array richiederebbero scrivere manualmente funzioni complesse. Con `Numpy`, invece, possiamo eseguire calcoli su interi array con un solo comando.

### Esempio: Somma dei quadrati di una lista di numeri

In [3]:
#TODO Esercizio 2: scrivi una funzione che, data la lista di prezzi di un prodotto, restituisca la somma di ogni prezzo al quadrato.

prices = [30000, 20000, 10000, 5000, 1000, 100000]

def sum_of_squares(prices):
    # scrivi qui
    ...


### Usando Numpy:

Con `Numpy`, possiamo fare tutto questo in una sola riga:

```python
import numpy as np

numeri = np.array([1, 2, 3, 4, 5])
print(np.sum(numeri ** 2))
```

In [4]:
# TODO Esercizio 3: utilizzando numpy, calcola:

# 1. la media dei prezzi
# 2. la deviazione standard dei prezzi
# 3. il prezzo massimo
# 4. il prezzo minimo

# https://numpy.org/devdocs/reference/generated/numpy.mean.html

In [5]:
# TODO Esercizio 4: utilizzando numpy, e il nuovo array 'sconti', calcola:

# 1. il prezzo scontato per ogni prodotto.
# 3. la somma dei prezzi scontati.

sconti = [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]


## Introduzione a Pandas

`Pandas` è una libreria fondamentale per la manipolazione e l'analisi dei dati in Python. Permette di lavorare con tabelle di dati (DataFrame) in modo molto efficiente, facilitando operazioni come il caricamento di file, il filtraggio, l'ordinamento e molto altro.

### Leggere un file con Pandas

Con `Pandas`, leggere un file CSV è semplicissimo. Supponiamo di voler caricare un dataset.

```python
import pandas as pd

# Leggere il file CSV
df = pd.read_csv('percorso/del/file.csv')
```

In [6]:
# TODO Esercizio 5: utilizzando pandas, leggi il file nella cartella 'data'.

### Il mercato immobiliare a Roma
Il dataset nel file `housing.csv` contiene informazioni sul mercato immobiliare a Roma. Le sue colonne sono:

- **LATITUDINE**: coordinata geografica latitudinale dell'immobile
- **LONGITUDINE**: coordinata geografica longitudinale dell'immobile
- **NUMERO_CAMERE**: numero di camere presenti nell'immobile
- **NUMERO_BAGNI**: numero di bagni nell'immobile
- **PREZZO**: prezzo dell'immobile
- **SUPERFICIE**: superficie totale dell'immobile in metri quadrati
- **ANNO_COSTRUZIONE**: anno di costruzione dell'immobile
- **TIPOLOGIA_ANNUNCIO**: tipo di annuncio (vendita, affitto, ecc.)
- **PIANO**: piano in cui si trova l'immobile
- **TOT_PIANI**: numero totale di piani dell'edificio
- **CLASSE_ENERGETICA**: classe energetica dell'immobile
- **COMUNE**: comune in cui si trova l'immobile
- **PROVINCIA**: provincia in cui si trova l'immobile


### Ottenere le 10 case con il prezzo più alto

Grazie a `Pandas`, possiamo ottenere le prime 10 case con il prezzo più alto in modo diretto:

In [None]:
# Ordinare per prezzo e ottenere le prime 10 case
import pandas as pd
import numpy as np
df = pd.read_csv('../data/housing.csv')
df.sort_values(by='PREZZO', ascending=False).head(10)

In [8]:
# TODO Esercizio 6: utilizzando pandas,

# 1. visualizza le case con 3 bagni
# 2. visualizza le case con 2 bagni e 3 camere da letto
# 3. calcola la media dei prezzi delle case con 2 bagni e 3 camere da letto

In [9]:
# TODO OPTIONAL Esercizio 7 (avanzato):
# calcola il prezzo medio per ogni numero di camere da letto

# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html

## Introduzione a Matplotlib

`Matplotlib` è la libreria principale per la visualizzazione dei dati in Python. Consente di creare grafici in modo facile e flessibile, come grafici a linee, scatter plot, istogrammi e altro. È particolarmente utile in scienza dei dati per visualizzare le relazioni tra variabili e analizzare i trend dei dataset.

### Esempio di Visualizzazione: Scatter Plot

Supponiamo di voler visualizzare la relazione tra il prezzo delle case e la loro superficie. Possiamo creare uno scatter plot con `Matplotlib` per capire meglio questa relazione:

In [10]:
import matplotlib.pyplot as plt
import pandas as pd

# Crea uno scatter plot
def create_scatter_plot(df: pd.DataFrame, x_col: str, y_col: str) -> None:
    """
    Create a scatter plot for the given DataFrame using specified columns for x and y axes.

    Parameters:
    df (pd.DataFrame): The DataFrame containing the data.
    x_col (str): The column name to be used for the x-axis.
    y_col (str): The column name to be used for the y-axis.
    """
    plt.scatter(df[x_col], df[y_col])
    plt.title(f'Relazione tra {x_col} e {y_col}')
    plt.xlabel(x_col)
    plt.ylabel(y_col)
    plt.gca().yaxis.set_major_formatter(plt.FuncFormatter(lambda x, _: format(int(x), ',')))
    plt.show()

In [None]:
# Example usage:
create_scatter_plot(df, 'SUPERFICIE', 'PREZZO')

In [12]:
# TODO Esercizio 7: Creare un istogramma del numero di bagni

# 1. Crea un istogramma che mostri la distribuzione del numero di bagni nelle case

In [13]:
# TODO Esercizio 8: Creare un grafico a barre del prezzo medio per comune

prezzo_medio_comune = df.groupby('COMUNE')['PREZZO'].mean()

In [14]:
# TODO Esercizio 9: Creare un boxplot per la superficie delle case in base al numero di camere

# 1. Crea un boxplot per vedere la distribuzione della superficie delle case con 2, 3 e 4 camere
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html

## Visualizzazione avanzata: dati geografici

Per questa sezione, utilizzeremo un dataset aggiuntivo con dati geografici sui Rioni di Roma!

In [15]:
!pip install geopandas --quiet

In [None]:
import geopandas as gpd
rioni = gpd.read_file('../data/Roma_ZU.shp').to_crs(epsg=3857)
rioni

Tramite la libreria `geopandas`, è possibile sovrapporre una mappa di Roma ai dati

In [None]:
def preprocess_data(df: pd.DataFrame) -> gpd.GeoDataFrame:
    houses_df = df.dropna(subset=['LATITUDINE', 'LONGITUDINE', 'PREZZO'])

    # Convert the DataFrame to a GeoDataFrame
    geometry = gpd.points_from_xy(houses_df.LONGITUDINE, houses_df.LATITUDINE)
    houses_gdf = gpd.GeoDataFrame(houses_df, geometry=geometry)
    houses_gdf["geometry"] = houses_gdf["geometry"].set_crs(epsg=4326, inplace=True).to_crs(epsg=3857)
    
    return houses_gdf

def plot_house_prices(houses_gdf: gpd.GeoDataFrame, rioni: gpd.GeoDataFrame):
    fig, ax = plt.subplots()
    
    rioni.plot(ax=ax, color='grey', edgecolor='white', alpha=0.5)
    
    scatter = ax.scatter(
        houses_gdf.geometry.x,
        houses_gdf.geometry.y,
        c=houses_gdf["PREZZO"],
        cmap='RdYlGn_r',
        s=10,
    )
    
    plt.colorbar(scatter, label='Price (€)', format='%.0f')
    
    ax.set_axis_off()
    
    xlim = (houses_gdf.total_bounds[0]*0.99, houses_gdf.total_bounds[2]*1.01)
    ylim = (houses_gdf.total_bounds[1]*0.999, houses_gdf.total_bounds[3]*1.001)
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)
    
    return

df = pd.read_csv('../data/housing.csv')
houses_gdf = preprocess_data(df)
plot_house_prices(houses_gdf, rioni)

In [None]:
df = pd.read_csv('../data/housing.csv')
houses_gdf = preprocess_data(df)
plot_house_prices(houses_gdf, rioni)

## Esercizio a casa

In questo esercizio, dovrai creare una mappa coropletica che rappresenti il prezzo medio al metro quadro delle case nei rioni di Roma. Ogni rione sarà colorato in base al suo prezzo medio, utilizzando una scala cromatica che va dal rosso (prezzi più alti) al verde (prezzi più bassi).

#### Istruzioni:

1. **Unisci i dati geografici delle case con i rioni di Roma** per assegnare un rione a ciascuna casa.
   
2. **Calcola il prezzo al metro quadro** di ciascuna casa e il prezzo medio per rione.

3. **Crea una mappa coropletica** per visualizzare il prezzo medio al metro quadro per rione. Personalizza i rioni senza dati con un colore grigio e assegna colori particolari a due rioni (86 e 15).
---

#### Link utili:

- [Documentazione di `sjoin`](https://geopandas.org/en/stable/docs/reference/api/geopandas.sjoin.html)
- [Documentazione di `plot`](https://geopandas.org/en/stable/docs/reference/api/geopandas.GeoDataFrame.plot.html)
- [Documentazione di `groupby`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)
- [Documentazione di `pd.merge`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html)
---

Buon lavoro e divertiti a visualizzare i dati di Roma!

In [None]:
import matplotlib.patheffects as pe

# unisci i dati delle case con i dati dei rioni
a = gpd.sjoin(
    None, # TODO sostituire None con il GeoDataFrame delle case,
    None, # TODO sostituire None con il GeoDataFrame dei rioni,
    predicate='within')
a = a[~a.index.duplicated(keep='first')]

# Calcola il prezzo al metro quadro per ogni casa
houses_gdf["PRICE_M2"] = None # TODO sostituire None con il prezzo al metro quadro 
houses_gdf["rioni"] = a["Name"]

# Calcola il prezzo medio al metro quadro per ogni rione
rioni_avg_pricem2 = None # TODO calcolare il prezzo medio al metro quadro per ogni rione
rioni_avg_pricem2 = rioni_avg_pricem2.rename(columns={'rioni': 'Name', 'PRICE_M2': 'avg_price'})

# Unisci i dati dei rioni con i dati delle case (HINT: usa pd.merge)
rioni_con_prezzo_al_m2 = pd.merge(rioni, rioni_avg_pricem2, on='Name', how='left')

# Create a choropleth map of average house prices in each neighborhood
ax = rioni_con_prezzo_al_m2.plot(
    figsize=(15, 15),
    column=np.log(rioni_con_prezzo_al_m2['avg_price']),
    cmap='RdYlGn_r',
    edgecolor='white',
    legend=True,
    legend_kwds={'label': "Average squared meter price of houses in €"},
    missing_kwds={'color': 'lightgrey'}
)

ax.set_axis_off()
ax.set_title('Average house prices in Rome neighborhoods')