# Corso di Probabilità e Statistica- Network di correlazione

Questa capitolo spiega come disegnare una rete di correlazione: una rete costruita su una matrice di correlazione.

### Esempio 
Supponiamo di avere 10 persone e di sapere quanto sono vicine tra loro. È possibile rappresentare queste relazioni in una rete. Ogni individuo sarà un nodo. Se 2 individui sono abbastanza vicini (fissiamo una soglia), allora sono collegati da un bordo. Questo mostrerà la struttura della popolazione.

In questo esempio, vediamo che la nostra popolazione è chiaramente divisa in 2 gruppi

Esempio tratto da https://python-graph-gallery.com
(The Python Graph Gallery is a project developed by Yan Holtz to promote datavisualization using Python.)


In [None]:
#libraries
import pandas as pd
import numpy as np
import networkx as nx
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# I build a data set: 10 individuals and 5 variables for each
ind1=[5,10,3,4,8,10,12,1,9,4]
ind5=[1,1,13,4,18,5,2,11,3,8]
df = pd.DataFrame({ 'A':ind1, 'B':ind1 
                   + np.random.randint(10, size=(10)) ,
                   'C':ind1 + np.random.randint(10, size=(10)) , 'D':ind1 + np.random.randint(5, size=(10)) , 'E':ind1 + np.random.randint(5, size=(10)), 'F':ind5, 'G':ind5 + np.random.randint(5, size=(10)) , 'H':ind5 + np.random.randint(5, size=(10)), 'I':ind5 + np.random.randint(5, size=(10)), 'J':ind5 + np.random.randint(5, size=(10))})
df

In [None]:
#plot data
fig, ax = plt.subplots(figsize=(5, 4))
ax = sns.heatmap(df, 
                 ax=ax)
plt.tight_layout()
plt.show()

In [None]:
# Calculate the correlation between individuals. We have to transpose first, because the corr function calculate the pairwise correlations between columns.
corr = df.corr()
corr
 

In [None]:
#plot correlation matrix
fig, ax = plt.subplots(figsize=(5, 4))
ax = sns.heatmap(corr, vmin=-1, vmax=1, 
                 cmap="coolwarm", #colormap divergente
                 ax=ax)
plt.tight_layout()
plt.show()

In [None]:
# Transform it in a links data frame (3 columns only):
links = corr.stack().reset_index()
links.columns = ['var1', 'var2','value']
links

In [None]:
# Keep only correlation over a threshold and remove self correlation (cor(A,A)=1)
links_filtered=links.loc[ (links['value'] > 0.8) & (links['var1'] != links['var2']) ]
links_filtered
 

In [None]:
# Build your graph
G=nx.from_pandas_edgelist(links_filtered, 'var1', 'var2')

In [None]:
# Plot the network:
fig = plt.figure(figsize=(4, 4))
nx.draw(G, with_labels=True, 
        node_color='orange', 
        node_size=400, 
        edge_color='black', 
        linewidths=1, font_size=15)

In [None]:
# Custom colors:
fig = plt.figure(figsize=(4, 4))
nx.draw(G, with_labels=True, 
        node_color='skyblue', 
        edge_color='white')
fig.set_facecolor("#00000F")

### Esercizio 
In questo esercizio costruiamo la matrice di covarianza e poi il network partire da un set di dati finanziari (il prezzo delle azioni SP500, già utilizzato nel capitolo 11).

Procediamo come segue:
- importiamo i dati

In [None]:
sp500_sym = pd.read_csv("../data/sp500_sectors.csv") # simboli
sp500_px = pd.read_csv("../data/sp500_data.csv.gz", index_col=0) # dati di borsa

- a differenza del capitolo 11, non filtriamo i dati ma costruiamo direttamente la matrice di covrianza sul set completo sp500_px
-  procediamo poi come nell'esempio precedente, visualizziamo la matrice di covarianza e poi generiamo il network 
- studiamo come il network risultante dipenda dalla soglia utilizzata (nell'esempio precedente la soglia era 0.8, proviamo ad abbassarla)
- avendo molti punti possiamo decidere di eliminare le etichette sui nodi, per vedere meglio il grafico (with_label=False)
- come interpretiamo il grafo?
