# Esempio sul dataset della stralugano (con introduzione a Plotly)

In [1]:
import numpy as np
np.set_printoptions(precision=2)
import plotly.offline as py
import plotly.graph_objs as go
py.init_notebook_mode(connected=True)
import pandas as pd

In [2]:
df=pd.read_csv("stralugano.csv",
               keep_default_na=False) # fa in modo che i campi vuoti siano marcati come stringhe vuote
df

Unnamed: 0,posto,nome,anno,provenienza,squadra,ore,minuti,secondi,decimi
0,1,Engelhardt Adriano,1992,Locarno,,0,31,49,1
1,2,Repetto Emanuele,1990,I-Camogli (GE),Delta Spedizioni,0,32,16,8
2,3,Huber Erich,1981,Rechthalten,LAT Sense,0,33,25,5
3,4,Buffa Nicola,1984,I-Vicenza (VI),VICENZA MARATHON,0,33,31,8
4,5,Maffongelli Marco,1988,S. Pietro,,0,34,29,4
5,6,Boggini Ivan,1980,Oberengstringen,UBS TEAM,0,35,9,1
6,7,Nogara Stefano,1979,I-Grandola Ed Uniti (CO),G.S.A. COMETA ASD,0,35,40,0
7,8,Pezzani Luca,1987,Rivera,AS Monteceneri,0,35,42,7
8,9,Lanzone Fabio,1998,I-Rivara (TO),ATLETICA SETTIMESE,0,35,48,1
9,10,Losa Alessandro,1974,I-Luino (VA),TEAM GABBANI,0,36,4,8


In [4]:
# Posso ottenere dei numpy array per ogni colonna semplicemente indicizzandola sull'oggetto dataframe
ore = df["ore"].values
minuti = df["minuti"].values
secondi = df["secondi"].values
decimi = df["decimi"].values

In [8]:
minuti

array([31, 32, 33, ..., 25, 25, 26])

In [9]:
# Questi campi sono tutti int
print(type(ore), ore.dtype)
print(type(minuti), ore.dtype)
print(type(secondi), ore.dtype)
print(type(decimi), ore.dtype)

<class 'numpy.ndarray'> int64
<class 'numpy.ndarray'> int64
<class 'numpy.ndarray'> int64
<class 'numpy.ndarray'> int64


In [10]:
# Lavoriamo con i tempi espressi in minuti
tempo = ore * 60 + minuti + secondi / 60 + decimi / 60 / 10
tempo

array([31.82, 32.28, 33.42, ..., 85.18, 85.48, 86.09])

In [11]:
# Alcune statistiche univariate
print(np.mean(tempo), np.std(tempo), np.min(tempo), np.max(tempo))

53.45872785829307 8.835605188258219 31.81833333333333 86.09166666666667


In [12]:
# Anno di nascita di ciascun atleta
anno = df["anno"].values
# Attenzione!
print(type(anno), anno.dtype) # Non sono interi, ma object. Dobbiamo convertirli in valori numerici

<class 'numpy.ndarray'> object


In [14]:
print(anno[0], type(anno[0]))

19921992 <class 'str'>


In [15]:
anno.astype(float)

ValueError: could not convert string to float: 'xxxx'

In [29]:
anno = pd.to_numeric(df["anno"], errors="coerce").values
eta = 2018-anno

41.80419016921837

## Come plottare con plotly

In [43]:
trace = go.Histogram(x=eta) # Una trace rappresenta i dati per disegnare un grafico
data = [trace] # Posso mettere quante trace voglio
layout = go.Layout() # Qui definisco titoli, label, limiti degli assi, eccetera
fig = go.Figure(data, layout)
py.iplot(fig)

In [31]:
trace = go.Histogram(x=eta, 
                     marker=dict(color='red'))
#                    marker={"color":"red"}))
data = [trace]
layout = go.Layout(
    title="Distribuzione dell'eta' dei corridori",
    xaxis=dict(
        title="Eta'",
        range=[10,30]),
    yaxis=dict(
        title="Numero di corridori"))
fig = go.Figure(data, layout)
py.iplot(fig)

In [39]:
ql = np.percentile(tempo, 25)
med = np.percentile(tempo, 50)
qu = np.percentile(tempo, 75)
print(ql, med, qu)
iqd = qu - ql
baffo_sup = qu + 1.5 * iqd
print(baffo_sup)
np.max(tempo[tempo <= baffo_sup])

47.41374999999999 52.513333333333335 58.220416666666665
74.43041666666667


74.25166666666667

In [44]:
trace = go.Box(x=tempo)
data = [trace]
layout = go.Layout()
fig = go.Figure(data, layout)
py.iplot(fig)

## Dove trovare documentazione
- **Esempi** su come creare diversi tipi di plot: https://plot.ly/python/
- **API reference**: contiene la spiegazione di ogni attributo per ciascun tipo di plot https://plot.ly/python/reference/
- **Cheat sheet**: https://images.plot.ly/plotly-documentation/images/python_cheat_sheet.pdf