  # Intro a Pandas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Pandas Series

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### Indici delle Serie

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=list('abcd'))
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
data['b']

0.5

## Costruire Series

In [9]:
pd.Series(42, index=['the_answer'])

the_answer    42
dtype: int64

In [10]:
pd.Series(iter('string'))

0    s
1    t
2    r
3    i
4    n
5    g
dtype: object

In [11]:
pd.Series({'a': 1, 'b': 2, 'c': 3})

a    1
b    2
c    3
dtype: int64

In [12]:
# {0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}
values = {x:x**2 for x in range(10)}
# [0, 2, 4, 6, 8]
index = range(0, 10, 2)
pd.Series(values, index=index)

0     0
2     4
4    16
6    36
8    64
dtype: int64

## DataFrame

In [13]:
km2 = {
    'Padova': 93.3, 
    'Venezia': 415.9, 
    'Treviso': 55.58, 
    'Rovigo': 108.81, 
    'Verona': 198.92, 
    'Vicenza': 80.57,  
    'Belluno': 147.22}
abitanti = {
    'Padova': 210_993, 
    'Venezia': 260_203, 
    'Treviso': 85_752, 
    'Rovigo': 51_104, 
    'Verona': 257_993, 
    'Vicenza': 110_647, 
    'Belluno': 35_843}

In [14]:
veneto = pd.DataFrame({'abitanti': abitanti, 'km2': km2})
veneto

Unnamed: 0,abitanti,km2
Padova,210993,93.3
Venezia,260203,415.9
Treviso,85752,55.58
Rovigo,51104,108.81
Verona,257993,198.92
Vicenza,110647,80.57
Belluno,35843,147.22


In [15]:
veneto.index

Index(['Padova', 'Venezia', 'Treviso', 'Rovigo', 'Verona', 'Vicenza',
       'Belluno'],
      dtype='object')

In [16]:
veneto.columns

Index(['abitanti', 'km2'], dtype='object')

In [17]:
veneto.head(2) 

Unnamed: 0,abitanti,km2
Padova,210993,93.3
Venezia,260203,415.9


In [18]:
veneto.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Padova to Belluno
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   abitanti  7 non-null      int64  
 1   km2       7 non-null      float64
dtypes: float64(1), int64(1)
memory usage: 168.0+ bytes


In [19]:
veneto.describe()

Unnamed: 0,abitanti,km2
count,7.0,7.0
mean,144647.857143,157.185714
std,96449.918656,123.416254
min,35843.0,55.58
25%,68428.0,86.935
50%,110647.0,108.81
75%,234493.0,173.07
max,260203.0,415.9


In [20]:
veneto['km2']

Padova      93.30
Venezia    415.90
Treviso     55.58
Rovigo     108.81
Verona     198.92
Vicenza     80.57
Belluno    147.22
Name: km2, dtype: float64

In [21]:
veneto[['km2','abitanti']]

Unnamed: 0,km2,abitanti
Padova,93.3,210993
Venezia,415.9,260203
Treviso,55.58,85752
Rovigo,108.81,51104
Verona,198.92,257993
Vicenza,80.57,110647
Belluno,147.22,35843


In [22]:
veneto.loc['Padova']

abitanti    210993.0
km2             93.3
Name: Padova, dtype: float64

In [23]:
veneto.iloc[0]

abitanti    210993.0
km2             93.3
Name: Padova, dtype: float64

In [24]:
veneto['km2'].loc['Belluno']

147.22

In [25]:
rows = ['Venezia', 'Padova']
cols = ['abitanti']
veneto[cols].loc[rows]

Unnamed: 0,abitanti
Venezia,260203
Padova,210993


In [26]:
molti_abitanti = veneto['abitanti'] > 100_000
molti_abitanti

Padova      True
Venezia     True
Treviso    False
Rovigo     False
Verona      True
Vicenza     True
Belluno    False
Name: abitanti, dtype: bool

In [27]:
# zen[6]: Readability counts.
veneto[molti_abitanti]['km2']

Padova      93.30
Venezia    415.90
Verona     198.92
Vicenza     80.57
Name: km2, dtype: float64

In [28]:
molto_estese = veneto['km2'] > 100.0
molto_estese

Padova     False
Venezia     True
Treviso    False
Rovigo      True
Verona      True
Vicenza    False
Belluno     True
Name: km2, dtype: bool

In [29]:
veneto[molti_abitanti & molto_estese]

Unnamed: 0,abitanti,km2
Venezia,260203,415.9
Verona,257993,198.92


In [None]:
# abitanti per km2
densita = veneto['abitanti'] / veneto['km2']
densita

In [None]:
# arrotondamenti
densita = densita.round(1)
densita

In [None]:
# aggiunta al DataFrame
veneto['densita'] = densita
veneto

In [None]:
# trasposta 
veneto.T

In [None]:
veneto.sort_values('densita', ascending=False)[:3]

In [None]:
# statistiche varie
veneto['densita'].describe().round(1)

In [None]:
veneto.plot(figsize=(16,4));

In [None]:
veneto.plot.bar(figsize=(16,4));

In [None]:
veneto.plot.barh(figsize=(16,4));

In [None]:
veneto['densita'].plot.barh(figsize=(16,4));

In [None]:
veneto['densita'].sort_values().plot.barh(figsize=(16,4));

# Parte 2
## Importazione dati

In [None]:
# thanks to https://github.com/QCaudron/pydata_pandas
df = pd.read_csv("data/coffees.csv")
df.head() 

In [None]:
df.info()

In [None]:
# non sono tutti numeri...
try:
    pd.to_numeric(df['coffees'])
except ValueError as ve:
    print(ve)

In [None]:
# NaN tappabuchi
pd.to_numeric(df['coffees'], errors='coerce')

In [None]:
df['coffees'] = pd.to_numeric(df['coffees'], errors='coerce')
df.head()

In [None]:
df['coffees'].describe()

In [None]:
# metto da parte i valori che scarto
null_coffees = df[df['coffees'].isnull()]
null_coffees

In [None]:
# elimina solo le righe con 'coffees' null
df.dropna(subset=['coffees'], inplace=True)
df

In [None]:
df['coffees'].dtype

In [None]:
# i conteggi dovrebbero essere numeri interi, non float
df['coffees'] = pd.to_numeric(df['coffees'], downcast='unsigned')
df.head()

In [None]:
# verifica 'contributor'
any(df['contributor'].isnull())

In [None]:
# verifica 'timestamp'
any(df['timestamp'].isnull())

In [None]:
# dtype corretto per 'timestamp' (2011-10-03 08:22:00)
pd.to_datetime(df['timestamp'], format='%Y-%m-%d %H:%M:%S')

In [None]:
# applico la conversione
df['timestamp'] = pd.to_datetime(df['timestamp'], format='%Y-%m-%d %H:%M:%S')
df.head()

In [None]:
# la colonna timestamp è perfetta per essere l'indice così da trattare i dati come time-series
df.set_index('timestamp', inplace=True)

In [None]:
df.plot(figsize=(16,4));

## Dati derivati

In [None]:
# approfondiamo la serie 'coffee'. Per ogni giorno ci sono piu' rilevazioni. 
# creo l'andamento giornaliero tenendo l'ultimo dato disponibile per ogni giorno (max)
df.resample('D').max().plot(figsize=(16,4));

In [None]:
# nei giorni in cui non ci sono dati, resample mette NaN, a meno di impostare un metodo di fill
df.resample('D').max().bfill().plot(figsize=(16,4));

In [None]:
# imposto la time series su cui lavorare
ts = df.resample('D').max().bfill()

In [None]:
# l'ultima parte del grafico non e' significativa, analizziamo dove tagliare sul DataFrame originale
df['2013-01-01':]['coffees'].resample('W').max().plot.bar(figsize=(16,4));

In [None]:
# zoom per indagare l'ultimo periodo significativo (2013-03-12)
df['2013-03-10':'2013-03-24']['coffees']#.plot.bar(figsize=(16,4) );

In [None]:
# taglio la time series al 2013-03-12
ts = ts[:'2013-03-12']
ts.plot(figsize=(16,4));

### Time Shift

In [None]:
# shift the index
fig, ax = plt.subplots(2, sharex=True, figsize=(16,4));
ts.plot(ax=ax[0]);
ts.tshift(-30).plot(ax=ax[1]);

In [None]:
# usando la serie creata sfasando l'indice, posso calcolare la differenza di caffe' rispetto al giorno precedente
ts['prev_coffees'] = ts['coffees'].tshift(1)
ts.head()

In [None]:
# calcola la differenza (delta) su base giornaliera
ts['delta_1_day'] = ts['coffees'] - ts['prev_coffees']
ts.head()

In [None]:
# consumo di caffe' per mesi
ts['delta_1_day'].resample('M').sum().plot.bar(figsize=(16,4));

## I dati scartati

In [None]:
null_coffees.head()

In [None]:
# ci interessa solo 'contributor'
null_coffees['contributor'].value_counts()

# Domande ?!?!?!?

# BONUS

In [None]:
m_count = ts['contributor'].resample('M').count()
m_count.head()

In [None]:
m_sum = ts['delta_1_day'].resample('M').sum()
m_sum.head()

In [None]:
month_df = pd.DataFrame({'count': m_count, 'sum': m_sum})
month_df.head()

In [None]:
month_df['count'].plot.bar(figsize=(16,4));