# Chapter 5. Getting Started with pandas

Pandas rappresenta la libreria di riferimento per l'analisi di dati in quanto predispone tutte le basi per disporre i dati in formati tabellari. In piu' aggiunge molte funzione per data preparation e data cleaning.

Spesso viene utilizzata insieme a Numpy e Scipy per l'analisi, a librerie come statsmodels e scikit-learn per la modellistica e infine Seaborn e Matplotlib per l'analisi grafica.

Numpy prevede array omogenei mentre pandas introduce nello stesso oggetto eterogeneita' a livello di dati.

## Series

#### Appunti

Array unidimensionali simili agli array di numpy pero' accompagnati sempre da un index (se non diversamente specificato un valore da 0-(N-1)

In [2]:
import pandas as pd

obj = pd.Series([4, 7, -5, 3])

print(obj)

print(obj.values)
print(obj.index)

0    4
1    7
2   -5
3    3
dtype: int64
[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [4]:
# tramite l'indice e' possibile selezionare i valori della serie
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

print(obj2[['c', 'a', 'd']])

c    3
a   -5
d    4
dtype: int64


In [6]:
# e' possibile fare operazioni di slicing e selezione in modo simile agli array di Numpy
print(obj2[obj2 > 2])
print(np.exp(obj2))

d    4
b    7
c    3
dtype: int64
d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [8]:
# e' possibile considerare delle serie come dei dicts

print('b' in obj2)
print('e' in obj2)

# da un dict e' possibile ottenere una serie abbastanza agilmente
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

obj3 = pd.Series(sdata)

print(obj3)

# e' possibile modificare / personalizzare l'ordine dell'index
states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index = states)

print(obj4) # escluso lo Utah 

True
False
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [10]:
# per controllare i missing 
print(pd.isnull(obj4))

print(pd.notnull(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


## DataFrame

#### Appunti

Il DataFrame ha sia un indice per le righe che per le colonne; possiamo immaginarlo come un dict di Series che condividono lo stesso index

Ricorda che l'accesso alle colonne tramite Frame.colonna e' possibile solo se il nome della colonna ha un nome valido come oggetto Python in generale.

E' possibile aggiungere come colonne altre Series ma bisogna ricordare che verra' sempre utilizzato l'index per incastrare la colonna. Quindi questo va a creare dei missing nel caso i 2 index sia diversi.

Gli index sono oggetti immutabili ma a differenza dei set possono contenere valori ripetuti

In [11]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [13]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [14]:
# e' possibile riordinare le colonne
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [15]:
# se nelle colonne viene inserito un campo non esistente viene creato ma riempito di valori missing
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])

In [18]:
# estrarre una colonna in formato Series
print(frame2['state'])

print(frame2.state)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object


In [20]:
# filtro tramite indice

print(frame2.loc['three'])

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object


In [26]:
# assegnazione valori 
frame2['debt'] = 16.5
frame2['debt'] = np.arange(6.)

In [27]:
print(frame2.columns)

del frame2['debt']

frame2.head

print(frame2.columns)

Index(['year', 'state', 'pop', 'debt'], dtype='object')
Index(['year', 'state', 'pop'], dtype='object')


In [30]:
# e' possibile estrarre un array usando il metodo values 
# (il tipo di dato contenuto ovviamente sara' quello in grado di gestire tutti i dati)
frame2.values

array([[2000, 'Ohio', 1.5],
       [2001, 'Ohio', 1.7],
       [2002, 'Ohio', 3.6],
       [2001, 'Nevada', 2.4],
       [2002, 'Nevada', 2.9],
       [2003, 'Nevada', 3.2]], dtype=object)

In [3]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

print(data)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


In [6]:
# loc e ILoc
print(data.loc['Colorado', ['two', 'three']])

print(data.iloc[2, [3, 0, 1]])

print(data.iloc[:, :3][data.three > 5])

two      5
three    6
Name: Colorado, dtype: int32
four    11
one      8
two      9
Name: Utah, dtype: int32
          one  two  three
Colorado    4    5      6
Utah        8    9     10
New York   12   13     14


In [8]:
# functions applicate a DataFrame
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

print(frame)

               b         d         e
Utah   -0.485324 -1.397539  0.286923
Ohio    0.222326  1.166015  0.219136
Texas  -1.505353  1.612538  0.941755
Oregon -0.705694 -0.289746  0.101053


In [10]:
f = lambda x: x.max() - x.min()

print(frame.apply(f))

print(frame.apply(f, axis='columns'))

b    1.727679
d    3.010077
e    0.840702
dtype: float64
Utah      1.684462
Ohio      0.946879
Texas     3.117891
Oregon    0.806746
dtype: float64


In [11]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-1.505353,-1.397539,0.101053
max,0.222326,1.612538,0.941755


In [15]:
# ordinare per colonna
print(frame.sort_values(by='b'))

print(frame.sort_values(by=['e', 'b']))

               b         d         e
Texas  -1.505353  1.612538  0.941755
Oregon -0.705694 -0.289746  0.101053
Utah   -0.485324 -1.397539  0.286923
Ohio    0.222326  1.166015  0.219136
               b         d         e
Oregon -0.705694 -0.289746  0.101053
Ohio    0.222326  1.166015  0.219136
Utah   -0.485324 -1.397539  0.286923
Texas  -1.505353  1.612538  0.941755


In [19]:
# summarise

df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])

print(df)

print(df.sum(axis = 'columns', skipna=False))

print(df.describe())

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64
            one       two
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%    1.075000 -3.700000
50%    1.400000 -2.900000
75%    4.250000 -2.100000
max    7.100000 -1.300000
