# Introduktion till Pandas
Pandas är ett pythonbibliotek för bearbetning av strukturerade dataset. Den primära datastrukturen kallas för dataframe precis som i R och Spark. 

I Pandas finns stöd för det mesta som behövs för att jobba med data. Detta är en introduktion som kommer att fokusera på grunderna för att komma igång och för att förstå mer avancerade koncept.

### Importera Pandas och läs in ett dataset
Pandas är inte en del av standardpython och behöver därför importeras för att kunna användas. Det är standard att använda aliaset `pd` för Pandas enligt nedan

In [10]:
import pandas as pd

När vi har importerat Pandas kan vi använda oss av `pd` för att läsa in lite data.

In [11]:
befolkning = pd.read_csv('./assets/data/befolkning.txt', sep='\t', encoding='utf-16')

När vi läst in datat kan vi använda en mängd funktioner för att se vilken data vi fångar. Funktionen `.head()` visar de 5 första raderna i datasetet medan `.tail()` visar de 5 sista.

In [12]:
type(befolkning)

pandas.core.frame.DataFrame

In [13]:
befolkning.head()

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565,923516
1,Göteborg,Västra Götalands län,549839,548190
2,Malmö,Skåne län,280415,322574
3,Uppsala,Uppsala län,140454,210126
4,Västerås,Västmanlands län,110877,145218


In [14]:
befolkning.tail()

Unnamed: 0,stad,lan,inv_ort,inv_kommun
15,Södertälje,Stockholms län,64619,93202
16,Karlstad,Värmlands län,61685,89245
17,Täby,Stockholms län,61272,68281
18,Växjö,Kronobergs län,60887,88108
19,Halmstad,Hallands län,58577,96952


Funktionerna `.info()` visar en översikt över vad datasetet består av inklusive antal rader, kolumner, datatyper mm.

In [15]:
befolkning.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
stad          20 non-null object
lan           20 non-null object
inv_ort       20 non-null int64
inv_kommun    20 non-null int64
dtypes: int64(2), object(2)
memory usage: 720.0+ bytes


### Rader och kolumner
Pandas har rik funktionalitet för att jobba med filter och selekteringar. I grunden består Pandas av radindex, kolumnindex och data. Dessa kan visas enligt nedan.

In [16]:
befolkning.columns

Index(['stad', 'lan', 'inv_ort', 'inv_kommun'], dtype='object')

In [17]:
befolkning.index

RangeIndex(start=0, stop=20, step=1)

In [18]:
befolkning.values

array([['Stockholm', 'Stockholms län', 1372565, 923516],
       ['Göteborg', 'Västra Götalands län', 549839, 548190],
       ['Malmö', 'Skåne län', 280415, 322574],
       ['Uppsala', 'Uppsala län', 140454, 210126],
       ['Västerås', 'Västmanlands län', 110877, 145218],
       ['Örebro', 'Örebro län', 107038, 144200],
       ['Linköping', 'Östergötlands län', 104232, 152966],
       ['Helsingborg', 'Skåne län', 97122, 137909],
       ['Jönköping', 'Jönköpings län', 89396, 133310],
       ['Norrköping', 'Östergötlands län', 87247, 137035],
       ['Lund', 'Skåne län', 82800, 116834],
       ['Umeå', 'Västerbottens län', 79594, 120777],
       ['Gävle', 'Gävleborgs län', 71033, 98877],
       ['Borås', 'Västra Götalands län', 66273, 108488],
       ['Eskilstuna', 'Södermanlands län', 64679, 102065],
       ['Södertälje', 'Stockholms län', 64619, 93202],
       ['Karlstad', 'Värmlands län', 61685, 89245],
       ['Täby', 'Stockholms län', 61272, 68281],
       ['Växjö', 'Kronobergs län'

Dessa index är de man använder för att plocka ut specifika subset av datat. För att välja ut en specifik kolumn används `['kolumn_namn']`. Datastrukturen i Pandas när man arbetar med en enstaka kolumn kallas för `Series`

In [19]:
befolkning['lan']

0           Stockholms län
1     Västra Götalands län
2                Skåne län
3              Uppsala län
4         Västmanlands län
5               Örebro län
6        Östergötlands län
7                Skåne län
8           Jönköpings län
9        Östergötlands län
10               Skåne län
11       Västerbottens län
12          Gävleborgs län
13    Västra Götalands län
14       Södermanlands län
15          Stockholms län
16           Värmlands län
17          Stockholms län
18          Kronobergs län
19            Hallands län
Name: lan, dtype: object

In [20]:
type(befolkning['stad'])

pandas.core.series.Series

För att välja flera kolumner kan man skicka in en lista på kolumnnamn. Detta går att använda tillsammans med andra funktioner.

In [21]:
befolkning[['stad', 'inv_ort']]

Unnamed: 0,stad,inv_ort
0,Stockholm,1372565
1,Göteborg,549839
2,Malmö,280415
3,Uppsala,140454
4,Västerås,110877
5,Örebro,107038
6,Linköping,104232
7,Helsingborg,97122
8,Jönköping,89396
9,Norrköping,87247


In [22]:
cols = ['stad', 'inv_ort']

befolkning[cols]

Unnamed: 0,stad,inv_ort
0,Stockholm,1372565
1,Göteborg,549839
2,Malmö,280415
3,Uppsala,140454
4,Västerås,110877
5,Örebro,107038
6,Linköping,104232
7,Helsingborg,97122
8,Jönköping,89396
9,Norrköping,87247


För att selektera rader gör man på samma sätt men måste ange en range enligt `[start:slut]`. Notera att python enbart tar värde upp till och inte inklusive slutindex.

In [23]:
befolkning[7:10]

Unnamed: 0,stad,lan,inv_ort,inv_kommun
7,Helsingborg,Skåne län,97122,137909
8,Jönköping,Jönköpings län,89396,133310
9,Norrköping,Östergötlands län,87247,137035


Selekteringarna går att kombinera enligt nedan

In [24]:
befolkning[7:10][cols]

Unnamed: 0,stad,inv_ort
7,Helsingborg,97122
8,Jönköping,89396
9,Norrköping,87247


Man kan också använda funktionen `.ix[rad,kolumn]` för att selektera data. I detta fallet används numeriska index för både rad och kolumn vilket är användbart om man har väldigt många kolumner. Man kan exempelvis arbeta med öppna interval för att ta alla kolumner exklusive en målvariabel.

In [25]:
befolkning.ix[7:10, 0:3]

Unnamed: 0,stad,lan,inv_ort
7,Helsingborg,Skåne län,97122
8,Jönköping,Jönköpings län,89396
9,Norrköping,Östergötlands län,87247
10,Lund,Skåne län,82800


Med ett öppet interval kan det se ut så här för att välja alla kolumner utom den sista. 

In [26]:
befolkning.ix[0:5, :-1]

Unnamed: 0,stad,lan,inv_ort
0,Stockholm,Stockholms län,1372565
1,Göteborg,Västra Götalands län,549839
2,Malmö,Skåne län,280415
3,Uppsala,Uppsala län,140454
4,Västerås,Västmanlands län,110877
5,Örebro,Örebro län,107038


### Kolumnoperationer
Pandas stödjer operationer direkt på kolumner precis som man kan förvänta sig i SQL. Beroende på datatyp finns en mängd funktioner att tillgå. Datatyper kan visas genom attributet `.dtypes`.

In [27]:
befolkning.dtypes

stad          object
lan           object
inv_ort        int64
inv_kommun     int64
dtype: object

In [28]:
befolkning['stad'] + ' stad'

0       Stockholm stad
1        Göteborg stad
2           Malmö stad
3         Uppsala stad
4        Västerås stad
5          Örebro stad
6       Linköping stad
7     Helsingborg stad
8       Jönköping stad
9      Norrköping stad
10           Lund stad
11           Umeå stad
12          Gävle stad
13          Borås stad
14     Eskilstuna stad
15     Södertälje stad
16       Karlstad stad
17           Täby stad
18          Växjö stad
19       Halmstad stad
Name: stad, dtype: object

In [29]:
befolkning['stad'] + ', ' + befolkning['lan']

0          Stockholm, Stockholms län
1     Göteborg, Västra Götalands län
2                   Malmö, Skåne län
3               Uppsala, Uppsala län
4         Västerås, Västmanlands län
5                 Örebro, Örebro län
6       Linköping, Östergötlands län
7             Helsingborg, Skåne län
8          Jönköping, Jönköpings län
9      Norrköping, Östergötlands län
10                   Lund, Skåne län
11           Umeå, Västerbottens län
12             Gävle, Gävleborgs län
13       Borås, Västra Götalands län
14     Eskilstuna, Södermanlands län
15        Södertälje, Stockholms län
16           Karlstad, Värmlands län
17              Täby, Stockholms län
18             Växjö, Kronobergs län
19            Halmstad, Hallands län
dtype: object

För att spara resultatet av en operation tillbaka till en dataframe så är det enkelt

In [30]:
befolkning['nykolumn'] = befolkning['stad'] + ', ' + befolkning['lan']
befolkning.head()

Unnamed: 0,stad,lan,inv_ort,inv_kommun,nykolumn
0,Stockholm,Stockholms län,1372565,923516,"Stockholm, Stockholms län"
1,Göteborg,Västra Götalands län,549839,548190,"Göteborg, Västra Götalands län"
2,Malmö,Skåne län,280415,322574,"Malmö, Skåne län"
3,Uppsala,Uppsala län,140454,210126,"Uppsala, Uppsala län"
4,Västerås,Västmanlands län,110877,145218,"Västerås, Västmanlands län"


För att droppa en kolumn används funktionen `.drop()`.

In [31]:
befolkning.drop('nykolumn', axis=1, inplace=True)

In [32]:
befolkning

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565,923516
1,Göteborg,Västra Götalands län,549839,548190
2,Malmö,Skåne län,280415,322574
3,Uppsala,Uppsala län,140454,210126
4,Västerås,Västmanlands län,110877,145218
5,Örebro,Örebro län,107038,144200
6,Linköping,Östergötlands län,104232,152966
7,Helsingborg,Skåne län,97122,137909
8,Jönköping,Jönköpings län,89396,133310
9,Norrköping,Östergötlands län,87247,137035


Det går också att selektera ut de kolumner man är intresserad av och deklarera en ny dataframe.

In [33]:
col = ['stad', 'inv_ort']

df = befolkning[col]
df.head()

Unnamed: 0,stad,inv_ort
0,Stockholm,1372565
1,Göteborg,549839
2,Malmö,280415
3,Uppsala,140454
4,Västerås,110877


För numeriska kolumner fungerar operationer som man kan förvänta sig

In [34]:
befolkning['inv_ort'] * 2

0     2745130
1     1099678
2      560830
3      280908
4      221754
5      214076
6      208464
7      194244
8      178792
9      174494
10     165600
11     159188
12     142066
13     132546
14     129358
15     129238
16     123370
17     122544
18     121774
19     117154
Name: inv_ort, dtype: int64

In [35]:
befolkning['ny'] = befolkning['inv_ort'] / befolkning['inv_kommun']

In [36]:
befolkning.drop('ny', axis=1, inplace=True)

### Filtering
För att filtrera rader kan alla vanliga uttryck användas. För att filtrera rader där kolumnen `inv_ort` är större än 100 000:

In [37]:
f = befolkning['inv_ort'] > 100000
f

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
Name: inv_ort, dtype: bool

Som synes ger villkoret en vektor med True/False för varje rad. Denna vektor kan användas för att hitta de rader som uppfyller villkoret.

In [38]:
befolkning[f]

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565,923516
1,Göteborg,Västra Götalands län,549839,548190
2,Malmö,Skåne län,280415,322574
3,Uppsala,Uppsala län,140454,210126
4,Västerås,Västmanlands län,110877,145218
5,Örebro,Örebro län,107038,144200
6,Linköping,Östergötlands län,104232,152966


på en rad ser det ut som följer

In [39]:
befolkning[befolkning['inv_ort'] > 100000]

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565,923516
1,Göteborg,Västra Götalands län,549839,548190
2,Malmö,Skåne län,280415,322574
3,Uppsala,Uppsala län,140454,210126
4,Västerås,Västmanlands län,110877,145218
5,Örebro,Örebro län,107038,144200
6,Linköping,Östergötlands län,104232,152966


### Sorting
Sortering av data är enkelt och görs så här.

In [45]:
befolkning.sort_values('stad', ascending=True)

Unnamed: 0,stad,lan,inv_ort,inv_kommun
13,Borås,Västra Götalands län,66273,108488
14,Eskilstuna,Södermanlands län,64679,102065
12,Gävle,Gävleborgs län,71033,98877
1,Göteborg,Västra Götalands län,549839,548190
19,Halmstad,Hallands län,58577,96952
7,Helsingborg,Skåne län,97122,137909
8,Jönköping,Jönköpings län,89396,133310
16,Karlstad,Värmlands län,61685,89245
6,Linköping,Östergötlands län,104232,152966
10,Lund,Skåne län,82800,116834


För att sortera på två kolumner är det bara att lägga in en lista. I det här fallet sortera på `lan` och därefter per `inv_ort`.

In [46]:
befolkning.sort_values(['lan', 'inv_ort'], ascending=False)

Unnamed: 0,stad,lan,inv_ort,inv_kommun
6,Linköping,Östergötlands län,104232,152966
9,Norrköping,Östergötlands län,87247,137035
5,Örebro,Örebro län,107038,144200
1,Göteborg,Västra Götalands län,549839,548190
13,Borås,Västra Götalands län,66273,108488
4,Västerås,Västmanlands län,110877,145218
11,Umeå,Västerbottens län,79594,120777
16,Karlstad,Värmlands län,61685,89245
3,Uppsala,Uppsala län,140454,210126
14,Eskilstuna,Södermanlands län,64679,102065


Om vi vill ha olika sorteringsordning, dvs länen i bokstavsordning och därefter fallande enligt invånarantal kan vi skicka in en lista även för sorteringen.

In [47]:
befolkning.sort_values(['lan', 'inv_ort'], ascending=[True, False])

Unnamed: 0,stad,lan,inv_ort,inv_kommun
12,Gävle,Gävleborgs län,71033,98877
19,Halmstad,Hallands län,58577,96952
8,Jönköping,Jönköpings län,89396,133310
18,Växjö,Kronobergs län,60887,88108
2,Malmö,Skåne län,280415,322574
7,Helsingborg,Skåne län,97122,137909
10,Lund,Skåne län,82800,116834
0,Stockholm,Stockholms län,1372565,923516
15,Södertälje,Stockholms län,64619,93202
17,Täby,Stockholms län,61272,68281


### Summary statistics and column operations
Pandas erbjuder en mängd funktioner out of the box men också möjligheten att skapa egna funktioner och applicera dessa på en eller fler kolumner. Se nedan exempel på vanliga funktioner.

In [48]:
befolkning[f]['inv_ort'].sum()

2665420

Om man vill göra flera operationer på en kolumn kan det vara smidigare att deklarera kolumner till en ny variabel.

In [51]:
x = befolkning[f]['inv_ort']

print(x.mean())
print(x.count())
print(x.min())
print(x.max())
print(x.median())

380774.28571428574
7
104232
1372565
140454.0


Pandas har också funktionen `.describe()` vilket ger en bra överblick över hur datat ser ut.

In [52]:
befolkning.describe()

Unnamed: 0,inv_ort,inv_kommun
count,20.0,20.0
mean,180530.2,191893.65
std,302457.6,203219.380076
min,58577.0,68281.0
25%,64664.0,98395.75
50%,85023.5,127043.5
75%,107997.8,147155.0
max,1372565.0,923516.0


Det finns också funktioner för att titta på kategoriska värden.

In [53]:
befolkning['lan'].value_counts()

Stockholms län          3
Skåne län               3
Västra Götalands län    2
Östergötlands län       2
Uppsala län             1
Västmanlands län        1
Örebro län              1
Värmlands län           1
Kronobergs län          1
Hallands län            1
Västerbottens län       1
Gävleborgs län          1
Södermanlands län       1
Jönköpings län          1
Name: lan, dtype: int64

Följande tabell visar några av de vanligaste standardfunktionerna.

<img src="./assets/images/kolumnfunktioner.png" width="600" align="left">

### Hantering av null-värden
Ett vanligt problem inom analys är avsaknad av värden och hur det ska hanteras. Pandas har stöd för det mesta som behövs inom detta. Vi introducerar ett par null-värden i vårt dataset.

In [54]:
null_df = befolkning

null_df.ix[2:2, 'inv_ort'] = None
null_df.ix[8:8, 'inv_kommun'] = None

In [55]:
null_df

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565.0,923516.0
1,Göteborg,Västra Götalands län,549839.0,548190.0
2,Malmö,Skåne län,,322574.0
3,Uppsala,Uppsala län,140454.0,210126.0
4,Västerås,Västmanlands län,110877.0,145218.0
5,Örebro,Örebro län,107038.0,144200.0
6,Linköping,Östergötlands län,104232.0,152966.0
7,Helsingborg,Skåne län,97122.0,137909.0
8,Jönköping,Jönköpings län,89396.0,
9,Norrköping,Östergötlands län,87247.0,137035.0


För att hitta rader med null-värde kan funktionen `.isnull()`användas. Det returnerar en matris med True/False som går att använda för att filtrera ut det man vill se. För att hitta nullvärdet i kolumnen `inv_ort` görs exempelvis så här.

In [56]:
f = null_df['inv_ort'].isnull()

null_df[f]

Unnamed: 0,stad,lan,inv_ort,inv_kommun
2,Malmö,Skåne län,,322574.0


För att leta efter rader eller klumner där något värde är null kan man använda `.isnull()` i kombination med `.any()`. Här måste man ange vilken axel den ska leta i. Se skillnaden nedan. Först hittar vi kolumner med minst ett null-värde.

In [57]:
f = null_df.isnull().any(axis=0)
f

stad          False
lan           False
inv_ort        True
inv_kommun     True
dtype: bool

In [58]:
null_df.ix[:,f]

Unnamed: 0,inv_ort,inv_kommun
0,1372565.0,923516.0
1,549839.0,548190.0
2,,322574.0
3,140454.0,210126.0
4,110877.0,145218.0
5,107038.0,144200.0
6,104232.0,152966.0
7,97122.0,137909.0
8,89396.0,
9,87247.0,137035.0


In [59]:
f = null_df.isnull().any(axis=1)
f

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
dtype: bool

In [60]:
null_df.ix[f, :]

Unnamed: 0,stad,lan,inv_ort,inv_kommun
2,Malmö,Skåne län,,322574.0
8,Jönköping,Jönköpings län,89396.0,


För att hantera null-värde finns flera strategier. Den enklaste är att ta bort de rader/kolumner som innehåller saknad data. Även här behöver man ange vilken axel, dvs om Pandas ska ta bort rader eller kolumner med null-värden.

In [61]:
null_df.dropna(axis=0, how='any')

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565.0,923516.0
1,Göteborg,Västra Götalands län,549839.0,548190.0
3,Uppsala,Uppsala län,140454.0,210126.0
4,Västerås,Västmanlands län,110877.0,145218.0
5,Örebro,Örebro län,107038.0,144200.0
6,Linköping,Östergötlands län,104232.0,152966.0
7,Helsingborg,Skåne län,97122.0,137909.0
9,Norrköping,Östergötlands län,87247.0,137035.0
10,Lund,Skåne län,82800.0,116834.0
11,Umeå,Västerbottens län,79594.0,120777.0


In [62]:
null_df.dropna(axis=1, how='any')

Unnamed: 0,stad,lan
0,Stockholm,Stockholms län
1,Göteborg,Västra Götalands län
2,Malmö,Skåne län
3,Uppsala,Uppsala län
4,Västerås,Västmanlands län
5,Örebro,Örebro län
6,Linköping,Östergötlands län
7,Helsingborg,Skåne län
8,Jönköping,Jönköpings län
9,Norrköping,Östergötlands län


Om man inte vill ta bort null-värden och tappa data kan man enkelt fylla i andra värden med funktionen `.fillna()`. Funktionen är mycket kraftfull och kan även hantera tidsserier genom att fylla i det senast observerade värdet mm. 

För att sätta alla null till exempelvis 0 är det enkelt.

In [63]:
null_df.fillna(0)

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565.0,923516.0
1,Göteborg,Västra Götalands län,549839.0,548190.0
2,Malmö,Skåne län,0.0,322574.0
3,Uppsala,Uppsala län,140454.0,210126.0
4,Västerås,Västmanlands län,110877.0,145218.0
5,Örebro,Örebro län,107038.0,144200.0
6,Linköping,Östergötlands län,104232.0,152966.0
7,Helsingborg,Skåne län,97122.0,137909.0
8,Jönköping,Jönköpings län,89396.0,0.0
9,Norrköping,Östergötlands län,87247.0,137035.0


Det går även att ange separata värden för varje kolumn så här.

In [64]:
values_to_fill = {'inv_ort' : 0, 'inv_kommun' : 1}

null_df.fillna(values_to_fill)

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565.0,923516.0
1,Göteborg,Västra Götalands län,549839.0,548190.0
2,Malmö,Skåne län,0.0,322574.0
3,Uppsala,Uppsala län,140454.0,210126.0
4,Västerås,Västmanlands län,110877.0,145218.0
5,Örebro,Örebro län,107038.0,144200.0
6,Linköping,Östergötlands län,104232.0,152966.0
7,Helsingborg,Skåne län,97122.0,137909.0
8,Jönköping,Jönköpings län,89396.0,1.0
9,Norrköping,Östergötlands län,87247.0,137035.0


I det här fallet är det inte så rimligt att fylla med 0, det skulle antagligen vara mer rimligt att fylla med medelvärdet av övriga observationer.

In [65]:
x = null_df['inv_ort']

x.fillna(x.mean())

0     1.372565e+06
1     5.498390e+05
2     1.752731e+05
3     1.404540e+05
4     1.108770e+05
5     1.070380e+05
6     1.042320e+05
7     9.712200e+04
8     8.939600e+04
9     8.724700e+04
10    8.280000e+04
11    7.959400e+04
12    7.103300e+04
13    6.627300e+04
14    6.467900e+04
15    6.461900e+04
16    6.168500e+04
17    6.127200e+04
18    6.088700e+04
19    5.857700e+04
Name: inv_ort, dtype: float64

För att skapa en slutlig version som inte innehåller några null-värden kan man deklarera om kolumnerna man arbetat med och se att det ser bra ut.

In [66]:
inv_ort = null_df['inv_ort']
inv_kommun = null_df['inv_kommun']

null_df['inv_ort'] = inv_ort.fillna(inv_ort.mean())
null_df['inv_kommun'] = inv_kommun.fillna(inv_kommun.mean())

null_df.head()

Unnamed: 0,stad,lan,inv_ort,inv_kommun
0,Stockholm,Stockholms län,1372565.0,923516.0
1,Göteborg,Västra Götalands län,549839.0,548190.0
2,Malmö,Skåne län,175273.1,322574.0
3,Uppsala,Uppsala län,140454.0,210126.0
4,Västerås,Västmanlands län,110877.0,145218.0
