# Pandas fra bunnen og opp

Pandas er en av de mest populære pakkene for bruk av python i Data Science/data analyse.
I dette kapitelet skal vi gjennomgå en rekke av funksjonalitete til pandas, se på hvordan Pandas er byg opp, vi skal innom Numpy og se på Dokumentasjon.

Har du brukt python i Data analyse, har du let sikkert vært borti Pandas. Her sattser vi litt på og favne bredt, mye av dette vil kanskje være kjent, men muligens finner du noe nytt du ikke har vært klar over fra før.

## Hva pandas egentlig er

Men hva er egentlig en Dataframe? Som med alt annet i Python så er det et objekt med en rekke funksjonaliteter. 
Intuitivt ser vi på en dataframe som et sett kolonner og rader som inneholder data, men fra et teknisk perspektiv kan vi dissekere dataframes til et sett mindre bestanddeler.

Et pandas datasett er lagret som en samling kolonner som kalles serier, og kolonnene inneholder elementer (som vi tenker på som celler/verdier). I tillegg har alle datasett i pandas en indeks, som effektiviserer oppslag og sikrer orden.

At datasett er en samling med kolonner heller enn en samling rader kan høres ut som semantisk distinksjon, men det har faktisk en del å si for ytelsen når en gjør analytiske utledninger. For numeriske variabler har alle celler lik lengde. En implikasjon av dett er at maskinen kan nøye seg med å lese gjennom langt mindre data. Skal du i et datasett ha sum formue for alle kvinner, må pandas lese gjennom kjønn-kolonnen for å finne kvinner, men når den har indeksen for alle radene den vil ha, kan de aktuelle formue-verdiene finnes bare ved å vite minnelokasjonen for starten på formuekolonnnen, og finne minnelokasjonene den trenger å lese bare ved å multiplisere startposisjonen med indeksene. Dette er også en av årsakene til at indekser i mange språk starter med 0.

In [1]:
import pandas as pd
import numpy as np 
import datetime

In [2]:
df = pd.read_csv('data/diamonds.csv')

In [3]:
df.dtypes

Unnamed: 0      int64
carat         float64
cut            object
color          object
clarity        object
depth         float64
table         float64
price           int64
x             float64
y             float64
z             float64
dtype: object

In [4]:
type(df["carat"])

pandas.core.series.Series

## Indekser

Indekser er identifikatoren for den enkelte rad. 
I utgangspunktet lager Pandas en *Ny* index fom starter på 0 ved innlesing av et datasett.


### Enkle index operasjoner

In [5]:
df.head()

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


denne indexen lar deg 

In [6]:
cut = df.set_index('cut')
cut.head()

Unnamed: 0_level_0,Unnamed: 0,carat,color,clarity,depth,table,price,x,y,z
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Ideal,1,0.23,E,SI2,61.5,55.0,326,3.95,3.98,2.43
Premium,2,0.21,E,SI1,59.8,61.0,326,3.89,3.84,2.31
Good,3,0.23,E,VS1,56.9,65.0,327,4.05,4.07,2.31
Premium,4,0.29,I,VS2,62.4,58.0,334,4.2,4.23,2.63
Good,5,0.31,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [7]:
cut.loc['Ideal'].head()

Unnamed: 0_level_0,Unnamed: 0,carat,color,clarity,depth,table,price,x,y,z
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Ideal,1,0.23,E,SI2,61.5,55.0,326,3.95,3.98,2.43
Ideal,12,0.23,J,VS1,62.8,56.0,340,3.93,3.9,2.46
Ideal,14,0.31,J,SI2,62.2,54.0,344,4.35,4.37,2.71
Ideal,17,0.3,I,SI2,62.0,54.0,348,4.31,4.34,2.68
Ideal,40,0.33,I,SI2,61.8,55.0,403,4.49,4.51,2.78


Det er også mulig å spesifisere syntetiske indekser, bestående av to eller flere kolonner.

In [8]:
cut_color = df.set_index(['cut', 'color'])
cut_color.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,carat,clarity,depth,table,price,x,y,z
cut,color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Ideal,E,1,0.23,SI2,61.5,55.0,326,3.95,3.98,2.43
Premium,E,2,0.21,SI1,59.8,61.0,326,3.89,3.84,2.31
Good,E,3,0.23,VS1,56.9,65.0,327,4.05,4.07,2.31
Premium,I,4,0.29,VS2,62.4,58.0,334,4.2,4.23,2.63
Good,J,5,0.31,SI2,63.3,58.0,335,4.34,4.35,2.75


In [9]:
cut_color.loc['Ideal', 'J'].head()

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,carat,clarity,depth,table,price,x,y,z
cut,color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Ideal,J,12,0.23,VS1,62.8,56.0,340,3.93,3.9,2.46
Ideal,J,14,0.31,SI2,62.2,54.0,344,4.35,4.37,2.71
Ideal,J,42,0.33,SI1,61.1,56.0,403,4.49,4.55,2.76
Ideal,J,461,0.9,VS2,62.8,55.0,2817,6.2,6.16,3.88
Ideal,J,682,0.75,SI1,61.5,56.0,2850,5.83,5.87,3.6


In [10]:
cut_color.loc['Ideal', 'H'].head()

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,carat,clarity,depth,table,price,x,y,z
cut,color,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Ideal,H,131,0.77,VS2,62.0,56.0,2763,5.89,5.86,3.64
Ideal,H,139,0.76,SI1,61.2,57.0,2765,5.88,5.91,3.61
Ideal,H,217,0.77,SI1,62.2,56.0,2781,5.83,5.88,3.64
Ideal,H,218,0.78,SI1,61.2,56.0,2781,5.92,5.99,3.64
Ideal,H,275,0.73,VS2,62.7,55.0,2793,5.72,5.76,3.6


In [11]:
cut_color.reset_index().head()

Unnamed: 0.1,cut,color,Unnamed: 0,carat,clarity,depth,table,price,x,y,z
0,Ideal,E,1,0.23,SI2,61.5,55.0,326,3.95,3.98,2.43
1,Premium,E,2,0.21,SI1,59.8,61.0,326,3.89,3.84,2.31
2,Good,E,3,0.23,VS1,56.9,65.0,327,4.05,4.07,2.31
3,Premium,I,4,0.29,VS2,62.4,58.0,334,4.2,4.23,2.63
4,Good,J,5,0.31,SI2,63.3,58.0,335,4.34,4.35,2.75


### Tidserier og dato som index

Hvis dataene du jobber med er knyttet opp mot tid, bringer Pandas og Datetime en rekke funksjonaliteter knyttet itl å bruke tidsstempelet som index.

I dette avsnittet skal vi ta en rask kikk på noen av funksjonalitetene, mor grundigere gjennomgang se:
https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html

Vi laster inn ett sett med værdata som er sammlet inn på times basis. Dette er et relativt stort datasett med ~4M records.
Derfor begrenser vi antallet for denne demonstrasjonene til 6000.

For at Python skal gi oss den fulle funksjonaliteten til å jobbe med tidsdata må vi fortelle python at dette er en tidsvariabel

In [12]:
tidsserie = pd.read_csv('data/hourly_irish_weather.csv', nrows=6000)
tidsserie = tidsserie.drop('Unnamed: 0', axis=1)
tidsserie['date'] = pd.to_datetime(tidsserie['date'])
tidsserie = tidsserie.set_index('date')
tidsserie.head()

Unnamed: 0_level_0,station,county,longitude,latitude,rain,temp,wetb,dewpt,vappr,rhum,msl,wdsp,wddir,ww,w,sun,vis,clht,clamt
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1989-01-01 00:00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.1,8.7,8.3,10.9,95.0,1036.3,13.0,190.0,10.0,22.0,0.0,10000.0,22.0,7.0
1989-01-01 01:00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.7,8.4,11.0,96.0,1036.2,13.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 02:00:00,Cork_Airport,Cork,-8.485,51.842,0.0,8.9,8.5,8.1,10.8,95.0,1036.0,12.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 03:00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.7,8.4,11.0,96.0,1035.9,11.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 04:00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.6,8.2,10.8,95.0,1035.8,10.0,190.0,10.0,22.0,0.0,10000.0,14.0,8.0


In [13]:
tidsserie.index

DatetimeIndex(['1989-01-01 00:00:00', '1989-01-01 01:00:00',
               '1989-01-01 02:00:00', '1989-01-01 03:00:00',
               '1989-01-01 04:00:00', '1989-01-01 05:00:00',
               '1989-01-01 06:00:00', '1989-01-01 07:00:00',
               '1989-01-01 08:00:00', '1989-01-01 09:00:00',
               ...
               '1989-09-07 14:00:00', '1989-09-07 15:00:00',
               '1989-09-07 16:00:00', '1989-09-07 17:00:00',
               '1989-09-07 18:00:00', '1989-09-07 19:00:00',
               '1989-09-07 20:00:00', '1989-09-07 21:00:00',
               '1989-09-07 22:00:00', '1989-09-07 23:00:00'],
              dtype='datetime64[ns]', name='date', length=6000, freq=None)

En av styrkenen med å jobbe med tid på denne måten er at vi kan fortelle programmet hvor dataene er fra og knytte det til en tidssone. I dette tilfellet er datene fra Irland som ligger i UTC tidssonen.

In [14]:
tidsserie = tidsserie.tz_localize('UTC')
tidsserie.head()

Unnamed: 0_level_0,station,county,longitude,latitude,rain,temp,wetb,dewpt,vappr,rhum,msl,wdsp,wddir,ww,w,sun,vis,clht,clamt
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1989-01-01 00:00:00+00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.1,8.7,8.3,10.9,95.0,1036.3,13.0,190.0,10.0,22.0,0.0,10000.0,22.0,7.0
1989-01-01 01:00:00+00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.7,8.4,11.0,96.0,1036.2,13.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 02:00:00+00:00,Cork_Airport,Cork,-8.485,51.842,0.0,8.9,8.5,8.1,10.8,95.0,1036.0,12.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 03:00:00+00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.7,8.4,11.0,96.0,1035.9,11.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 04:00:00+00:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.6,8.2,10.8,95.0,1035.8,10.0,190.0,10.0,22.0,0.0,10000.0,14.0,8.0


Vi ønsker imidertid å sammenligne værforholdene i irrland med en eller annen hendelse i norge på samme tid. Hvis vi kobler dataene slik de er, vil dette ikke stemme overens da Irland er en time bak oss. Vi må derfor konvertere alle tidsstempler til nåværende tidspunkt. 

Når vi har stedfestet dataene er det så enkelt som å fortelle dataene hvilken tidserie vi ønsker og jobbe med. I dette tilfellet CET.

In [15]:
tidsserie = tidsserie.tz_convert('CET')
tidsserie.head()

Unnamed: 0_level_0,station,county,longitude,latitude,rain,temp,wetb,dewpt,vappr,rhum,msl,wdsp,wddir,ww,w,sun,vis,clht,clamt
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1989-01-01 01:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.1,8.7,8.3,10.9,95.0,1036.3,13.0,190.0,10.0,22.0,0.0,10000.0,22.0,7.0
1989-01-01 02:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.7,8.4,11.0,96.0,1036.2,13.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 03:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,8.9,8.5,8.1,10.8,95.0,1036.0,12.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 04:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.7,8.4,11.0,96.0,1035.9,11.0,190.0,10.0,22.0,0.0,8000.0,4.0,8.0
1989-01-01 05:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,9.0,8.6,8.2,10.8,95.0,1035.8,10.0,190.0,10.0,22.0,0.0,10000.0,14.0,8.0


Å sette tidsone er selvfølgelig ikke det eneste vi kan.

Dataene over har 1-times intervaller, og selv om dette er meget detaljert gir det oss ikke den informasjonen vi ønsker. Vi er mer interessert i snitt regn per dag. Pandas tidserier tilater oss og benytte ett intuitivt språk for a `resample` (aggregere) over tidsintervaller.

* B         business day frequency
* C         custom business day frequency (experimental)
* D         calendar day frequency
* W         weekly frequency
* M         month end frequency
* SM        semi-month end frequency (15th and end of month)
* BM        business month end frequency
* CBM       custom business month end frequency
* MS        month start frequency
* SMS       semi-month start frequency (1st and 15th)
* BMS       business month start frequency
* CBMS      custom business month start frequency
* Q         quarter end frequency
* BQ        business quarter endfrequency
* QS        quarter start frequency
* BQS       business quarter start frequency
* A         year end frequency
* BA, BY    business year end frequency
* AS, YS    year start frequency
* BAS, BYS  business year start frequency
* BH        business hour frequency
* H         hourly frequency
* T, min    minutely frequency
* S         secondly frequency
* L, ms     milliseconds
* U, us     microseconds
* N         nanoseconds

In [16]:
snitt_regn = tidsserie.groupby('station')['rain'].resample('1D').mean()
snitt_regn.head()

station       date                     
Cork_Airport  1989-01-01 00:00:00+01:00    0.000000
              1989-01-02 00:00:00+01:00    0.050000
              1989-01-03 00:00:00+01:00    0.391667
              1989-01-04 00:00:00+01:00    0.116667
              1989-01-05 00:00:00+01:00    0.345833
Name: rain, dtype: float64

Dersom du agregerer til en lavere frekvens kallse dette **Downsampling** og du må angi en funksjon for hvordan dataene skal aggregeres. Dersom du går til en høyere frekvens kalles dette **Upsampling** I utgangspunktet vil dette føre til at datakolonnen inneholder `NaN` (not a number) verdier. Dette kan ungås ved å angi en `.pad()` verdi, `.bfill()` eller lignende funksjoner.

En annen nyttig funksjon er å kunne filtrere dataene med utgangspunkt i tidspunktene. For å kunne gjøre dette må vi som sagt ha definert tidstempelet som indeks. Her henter vi ut all data for 5. jan 1989.

In [17]:
tidsserie['1989/01/05'].head(10)

Unnamed: 0_level_0,station,county,longitude,latitude,rain,temp,wetb,dewpt,vappr,rhum,msl,wdsp,wddir,ww,w,sun,vis,clht,clamt
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1989-01-05 00:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,3.5,2.5,0.9,6.5,83.0,1030.3,9.0,260.0,2.0,11.0,0.0,40000.0,200.0,6.0
1989-01-05 01:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,3.1,2.6,1.8,7.0,91.0,1030.6,6.0,240.0,2.0,81.0,0.0,40000.0,200.0,6.0
1989-01-05 02:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,4.4,3.5,2.1,7.1,85.0,1030.3,7.0,230.0,2.0,11.0,0.0,30000.0,999.0,4.0
1989-01-05 03:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,4.4,3.6,2.4,7.3,87.0,1029.7,7.0,210.0,2.0,11.0,0.0,30000.0,999.0,3.0
1989-01-05 04:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,5.5,4.4,2.8,7.5,83.0,1029.4,7.0,210.0,2.0,11.0,0.0,30000.0,35.0,5.0
1989-01-05 05:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,5.7,5.1,4.3,8.3,91.0,1028.3,9.0,210.0,2.0,11.0,0.0,30000.0,35.0,5.0
1989-01-05 06:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.0,6.5,6.1,5.6,9.1,94.0,1027.3,10.0,210.0,60.0,62.0,0.0,20000.0,15.0,8.0
1989-01-05 07:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.2,7.6,7.4,7.2,10.1,97.0,1026.3,11.0,200.0,60.0,62.0,0.0,20000.0,5.0,8.0
1989-01-05 08:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.9,8.6,8.3,8.0,10.7,96.0,1024.7,17.0,200.0,61.0,62.0,0.0,20000.0,5.0,8.0
1989-01-05 09:00:00+01:00,Cork_Airport,Cork,-8.485,51.842,0.5,9.2,8.8,8.4,11.0,95.0,1023.7,18.0,210.0,61.0,62.0,0.0,20000.0,7.0,8.0


In [18]:
total_ukes_regn = tidsserie['rain'].resample('1W').sum()
total_ukes_regn.head(8)

date
1989-01-01 00:00:00+01:00     0.0
1989-01-08 00:00:00+01:00    24.7
1989-01-15 00:00:00+01:00    31.5
1989-01-22 00:00:00+01:00    20.1
1989-01-29 00:00:00+01:00    23.9
1989-02-05 00:00:00+01:00     6.7
1989-02-12 00:00:00+01:00    23.9
1989-02-19 00:00:00+01:00    48.1
Freq: W-SUN, Name: rain, dtype: float64

Vi trenger ikke spesifisere det Eksakte tidspunktet vi ønsker å hente ut. Ved å oppgi en lavere frekvens i slicen kan vi hente et større tidsspenn. f.eks alle datene for feb 1989

In [19]:
total_ukes_regn['1989/02']

date
1989-02-05 00:00:00+01:00     6.7
1989-02-12 00:00:00+01:00    23.9
1989-02-19 00:00:00+01:00    48.1
1989-02-26 00:00:00+01:00    33.4
Freq: W-SUN, Name: rain, dtype: float64

Dersom vi ønsker et utvallg som går på tvers av datoelementer oppgir vi en range på samme måte som vi gjør for andre slice-opperasjoner

In [20]:
total_ukes_regn['1989/02':'1989/05']

date
1989-02-05 00:00:00+01:00     6.7
1989-02-12 00:00:00+01:00    23.9
1989-02-19 00:00:00+01:00    48.1
1989-02-26 00:00:00+01:00    33.4
1989-03-05 00:00:00+01:00    40.9
1989-03-12 00:00:00+01:00    53.1
1989-03-19 00:00:00+01:00    36.8
1989-03-26 00:00:00+01:00    13.8
1989-04-02 00:00:00+02:00    41.8
1989-04-09 00:00:00+02:00     8.6
1989-04-16 00:00:00+02:00    32.6
1989-04-23 00:00:00+02:00     0.0
1989-04-30 00:00:00+02:00     5.8
1989-05-07 00:00:00+02:00     1.6
1989-05-14 00:00:00+02:00     4.4
1989-05-21 00:00:00+02:00     2.2
1989-05-28 00:00:00+02:00     0.0
Freq: W-SUN, Name: rain, dtype: float64

Dette var som sagt en rask intro til hvordan og brule tidstempel som indeksvariabel. Det er masse mer som kan gjøres og dersom du bruker data med tidstempel anbefaler jeg å sette seg inn i dette, da det er et meget kraftig verkøy for å jobbbe med tidsdimensjonen.

## Numpy universet

I begynnelsen snakket vi om at Pandas lagrer dataene sine som en rekke lister eller serier som er organisert ved hjelp av indekser. I bunn og grunn er disse kolonnene sin 1-dimensjonale numpy array.

Numpy er viktig å kjenne til i sin egen rett, men det er også en forutsetning for å forstå pandas.

In [21]:
np_id = df["carat"].to_numpy()
type(np_id)

numpy.ndarray

In [22]:
array = np.array([1,2,3,4,5])
liste = [1,2,3,4,5]

print(type(array))
print(type(liste))

<class 'numpy.ndarray'>
<class 'list'>


Foskjellen mellom en standard python liste og et np array ligger i hvordan de er lagret i minnet på maskinen. 
En liste oppfører seg på samme linje som andre python objekter, ved at listen er et "objekt" som inneholder referanser (pekere) til andre objekt - altså innholdet i listen. Vi har tidligere snakket om at python i bunn og grunn er en dictionary av ditionaries av navn.

Dette er dette som ligger bak at en vanlig liste kan inneholde akkuratt det du vil av data og typer. Python klager ikke om du lager en liste som inneholder mange forskjellige datatyper:

In [23]:
liste2 = [1, '1', tidsserie, False]

Et numpy array vil ikke klage på dette, men det fjerner en del av effekten. Numpy arrays er best egnet for én datatype av gangen.

Det som gjør numpy så effektivt er hvordan den håndterer minnerepresentasjonen av dataene dine. Numpy er i stor grad skrevet i C, og har stor kontroll på hvordan dataene blir lagret i minnet. Dette gir en veldig god utnyttelse av tilgjenglige resurser.

For de som ikke er veldig kjent med minnerepresentasjon, kan vi tenke på minnet (RAM) som et sett parkeringsplasser som står på en rekke, nummerert fra 1 til, si, 100.

En liste med 3 elementer kan lagres som 4 objekter (elementene + selve listen) på ulike steder i minnet. Listen kan være parkert på plass #3, elementene kan være på helt andre plasser, f.eks. 45, 89 og 13. Listen inneholder egentlig bare en referanse til hvor elementene den inneholder er lagret.

Når du skal bruke en liste, må maskinen bruke på å lete frem de ulike elementene på sine respektive parkeringsplasser. Selv om maskinen, og minnet, er utrolig kjapt, blir dette tidkrevende med store datasett.

I stedet for å måtte hoppe frem og tilbake rydder Numpy plass til at hele arrayet kan lagres sammenhengende. Dette er langt mer effektivt. Numpy gjør også en annen viktig optimalisering som vi skal se under.

Vi begynner med å lage et array - i vårt tilfelle et todimensjonalt array eller en matrise:

In [24]:
import numpy as np

mx = np.array([[1, 2, 1], [5, 3, 4]], dtype='int32')

mx

array([[1, 2, 1],
       [5, 3, 4]], dtype=int32)

Her ser vi at vi må spesifisere datatypen veldig eksakt, `int32`, altså et heltall som tar opp 32 bits (uavhengig av hvor stort tallet egentlig er).

Hvis vi vil ta et subsett av matrisen, kan vi gjøre dette med en syntaks som ligner veldig på pandas. Her velger vi den første kolonnen fra matrisen.

In [25]:
mx_slice = mx[:, 0]
mx_slice

array([1, 5], dtype=int32)

Men: selv om `mx_slice` er en ny variabel, refererer innholdet til den samme minnelokasjonen som `mx`. Dette kan vi se via `__array_interface__` metoden:

In [26]:
mx.__array_interface__

{'data': (94858939025760, False),
 'strides': None,
 'descr': [('', '<i4')],
 'typestr': '<i4',
 'shape': (2, 3),
 'version': 3}

In [27]:
mx_slice.__array_interface__

{'data': (94858939025760, False),
 'strides': (12,),
 'descr': [('', '<i4')],
 'typestr': '<i4',
 'shape': (2,),
 'version': 3}

Vi ser her at `data` har samme verdi i de to elementene - dette er minnelokalisasjonen (parkeringsplassnummeret) for innholdet i matrisen - det er altså kun den nye referansen (skallet) som har blitt skrevet til minnet.

Vi ser også at elementet `strides` har endret seg, og er `(12, )` i den nye matrisen. Strides angir hvor mange bytes det er mellom hvert element. Her er det 12 bytes mellom hvert element i `mx_slice`, og ingen bytes mellom hvert element i `mx`. Siden det her er 8 bit i en byte, betyr dette at det er 8 x 12 = 96 bits mellom elementene i `mx_slice`. Vi husker også at hvert element i matrisen er 32 bit, og det er 3 elementer i hver rad. Avstanden mellom første element i rad 1 og første elemnt i rad 2 i `mx` blir derfor 3 x 32 = 96 bits. Strides angir i bytes hvor langt det er mellom elementene i `mx_slice`, når dette er et utsnitt av `mx`. Denne strukturen blir også referert til som en skip-table.

Vi kan dobbeltsjekke hvor stort hvert element i matrisene er, og hvor stor hele matrisen er:

In [28]:
mx[0,0].nbytes

4

In [29]:
mx.nbytes

24

In [30]:
mx[:, 0].nbytes

8

I mange tilfeller vil det være naturlig å jobbe med data som helehet, og da er det Pandas som gjelder. Om du derimot ønsker å jobbe direkte på enkeltkolonner og da speselt numeriske kolonner kan det være hensiktsmessig å se på disse som numpy arrays. Og i mange tilfeller vil det være dette som skjer i under panseret. 

Det er fullt mulig å gjøre aritmatikk, aggregering, slicing og filtrering på et array.

Det er imindlertid ikke bare enkle 1D/2D array som støttes av numpy. I utgangspunktet gitt at all data i arrayet er av samme type kan du ha vilkårlig mange dimensjoner når du jobber med Numpy uten og miste nevneverdig regnekraft.

Denne styrken kommer spesielt til nytte når vi begynner å jobbe med ikke-tradisonelle data.
* Tekst representeres ofte som høydimensjonale numpy array
* bilder er et array med 3 dimensjoner
* Maskinæringsmodeller basserer seg på Numpy sin kapasitet for multidimensjonal aritmatikk.


In [31]:
array2 = np.array([(1,2,3,4,5),(5,7,8,5,4)])
array3 = np.array([(1,2,3,4,5),(5,7,8,5,4),(485,89,876,18,97)], ndmin=3)

In [32]:
print(array2)
print(array3)

[[1 2 3 4 5]
 [5 7 8 5 4]]
[[[  1   2   3   4   5]
  [  5   7   8   5   4]
  [485  89 876  18  97]]]


## Querying transponering og andre nytige funksjoner

Selektering av elementer i en matrise, summering, broadcasting

In [33]:
print(array3.sum(), array3.mean(), array3.std())

1609 107.26666666666667 237.75294366678665


## Hva er så et tall?

Numpy array inneholder (vanligvis) tall, men hva er innholdet i et tall?

Vi vet alle at datamaskiner er binære, noe som betyr at datamaskiner har grunntall 2, og vi klarer alle å telle på binært; 1, 10, 11, 100, 101 osv... Dette gir selvfølgelig opphav til vitsen "there are 10 kinds of people in the world: Those who understand binary and those who don't".

Heltall oppfører seg omtrent som dette.

In [34]:
i = 4
bin(i)

'0b100'

In [35]:
bin(6)

'0b110'

Heltall er greie på den måten, men virkeligheten blir langt mer interessant når vi går over til desimaltall. Følgende øvelse kan nok overraske noen:

In [36]:
for i in range(1, 10):
    print(i, '=>', i*0.001)

1 => 0.001
2 => 0.002
3 => 0.003
4 => 0.004
5 => 0.005
6 => 0.006
7 => 0.007
8 => 0.008
9 => 0.009000000000000001


Her får datamaskinen et avrundingsproblem hvor vi selv ikke ser noe problem. Alle vet at datamaskiner er binære, men nå opplever vi konsekvensene: Datamaskinen avrunder på en annen måte enn oss. Men det betyr ikke at datamaskinen er dårligere enn oss.

Mennesker, som typisk bruker grunntall 10, har trøbbel med å skrive 1/3, som blir 0.333333 i en uendelig rekke. Hadde vi derimot fulgt Jo Røislien sitt råd og brukt grunntall 12, ville 1/3 vært 0.4 - ingen avrundingsproblemer. De samme situasjonene oppstår med grunntall 2, og alle gode data-scientister vet derfor at Jo Røislien tar feil - 8 hadde vært et bedre grunntall enn 10 eller 12.

Se også https://docs.python.org/2/tutorial/floatingpoint.html

Forvirringen skjer ikke bare i regnestykker - selv et så enkelt tall som 0.1 klarer ikke å representeres nøyaktig med grunntall 2.

In [37]:
"{:.25f}".format(0.3)

'0.2999999999999999888977698'

In [38]:
"{:.25f}".format(0.5)

'0.5000000000000000000000000'

Et 32-bit flyttall (float) representeres etter en standard som heter IEEE-754, og er (på de fleste moderne datamaskiner) representert ved at den første bit'en er fortegnet (0 for positive tall, 1 for negative), de neste 8 bit'ene er eksponenten (med grunntall 2, or resten (23 bits) er mantissaen, altså selve tallet eller presisjonen avhengig av hvordan du ser på det.

Denne representasjonen ligner veldig på scientific notasjon, som tar formen $4.284763*10^{-5}$

Et vanlig desimaltall, 2.432, kan vi tenke på som følgende sum:


$$\frac{2}{10^{0}} + \frac{4}{10^{1}} + \frac{3}{10^{2}} + \frac{2}{10^{3} } = \frac{2}{1} + \frac{4}{10} + \frac{3}{100} + \frac{2}{1000} = 2 + 0.4 + 0.03 + 0.002 = 2.432 $$

Det samme desimaltallet representeres, binært på IEEE754 som `01000000000110111010010111100011`. Denne remsen er delt inn som følger: Første bit angir om tallet er positivt eller negativt. De påfølgende 8 bit'ene representerer eksponenten, som i dette tilfellet er 0. De resterende 23 bit'ene representerer den geometriske rekken fraksjoner som vi har representert over, bare med 2 under brøkstreken.

| Sign | Exp | Mantissa |
|---|---|---|
| `0` | `10000000` | `00110111010010111100011` |

Mantissaen blir evaluert som:

$$ 1 + \frac{0}{2^{1}} + \frac{0}{2^{2}} + \frac{1}{2^{3}} + \frac{1}{2^{4}} + \frac{0}{2^{5}}+ \frac{1}{2^{6}}+ \frac{1}{2^{7}}+ \frac{1}{2^{8}} +  ... + \frac{0}{2^{21}} + \frac{1}{2^{22}} + \frac{1}{2^{23}} = 1.2159$$



Eksponenten blir litt merkelig, 8 bit gir 256 muligheter, men eksponenten må kunne være både positiv og negativ, så 128 er 1, 127 er 0, 126 blir -1 og 129 blir 2. I vårt tilfelle er den 10000000 som blir 128, altså $2^0$, som er 1.

Resultatet blir da $$2^0 * 1.2159 = 2.43$$


Så, måten flyttall representeres på digitalt er ikke så veldig forskjellig fra måten vi selv skriver tall. Men konverteringen fra grunntall 10 til grunntall 2 medfører noen problemer, som det er viktig å kjenne til.

<br />

<center><b>I got 98.999999999999999112 problems but floating point representation ain't 1.000000000000000021</b></center>

Eksempelet er laget med god hjelp fra https://www.h-schmidt.net/FloatConverter/IEEE754.html

## Lær å lese dokumentasjon