# Introduksjon til *pan*el *da*ta: Pandas

Nyttig ressurs: [https://pandas.pydata.org/docs/user_guide/](https://pandas.pydata.org/docs/user_guide/)

* Pandas er et bibliotek for python for å manipulere og analysere data
* Vi bruker pandas til å laste inn eller lage datasett
    - Rydde opp i data
    - Få det over på annet format
    - Gjøre statistikk
    - Plotte data
    

* Vi importerer pandas med som regel med `import pandas as pd`
* Pandas er bygd på numpy, så man trenger ofte også å bruke numpy

* Pandas er bygd opp av objekter kalt *DataFrames* og *Series*
* Vi jobber for det meste med DataFrames
* DataFrames likner litt på hvordan man strukturerer data i feks excel
* De består av rader, og kolonner kalt *Series*
<img src="img/dfnavn1.jpg" width="550">



* Hver rad har en index
* Ut av boksen har radene indeks med heltall 0,1,2,3...
* Man kan også ha navn på radene (indeks er liste med strenger) slik som kolonnenavnene
![dataframe_indeksnavn](img/dfnavn2.png)


## Pandas Series
* Pandas series er som kolonnene i en tabell
* Dataserier har en *index*, et *navn* og *data* av en eller annen datatype (`dtype`)
* Vi lager serier med `pd.Series( ... )`

In [1]:
[1,2,3,4,5]
["Bil", "Båt", "Sykkel", "Tog", "Fly"]


['Bil', 'Båt', 'Sykkel', 'Tog', 'Fly']

* Her mangler vi navn på seriene

* Vi kan navngi serien ved å gi *keyword* argumentet "name"
* Eller legge til/forandre senere med `serie.name = "navn"`
* `pd.Series(data, name="Navnet")`

* Vi kan gi en annen indeks med *keyword* argumentet "index"
* `pd.Series(data, name="Navnet", index = [ .... ])`

NameError: name 'pd' is not defined

* Tidligere eksempel gir lister til `pd.Series()`
* Det kan være lurt å lage variabler med listene som skal bruke
* Når det passer seg bør listene være numpy *arrays*

en      1
to      2
tre     3
fire    4
fem     5
Name: heltall, dtype: int64

* Når vi behandler store mengder data og data fra ulike kilder trenger vi å ha kontroll på hvordan dataen vår representeres internt i datamaskinen
```python
data = np.array([..... ], dtype=«numpy datatype»)
```
* `numpy` har flere ulike datatyper vi kan bruke

| **Type**       | **Name**    | **Description**                                       |
|----------------|-------------|-------------------------------------------------------|
| Integer        | `int8`      | Integer (-128 to 127)                                 |
| Integer        | `int16`     | Integer (-32,768 to 32,767)                           |
| Integer        | `int32`     | Integer (-2,147,483,648 to 2,147,483,647)             |
| Integer        | `int64`     | Integer (-9,223,372,036,854,775,808 to 9,223,372,036,854,775,807) |
| Unsigned Int   | `uint8`     | Unsigned integer (0 to 255)                           |
| Unsigned Int   | `uint16`    | Unsigned integer (0 to 65,535)                        |
| Unsigned Int   | `uint32`    | Unsigned integer (0 to 4,294,967,295)                 |
| Unsigned Int   | `uint64`    | Unsigned integer (0 to 18,446,744,073,709,551,615)    |
| Floating Point | `float16`   | Half precision floating point                         |
| Floating Point | `float32`   | Single precision floating point                       |
| Floating Point | `float64`   | Double precision floating point                       |
| Complex Number | `complex64` | Complex number (real and imaginary as `float32`)      |
| Complex Number | `complex128`| Complex number (real and imaginary as `float64`)      |
| Boolean        | `bool_`     | Boolean (True or False)                               |
| String         | `string_`   | Fixed-size string data                                |
| Unicode String | `unicode_`  | Fixed-size Unicode string data                        |


### DataFrame-data
* Merk at dersom vi forandrer datavariabelen, forandres også pandas serien
* Vi sier at dataframen inneholder «refererer» til data som er lagret et annet sted
* Dersom dette ikke er ønskelig kan vi bruke `copy=True` når vi lager serien
* Av og til vil vi ha en kopi som ikke forstyrrer «datakilden»
* Av og til vil vi ikke gjøre det slik -- det er raskere og bruker mindre minne

en      1
to      2
tre     3
fire    4
fem     5
Name: heltall, dtype: int64


en      1
to      2
tre     3
fire    4
fem     5
Name: heltall, dtype: int64

### Oppgave 1:

* Lag dataserien under i pandas:
![oppg1](img/series_oppg1.png)

Per         187.0
Pål         177.0
Espen       195.0
Askeladd    159.0
Name: EventyrfigurHøyde, dtype: float64

* Vi kan lage serier også med dictionaries `{indeks0: data0, indeks1: data1}`
* Da blir indeksen satt til nøklene i dictionary'en

land    bil
sjø     båt
luft    fly
Name: transportmetoder, dtype: object

### Oppgave 2:

* Lag samme dataserie som tidligere i pandas
* Denne gangen bruk en dictionary til å sette data/indeks
![oppg1](img/series_oppg1.png)

Per         187.0
Pål         177.0
Espen         NaN
Askeladd    159.0
Name: EventyrfigurHøyde, dtype: float64

### Manglende datapunkter
* Dersom vi mangler noe data for en indeks bruker vi `np.NaN`som data

Per        187.0
Pål        177.0
Espen        NaN
England    159.0
Name: EventyrfigurHøyde, dtype: float32

## Attributter
* Pandas Series objekter har ulike *atributter*

| **Attribute**      | **Description**                                                                 |
|--------------------|---------------------------------------------------------------------------------|
| `index`            | The index (labels) of the Series.                                               |
| `values`           | The values (data) of the Series as a NumPy array.                               |
| `name`             | The name of the Series.                                                         |
| `dtype`            | The data type of the values in the Series.                                      |
| `size`             | The number of elements in the Series.                                           |
| `shape`            | The dimensionality of the Series (always a single dimension).                   |
| `empty`            | Returns `True` if the Series is empty (i.e., has no elements).                  |
| `nbytes`           | The total number of bytes consumed by the Series' elements.                     |
| `hasnans`          | Returns `True` if there are any `NaN` values in the Series.                     |
| `is_unique`        | Returns `True` if all values in the Series are unique.                          |
| `is_monotonic`     | Returns `True` if the Series is sorted in increasing order.                     |
| `str`              | Provides access to string methods (if the Series contains strings).             |
| `dt`               | Provides access to datetime methods (if the Series contains datetime objects).  |
| `T`                | The transpose of the Series (no effect for 1D data, but included for consistency). |


EventyrfigurHøyde
[187. 177.  nan 159.]
Index(['Per', 'Pål', 'Espen', 'England'], dtype='object')
16


## Metoder
* Pandas Series objekter har flere nyttige *metoder*

| **Metode**            | **Beskrivelse**                                                                  |
|-----------------------|----------------------------------------------------------------------------------|
| `head(n)`             | Returnerer de første `n` elementene i Series (standard er 5).                     |
| `tail(n)`             | Returnerer de siste `n` elementene i Series (standard er 5).                      |
| `unique()`            | Returnerer unike verdier i Series.                                                |
| `value_counts()`      | Returnerer antall forekomster av unike verdier i Series.                          |
| `describe()`          | Genererer beskrivende statistikk som antall, gjennomsnitt, std, min og maks.      |
| `sum()`               | Returnerer summen av elementene i Series.                                         |
| `mean()`              | Returnerer gjennomsnittet av elementene i Series.                                 |
| `median()`            | Returnerer medianen av elementene i Series.                                       |
| `min()`               | Returnerer minimumsverdien i Series.                                              |
| `max()`               | Returnerer maksimumsverdien i Series.                                             |
| `std()`               | Returnerer standardavviket til Series.                                            |
| `sort_values()`       | Sorterer Series etter verdiene.                                                   |
| `sort_index()`        | Sorterer Series etter indeksen.                                                   |
| `apply(func)`         | Anvender en funksjon element for element på Series.                               |
| `map(func)`           | Mapper verdier i Series ved hjelp av funksjon eller dictionary.                       |
| `dropna()`            | Fjerner `NaN`-verdier fra Series.                                                 |
| `fillna(value)`       | Fyller inn `NaN`-verdier med en spesifisert verdi.                                |
| `astype(dtype)`       | Endrer datatypen til Series til spesifisert datatype.                             |
| `clip(lower, upper)`  | Begrenser verdier til et spesifisert område (nedre og øvre grenser).              |
| `between(left, right)`| Returnerer True for verdier mellom spesifiserte grenser.                          |
| `shift(periods)`      | Skifter verdiene med et spesifisert antall perioder.                             |
| `cumsum()`            | Returnerer den kumulative summen av elementene i Series.                          |
| `cumprod()`           | Returnerer det kumulative produktet av elementene i Series.                       |
| `rolling(window)`     | Gir glidende beregninger med et gitt vindu                                          |
| `expanding()`         | Gir ekspanderende beregninger (f.eks. kumulative beregninger).               |
| `resample(rule)`      | Resampler tidsseriedata i henhold til en spesifisert frekvens.                    |
| `plot()`              | Plotter dataen i Series ved hjelp av Matplotlib.                                  |


count      3.000000
mean     174.333328
std       14.189198
min      159.000000
25%      168.000000
50%      177.000000
75%      182.000000
max      187.000000
Name: EventyrfigurHøyde, dtype: float64


Per        187.0
Pål        177.0
England    159.0
Name: EventyrfigurHøyde, dtype: float32

## Pandas DataFrame

* Vi er som regel interessert i å jobbe med DataFrames, en samling av serier
* Vi lager de med `pd.DataFrames(data, index=None, columns=None, dtype=None, copy=None)`
* Vi har de samme feltene som serier, men dataen er nå *todimensjonal*

* `data` variabelen vi fyller dataframen vår med kan ha flere former:
 - 2d-array
 - dictionary -> `{col0: [data0], col1: [data1], ...}`
 - pandas Series `[serie1,serie2,...]` (seriene er her rader i tabellen)

In [11]:
import pandas as pd
import numpy as np
data1 = np.array([[1,2,3],
                  [4,5,6],
                  [7,8,9]])
print(data1)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [10]:
data2 = {"BNP": [1,2,3,4], "levealder": [88,88,99,102], 
         "styresett": ["demokrati", "diktatur", "demokrati", "monarki"]}

df2

Unnamed: 0,BNP
Norge,1
Uganda,2
Sverige,3
England,4


In [24]:
indeks = ["BNP", "levealder", "styresett"]
serie1 = pd.Series([1,88,"demokrati"], name="Norge", index =indeks )
serie2 = pd.Series([2,88,"diktatur"], name="Uganda", index=indeks)

Unnamed: 0,BNP,levealder,styresett
Norge,1,88,demokrati
UGanda,2,88,diktatur


### Oppgave 3:


Under har vi et lite pandas dataframe.
![oppg1](img/dataframe_oppg3.png)

Prøv å lage tabellen ved å bruke metodene over

Unnamed: 0,Arbeidsledighet,Konkurser,BNP
2010,2.0%,100,2000000.0
2011,2.3%,120,3000000.0
2012,2.6%,250,1800000.0
2013,3.1%,180,1500000.0


## Slå opp i Frame/Series

### Series
* Vi kan slå opp verdi nr. $i$ med serie[$i$]
* Eller vi kan bruke indeks: serie["indeks"]

### Dataframes
* Vi får tak i kolonne med `df["kolonnenavn"]`
* Vi får tak i rad med df.loc["rad_indeks"]
* Vi kan få tak i rad med df.iloc[i] hvor i er mellom 0 og antall rader i tabellen
* Vi får tak i et datapunkt med df.loc["rad", "kolonne"]

In [12]:
print(f"Levealder i {serie1.name} er ...")
print(f"Levealder i {serie2.name} er ...")

NameError: name 'serie1' is not defined

In [42]:
#kolonne BNP:
print("Kolonne 'BNP':\n", )

#Rad med indeks
print("\nRad 'Sverige':\n", )

#Rad med radnummer
print("\nRad nr. 3:\n", )

#Levalder i England:
print("\nLevealder i England er:",)
df2

Kolonne 'BNP':
 Norge      1
Uganda     2
Sverige    3
England    4
Name: BNP, dtype: int64

Rad 'Sverige':
 BNP                  3
levealder           99
styresett    demokrati
Name: Sverige, dtype: object

Rad nr. 3:
 BNP                  3
levealder           99
styresett    demokrati
Name: Sverige, dtype: object

Levealder i England er: 102


Unnamed: 0,BNP,levealder,styresett
Norge,1,88,demokrati
Uganda,2,88,diktatur
Sverige,3,99,demokrati
England,4,102,monarki


### Oppg 4

Se at du kan slå opp fra oppgave 3 og hente ut en gitt kolonne, rad eller datapunkt
