# Grunnleggende om Python Pandas DataFrame

[Pandas](https://pandas.pydata.org/) er et python-bibliotek som gir effektive og brukervennlige datastruturer for dataanalyse. En av disse strukturene er Pandas DataFrame som består av data organisert i rader og kolonner.

Biblioteket er tilgjengelig for bruk i SSBs dapla JupyterLab (https://jupyter.prod-bip-app.ssb.no/):

<code>import pandas as pd</code>

## Grunnleggende operasjonen som kan gjøres på et pandas DataFrame:

1. Lage et pandas DataFrame
2. Gjøre operasjoner på rader og kolonner
3. Velge ut, legge til og fjerne data
4. Håndtere manglende (missing) data
5. Endre navn på kolonner eller indekser 

## 1. Lage et DataFrame

Pandas DataFrame kan opprettes ved å laste inn dataene fra dataplattformen, eller det kan lages ved å opprette et python Dictionary som vist under:

In [None]:
# importere pandas biblioteket
import pandas as pd
# lage et Dictionary med variabler (kolonnenavn) og verdier (kolonneverdier) som vi kaller land_fifa_data
land_fifa_data = {'Land':['Belgia', 'Frankrike', 'Brasil', 'England', 'Uruguay', 'Norge','Tyskland'],
                  'Poeng': [1765, 1733, 1712, 1661, 1645, 1451, 1602],
                 }

# skriv ut data
land_fifa_data

In [None]:
# Opprette et DataFrame objekt med dictionary som parameter
df_land_fifa = pd.DataFrame(land_fifa_data)
df_land_fifa



---



## 2. Gjøre operasjoner på rader og kolonner

DataFrame er en to-dimmensjonal datastruktur. Data er lagret i rader og kolonner. Nedenfor noen enkle pandas operasjoner.

**Velge en kolonne**

For å velge en kolonne, trenger vi bare å navngi kolonnenavnet: <code>df[['*kolonnenavn*']]</code>

In [None]:
# Velge kolonne
df_land_fifa[['Land']]

**Velge en rad a Row**

`loc` og `iloc` er metodene i Pandas DataFrame som velger ut rader med data. Forskjellen på er at `loc` gir rader etter *indekslabel* mens `iloc` gir rader ved en posisjon i indeksen (så denne metoden tar bare tall som parameter).

In [None]:
# Velge en rad med indeks 1
row = df_land_fifa.loc[1]

# skriv ut raden
row

In [None]:
# Velge de tre første radene med bruk av loc:
row3 = df_land_fifa.loc[:2]

row3

In [None]:
# Velge de tre første radene med bruk av iloc:
row3a = df_land_fifa.iloc[:3]

row3a



---



## 3. Velge ut, legge til og fjerne data

In [None]:
# Velg kolonne - Poeng
df_land_fifa['Poeng']

Kolonner kan fjernes med `del` kommandoen

In [None]:
del df_land_fifa['Poeng']
df_land_fifa

Legge til en Kolonne kan gjøres på flere måter.

Vi kan lage en liste med kolonneverdier, og legge dem til på denne måten:

In [None]:
fifa_poeng_2020 = [1765,1733,1712,1661,1645,1451,1602]
fifa_poeng_2010 = [589,890,1536,1125,1152,878,1464]

df_land_fifa['poeng 2020'] = fifa_poeng_2020
df_land_fifa['poeng 2010'] = fifa_poeng_2010
df_land_fifa

Eller vi kan bruke DataFrame-metode `insert()`

In [None]:
df_land_fifa.insert(3,'Utvikling',(df_land_fifa['poeng 2020']) - (df_land_fifa['poeng 2010']))
df_land_fifa



---



## 4. Håndtere manglende (missing) data

Manglende data forekommer ofte som `NaN` (Not a number). 

**Kontrollere for manglende data**

In [None]:
# imporere numpy bibliotektet (for å bruke funksjonen np.nan)
import numpy as np

# Legge til Sverige sine fifa poenger
sverige ={'Land': 'Sverige', 'poeng 2020':1579, 'poeng 2010':np.nan, 'Utvikling':np.nan}

df_land_fifa= df_land_fifa.append(sverige, ignore_index=True)
df_land_fifa

DataFrame metoden `isnull()` kan brukes for å sjekke om en observasjon er missing (null/NaN). 

In [None]:
df_land_fifa.isnull()

Når vi nå har missingverdier så kan vi endre disse med bruk av DataFrame-metoden `fillna()`

In [None]:
df_land_fifa = df_land_fifa.fillna(0)
df_land_fifa



---



## 5. Endre navn på kolonner eller indekser

Vi kan endre kolonnenavnene ved å bruke DataFrame-metoden `rename()`.

In [None]:
nye_kolonnenavn = {
                'poeng 2020': '2020',
                'poeng 2010': '2010',
          }

df_land_fifa.rename(columns=nye_kolonnenavn, inplace=True)
df_land_fifa

In [None]:
# Endre på indeksen...
nyindeks = {
            0: 'a',
            1: 'b',
            2: 'c',
            3: 'd',
            4: 'e',
            5: 'f',
            6: 'g',
            7: 'h'
}

df_land_fifa.rename(index=nyindeks)



---

