# Samanlikning av Pandas og SQL

Importere pandas og numpy

In [None]:
import pandas as pd
import numpy as np

Bruker det inkluderte datasettet

In [None]:
observations = pd.read_csv("data/MMSDB_observations_1995-2019-v2.csv", delimiter="$")

In [None]:
observations.columns

## SELECT

```sql
select 
    eventID, 
    eventDate, 
    scientificName
from observations;
```

I pandas sender ein inn ei liste med kolonner til dataframen:

In [None]:
observations[["eventID", "eventDate", "scientificName"]]

## WHERE

Filtrering i SQL gjerast ved bruk av `WHERE`:

```sql
SELECT 
    *
FROM observations
WHERE individualCount > 200
```

In [None]:
observations[(observations["habitat"] == "ice")]

Ekvivalent med å sende inn en `Series` med `True`/`False`-verdier, og returner alle radene som evalueres til `True`.

In [None]:
is_ice_habitat = observations["habitat"] == "ice"
is_ice_habitat

In [None]:
is_ice_habitat.value_counts()

In [None]:
observations[is_ice_habitat]

På same måte som i SQL, med `OR` og `AND`, kan fleire betingelsar brukast i pandas ved bruk av `|` (`OR`) og `&` (`AND`)

```sql
SELECT *
FROM observations
WHERE individualCount > 200 AND habitat = 'ice'
```

In [None]:
observations[(observations["individualCount"] > 200) & (observations["habitat"] == "ice")]

`NULL`-verdier kan sjekkes ved bruk av `isna()`, eller `notna()` for det motsatte tilfellet.

In [None]:
observations[observations["dynamicProperties.organisation"].notna()]

Negasjon ved bruk av `~` (`NOT`)

## GROUP BY

Typisk å:
1. Splitte datasettet i grupper
1. Aggregere ved bruk av ulike funksjonar
1. Kombinerer gruppene igjen

```sql
SELECT 
    scientificName, 
    count(*)
FROM observations
GROUP BY scientificName;
```

Ekvivalent i pandas:

In [None]:
observations.groupby("scientificName").size()

`count()` tar utfører telling på _alle_ kolonner, og returnerer alle rader som er `NOT NULL`.

In [None]:
observations.groupby("scientificName").count()

Alternativt kan ein utføre aggregeringa på enkelt-kolonner:

In [None]:
observations.groupby("scientificName")["eventID"].count()

Det er òg mogleg å ta i bruk fleire aggregerings-funksjonar samtidig:

```sql
SELECT 
    scientificName, avg(individualCount), count(*)
FROM observations
GROUP BY scientificName;
```

In [None]:
observations.groupby("scientificName").agg({
    "eventID": "count",
    "individualCount": "mean"
})

## JOIN 

In [None]:
animals = pd.read_csv("data/animals.csv")

`JOIN` kan bli utført ved `join()` eller `merge()`. I utgangspunktet vil den første joine på indeks. Kan spesifisere join-type (`LEFT`, `RIGHT`, `INNER`, `FULL`), samt kolonnene som er mogleg å joine på.

In [None]:
observations = pd.merge(observations, animals, on="scientificName")

## UNION

`pd.concat([])`

## LIMIT, OFFSET

```sql
SELECT 
    *
FROM observations
LIMIT 10;
```

Kan bruke `head(n)` for å få top `n` rader

In [None]:
observations.head(5)