# Test av store datasett med modin og pandas
Pandas har utfordringer med store datasett, både med tanke på minnebruk og ytelse.
[Modin](https://modin.readthedocs.io/en/stable/) kan brukes som en erstatning ved
bare å endre en linje kode, og kan være et enklere alternativ å ta i bruk enn å
bruke PySpark eller andre alternativer.

Det eneste du trenger å endre i koden din er:
```
# import pandas as pd
import modin.pandas as pd
```

I tillegg må du installere modin-pakken med kommandoen:
```
poetry add modin[ray]   # Eller pip install hvis du ikke bruker poetry
```

Noen fordeler med Modin:
* Virker på datsett større enn tilgjengelig minne (cacher til disk).
* Utnytter alle kjernene på prosessoren (pandas bruker kun 1), gir ofte høyere ytelse.
* Kan bruke eksisterende pandas-kode.

## Hvordan kjøre eksemplene nedenfor?

### På Jupyter i prod-sonen og på Dapla
1. Klon ut repoet
2. Kjør kommandoen `ssb-project build`
3. Åpne fila modin.ipynb i Jupyter, velg kjerne tech-coach-examples og kjør på
   vanlig måte.

### Lokalt på PC
Beskrivelsen nedenfor forutsetter at du har installert `poetry`.

1. Klon ut repoet
2. Kjør kommandoen `poetry update`
3. Kjør kommandoen `poetry run python -m ipykernel install --user --name tech-coach-examples`
4. Kjør kommandoen `poetry run jupyter lab`
5. Åpne fila modin.ipynb i Jupyter, velg kjerne tech-coach-examples og kjør på
   vanlig måte.


## Test med store datasett
Prøver å opprette en dataframe på 20 GB. På Jupyter i prod-sonen er det 10 GB
minne, og det går bra ved bruk av Modin, men ikke med Pandas.

### Med Modin
Hvis du kjører testen på Jupyter i prod-sonen vil du få noen advarsler, men etter
ca. 3 minutter er dataframen opprettet og du får ut info om den.

In [None]:
import modin.pandas as mpd
import numpy as np

df = mpd.concat(
    [
        mpd.DataFrame(
            np.random.default_rng().integers(0, 100, size=(2**20, 2**8)),
        )
        for _ in range(10)
    ],
)  # 10x2GB frames -- Working!
df.info()

### Med pandas
Tilsvarende kode med Pandas vil ikke virke, med mindre du har minst 20 GB minne.

In [None]:
import pandas as pd
import numpy as np

df = pd.concat(
    [
        pd.DataFrame(
            np.random.default_rng().integers(0, 100, size=(2**20, 2**8)),
        )
        for _ in range(10)
    ],
)  # Memory Error!