# Modul 1: Univariat analyse

## 1. Beskrivelse av analysen

Univariat analyse fokuserer på å oppsummere og forstå enkeltvariabler i et datasett.
Dette er den enkleste formen for analyse, ofte brukt for å beskrive fordelingen, sentraltendensen og spredningen av data.


## 2. Forutsetninger

- Datatyper:
  - Kategoriske (nominal, ordinal) eller numeriske (intervall, forholdstall).
- Antakelser:
  - For statistiske mål som gjennomsnitt bør data være numeriske og ikke sterkt skjevfordelte.
  - Kategoriske data bør ha klart definerte kategorier.


## 3. Vanlige visualiseringer

- For numeriske data:
  - Histogram: Visualiserer frekvensfordelingen.
  - Boksdiagram: Viser dataspredning, sentraltendens og uteliggere.
- For kategoriske data:
  - Stolpediagram: Viser antall eller proporsjoner for hver kategori.
  - Kakediagram: Viser proporsjonene av hver kategori (brukes sparsomt).


## 4. Viktige statistiske mål

- For numeriske data:
  - Sentraltendens:
    - Gjennomsnitt: Gjennomsnittsverdi.
    - Median: Midtverdien.
    - Modus: Mest hyppige verdi.
  - Spredning:
    - Variasjonsbredde: Forskjellen mellom maksimum og minimum.
    - Varians: Spredning av data rundt gjennomsnittet.
    - Standardavvik: Gjennomsnittlig avstand fra gjennomsnittet.
- For kategoriske data:
  - Frekvensfordeling: Antall forekomster for hver kategori.
  - Proporsjoner: Prosentvis representasjon av kategoriene.


## 5. Python-kodeeksempler

### a. Importere biblioteker og laste inn data
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Laste inn datasett
data = pd.read_csv('data.csv')
```
### b. Oppsummeringsstatistikk

```python
# Numeriske data
print(data['numerisk_kolonne'].describe())

# Kategoriske data
print(data['kategori_kolonne'].value_counts())
```
### c. Visualiseringer

```python
# Histogram
sns.histplot(data['numerisk_kolonne'], bins=10, kde=True)
plt.show()

# Boksdiagram
sns.boxplot(x=data['numerisk_kolonne'])
plt.show()

# Stolpediagram for kategoriske data
data['kategori_kolonne'].value_counts().plot(kind='bar')
plt.show()
```
## 6. Eksempler i kontekst

- Numeriske data: Analysere testresultater for å forstå gjennomsnittsprestasjon, spredning og uteliggere.
- Kategoriske data: Oppsummere undersøkelsesresultater om favorittsmaker på iskrem. 
## 7. Sjekkliste for antakelser

- Sørg for at datatypene er korrekte (numeriske eller kategoriske).
- Fjern ugyldige eller ekstreme uteliggere hvis de forvrenger oppsummeringsstatistikken.
- For kategoriske data, kontroller at alle kategorier er representert. 
## 8. Utfordringer og vanlige feil

- Feiltolke skjevfordelte data: For sterkt skjevfordelte data, bruk median i stedet for gjennomsnitt.
- Overforbruk av kakediagrammer: Stolpediagrammer kommuniserer ofte kategoriske data mer effektivt.
- Ignorere uteliggere: De kan forvrenge beregningene av gjennomsnitt og standardavvik. 
## 9. Ressurser for videre læring

### Nettkurs:
- Python Data Analysis med pandas
- Seaborn-visualiseringer

### Dokumentasjon:
- Matplotlib
- pandas describe() 

