<a id="funktioner"></a>
## De viktigaste funktionerna för statistikbehandling 

Python är ett mycket bra och mångsidigt verktyg för att hantera statistik, men mångsidigheten för med sig en ocean av information om olika funktioner. Här har vi samlat de viktigaste funktionerna i paketen pandas, numpy och matplotlib.pyplot. 

Du kan skapa egna kodceller för att testa de kommandon som visas här. 

<a id="pandas"></a>
### Hantera Datasets (paket: pandas)

**Paketet**

För att kunna behandla datasets behöver vi paketet pandas. Vi förkortar paketbeteckningen till pd, och vi kan kalla på paketets funktioner med **pd.funktionens_namn()**
````python
import pandas as pd
````

**Hämta in datasets**

Detta förutsätter att datafilen *dataset.csv* finns i samma mapp som din notebook. Funktionen **pd.read_csv()** omvandlar en csv-datafil till en *DataFrame* (tabellvariabel).  En DataFrame består av 

````python
datavariabel = pd.read_csv("dataset.csv")
````

**Kontrollera dataset**

.head-kommandot skriver ut de första raderna i tabellen.
````python
datavariabel.head()
````
**Välj ut en cell ur tabellen**

Vi vill välja ut det tabellvärde som ligger i den första raden och tredje kolumnen. Indexering i python börjar från noll, så den första raden har index 0 och den tredje kolumnen har index 2.
````python
datacell = datavariabel.iloc[0][2]
````

**Välj ut kolumner (lodräta) ur tabellen**
````python
years = datavariabel.Year  # Söker kolumnen "Year" ur tabellen och sparar den som variabeln years.

````

**Välj ut rader (vågräta) ur tabellen**

exempel: Tabellen innehåller en kolumn med rubriken *Entity*, och du vill välja ut de rader som innehåller "Finland", eller datatabellen innehåller en kolumn *Year* och du vill välja ut de rader med årtal mellan 2000 och 2005.

(Ett enkelt =-tecken innebär att vi definierar ett värde. Dubbla ==-tecken innebär att vi jämför/kontrollerar ett värde)
````python
dataFIN = datavariabel[datavariabel.Entity == "Finland"]
datadel = datavariabel[(datavariabel.Year >= 2000) & (datavariabel.Year <= 2005)]
    
````

<a id="matplotlib"></a>
### Skapa grafer (paket: matplotlib.pyplot)

**Paketet**

För att kunna rita grafer behöver vi paketet matplotlib.pyplot. Vi förkortar paketbeteckningen till plt, och vi kan kalla på paketets funktioner med **plt.funktionens_namn()**
````python
import matplotlib.pyplot as plt
````


**Definiera grafen**

Inled med kommandot fig = plt.figure() för att kunna bestämma grafens storlek bl.a. <br>
Avsluta med kommandot plt.show() för att visa grafen. Mellan dessa två kommandon kan du skriva kommandon som skapar och ändrar grafen.

````python
fig = plt.figure(figsize = (8,20))

...

plt.show()
````

**Skapa diagram**

Dessa funktioner kan användas för att skapa diagram över värden i en lista. Vissa kräver två listor (två koordinater). Då är det viktigt att listorna innehåller lika många värden.
````python
plt.hist(lista)                  # histogram
plt.bar(namnlista, vardelista)   # stapeldiagram
plt.plot(xlista, ylista)         # graf
plt.scatter(xlista, ylista)      # punkter
````


**Parametrar**

I varje diagramkommando kan man lägga till parametrar för att ändra det. Man kan skriva många parametrar i rad och ordningsföljden gör oftast ingen skillnad.

````python
plt.hist(lista, bins=25)                        # "bins=" används för att bestämma antalet staplar (10 är default).
plt.hist(lista, color='blue')                   # "color=" Ändrar histogrammets färg
plt.plot(xlista, ylista, label="grafens namn")  # "label=" Används för att namnge kurvan. Namnen kan visas med kommandot plt.legend()

````

**Tydlighet**

Dessa kommandon kan användas för att modifiera grafen

````python
plt.xlabel("x-axelns namn", fontsize=18)
plt.ylabel("y-axelns namn", fontsize=18)
plt.title("diagrammets titel", fontsize=20)
plt.xlim = (1000, 2000)       # begränsar grafen i x-led
plt.ylim = (1000, 2000)       # begränsar grafen i y-led
plt.legend()                  # lägger till en informationsruta som visar grafernas labels.

````

<a id="numpy"></a>
### Beräkningar (paket: numpy)

**Paketet**

För att kunna göra statistiska beräkningar behöver vi paketet numpy. Vi förkortar paketbeteckningen till np, och vi kan kalla på paketets funktioner med **np.funktionens_namn()**
````python
import numpy as np
````

**medeltal**

Vi har en lista med värden och vill beräkna medelvärdet av dessa värden.
````python
medeltal = np.average(lista)
````

**varians och standardavvikelse**

Vi har en lista med värden och vill beräkna varians eller standardavvikelse av dessa värden.
````python
varians = np.var(lista)
standardavvikelse = np.std(lista)
````
