# Vecka 3 - dagens ämnen

Idag kommer vi börja med en introduktion till ett av pythons bibliotek för att manipulera och analysera data, nämligen `pandas`.

Sedan kommer vi fortsätta bekanta oss med några av de diskreta sannolikhetsfördelningar (t.ex. Binomialfördelningen) som vi har sett i denna veckas föreläsningar. Vi kommer seytterligare exempel av dessa och försöka oss på att modellera riktig data med våra sannolikhetsfördelningar dessa.

Vi kommer också ta fram beskrivande statistik på datamängder med hjälp av `pandas`.

# Pandas

Pandas är ett bibliotek som är byggt på `numpy` och som är väldigt användbart för att manipulera och analysera data. Pandas är också väldigt snabbt, vilket gör det till ett bra alternativ för att analysera stora datamängder.

I denna notebook kommer vi att gå igenom några av de vanligaste funktionerna i pandas. Vi kommer att använda oss av en dataset som heter `iris` som innehåller data om tre olika arter av blommor. 
I datasetet finns information av olika karaktärsdrag hos blommorna, t.ex. längd på blomman, bredd på blomman, längd på kronbladet och bredd på kronbladet. 

### Importera pandas

In [2]:
import pandas as pd

### Ladda in datasetet
I pandas kan vi ladda in data från olika källor, t.ex. från en csv-fil. Vi kommer att använda oss av `read_csv` för att ladda in data från en csv-fil. 

In [3]:
data = pd.read_csv('data/iris.csv')

### Visa de första raderna i datasetet
Vi kan använda oss av `head` för att visa de första raderna i datasetet. 


In [4]:
# Print the first 10 rows of the data
print(data.head(10))

   sepallength  sepalwidth  petallength  petalwidth        class
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         3.0          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
3          4.6         3.1          1.5         0.2  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa
5          5.4         3.9          1.7         0.4  Iris-setosa
6          4.6         3.4          1.4         0.3  Iris-setosa
7          5.0         3.4          1.5         0.2  Iris-setosa
8          4.4         2.9          1.4         0.2  Iris-setosa
9          4.9         3.1          1.5         0.1  Iris-setosa



### Visa de sista raderna i datasetet
Vi kan använda oss av `tail` för att visa de sista raderna i datasetet. 


In [5]:
# Print the last 10 rows of the data
print(data.tail(10))

     sepallength  sepalwidth  petallength  petalwidth           class
140          6.7         3.1          5.6         2.4  Iris-virginica
141          6.9         3.1          5.1         2.3  Iris-virginica
142          5.8         2.7          5.1         1.9  Iris-virginica
143          6.8         3.2          5.9         2.3  Iris-virginica
144          6.7         3.3          5.7         2.5  Iris-virginica
145          6.7         3.0          5.2         2.3  Iris-virginica
146          6.3         2.5          5.0         1.9  Iris-virginica
147          6.5         3.0          5.2         2.0  Iris-virginica
148          6.2         3.4          5.4         2.3  Iris-virginica
149          5.9         3.0          5.1         1.8  Iris-virginica



### Visa antalet rader och kolumner i datasetet
Vi kan använda oss av `shape` för att visa antalet rader i datasetet. 


In [6]:
# Print the number of rows and columns in the data
print(f"Shape of data: {data.shape}")
print(f"The number of rows: {data.shape[0]} \nThe number of columns: {data.shape[1]}")

Shape of data: (150, 5)
The number of rows: 150 
The number of columns: 5



### Visa kolumnnamnen
Vi kan använda oss av `columns` för att visa kolumnnamnen. Dessa kolmnnamn beskriver de olika karaktärsdragen hos blommorna.


In [7]:
# Print the column names
print(data.columns)

Index(['sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class'], dtype='object')


### Visa en specifik kolumn
Vi kan använda oss av `[]` för att visa all data från en specifik kolumn. 


In [8]:
# Print the data of a specific column
print(data['sepallength'])

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepallength, Length: 150, dtype: float64


### Visa en rad
Vi kan använda oss av `loc[]` för att visa en rad. Observera att vi måste ange indexet för raden vi vill visa, dvs. namnet på den indexering vi valt.

Här skapar vi också en DataFrame genom att använda en dictionary, `dict`.

In [15]:
# Dummy DateFrame to show difference between loc and iloc. Created using a dictionary.
team_dict = {'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
            'points': [5, 7, 7, 9, 12, 9, 9, 4],
            'assists': [11, 8, 10, 6, 6, 5, 9, 12]}
team_df = pd.DataFrame(team_dict, index = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])

# Show the DataFrame
print(f"Show dataframe: \n{team_df}")

# Print the data of a specific row, indexed using letters
print(f"\nShow row with index 'B':\n{team_df.loc['B']}")

Show dataframe: 
  team  points  assists
A    A       5       11
B    A       7        8
C    A       7       10
D    A       9        6
E    B      12        6
F    B       9        5
G    B       9        9
H    B       4       12

Show row with index 'B':
team       A
points     7
assists    8
Name: B, dtype: object


### Visa en rad med hjälp av index
Vi kan använda oss av `iloc[]` för att visa en rad med hjälp av index. 

In [16]:
# Print the data of a specific row, indexed using numbers
print(f"\nShow row with index 2:\n{team_df.iloc[1]}")


Show row with index 2:
team       A
points     7
assists    8
Name: B, dtype: object


### Visa en specifik cell
Vi kan använda oss av `loc[]` för att visa en specifik cell.


In [17]:
# Print the data from a specific row and column using loc
print(f"\nShow data from row 'B' and column 'points': {team_df.loc['B', 'points']}")


Show data from row 'B' and column 'points': 7



### Visa en specifik cell med hjälp av index
Vi kan använda oss av `iloc[]` för att visa en specifik cell med hjälp av index. 


In [18]:
# Print the data from a specific row and column using iloc
print(f"\nShow data from row 1 and column 1: {team_df.iloc[1, 1]}")


Show data from row 1 and column 1: 7


### Visa antalet unika värden i en kolumn
Vi kan använda oss av `nunique` för att visa antalet unika värden i en kolumn. Detta kan vara användbart om vi vill veta hur många olika arter av blommor som finns i datasetet.


In [39]:
# Get the number of unique values in a the column class. This corresponds to the number of different flowers in the dataset
print(f"\nNumber of unique values in column 'class': {data['class'].nunique()}")


Number of unique values in column 'class': 3


### Visa antalet värden i en kolumn
Vi kan använda oss av `value_counts` för att visa antalet värden i en kolumn. Detta kan vara användbart om vi har en kolumn som innehåller kategoriska värden och vill veta hur många gånger varje kategori förekommer i datasetet.


In [40]:
# Get number of data rows for each class
print(f"\nNumber of data rows for each class: \n{data['class'].value_counts()}")


Number of data rows for each class: 
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64


### Visa antalet värden i en kolumn i procent
Vi kan använda oss av `value_counts` för att visa antalet värden i en kolumn i procent. Detta gör vi genom att sätta `normalize=True` som ett argument till `value_counts`. 


In [41]:
# Show the percentage of data rows for each class
print(f"\nPercentage of data rows for each class: \n{data['class'].value_counts(normalize=True)}")


Percentage of data rows for each class: 
Iris-setosa        0.333333
Iris-versicolor    0.333333
Iris-virginica     0.333333
Name: class, dtype: float64


## Beskrivande statistik med pandas
I pandas kan vi använda oss av funktioner för att beräkna beskrivande statistik på datamängder. 

* `mean` - medelvärde
* `median` - median
* `std` - standardavvikelse
* `min` - minsta värdet
* `max` - största värdet
* `quantile` - kvantiler



In [52]:
# Show the mean of the data for each class using groupby
print(f"\nMean of the data for each class: \n{data.groupby('class').mean()}\n")



Mean of the data for each class: 
                 sepallength  sepalwidth  petallength  petalwidth
class                                                            
Iris-setosa            5.006       3.418        1.464       0.244
Iris-versicolor        5.936       2.770        4.260       1.326
Iris-virginica         6.588       2.974        5.552       2.026



In [53]:
# Show median of the data for each class using group
print(f"\nMedian of the data for each class: \n{data.groupby('class').median()}\n")


Median of the data for each class: 
                 sepallength  sepalwidth  petallength  petalwidth
class                                                            
Iris-setosa              5.0         3.4         1.50         0.2
Iris-versicolor          5.9         2.8         4.35         1.3
Iris-virginica           6.5         3.0         5.55         2.0



In [54]:
# Show the standard deviation of the data for each class using group
print(f"\nStandard deviation of the data for each class: \n{data.groupby('class').std()}\n")


Standard deviation of the data for each class: 
                 sepallength  sepalwidth  petallength  petalwidth
class                                                            
Iris-setosa         0.352490    0.381024     0.173511    0.107210
Iris-versicolor     0.516171    0.313798     0.469911    0.197753
Iris-virginica      0.635880    0.322497     0.551895    0.274650



In [57]:
# Calculate quantiles of the data for each class using group
print(f"\nQuantiles of the data for each class: \n{data.groupby('class').quantile([0.05, 0.25, 0.50, 0.75, 0.95])}\n")


Quantiles of the data for each class: 
                      sepallength  sepalwidth  petallength  petalwidth
class                                                                 
Iris-setosa     0.05        4.400       3.000        1.200       0.100
                0.25        4.800       3.125        1.400       0.200
                0.50        5.000       3.400        1.500       0.200
                0.75        5.200       3.675        1.575       0.300
                0.95        5.610       4.055        1.700       0.400
Iris-versicolor 0.05        5.045       2.245        3.390       1.000
                0.25        5.600       2.525        4.000       1.200
                0.50        5.900       2.800        4.350       1.300
                0.75        6.300       3.000        4.600       1.500
                0.95        6.755       3.200        4.900       1.600
Iris-virginica  0.05        5.745       2.500        4.845       1.545
                0.25        6.225    

In [42]:
data.describe()

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## NaN-värden
Ibland saknas mätvärden i datamängden. Dessa brukar ofta dyka upp som `NaN`-värden. `NaN` står för _Not a Number_ och är ett sätt att representera att ett värde saknas. Beroende på hur datamängden är konstruerad kan andra värden också representera att ett värde saknas. T.ex. kan `0` eller `-1` representera att ett värde saknas. 

`NaN`-värden kan vara problematiska när vi vill beräkna statistiska mått. Om vi t.ex. vill beräkna medelvärdet av en datamängd så kommer `NaN`-värden att påverka resultatet. Detta är något som vi måste tänka på när vi arbetar med datamängder.

Låt oss nu se hur vi kan hantera `NaN`-värden i pandas.

In [None]:
# Corupt the data with NaN values
start = 0
stop = 3
data_corrupt = data.copy()
data_corrupt.iloc[start:stop, 0:-1] = np.nan

data_corrupt.head(7)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,,,,,Iris-setosa
1,,,,,Iris-setosa
2,,,,,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa


Ett sett att upptäcka `NaN`-värden är att använda funktionen `df.isna()`. Funktionen returnerar en datamängd med `True` och `False`-värden där `True` representerar att ett värde är `NaN` och `False` representerar att ett värde inte är `NaN`. Låt oss använda `df.isna()` för att se om det finns några `NaN`-värden i `iris`-datamängden:



In [None]:
# Check for NaN values
data_corrupt.isna()


Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,True,True,True,True,False
1,True,True,True,True,False
2,True,True,True,True,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
145,False,False,False,False,False
146,False,False,False,False,False
147,False,False,False,False,False
148,False,False,False,False,False


Det finns olika sätt att hantera dessa `NaN`-värden. Vi kan t.ex. ta bort alla rader som innehåller `NaN`-värden. Detta kan vi göra med funktionen `df.dropna()`. Låt oss använda `df.dropna()` för att ta bort alla rader som innehåller `NaN`-värden:

In [None]:
# Drop rows with NaN values
data_corrupt.dropna()

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Vi kan också fylla i `NaN`-värden med ett annat värde. Detta kan vi göra med funktionen `df.fillna()`. Låt oss använda `df.fillna()` för att fylla i alla `NaN`-värden med värdet `0`:

In [None]:
data_corrupt.fillna(0)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,0.0,0.0,0.0,0.0,Iris-setosa
1,0.0,0.0,0.0,0.0,Iris-setosa
2,0.0,0.0,0.0,0.0,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### Droppa kolumner
Vi kan också ta bort kolumner som innehåller `NaN`-värden. Detta kan vi göra med funktionen `df.dropna(axis=1)`. Låt oss använda `df.dropna(axis=1)` för att ta bort kolumnerna som innehåller `NaN`-värden:

In [None]:
# Drop columns with NaN values
data_corrupt.dropna(axis=1)

Unnamed: 0,class
0,Iris-setosa
1,Iris-setosa
2,Iris-setosa
3,Iris-setosa
4,Iris-setosa
...,...
145,Iris-virginica
146,Iris-virginica
147,Iris-virginica
148,Iris-virginica
