In [1]:
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import matplotlib.transforms as transforms
from IPython.display import HTML

import numpy as np

### Kasta tärning
Skapa ena funktion som kastar en tärning med n sidor N antal gånger.  
Samtidigt håller vi reda på andel då talet x har dykt efter varje kast.

In [2]:
# Get propotion of x showing up in an n sided die over N trials
def propotion_over_time(x, n, N):
    """
    Get propotion of x showing up in an n sided die over N trials

    x: int, the number of interest
    n: int, the number of sides of the die
    N: int, the number of trials
    """
    # Calculate the proportion of the number x during N dice tosses and append it to a list
    favurable = [np.random.randint(1, n + 1) == x for i in range(N)]
    toss_nbr = np.array(range(1, N + 1))
    prop = np.cumsum(favurable) / toss_nbr
    return prop



# Relativ frekvens
När vi genomför samma slumpförsök många gånger kan vi skapa oss en uppfattning om den relativa frekvensen av en händelse genom:
$$relativ\ frekvens = \frac{gynsamma\ fall}{antalet\ försök}.$$ 

Nedan hittar vi ett exmpel med en **n** sidig tärning där vi undersöker den relativa frekvensen för händelsen *slå **x** antal prickar* och jämför mot den teoretiska sannolikheten.  


In [56]:
%matplotlib notebook

# Parameters to dice tosses
x = 1   # Number to be tossed
n = 6   # Number of sides on the dice   
N = 5000   # Number of tosses

# Parameters for the animation
number_of_frames = 50
speed = N//number_of_frames
draw_chunk = np.arange(0, speed, speed / number_of_frames)
sleep = 200.0

# Set up figure
fig, ax = plt.subplots()
line, = ax.plot([])
ax.set_xlim(-N*0.05, N)
ax.set_ylim(0, 1/n * 2)
ax.hlines(1/n, -N*0.05, N, color='r', linestyle='--')
ax.set_xlabel('Number of tosses')
ax.set_ylabel('Proportion of ' + str(x) + "s")
ax.set_title(f"Tossing an {n} sided die {N} times")
trans = transforms.blended_transform_factory(
    ax.get_yticklabels()[0].get_transform(), ax.transData)
ax.text(0,1/n, "{:.2f}".format(1/n), color="red", transform=trans, 
        ha="right", va="center")
ax.legend(['Proportion of ' + str(x) + "s", 'Expected proportion of ' + str(x) + "s"])

# Get proportion of x over time
prop_tosses = propotion_over_time(x, n, N)

# Calculate frames in animation
counter = 0
def animate(frame_num):
    global counter

    # Get the last frame
    if counter == number_of_frames:
        line.set_data(np.arange(N), prop_tosses)
        return line

    # Get the current chunk of data
    line.set_data(np.arange(int(frame_num * draw_chunk[counter])), prop_tosses[:int(frame_num * draw_chunk[counter])])

    # Update counter
    counter = counter + 1
    return line

# Create animation
anim = FuncAnimation(fig, animate, frames=number_of_frames, interval=sleep)

# Display animation
HTML(anim.to_jshtml())



<IPython.core.display.Javascript object>

# Summor i programmering
Matematikens summa operator 
$$\sum_{n=1}^{100} n = 1 + 2 + 3 + 4 + ... + 100 = ?$$
kan enkelt representeras av en for-loop. Räknaren i for-loopen motsvarar *n* och antalet gånger summationen genmförs kan representeras av *N*.

Observera att vi i matematiken summerar inklusive sista talet, dvs. 100 i exemplet. Detta skiljer sig från hur `range(start, stop)` beter sig i en for-loop, då loopen stannar vid `stop - 1`.

In [15]:
N = 10000000

# Sum using for loop 1 to 100
sum = 0
for n in range(1, N+1): # From 1 to N + 1 because range is exclusive of the last number
    sum += n
print(sum)

sum2 = 0
for i in range(1, N+1):
    sum2 += 1/i
print(sum2)

50000005000000
16.695311365857272


Låt oss testa en geomentrisk summa (serie):

$$\sum_{n=0}^{\infty} a^{n} = \frac{a^0}{1-a}, \quad |a|<1.$$

Då $|a|$ är mindre än 1 kommer summan konvergera till $\frac{a^0}{1-a}$. T.ex. låt $a=0.5$:

$$\sum_{n=0}^{\infty} \left(\frac{1}{2})\right) ^{n} = \left(\frac{1}{2}\right)^0 + \left(\frac{1}{2}\right)^1 + \left(\frac{1}{2}\right)^2 + ... = 1 + \frac{1}{2} + \frac{1}{4} + ... = \frac{1}{1-\frac{1}{2}} = 2$$

Kan detta stämma... Dags att undersöka med en for-loop!

In [62]:
# Number of iterations should be large
N = 1
a = 0.5

# Create a geometric sum using a for loop
sum = 0
for n in range(0, N+1):
    sum += a**n
# Print result
print(f"Result of geometric sum using a for loop: {sum}")



Result of geometric sum using a for loop: 1.5


# Betingade sannolikheter

En betingade sannolikheter är ett mått sannolikheten givet att något annat har hänt. Vi betecknar detta
$$Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)}$$
och utrycker det som _Sannolikheten för A givet B_.


In [29]:
import pandas as pd

df = pd.read_csv('student-alcohol-consumption/student-mat.csv')
df.head()   # Show first 5 rows of the dataframe

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


In [30]:
len(df) # Number of rows in the dataframe

395

Vi kommer bara titta på hur frånvaro (absences) och slutbetyg (G3, med 0-20 poäng) förhåller sig till varandra. 

Låt oss hitta alla med betyg A, dvs. 80% eller högre på slutprovet.

In [32]:
df['grade_A'] = np.where(df['G3']*5 >= 80, 1, 0) # Create a new column with 1 if the grade is A and 0 otherwise

Nu vill vi hitta alla med hög frånvaro och lägga i en boolean vektor

In [34]:
df['high_absenses'] = np.where(df['absences'] >= 10, 1, 0) # Create a new column with 1 if the absences is 10 or more and 0 otherwise

# Add a count column to the dataframe
df['count'] = 1

Ta bort alla columner som vi inte är intresserade av.

In [40]:
df = df[['grade_A', 'high_absenses', 'count']]
df.head(7)

Unnamed: 0,grade_A,high_absenses,count
0,0,0,1
1,0,0,1
2,0,1,1
3,0,0,1
4,0,0,1
5,0,1,1
6,0,0,1


Nu kan vi skapa en pivot tabell som visar antalet förekomster i varje kategori.

In [41]:
pd.pivot_table(
    df, 
    values='count', 
    index=['grade_A'], 
    columns=['high_absenses'], 
    aggfunc=np.size, 
    fill_value=0
)

high_absenses,0,1
grade_A,Unnamed: 1_level_1,Unnamed: 2_level_1
0,277,78
1,35,5


Låt oss definiera sannolikheter som vi är intresserade av 
* `Pr(A)` : Sannolikheten för A
* `Pr(B)` : Sannolikheten att minst 10 föreläsningar
* `Pr(A|B)` : Sannolikheten att få A i slutbetyg förutsatt att studeten missat minst 10 föreläsningar

In [53]:
# Total number of students
nbr_students = len(df)

# Get probability
Pr_A = np.sum(df['grade_A']) / nbr_students
Pr_B = np.sum(df['high_absenses']) / nbr_students

print(f"Probability of getting an A: {Pr_A * 100:.2f}%")
print(f"Probability of having 10 or more absenses: {Pr_B * 100:.2f}%")


Probability of getting an A: 10.13%
Probability of having 10 or more absenses: 21.01%


Då $Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)}$ behöver vi få fram $Pr(A \cap B)$. Detta är detsamma som sannolikheten för **_Både A och B_**

In [51]:
Pr_AnB = np.sum(df['grade_A'] & df['high_absenses']) / nbr_students
print(f"Probability of getting an A and having 10 or more absenses: {Pr_AnB * 100:.2f}%")

Probability of getting an A and having 10 or more absenses: 1.27%


Nu har vi allt för att svara på frågan: "Hur sannolikt är det att få A när man missat minst 10 föreläsningar"

In [52]:
Pr_AB = Pr_AnB / Pr_B
print(f"Probability of getting an A given that you have 10 or more absenses: {Pr_AB * 100:.2f}%")

Probability of getting an A given that you have 10 or more absenses: 6.02%
