# [Statistics] Guided Project: Mobile App for Lottery Addiction

A medical institute that aims to prevent and treat gambling addictions wants to build a dedicated mobile app to help lottery addicts better estimate their chances of winning. The institute has a team of engineers that will build the app, but they need us to create the logical core of the app and calculate probabilities.

For the first version of the app, they want us to focus on the 6/49 lottery and build functions that enable users to answer questions like:

    What is the probability of winning the big prize with a single ticket?
    What is the probability of winning the big prize if we play 40 different tickets (or any other number)?
    What is the probability of having at least five (or four, or three, or two) winning numbers on a single ticket?


The institute also wants us to consider historical data coming from the national 6/49 lottery game in Canada. The data set (https://www.kaggle.com/datascienceai/lottery-dataset) has data for 3,665 drawings, dating from 1982 to 2018 (we'll come back to this).

Da in dieser Übung immer wieder Kombinationen und Fakultäten berechnet werden, werden diese zuerst als Funktionen erstellt.

In [1]:
def factorial(n):
    result=1
    for number in range(n,0,-1):
        result *=number
    return result

In [2]:
def combinations(n,k):
    return factorial(n)/(factorial(k)*factorial(n-k))

For the first version of the app, we want players to be able to calculate the probability of winning the big prize with the various numbers they play on a single ticket (for each ticket a player chooses six numbers out of 49). So, we'll start by building a function that calculates the probability of winning the big prize for any given ticket.

In [3]:
def one_ticket_probability(numbers):
    outcomes=combinations(49,6)
    p_big_prize_percent=(1/outcomes)*100
    print("Die Wahrscheinlichkeit mit ihren Zahlen {} den Jackpot zu gewinnnen beträgt {:.13f} Prozent.".format(numbers,p_big_prize_percent))

In [4]:
test_list=[1,2,3,4,5,6]
one_ticket_probability(test_list)

Die Wahrscheinlichkeit mit ihren Zahlen [1, 2, 3, 4, 5, 6] den Jackpot zu gewinnnen beträgt 0.0000071511238 Prozent.


Dies ist eine Funktion die personalisiert zu eingegebenen Lottozahlen die Gewinnwahrscheinlichkeit in einer verständlichen Notation ausgibt.

On the previous screen, we wrote a function that can tell users what is the probability of winning the big prize with a single ticket. For the first version of the app, however, users should also be able to compare their ticket against the historical lottery data in Canada and determine whether they would have ever won by now.

In [5]:
import pandas as pd

canada_lotto_hist=pd.read_csv("649.csv")

In [6]:
canada_lotto_hist.shape

(3665, 11)

In [7]:
print(canada_lotto_hist.head(3))
print(canada_lotto_hist.tail(3))

   PRODUCT  DRAW NUMBER  SEQUENCE NUMBER  DRAW DATE  NUMBER DRAWN 1  \
0      649            1                0  6/12/1982               3   
1      649            2                0  6/19/1982               8   
2      649            3                0  6/26/1982               1   

   NUMBER DRAWN 2  NUMBER DRAWN 3  NUMBER DRAWN 4  NUMBER DRAWN 5  \
0              11              12              14              41   
1              33              36              37              39   
2               6              23              24              27   

   NUMBER DRAWN 6  BONUS NUMBER  
0              43            13  
1              41             9  
2              39            34  
      PRODUCT  DRAW NUMBER  SEQUENCE NUMBER  DRAW DATE  NUMBER DRAWN 1  \
3662      649         3589                0  6/13/2018               6   
3663      649         3590                0  6/16/2018               2   
3664      649         3591                0  6/20/2018              14   

     

In [8]:
historic_numbers=canada_lotto_hist.loc[:,"NUMBER DRAWN 1":"NUMBER DRAWN 6"]

In [9]:
historic_numbers

Unnamed: 0,NUMBER DRAWN 1,NUMBER DRAWN 2,NUMBER DRAWN 3,NUMBER DRAWN 4,NUMBER DRAWN 5,NUMBER DRAWN 6
0,3,11,12,14,41,43
1,8,33,36,37,39,41
2,1,6,23,24,27,39
3,3,9,10,13,20,43
4,5,14,21,31,34,47
5,8,20,21,25,31,41
6,18,25,28,33,36,42
7,7,16,17,31,40,48
8,5,10,23,27,37,38
9,4,15,30,37,46,48


In [10]:
def extract_numbers(row):
    return set(row)

In [11]:
historic_numbers_series=historic_numbers.apply(extract_numbers, axis=1)

In [12]:
test_list_2=list(historic_numbers_series[0])
test_list_2

[3, 41, 11, 12, 43, 14]

In [13]:
def check_historical_occurance(user_numbers,historic_numbers):
    win_counter=sum(historic_numbers==set(user_numbers))
    if win_counter==0:
        output_msg="Ihre Kombination {} hat in der Vergangenheit noch nie Jackpot gewonnen. Die Wahrscheinlichkeit mit ihren Zahlen den Jackpot zu gewinnnen beträgt {:.13f} Prozent.".format(str(user_numbers),1/combinations(49,6))
        return output_msg
    output_msg="Ihre Kombination {} hat in der Vergangenheit bereits {} mal den Jackpot gewonnen. Die Wahrscheinlichkeit mit ihren Zahlen den Jackpot zu gewinnnen beträgt {:.13f} Prozent.".format(str(user_numbers),str(win_counter),1/combinations(49,6))
    return output_msg

Jetzt der Test, einmal mit einer zufälligen Zahl, einmal mit einer Zahl, die mindestens einmal bereits gewonnen hat.

In [14]:
check_historical_occurance(test_list,historic_numbers_series)

'Ihre Kombination [1, 2, 3, 4, 5, 6] hat in der Vergangenheit noch nie Jackpot gewonnen. Die Wahrscheinlichkeit mit ihren Zahlen den Jackpot zu gewinnnen beträgt 0.0000000715112 Prozent.'

In [15]:
check_historical_occurance(test_list_2,historic_numbers_series)

'Ihre Kombination [3, 41, 11, 12, 43, 14] hat in der Vergangenheit bereits 1 mal den Jackpot gewonnen. Die Wahrscheinlichkeit mit ihren Zahlen den Jackpot zu gewinnnen beträgt 0.0000000715112 Prozent.'

Diese Funkntion testet vom User eingegebene Zahlen anhand der Lotto-Datenbank, ob diese schon einmal gewonnnen haben. Zusammen mit der allgemeinen Gewinnn-Wahrscheinlichkeit wird die Information, wie oft diese Zahl bereits gewonnen habe, ausgegeben.

Lottery addicts usually play more than one ticket on a single drawing, thinking that this might increase their chances of winning significantly. Our purpose is to help them better estimate their chances of winning — on this screen, we're going to write a function that will allow the users to calculate the chances of winning for any number of different tickets.

In [16]:
def multi_ticket_probability(no_of_tickets):
    probability_percent=(no_of_tickets/combinations(49,6))*100
    output_msg="Die Wahrscheinlichkeit mit ihren {} Scheinen den Jackpot zu gewinnen beträgt {:.13f} Prozent, bzw. 1 zu {:,.0f}.".format(no_of_tickets,probability_percent,combinations(49,6)/no_of_tickets)
    return output_msg

In [17]:
multi_ticket_probability(10)

'Die Wahrscheinlichkeit mit ihren 10 Scheinen den Jackpot zu gewinnen beträgt 0.0000715112384 Prozent, bzw. 1 zu 1,398,382.'

For extra context, in most 6/49 lotteries there are smaller prizes if a player's ticket match two, three, four, or five of the six numbers drawn. As a consequence, the users might be interested in knowing the probability of having two, three, four, or five winning numbers.

In [18]:
def probability_less_6(user_numbers,exp_winning_numbers):
    comb_wn=combinations(6,exp_winning_numbers)*combinations(49-exp_winning_numbers,6-exp_winning_numbers)
    comb_ov=combinations(49,6)
    p_winning_numbers=comb_wn/comb_ov
    percent_winning=p_winning_numbers*100
    output_msg="Die Chance mit ihren Zahlen {} Richtige zu erzielen beträgt {:.13f} Prozent, bzw. ca. 1 zu {}".format(exp_winning_numbers,percent_winning,round(1/p_winning_numbers))
    return output_msg

In [19]:
probability_less_6(test_list,5)

'Die Chance mit ihren Zahlen 5 Richtige zu erzielen beträgt 0.0018878966943 Prozent, bzw. ca. 1 zu 52969'

# Erweiterungs-Teil
Um die Beschreibungen der Wahrscheinlichkeiten noch anschaulicher zu gestalten, werde ich dies mit seltenen Todesfällen vergleichen. Hierfür habe ich unter https://www.floridamuseum.ufl.edu/shark-attacks/odds/compare-risk/death/ eine Liste gefunden. Die Website habe ich geparsed und als .csv hinzugefügt. Ich werde diese nun einlesen und in die App integrieren.

Sources: All accidental death information from National Safety Council. Disease death information from Centers for Disease Control and Prevention. Shark fatality data provided by the International Shark Attack File.)

In [20]:
death_risks=pd.read_csv("Disease and cause of death.csv", sep=";")

In [21]:
death_risks.head()

Unnamed: 0,Disease and Accidental Causes of Deaths,Annual Deaths,Death Risk During One's Lifetime
0,Heart disease,652.486,1 in 5
1,Cancer,553.888,1 in 7
2,Stroke,150.074,1 in 24
3,Hospital Infections,99.0,1 in 38
4,Flu,59.664,1 in 63


Um mit diesem Datensatz zu arbeiten, muss er erst formatiert werden.

- Nicht brauchbare Daten entfernen (optional)
- Datentypen anpassen
- Überschriften anpassen
- in ein mathematisch nutzbares Format überführen

In [22]:
risks_splitted=death_risks["Death Risk During One's Lifetime"].str.split("in",expand=True)

In [27]:
risks_splitted[0]=(risks_splitted[0]
                   .str.strip()
                   .str.replace(",",""))
risks_splitted[1]=(risks_splitted[1]
                   .str.strip()
                   .str.replace(",",""))

In [28]:
risks_splitted=risks_splitted.astype(float)

Die beiden Teile des Lebenszeit-Risikos werden einfach miteinander verrechnet, dadurch wird die Wahrscheinlichkeit mit den Wahrscheinlichkeiten in der App vergleichbar.

In [29]:
risks_formatted=risks_splitted[0]/risks_splitted[1]

In [30]:
risks_formatted.head()

0    0.200000
1    0.142857
2    0.041667
3    0.026316
4    0.015873
dtype: float64

In [31]:
death_risks["risk_lifetime"]=risks_formatted

In [32]:
death_risks.head()

Unnamed: 0,Disease and Accidental Causes of Deaths,Annual Deaths,Death Risk During One's Lifetime,risk_lifetime
0,Heart disease,652.486,1 in 5,0.2
1,Cancer,553.888,1 in 7,0.142857
2,Stroke,150.074,1 in 24,0.041667
3,Hospital Infections,99.0,1 in 38,0.026316
4,Flu,59.664,1 in 63,0.015873


In [35]:
death_risks.drop(axis=1,labels="Death Risk During One's Lifetime",inplace=True)

In [45]:
death_risks.rename({"Disease and Accidental Causes of Deaths":"cause","Annual Deaths":"annual_deaths"},axis=1, inplace=True)

In [46]:
death_risks.head()

Unnamed: 0,cause,annual_deaths,risk_lifetime
0,Heart disease,652.486,0.2
1,Cancer,553.888,0.142857
2,Stroke,150.074,0.041667
3,Hospital Infections,99.0,0.026316
4,Flu,59.664,0.015873


Um sicherzugehen, wird anhand des Lebenszeit-Risikos sortiert. Dies ist für den späteren Auswahlprozess der Todesursache wichtig.

In [47]:
death_risks.sort_values(by="risk_lifetime",ascending=False,inplace=True)

Nun wird eine Funktion geschrieben, welche die Wahrscheinlichkeiten vergleicht und eine etwas höhere, wahrscheinlichere Todesursache ausgibt. Diese lässt sich einfach in die vorhandenen Funktionen integrieren.

In [89]:
def get_death_risk(probability):
    selector=probability<death_risks["risk_lifetime"]
    selection=death_risks[selector]
    try:
        return " Es ist wahrscheinlicher an den Folgen von {} zu sterben".format(selection.iloc[-1,0])
    except:
        return ""

In [108]:
get_death_risk(.00002)

' Es ist wahrscheinlicher an den Folgen von Sun/heat exposure zu sterben'

Die Funktion funktioniert.
Nun wird sie in die App integriert.

In [91]:
def probability_less_6_extended(user_numbers,exp_winning_numbers):
    comb_wn=combinations(6,exp_winning_numbers)*combinations(49-exp_winning_numbers,6-exp_winning_numbers)
    comb_ov=combinations(49,6)
    p_winning_numbers=comb_wn/comb_ov
    percent_winning=p_winning_numbers*100
    output_msg="Die Chance mit ihren Zahlen {} Richtige zu erzielen beträgt {:.13f} Prozent, bzw. ca. 1 zu {}.{}".format(exp_winning_numbers,percent_winning,round(1/p_winning_numbers),get_death_risk(p_winning_numbers))
    return output_msg

In [110]:
probability_less_6_extended(test_list,6)

'Die Chance mit ihren Zahlen 6 Richtige zu erzielen beträgt 0.0000071511238 Prozent, bzw. ca. 1 zu 13983816. Es ist wahrscheinlicher an den Folgen von Shark attack zu sterben'

In [99]:
def multi_ticket_probability_extended(no_of_tickets):
    probability_percent=(no_of_tickets/combinations(49,6))*100
    output_msg="Die Wahrscheinlichkeit mit ihren {} Scheinen den Jackpot zu gewinnen beträgt {:.13f} Prozent, bzw. 1 zu {:,.0f}.{}".format(no_of_tickets,probability_percent,combinations(49,6)/no_of_tickets,get_death_risk(probability_percent/100))
    return output_msg

In [111]:
multi_ticket_probability_extended(25)

'Die Wahrscheinlichkeit mit ihren 25 Scheinen den Jackpot zu gewinnen beträgt 0.0001787780961 Prozent, bzw. 1 zu 559,353. Es ist wahrscheinlicher an den Folgen von Fireworks zu sterben'

Natürlich wäre es besser die App von vornherein in englischer Sprache geschrieben zu haben oder die Todesursachen auf deutsch zu suchen, bzw. zu übersetzen. Aber um das Prinzip zu illustrieren ist dies ausreichend.