# Guided Project: Mobile App for Lottery Addiction

В этом проекте мы собираемся внести свой вклад в разработку мобильного приложения, написав несколько функций, которые в основном направлены на вычисление вероятностей. Приложение предназначено для предотвращения и лечения зависимости от лотереи, помогая людям лучше оценить свои шансы на выигрыш

Идея приложения исходит от медицинского института, который специализируется на лечении зависимости от азартных игр. В институте уже есть команда инженеров, которые будут создавать приложение, но им нужно, чтобы мы создали логическое ядро приложения и вычислили вероятности. Для первой версии приложения они хотят, чтобы мы сосредоточились на лотерее 6/49 и построили функции, которые могут ответить пользователям на следующие вопросы:
- Какова вероятность выиграть большой приз с одним билетом?
- Какова вероятность выиграть большой приз, если мы разыграем 40 разных билетов (или любое другое число)?
- Какова вероятность наличия как минимум пяти (или четырех, или трех) выигрышных номеров на одном билете?

Сценарий, которому мы следуем на протяжении всего этого проекта, является вымышленным - основная цель - попрактиковаться в применении концепций вероятности и комбинаторики (перестановок и комбинаций) в обстановке, имитирующей реальный сценарий.

## Core Functions

Ниже мы напишем две функции, которые будем часто использовать:
- factorial() — функция, которая вычисляет факториалы
- combinations() - функция, которая вычисляет комбинации

In [2]:
def factorial(n):
    final_product = 1
    for i in range(n, 0, -1):
        final_product *= i
    return final_product

def combinations(n, k):
    numerator = factorial(n)
    denominator = factorial(k) * factorial(n-k)
    return numerator/denominator

## One-ticket Probability

Нам нужно построить функцию, которая вычисляет вероятность выигрыша большого приза за любой данный билет. Для каждого розыгрыша из набора 49 берется шесть чисел, и игрок выигрывает большой приз, если шесть чисел в их билетах соответствуют всем шести числам.

Команда инженеров сказала нам, что нам нужно знать следующие детали при написании функции:
- Внутри приложения пользователь вводит шесть разных чисел от 1 до 49.
- Шесть чисел войдут в список Python и послужат входом для нашей функции.
- Инженерная команда хочет, чтобы эта функция выводила значение вероятности дружественным образом - таким образом, чтобы люди, не имеющие никакой вероятностной подготовки, могли понять.

Ниже мы напишем функцию one_ticket_probability (), которая берет список из шести уникальных чисел и печатает вероятность выигрыша так, чтобы это было легко понять.

In [3]:
def one_ticket_probability(user_numbers):
    
    n_combinations = combinations(49, 6)
    probability_one_ticket = 1/n_combinations
    percentage_form = probability_one_ticket * 100
    
    print('''Your chances to win the big prize with the numbers {} are {:.7f}%.
In other words, you have a 1 in {:,} chances to win.'''.format(user_numbers,
                    percentage_form, int(n_combinations)))

Теперь мы немного протестируем функцию

In [5]:
test_input_1 = [2, 43, 22, 23, 11, 5]
one_ticket_probability(test_input_1)

Your chances to win the big prize with the numbers [2, 43, 22, 23, 11, 5] are 0.0000072%.
In other words, you have a 1 in 13,983,816 chances to win.


In [6]:
test_input_2 = [9, 26, 41, 7, 15, 6]
one_ticket_probability(test_input_2)

Your chances to win the big prize with the numbers [9, 26, 41, 7, 15, 6] are 0.0000072%.
In other words, you have a 1 in 13,983,816 chances to win.


## Historical Data Check for Canada Lottery

Институт также хочет, чтобы мы рассмотрели данные, полученные в ходе национальной лотереи 6/49 в Канаде. Набор данных содержит исторические данные для 3665 розыгрышей, датированных 1982–2018 годами (набор данных можно загрузить ([здесь](https://www.kaggle.com/datascienceai/lottery-dataset)).

In [10]:
import pandas as pd

lottery_canada = pd.read_csv('649.csv')
lottery_canada.shape

(3665, 11)

In [9]:
lottery_canada.head()

Unnamed: 0,PRODUCT,DRAW NUMBER,SEQUENCE NUMBER,DRAW DATE,NUMBER DRAWN 1,NUMBER DRAWN 2,NUMBER DRAWN 3,NUMBER DRAWN 4,NUMBER DRAWN 5,NUMBER DRAWN 6,BONUS NUMBER
0,649,1,0,6/12/1982,3,11,12,14,41,43,13
1,649,2,0,6/19/1982,8,33,36,37,39,41,9
2,649,3,0,6/26/1982,1,6,23,24,27,39,34
3,649,4,0,7/3/1982,3,9,10,13,20,43,34
4,649,5,0,7/10/1982,5,14,21,31,34,47,45


In [11]:
lottery_canada.tail(3)

Unnamed: 0,PRODUCT,DRAW NUMBER,SEQUENCE NUMBER,DRAW DATE,NUMBER DRAWN 1,NUMBER DRAWN 2,NUMBER DRAWN 3,NUMBER DRAWN 4,NUMBER DRAWN 5,NUMBER DRAWN 6,BONUS NUMBER
3662,649,3589,0,6/13/2018,6,22,24,31,32,34,16
3663,649,3590,0,6/16/2018,2,15,21,31,38,49,8
3664,649,3591,0,6/20/2018,14,24,31,35,37,48,17


## Function for Historical Data Check

Инженерная команда говорит нам, что нам нужно написать функцию, которая поможет пользователям определить, выиграли бы они сейчас, используя определенную комбинацию из шести чисел. Вот детали, о которых нам нужно знать:
- Внутри приложения пользователь вводит шесть разных чисел от 1 до 49.
- Шесть чисел войдут в список Python и послужат входом для нашей функции.
- Инженерная команда хочет, чтобы мы написали функцию, которая печатает:
    - количество раз, когда произошла выбранная комбинация; 
    - вероятность выиграть большой приз в следующем розыгрыше с этой комбинацией.

Мы начнем с извлечения всех выигрышных номеров из набора данных лотереи. Функция extract_numbers () будет проходить по каждой строке фрейма данных и извлекать шесть выигрышных номеров в виде набора Python.

In [12]:
def extract_numbers(row):
    row = row[4:10]
    row = set(row.values)
    return row

winning_numbers = lottery_canada.apply(extract_numbers, axis=1)
winning_numbers.head()

0    {3, 41, 11, 12, 43, 14}
1    {33, 36, 37, 39, 8, 41}
2     {1, 6, 39, 23, 24, 27}
3     {3, 9, 10, 43, 13, 20}
4    {34, 5, 14, 47, 21, 31}
dtype: object

Ниже мы напишем функцию check_historical_occurrence (), которая принимает пользовательские номера и исторические номера и печатает информацию о количестве вхождений и вероятности выигрыша в следующем розыгрыше.

In [13]:
def check_historical_occurrence(user_numbers, historical_numbers):
    
    user_numbers_set = set(user_numbers)
    check_occurrence = historical_numbers == user_numbers_set
    n_occurrences = check_occurrence.sum()
    
    if n_occurrences == 0:
        print('''The combination {} has never occured.
This doesn't mean it's more likely to occur now. Your chances to win the big prize in the next drawing using the combination {} are 0.0000072%.
In other words, you have a 1 in 13,983,816 chances to win.'''.format(user_numbers, user_numbers))
        
    else:
        print('''The number of times combination {} has occured in the past is {}.
Your chances to win the big prize in the next drawing using the combination {} are 0.0000072%.
In other words, you have a 1 in 13,983,816 chances to win.'''.format(user_numbers, n_occurrences,
                                                                            user_numbers))

In [17]:
test_input_3 = [33, 36, 37, 39, 8, 41]
check_historical_occurrence(test_input_3, winning_numbers)

The number of times combination [33, 36, 37, 39, 8, 41] has occured in the past is 1.
Your chances to win the big prize in the next drawing using the combination [33, 36, 37, 39, 8, 41] are 0.0000072%.
In other words, you have a 1 in 13,983,816 chances to win.


In [18]:
test_input_4 = [3, 2, 44, 22, 1, 44]
check_historical_occurrence(test_input_4, winning_numbers)

The combination [3, 2, 44, 22, 1, 44] has never occured.
This doesn't mean it's more likely to occur now. Your chances to win the big prize in the next drawing using the combination [3, 2, 44, 22, 1, 44] are 0.0000072%.
In other words, you have a 1 in 13,983,816 chances to win.


## Multi-ticket Probability

Для первой версии приложения пользователи также должны быть в состоянии найти вероятность выигрыша, если они разыграют несколько разных билетов. Например, кто-то может разыграть 15 разных билетов, и они хотят знать вероятность выигрыша большого приза.

Команда разработчиков хочет, чтобы мы знали о следующих деталях, когда мы пишем функцию:
- Пользователь вводит количество разных билетов, которые он хочет разыграть (без ввода конкретных комбинаций, которые он намерен разыграть).
- Наша функция будет видеть целое число от 1 до 13 983 816 (максимальное количество разных билетов).
- Функция должна выводить информацию о вероятности выигрыша большого приза в зависимости от количества разыгранных билетов.

Функция multi_ticket_probability () ниже принимает количество заявок и печатает информацию о вероятности в зависимости от ввода.

In [19]:
def multi_ticket_probability(n_tickets):
    
    n_combinations = combinations(49, 6)
    
    probability = n_tickets / n_combinations
    percentage_form = probability * 100
    
    if n_tickets == 1:
        print('''Your chances to win the big prize with one ticket are {:.6f}%.
In other words, you have a 1 in {:,} chances to win.'''.format(percentage_form, int(n_combinations)))
    
    else:
        combinations_simplified = round(n_combinations / n_tickets)   
        print('''Your chances to win the big prize with {:,} different tickets are {:.6f}%.
In other words, you have a 1 in {:,} chances to win.'''.format(n_tickets, percentage_form,
                                                               combinations_simplified))

Ниже мы запустим пару тестов для нашей функции.

In [23]:
test_inputs = [1, 10, 100, 10000, 1000000, 6991908, 13983816]

for test_input in test_inputs:
    multi_ticket_probability(test_input)
    print('***********************************') 

Your chances to win the big prize with one ticket are 0.000007%.
In other words, you have a 1 in 13,983,816 chances to win.
***********************************
Your chances to win the big prize with 10 different tickets are 0.000072%.
In other words, you have a 1 in 1,398,382 chances to win.
***********************************
Your chances to win the big prize with 100 different tickets are 0.000715%.
In other words, you have a 1 in 139,838 chances to win.
***********************************
Your chances to win the big prize with 10,000 different tickets are 0.071511%.
In other words, you have a 1 in 1,398 chances to win.
***********************************
Your chances to win the big prize with 1,000,000 different tickets are 7.151124%.
In other words, you have a 1 in 14 chances to win.
***********************************
Your chances to win the big prize with 6,991,908 different tickets are 50.000000%.
In other words, you have a 1 in 2 chances to win.
********************************

## Less Winning Numbers — Function

В большинстве лотерей 6/49 выигрыши меньшего размера, если билет игрока соответствует двум, трем, четырем или пяти из шести выпавших чисел. Это означает, что игрокам может быть интересно узнать вероятность наличия двух, трех, четырех или пяти выигрышных номеров - для первой версии приложения пользователи должны быть в состоянии найти эти вероятности.

Это детали, которые нам необходимо знать, когда мы пишем функцию, чтобы сделать возможным расчет этих вероятностей:
- Внутри приложения пользователь вводит:
    - шесть разных чисел от 1 до 49
    - целое число от 2 до 5, представляющее ожидаемое количество выигрышных номеров
- Наша функция печатает информацию о вероятности наличия определенного количества выигрышных номеров

Мы напишем функцию с именем probability_less_6(), которая принимает целое число и печатает информацию о шансах на выигрыш в зависимости от значения этого целого числа.

Приведенная ниже функция рассчитывает вероятность того, что билет игрока точно соответствует данному количеству выигрышных номеров. Если игрок хочет узнать вероятность наличия пяти выигрышных чисел, функция вернет вероятность того, что пять выигрышных чисел будут точно (не больше и не меньше). Функция не возвращает вероятность наличия как минимум пяти выигрышных номеров.

In [24]:
def probability_less_6(n_winning_numbers):
    
    n_combinations_ticket = combinations(6, n_winning_numbers)
    n_combinations_remaining = combinations(43, 6 - n_winning_numbers)
    successful_outcomes = n_combinations_ticket * n_combinations_remaining
    
    n_combinations_total = combinations(49, 6)    
    probability = successful_outcomes / n_combinations_total
    
    probability_percentage = probability * 100    
    combinations_simplified = round(n_combinations_total/successful_outcomes)    
    print('''Your chances of having {} winning numbers with this ticket are {:.6f}%.
In other words, you have a 1 in {:,} chances to win.'''.format(n_winning_numbers, probability_percentage,
                                                               int(combinations_simplified)))

Теперь давайте проверим функцию на всех трех возможных входах.

In [25]:
for test_input in [2, 3, 4, 5]:
    probability_less_6(test_input)
    print('***********************************') 

Your chances of having 2 winning numbers with this ticket are 13.237803%.
In other words, you have a 1 in 8 chances to win.
***********************************
Your chances of having 3 winning numbers with this ticket are 1.765040%.
In other words, you have a 1 in 57 chances to win.
***********************************
Your chances of having 4 winning numbers with this ticket are 0.096862%.
In other words, you have a 1 in 1,032 chances to win.
***********************************
Your chances of having 5 winning numbers with this ticket are 0.001845%.
In other words, you have a 1 in 54,201 chances to win.
***********************************


## Total

Для первой версии приложения мы кодировали четыре основные функции:
- one_ticket_probability() - рассчитывает вероятность выигрыша приза одним билетом
- check_historical_occurrence() - проверяет наличие определенной комбинации в наборе данных канадской лотереи
- multi_ticket_probability() - рассчитывает вероятность для любого количества билетов от 1 до 13 983 816
- probability_less_6() - точно рассчитывает вероятность наличия двух, трех, четырех или пяти выигрышных номеров