## Lotomania

A Lotomania é fácil de jogar e de ganhar: basta escolher 50 números e então concorrer a prêmios para acertos de 20, 19, 18, 17, 16, 15 ou nenhum número.
Além da opção de marcar no volante, você ainda pode marcar menos que 50 números e deixar que o sistema complete o jogo para você; não marcar nada e deixar que o sistema escolha todos os números na Surpresinha e/ou concorrer com a mesma aposta por 2, 4 ou 8 concursos consecutivos com a Teimosinha. Outra opção é efetuar uma nova aposta com o sistema selecionando os outros 50 números não registrados no jogo original, através da Aposta-Espelho.

### Premiação

__O prêmio bruto corresponde a 43,35% da arrecadação.__

Dessa porcentagem são distribuídos:
- 45% entre os acertadores dos 20 números sorteados - 1ª faixa;
- 16% entre os acertadores de 19 dos 20 números sorteados - 2ª faixa;
- 10% entre os acertadores de 18 dos 20 números sorteados - 3ª faixa;
- 7% entre os acertadores de 17 dos 20 números sorteados - 4ª faixa;
- 7% entre os acertadores de 16 dos 20 números sorteados - 5ª faixa;
- 7% entre os acertadores de 15 dos 20 números sorteados - 6ª faixa;
- 8% entre os acertadores de nenhum dos 20 números sorteados - 7ª faixa;

### Downloads
- Informações sobre a [Lotomania](http://loterias.caixa.gov.br/wps/portal/loterias/landing/lotomania/)
- Arquivo de [Dados](http://www1.caixa.gov.br/loterias/_arquivos/loterias/D_lotoma.zip)

![logo](lotomania.png)

In [1]:
# Importando as bibliotecas que iremos utilizar

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from palpita import palpite

%matplotlib inline

In [2]:
# Carregando o arquivo, neste caso o arquivo veio em formato HTML
# Iremos importar apenas as colunas:
#colunas = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36]
# iria utilizar o usercols mas não funciona com read_html

lotomania = pd.read_html('D_LOTMAN.htm')

In [3]:
# Arquivo carregado como lista, iremos conferir suas 5 primeiras linhas
lotomania[0][:5]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,35,36,37,38,39,40,41,42,43,44
0,Concurso,Data Sorteio,Bola1,Bola2,Bola3,Bola4,Bola5,Bola6,Bola7,Bola8,...,Valor_Rateio_16_Números,Valor_Rateio_Nenhum_Número,Acumulado_20_Números,Acumulado_19_Números,Acumulado_18_Números,Acumulado_17_Números,Acumulado_16_Números,Acumulado_Nenhum_Número,Estimativa_Prêmio,Valor_Acumulado_Especial
1,1,02/10/1999,16,11,88,32,25,00,70,78,...,2178,000,178.12031,000,000,000,000,59.37346,000,
2,2,09/10/1999,76,63,18,44,84,11,55,93,...,1559,000,675.01255,000,000,000,000,225.00422,000,
3,3,16/10/1999,34,08,10,11,99,28,67,20,...,1457,440.69842,1.322.09507,000,000,000,000,000,000,
4,4,23/10/1999,14,67,12,55,25,60,51,30,...,1646,96.70562,2.192.44558,000,000,000,000,000,000,


In [4]:
# Iremos remover as colunas que não serão utilizadas em nossa analise
colunas = [24,25,37,38,39,40,41,42,43,44]
lotomania[0].drop(columns=colunas, inplace=True)

In [5]:
# Conferindo
lotomania[0][:5]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,27,28,29,30,31,32,33,34,35,36
0,Concurso,Data Sorteio,Bola1,Bola2,Bola3,Bola4,Bola5,Bola6,Bola7,Bola8,...,Ganhadores_18_Números,Ganhadores_17_Números,Ganhadores_16_Números,Ganhadores_Nenhum_Número,Valor_Rateio_20_Números,Valor_Rateio_19_Números,Valor_Rateio_18_Números,Valor_Rateio_17_Números,Valor_Rateio_16_Números,Valor_Rateio_Nenhum_Número
1,1,02/10/1999,16,11,88,32,25,00,70,78,...,46,446,2716,0,000,118.74687,2.58146,13262,2178,000
2,2,09/10/1999,76,63,18,44,84,11,55,93,...,180,1803,10587,0,000,23.66154,1.84034,9153,1559,000
3,3,16/10/1999,34,08,10,11,99,28,67,20,...,254,2513,14756,1,000,17.25554,1.69838,8551,1457,440.69842
4,4,23/10/1999,14,67,12,55,25,60,51,30,...,359,2860,17561,3,000,36.26460,1.61625,10106,1646,96.70562


In [6]:
# Iremos criar um df recebendo as informações da posição 0 da lista

df = pd.DataFrame(lotomania[0]).copy()

In [7]:
# Lendo o inicio do DF

df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,27,28,29,30,31,32,33,34,35,36
0,Concurso,Data Sorteio,Bola1,Bola2,Bola3,Bola4,Bola5,Bola6,Bola7,Bola8,...,Ganhadores_18_Números,Ganhadores_17_Números,Ganhadores_16_Números,Ganhadores_Nenhum_Número,Valor_Rateio_20_Números,Valor_Rateio_19_Números,Valor_Rateio_18_Números,Valor_Rateio_17_Números,Valor_Rateio_16_Números,Valor_Rateio_Nenhum_Número
1,1,02/10/1999,16,11,88,32,25,00,70,78,...,46,446,2716,0,000,118.74687,2.58146,13262,2178,000
2,2,09/10/1999,76,63,18,44,84,11,55,93,...,180,1803,10587,0,000,23.66154,1.84034,9153,1559,000
3,3,16/10/1999,34,08,10,11,99,28,67,20,...,254,2513,14756,1,000,17.25554,1.69838,8551,1457,440.69842
4,4,23/10/1999,14,67,12,55,25,60,51,30,...,359,2860,17561,3,000,36.26460,1.61625,10106,1646,96.70562


In [8]:
# Como o df não foi criado com os nomes das colunas e elas estão listadas na linha 0
# iremos atualizar o nome das colunas

df.columns = df.loc[0]

In [9]:
# Renomeando as colunas para facilitar as consultas

df.columns = df.columns.str.replace(' ','_')
df.columns = df.columns.str.replace('ª','')
df.columns = df.columns.str.replace('ú','u')
df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace('valor_','')
df.columns = df.columns.str.replace('bola','')
df.columns

Index(['concurso', 'data_sorteio', '1', '2', '3', '4', '5', '6', '7', '8', '9',
       '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '20',
       'arrecadação_total', 'ganhadores_20_numeros', 'ganhadores_19_numeros',
       'ganhadores_18_numeros', 'ganhadores_17_numeros',
       'ganhadores_16_numeros', 'ganhadores_nenhum_numero',
       'rateio_20_numeros', 'rateio_19_numeros', 'rateio_18_numeros',
       'rateio_17_numeros', 'rateio_16_numeros', 'rateio_nenhum_numero'],
      dtype='object', name=0)

In [10]:
# Conferindo a mudança

df.head()

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_18_numeros,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero
0,Concurso,Data Sorteio,Bola1,Bola2,Bola3,Bola4,Bola5,Bola6,Bola7,Bola8,...,Ganhadores_18_Números,Ganhadores_17_Números,Ganhadores_16_Números,Ganhadores_Nenhum_Número,Valor_Rateio_20_Números,Valor_Rateio_19_Números,Valor_Rateio_18_Números,Valor_Rateio_17_Números,Valor_Rateio_16_Números,Valor_Rateio_Nenhum_Número
1,1,02/10/1999,16,11,88,32,25,00,70,78,...,46,446,2716,0,000,118.74687,2.58146,13262,2178,000
2,2,09/10/1999,76,63,18,44,84,11,55,93,...,180,1803,10587,0,000,23.66154,1.84034,9153,1559,000
3,3,16/10/1999,34,08,10,11,99,28,67,20,...,254,2513,14756,1,000,17.25554,1.69838,8551,1457,440.69842
4,4,23/10/1999,14,67,12,55,25,60,51,30,...,359,2860,17561,3,000,36.26460,1.61625,10106,1646,96.70562


In [11]:
# Removendo a primeira linha 

df.drop([0], inplace=True)

In [12]:
df.head()

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_18_numeros,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero
1,1,02/10/1999,16,11,88,32,25,0,70,78,...,46,446,2716,0,0,118.74687,2.58146,13262,2178,0.0
2,2,09/10/1999,76,63,18,44,84,11,55,93,...,180,1803,10587,0,0,23.66154,1.84034,9153,1559,0.0
3,3,16/10/1999,34,8,10,11,99,28,67,20,...,254,2513,14756,1,0,17.25554,1.69838,8551,1457,440.69842
4,4,23/10/1999,14,67,12,55,25,60,51,30,...,359,2860,17561,3,0,36.2646,1.61625,10106,1646,96.70562
5,5,30/10/1999,39,32,65,8,51,42,17,92,...,254,2326,14561,1,0,49.9354,2.55575,13901,2221,324.58009


In [13]:
df.tail()

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_18_numeros,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero
2135,1929,21/12/2018,27,61,16,52,14,63,99,90,...,104,1078,6539,0,000,37.12965,1.56194,15068,2484,0.0
2136,1930,26/12/2018,49,37,42,52,97,55,99,38,...,90,1041,5839,0,000,41.53069,1.44204,12467,2222,0.0
2137,1931,28/12/2018,1,46,88,85,90,79,64,13,...,160,1366,7164,1,4.447.06206,31.33641,1.39894,11470,2187,125.34565
2138,1932,04/01/2019,91,84,71,35,15,38,79,92,...,178,1426,8330,0,774.28715,39.32887,1.38092,12066,2065,0.0
2139,1933,08/01/2019,23,18,3,72,5,43,32,98,...,115,1179,9369,0,000,26.93073,1.67271,11421,1437,0.0


### Dados nulos

In [14]:
df.shape

(2139, 35)

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2139 entries, 1 to 2139
Data columns (total 35 columns):
concurso                    1999 non-null object
data_sorteio                2139 non-null object
1                           1933 non-null object
2                           1933 non-null object
3                           1933 non-null object
4                           1933 non-null object
5                           1933 non-null object
6                           1933 non-null object
7                           1933 non-null object
8                           1933 non-null object
9                           1933 non-null object
10                          1933 non-null object
11                          1933 non-null object
12                          1933 non-null object
13                          1933 non-null object
14                          1933 non-null object
15                          1933 non-null object
16                          1933 non-null object
17         

A coluna __data_sorteio__ possui mais linhas que as outras e também a coluna __concurso__

In [16]:
df['data_sorteio'].value_counts()[:10]

SP    86
RJ    30
MG    18
RS     9
SC     8
PR     7
PA     6
GO     5
MT     4
TO     4
Name: data_sorteio, dtype: int64

Podemos ver que na coluna __data_sorteio__ temos informações _quebradas_ que vieram da coluna UF, iremos remover estas linhas do DF

In [17]:
# Apagando as linhas onde a coluna bola1 é nula (NaN)

df.dropna(subset=['1'], how="any", inplace=True)

In [18]:
# Conferindo se ficou alguma linha onde data_sorteio não é data
df[df['data_sorteio'] == 'SP']

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_18_numeros,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero


In [19]:
# Conferindo se a quantidade de linhas esta certa

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1933 entries, 1 to 2139
Data columns (total 35 columns):
concurso                    1933 non-null object
data_sorteio                1933 non-null object
1                           1933 non-null object
2                           1933 non-null object
3                           1933 non-null object
4                           1933 non-null object
5                           1933 non-null object
6                           1933 non-null object
7                           1933 non-null object
8                           1933 non-null object
9                           1933 non-null object
10                          1933 non-null object
11                          1933 non-null object
12                          1933 non-null object
13                          1933 non-null object
14                          1933 non-null object
15                          1933 non-null object
16                          1933 non-null object
17         

In [20]:
df.head()

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_18_numeros,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero
1,1,02/10/1999,16,11,88,32,25,0,70,78,...,46,446,2716,0,0,118.74687,2.58146,13262,2178,0.0
2,2,09/10/1999,76,63,18,44,84,11,55,93,...,180,1803,10587,0,0,23.66154,1.84034,9153,1559,0.0
3,3,16/10/1999,34,8,10,11,99,28,67,20,...,254,2513,14756,1,0,17.25554,1.69838,8551,1457,440.69842
4,4,23/10/1999,14,67,12,55,25,60,51,30,...,359,2860,17561,3,0,36.2646,1.61625,10106,1646,96.70562
5,5,30/10/1999,39,32,65,8,51,42,17,92,...,254,2326,14561,1,0,49.9354,2.55575,13901,2221,324.58009


In [21]:
# Reindexando as linhas

df.reset_index(drop=True, inplace=True)

In [22]:
df.head()

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_18_numeros,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero
0,1,02/10/1999,16,11,88,32,25,0,70,78,...,46,446,2716,0,0,118.74687,2.58146,13262,2178,0.0
1,2,09/10/1999,76,63,18,44,84,11,55,93,...,180,1803,10587,0,0,23.66154,1.84034,9153,1559,0.0
2,3,16/10/1999,34,8,10,11,99,28,67,20,...,254,2513,14756,1,0,17.25554,1.69838,8551,1457,440.69842
3,4,23/10/1999,14,67,12,55,25,60,51,30,...,359,2860,17561,3,0,36.2646,1.61625,10106,1646,96.70562
4,5,30/10/1999,39,32,65,8,51,42,17,92,...,254,2326,14561,1,0,49.9354,2.55575,13901,2221,324.58009


Agora todas as colunas possuem a mesma quantidade de linhas

### Tipagem

A coluna data_sorteio será convertida para datetime, rateios para float e as demais para inteiro

In [23]:
# Convertendo a coluna data_sorteio para datetime
df['data_sorteio'] = pd.to_datetime(df['data_sorteio'])

In [24]:
# Inserindo uma coluna com o ano de cada sorteio

df['ano'] = df['data_sorteio'].dt.year

#### Problemas com as casas decimais
Ao analisar os valores nos passos futuros, verificamos que as casas decimais ficaram a esquerda do .
Para resolver a questão iremos e remover os dois ultimos numeros, descartando o valor dos decimais, como estamos trabalhando com valores na casa dos __milhões__ alguns __centavos__ não atrapalham nossos resultados.

In [25]:
# Colunas que possuem os valores que serão tratados, serão convertidas para float

colunas_valores = ['rateio_20_numeros','rateio_19_numeros','rateio_18_numeros','rateio_17_numeros',
                   'rateio_16_numeros','rateio_nenhum_numero','arrecadação_total']

In [26]:
# Criando uma copia de cada coluna para o caso de erros na conversão ser fácil a recuperação
pos = 0
copia = pd.DataFrame()
for coluna in colunas_valores:
    copia[coluna] = df[coluna]
    pos += 1

In [27]:
# Conferindo se a copia foi feita

for coluna in colunas_valores:
    print(copia[coluna].head(3))

0    000
1    000
2    000
Name: rateio_20_numeros, dtype: object
0    118.74687
1     23.66154
2     17.25554
Name: rateio_19_numeros, dtype: object
0    2.58146
1    1.84034
2    1.69838
Name: rateio_18_numeros, dtype: object
0    13262
1     9153
2     8551
Name: rateio_17_numeros, dtype: object
0    2178
1    1559
2    1457
Name: rateio_16_numeros, dtype: object
0          000
1          000
2    440.69842
Name: rateio_nenhum_numero, dtype: object
0    000
1    000
2    000
Name: arrecadação_total, dtype: object


In [28]:
# Trabalhando com os valores

for coluna in colunas_valores:
    df[coluna] = df[coluna].str.replace('.','') #removendo o . dos valores

In [29]:
df.head()

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero,ano
0,1,1999-02-10,16,11,88,32,25,0,70,78,...,446,2716,0,0,11874687,258146,13262,2178,0,1999
1,2,1999-09-10,76,63,18,44,84,11,55,93,...,1803,10587,0,0,2366154,184034,9153,1559,0,1999
2,3,1999-10-16,34,8,10,11,99,28,67,20,...,2513,14756,1,0,1725554,169838,8551,1457,44069842,1999
3,4,1999-10-23,14,67,12,55,25,60,51,30,...,2860,17561,3,0,3626460,161625,10106,1646,9670562,1999
4,5,1999-10-30,39,32,65,8,51,42,17,92,...,2326,14561,1,0,4993540,255575,13901,2221,32458009,1999


In [30]:
# Removendo o dois ultimos numeros das colunas de ratio

for coluna in colunas_valores:
    temp = df[coluna].copy() #criando uma copia temporaria das informações da coluna
    pos = 0 #variavel criada para posicionar a atualização
    for valor in temp: #para cada valor
        temp[pos] = valor[:-2] #atualizar o valor para ele mesmo removendo sem as ultimas duas posições
        pos += 1 
    df[coluna] = temp #copiar o conteudo da copia temporaria para a coluna

In [31]:
# Conferindo os valores
df.head()

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero,ano
0,1,1999-02-10,16,11,88,32,25,0,70,78,...,446,2716,0,0,118746,2581,132,21,0,1999
1,2,1999-09-10,76,63,18,44,84,11,55,93,...,1803,10587,0,0,23661,1840,91,15,0,1999
2,3,1999-10-16,34,8,10,11,99,28,67,20,...,2513,14756,1,0,17255,1698,85,14,440698,1999
3,4,1999-10-23,14,67,12,55,25,60,51,30,...,2860,17561,3,0,36264,1616,101,16,96705,1999
4,5,1999-10-30,39,32,65,8,51,42,17,92,...,2326,14561,1,0,49935,2555,139,22,324580,1999


In [32]:
# Convertendo as colunas para inteiro

colunas_int = ['concurso','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20']

for coluna in colunas_int:
    df[coluna] = df[coluna].astype(int)

In [33]:
colunas_int = ['arrecadação_total','ganhadores_20_numeros','ganhadores_19_numeros','ganhadores_18_numeros',
              'ganhadores_17_numeros','ganhadores_16_numeros','ganhadores_nenhum_numero',
              'rateio_20_numeros','rateio_19_numeros','rateio_18_numeros','rateio_17_numeros',
              'rateio_16_numeros','rateio_nenhum_numero']

for coluna in colunas_int:
    df[coluna] = df[coluna].astype(int)

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1933 entries, 0 to 1932
Data columns (total 36 columns):
concurso                    1933 non-null int32
data_sorteio                1933 non-null datetime64[ns]
1                           1933 non-null int32
2                           1933 non-null int32
3                           1933 non-null int32
4                           1933 non-null int32
5                           1933 non-null int32
6                           1933 non-null int32
7                           1933 non-null int32
8                           1933 non-null int32
9                           1933 non-null int32
10                          1933 non-null int32
11                          1933 non-null int32
12                          1933 non-null int32
13                          1933 non-null int32
14                          1933 non-null int32
15                          1933 non-null int32
16                          1933 non-null int32
17                  

In [35]:
# 2.500.000.000
num_teste = 2500000000.00

### Funções

In [36]:
def formato_brl(valor):
    """
    Função para converter numeração para formato moeda BRL
    argumentos: valor = valor que será tratado
    retorna: valor formato     
    """
    temp = str(int(valor))[::-1]
    cont = 1
    novo_valor = ''
    for digito in temp:
        if cont == 4:
            novo_valor = '.' + novo_valor
            cont = 1
        novo_valor = digito + novo_valor
        cont += 1
    novo_valor = novo_valor + ',00'
    novo_valor = 'R$ ' + novo_valor
    return novo_valor

In [37]:
# Testando e conferindo a função
formato_brl(num_teste)

'R$ 2.500.000.000,00'

__Obs.:__ Depois de elaborar a função, localizei uma [artigo](http://blog.alura.com.br/formatando-moeda-no-python/) falando da biblioteca locale. [Exemplo](https://pt.stackoverflow.com/questions/66183/como-retornar-um-valor-no-formato-moeda-brasileiro-na-view-do-django) de aplicação da função para moeda brasileira.

__Como já elaborei a função, manterei o meu código utilizando ela__

### Analisando nosso DF

In [38]:
# Primeiro sorteio que consta em nosso df

df.loc[df['data_sorteio'].idxmin()]

0
concurso                                      1
data_sorteio                1999-02-10 00:00:00
1                                            16
2                                            11
3                                            88
4                                            32
5                                            25
6                                             0
7                                            70
8                                            78
9                                            73
10                                           61
11                                           90
12                                           89
13                                           46
14                                           95
15                                            6
16                                           33
17                                           34
18                                           21
19                                    

In [39]:
# Último sorteio que consta em nosso df

df.loc[df['data_sorteio'].idxmax()]

0
concurso                                   1933
data_sorteio                2019-08-01 00:00:00
1                                            23
2                                            18
3                                             3
4                                            72
5                                             5
6                                            43
7                                            32
8                                            98
9                                            59
10                                           71
11                                            8
12                                           29
13                                           86
14                                           16
15                                           30
16                                           36
17                                           58
18                                           54
19                                    

In [40]:
# Menor valor pago

df.loc[df[df['rateio_20_numeros'] != 0]['rateio_20_numeros'].idxmin()]

0
concurso                                     81
data_sorteio                2001-01-17 00:00:00
1                                            16
2                                            83
3                                            92
4                                            39
5                                            23
6                                            97
7                                            67
8                                            14
9                                            65
10                                           74
11                                           68
12                                           87
13                                           30
14                                           63
15                                           86
16                                           94
17                                           52
18                                           43
19                                    

In [41]:
# Maior valor pago

index = df['rateio_20_numeros'].idxmax()
df.loc[index]

0
concurso                                   1444
data_sorteio                2014-04-19 00:00:00
1                                            12
2                                            89
3                                            85
4                                            81
5                                            87
6                                            91
7                                            41
8                                            98
9                                            83
10                                           23
11                                           99
12                                           46
13                                           62
14                                            5
15                                            3
16                                           24
17                                           16
18                                           27
19                                    

In [42]:
# Maior valor pago para 1 unico ganhador

index = df.query('ganhadores_20_numeros == 1')['rateio_20_numeros'].idxmax()
df.loc[index]

0
concurso                                   1444
data_sorteio                2014-04-19 00:00:00
1                                            12
2                                            89
3                                            85
4                                            81
5                                            87
6                                            91
7                                            41
8                                            98
9                                            83
10                                           23
11                                           99
12                                           46
13                                           62
14                                            5
15                                            3
16                                           24
17                                           16
18                                           27
19                                    

In [43]:
# Total pago na maior premiação - 20 numeros

valor = formato_brl(df['rateio_20_numeros'].sum())
print('O valor TOTAL pago em premiações é de {}'
     .format(valor))

O valor TOTAL pago em premiações é de R$ 1.103.838.519,00


In [44]:
# Jogo com maior numero de ganhadores

index = df['ganhadores_20_numeros'].idxmax
df.loc[index]

0
concurso                                   1677
data_sorteio                2016-07-22 00:00:00
1                                             4
2                                            26
3                                            28
4                                            91
5                                            73
6                                            69
7                                            84
8                                            46
9                                            50
10                                           90
11                                           62
12                                           79
13                                           17
14                                           24
15                                           10
16                                           30
17                                           57
18                                           64
19                                    

In [45]:
dividido = formato_brl(df['rateio_20_numeros'].loc[index] / df['ganhadores_20_numeros'].loc[index])
print('No sorteio com maior números de ganhadores, cada ganhador levou {}'
     .format(dividido))

No sorteio com maior números de ganhadores, cada ganhador levou R$ 21.255,00


### Valor ARRECADADO

Sabendo que o prêmio bruto corresponde a __43,35%__ da arrecadação, vamos verificar qual foi o __valor total__ arrecadado na maior premiação.

In [46]:
#convertendo o valor para int64 usando o numpy devido ao tamanho do valor final

valor = np.int64(df['rateio_20_numeros'].max())
arrecadado = formato_brl(((valor * 100) / 43.3))

In [47]:
print('O maior valor de premiação foi de {}'
      .format(formato_brl(valor)))
print('O VALOR TOTAL arrecadado neste sorteio foi de {}'
     .format(arrecadado))

O maior valor de premiação foi de R$ 37.261.929,00
O VALOR TOTAL arrecadado neste sorteio foi de R$ 86.055.263,00


In [48]:
# E o valor TOTAL ARRECADO 

valor_total = np.int64(df['rateio_20_numeros'].sum())
arrecadado_total = formato_brl((valor_total * 100) / 43.3)

In [49]:
print('O valor total de premiações foi de {}*'
     .format(formato_brl(valor_total)))
print('Isso corresponde a uma arrecadação total de {}*'
     .format(arrecadado_total))

O valor total de premiações foi de R$ 1.103.838.519,00*
Isso corresponde a uma arrecadação total de R$ 2.549.280.644,00*


_*calculos feitos sobre os valores pagos em premiações_

### Limitações

Nosso dataframe foi importado a partir de um arquivo _.htm_ e apresentou algumas inconsistencias durante a analise devido a algumas quebras de valores que foram interpretadas como quebra de linha.

- Para contornar o problema removemos as linhas criadas de forma a não afetar nossas analises

As colunas foram importadas como _string_ o que nos levou a realizar as devidas conversões:
- data_sorteio - convertida para datetime
- demais colunas - convertidas para int, mesmo as colunas que tratam de valores foram convertidas para int para facilitar a manipulação de valores altos, e por trabalharmos com valores na casa dos milhões e bilhões, o descarte dos centavos não afetam os resultados finais.

### Aqui iremos chamar a função PALPITE para elaborar palpites baseados no df

In [50]:
# Dados para elaboração do palpite
# Alterar apenas estas duas variaveis

palpitar = 2
bolas = 50

In [51]:
# Rodando a função 
palpite(palpitar,bolas,20,df)

Palpite 1
58 - 61 - 14 - 66 - 23 - 74 - 62 - 59 - 81 - 45 - 48 - 9 - 33 - 91 - 7 - 49 - 31 - 12 - 3 - 78 - 96 - 24 - 22 - 85 - 2 - 52 - 47 - 65 - 18 - 25 - 83 - 63 - 99 - 30 - 40 - 19 - 92 - 26 - 15 - 20 - 79 - 32 - 50 - 56 - 43 - 64 - 28 - 5 - 77 - 1 - 

Palpite 2
30 - 76 - 70 - 77 - 33 - 25 - 96 - 42 - 40 - 99 - 75 - 62 - 49 - 39 - 79 - 34 - 38 - 64 - 47 - 6 - 45 - 4 - 50 - 55 - 2 - 52 - 37 - 1 - 93 - 69 - 57 - 46 - 95 - 59 - 73 - 98 - 88 - 80 - 5 - 87 - 11 - 68 - 41 - 21 - 85 - 18 - 53 - 65 - 12 - 67 - 



### Ultimo resultado de jogo

In [52]:
df.tail(1)

Unnamed: 0,concurso,data_sorteio,1,2,3,4,5,6,7,8,...,ganhadores_17_numeros,ganhadores_16_numeros,ganhadores_nenhum_numero,rateio_20_numeros,rateio_19_numeros,rateio_18_numeros,rateio_17_numeros,rateio_16_numeros,rateio_nenhum_numero,ano
1932,1933,2019-08-01,23,18,3,72,5,43,32,98,...,1179,9369,0,0,26930,1672,114,14,0,2019


__Fabiano__ _Lima_ - 02/01/2019