#  CASE ENGENHEIRO DE DADOS JR - ESCOLA DNC 🚀

O notebook foi desenvolvido para a resolução do case técnico para a vaga de Engenheiro de dados Jr da Escola DNC.

* [Notion](https://dncgroupbr.notion.site/Engenheiro-a-de-Dados-Jr-7c864f99568745d393069004e8954eb3)
* [Github](https://github.com/AurelioGuilherme/ETL-Engenharia-de-dados-DNC)

O objetivo desse desafio é avaliar as habilidades técnicas e a capacidade de resolução de problemas. 


##  Contexto 🧠

A PotatoCore é uma empresa que lida com dados da Lotofácil, um jogo de loteria popular no Brasil. Atualmente, os dados são fornecidos em uma planilha de Excel e precisam ser processados e preparados para análise. Como Engenheiro de Dados, sua missão é otimizar o processo ETL (Extração, Transformação e Carregamento) para facilitar a obtenção de insights a partir desses dados.

O processo atual de ETL é manual e consome muito tempo. Além disso, pode haver inconsistências nos dados devido à natureza manual do processo. O objetivo é criar um pipeline automatizado que permita a extração, transformação e carregamento eficientes dos dados da Lotofácil para facilitar a análise.

## 0 - Import Libs 📚 


In [40]:
import pandas as pd
import os
from ipywidgets import interact
from aux_functions import *
import sqlite3
# Defini os parâmetros internos do Pandas para visulizar todas as colunas do DataFrame 
pd.set_option('display.max_columns', None)

## 1 - Read data

Nesta etapa sera efetuada a leitura dos dados

In [41]:
df = carregar_dados_xlsx()

Leitura do arquivo 'Lotofacil.xlsx' concluída com sucesso


## 2 - Data understand 📝

O conjunto de dados possui as informações do histórico de jogos da Lotofácil contendo as seguintes colunas:

|  COLUNA                                              |             DEFINIÇÃO                          |  TIPO  |
|:----------------------------------------------------:|:----------------------------------------------:|:------:|
| Concurso                                             | Identificação unica do concurso                | int64  |
| Data Sorteio                                         | Data de sorteio do concurso                    | Object |
| Bola1                                                | Resultado da primeira bola sorteada            | int64  |
| Bola2                                                | Resultado da segunda bola sorteada             | int64  |
| Bola3                                                | Resultado da terceira bola sorteada            | int64  |
| Bola4                                                | Resultado da quarta bola sorteada              | int64  |
| Bola5                                                | Resultado da quinta bola sorteada              | int64  |
| Bola6                                                | Resultado da sexta bola sorteada               | int64  |
| Bola7                                                | Resultado da setima bola sorteada              | int64  |
| Bola8                                                | Resultado da oitava bola sorteada              | int64  |
| Bola9                                                | Resultado da nona bola sorteada                | int64  |
| Bola10                                               | Resultado da decima bola sorteada              | int64  |
| Bola11                                               | Resultado da decima primeira bola sorteada     | int64  |
| Bola12                                               | Resultado da decima seguda bola sorteada       | int64  |
| Bola13                                               | Resultado da decima terceira bola sorteada     | int64  |
| Bola14                                               | Resultado da decima quarta bola sorteada       | int64  |
| Bola15                                               | Resultado da decima quinta bola sorteada       | int64  |
| Ganhadores 15 acertos                                | Quantidade de jogadores que acertaram 15 bolas | int64  |
| Cidade / UF                                          | Cidade(es) e estado(os) dos ganhadores         | Object |
| Rateio 15 acertos                                    | Valor do premio por aposta vencedora: 15 Bolas | Object |
| Ganhadores 14 acertos                                | Quantidade de jogadores que acertaram 14 bolas | int64  |
| Rateio 14 acertos                                    | Valor do premio por aposta vencedora: 14 Bolas | Object |
| Ganhadores 13 acertos                                | Quantidade de jogadores que acertaram 13 bolas | int64  |
| Rateio 13 acertos                                    | Valor do premio por aposta vencedora: 13 Bolas | Object |
| Ganhadores 12 acertos                                | Quantidade de jogadores que acertaram 12 bolas | int64  |
| Rateio 12 acertos                                    | Valor do premio por aposta vencedora: 12 Bolas | Object |
| Ganhadores 11 acertos                                | Quantidade de jogadores que acertaram 11 bolas | int64  |
| Rateio 11 acertos                                    | Valor do premio por aposta vencedora: 11 Bolas | Object |
| Acumulado 15 acertos                                 | Valor acumulado para o próximo sorteio         | Object |
| Arrecadacao Total                                    | Valor total arrecadado                         | Object |
| Estimativa Prêmio                                    | Valor estimado do prêmio                       | Object |
| Acumulado sorteio especial Lotofácil da Independência| Valor acumulado para o sorteio da Lotofácio da Independencia | Object|
| Observação                                           | Observações adicionais sobre o sorteio         | Object |





### 2.1 Análise primária


Nesta etapa será feita a análise primária da qualidade do conjunto de dados fornecidos

In [42]:
print(f'O conjunto de dados possui:\n{df.shape[0]} linhas e {df.shape[1]} colunas' )
df.head()

O conjunto de dados possui:
2894 linhas e 33 colunas


Unnamed: 0,Concurso,Data Sorteio,Bola1,Bola2,Bola3,Bola4,Bola5,Bola6,Bola7,Bola8,Bola9,Bola10,Bola11,Bola12,Bola13,Bola14,Bola15,Ganhadores 15 acertos,Cidade / UF,Rateio 15 acertos,Ganhadores 14 acertos,Rateio 14 acertos,Ganhadores 13 acertos,Rateio 13 acertos,Ganhadores 12 acertos,Rateio 12 acertos,Ganhadores 11 acertos,Rateio 11 acertos,Acumulado 15 acertos,Arrecadacao Total,Estimativa Prêmio,Acumulado sorteio especial Lotofácil da Independência,Observação
0,1,29/09/2003,2,3,5,6,9,10,11,13,14,16,18,20,23,24,25,5,BA; \nPR; \nSP,"R$49.765,82",154,"R$689,84",4645,"R$10,00",48807,"R$4,00",257593,"R$2,00","R$0,00","R$0,00","R$0,00","R$0,00",Estimativa de prêmio (15 ACERTOS) próximo conc...
1,2,06/10/2003,1,4,5,6,7,9,11,12,13,15,16,19,20,23,24,1,SP,"R$596.323,70",184,"R$1.388,95",6232,"R$10,00",81252,"R$4,00",478188,"R$2,00","R$0,00","R$0,00","R$0,00","R$0,00",ESTIMATIVA DE PRÊMIO PARA O PRÓXIMO CONCURSO (...
2,3,13/10/2003,1,4,6,7,8,9,10,11,12,14,16,17,20,23,24,2,SP,"R$400.623,70",158,"R$2.173,36",6897,"R$10,00",96244,"R$4,00",608211,"R$2,00","R$0,00","R$0,00","R$0,00","R$0,00",Estimativa de prêmio (15 ACERTOS) próximo conc...
3,4,20/10/2003,1,2,4,5,8,10,12,13,16,17,18,19,23,24,25,1,MT,"R$902.226,02",258,"R$1.498,72",9569,"R$10,00",123912,"R$4,00",706657,"R$2,00","R$0,00","R$0,00","R$0,00","R$0,00",Estimativa de prêmio (15 ACERTOS) próximo conc...
4,5,27/10/2003,1,2,4,8,9,11,12,13,15,16,19,20,23,24,25,2,BA; \nMS,"R$380.017,55",472,"R$687,49",14736,"R$10,00",195636,"R$4,00",860992,"R$2,00","R$0,00","R$0,00","R$0,00","R$0,00",Estimativa de prêmio para o próximo concurso (...


In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2894 entries, 0 to 2893
Data columns (total 33 columns):
 #   Column                                                 Non-Null Count  Dtype 
---  ------                                                 --------------  ----- 
 0   Concurso                                               2894 non-null   int64 
 1   Data Sorteio                                           2894 non-null   object
 2   Bola1                                                  2894 non-null   int64 
 3   Bola2                                                  2894 non-null   int64 
 4   Bola3                                                  2894 non-null   int64 
 5   Bola4                                                  2894 non-null   int64 
 6   Bola5                                                  2894 non-null   int64 
 7   Bola6                                                  2894 non-null   int64 
 8   Bola7                                                  289

In [44]:
# Analize descritiva
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Concurso,2894.0,1447.5,835.570165,1.0,724.25,1447.5,2170.75,2894.0
Bola1,2894.0,1.62094,0.925345,1.0,1.0,1.0,2.0,7.0
Bola2,2894.0,3.252937,1.297029,2.0,2.0,3.0,4.0,9.0
Bola3,2894.0,4.878715,1.532281,3.0,4.0,5.0,6.0,12.0
Bola4,2894.0,6.520733,1.710489,4.0,5.0,6.0,8.0,13.0
Bola5,2894.0,8.154112,1.809953,5.0,7.0,8.0,9.0,14.0
Bola6,2894.0,9.7868,1.853189,6.0,8.0,10.0,11.0,16.0
Bola7,2894.0,11.38182,1.888262,7.0,10.0,11.0,13.0,17.0
Bola8,2894.0,13.00829,1.912157,8.0,12.0,13.0,14.0,18.0
Bola9,2894.0,14.60781,1.928542,9.0,13.0,15.0,16.0,19.0


**Verificando valores Nulos/ausentes** 

In [45]:
check_null_values(df,list(df.columns))


A coluna 'Cidade / UF' possui 302 valores nulos.

A coluna 'Observação' possui 2116 valores nulos.


* Apos utilizar a função `check_null_values` identifiquei que existem duas colunas com valores nulos, é necessário avaliar esses dados nulos para o preenchimento ou remoção.

**Verificando valores duplicados**

* As colunas `Concurso` e `Data Sorteio` são as colunas mais importantes de não posssuirem dados duplicados;
* As demais colunas são passiveis de possuirem dados duplicados 

In [46]:
count_duplicates(df,["Concurso","Data Sorteio"])


Não há dados duplicados em nenhuma das colunas fornecidas.


**Verificando o tipo do dado**

In [47]:
verificar_tipos_de_dados(df)


A coluna 'Data Sorteio' não está no tipo de dado desejado (<M8[ns]).
A coluna 'Rateio 15 acertos' não está no tipo de dado desejado (float64).
A coluna 'Rateio 14 acertos' não está no tipo de dado desejado (float64).
A coluna 'Rateio 13 acertos' não está no tipo de dado desejado (float64).
A coluna 'Rateio 12 acertos' não está no tipo de dado desejado (float64).
A coluna 'Rateio 11 acertos' não está no tipo de dado desejado (float64).
A coluna 'Acumulado 15 acertos' não está no tipo de dado desejado (float64).
A coluna 'Arrecadacao Total' não está no tipo de dado desejado (float64).
A coluna 'Estimativa Prêmio' não está no tipo de dado desejado (float64).
A coluna 'Acumulado sorteio especial Lotofácil da Independência' não está no tipo de dado desejado (float64).


* Após a execução da função `verificar_tipos_de_dados` é possivel identificar as colunas que necessitam da transformação do tipo de dado;
* Talvez exista a necessidade de algum tipo de tratamento previo como remoção de carácteres para a transformação

### 2.2 Concurso

* A variável `Concurso` pode ser definida como a chave primária

In [48]:
df[["Concurso"]].head(2)

Unnamed: 0,Concurso
0,1
1,2


In [49]:
# Verificando se a quantidade de valores únicos em Concursos é igual a quantidade de linhas do nosso dataframe
len(set(df["Concurso"])) == df.shape[0]

True

In [50]:
# Verificando se a quantidade de valores únicos em Concursos é igual ao valor máximo em Concurso
len(set(df["Concurso"])) == df.Concurso.max()

True

### 2.3 Data sorteio

In [51]:
df[["Data Sorteio"]].head(2)

Unnamed: 0,Data Sorteio
0,29/09/2003
1,06/10/2003


A função `verifica_data` foi criada para verificar se o formato da data esta dentro do padrão dd/mm/yyyy

Caso encontre algum dado fora do padrão retorna o index que encontrou a divergencia:


In [52]:
verifica_data(df, "Data Sorteio")


Formato da data esta dentro padrão: dd/mm/yyyy


In [53]:
df[["Data Sorteio"]].dtypes

Data Sorteio    object
dtype: object

* É necessário efetuar a transformação para um tipo data

### 2.4 Bolas sorteadas

In [54]:
# Lista de colunas de bolas sorteadas
bolas_cols = ['Bola1', 'Bola2', 'Bola3', 'Bola4', 'Bola5','Bola6', 'Bola7', 'Bola8', 
              'Bola9', 'Bola10', 'Bola11', 'Bola12','Bola13', 'Bola14', 'Bola15']

In [55]:
# Exibindo somente o DataFrame contendo os dados das bolas sorteadas
df[bolas_cols].head(2)

Unnamed: 0,Bola1,Bola2,Bola3,Bola4,Bola5,Bola6,Bola7,Bola8,Bola9,Bola10,Bola11,Bola12,Bola13,Bola14,Bola15
0,2,3,5,6,9,10,11,13,14,16,18,20,23,24,25
1,1,4,5,6,7,9,11,12,13,15,16,19,20,23,24


In [56]:
for col in bolas_cols:
    print(f"{col}: valores únicos {set(df[col])}")


Bola1: valores únicos {1, 2, 3, 4, 5, 6, 7}
Bola2: valores únicos {2, 3, 4, 5, 6, 7, 8, 9}
Bola3: valores únicos {3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Bola4: valores únicos {4, 5, 6, 7, 8, 9, 10, 11, 12, 13}
Bola5: valores únicos {5, 6, 7, 8, 9, 10, 11, 12, 13, 14}
Bola6: valores únicos {6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16}
Bola7: valores únicos {7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17}
Bola8: valores únicos {8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18}
Bola9: valores únicos {9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19}
Bola10: valores únicos {10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}
Bola11: valores únicos {12, 13, 14, 15, 16, 17, 18, 19, 20, 21}
Bola12: valores únicos {13, 14, 15, 16, 17, 18, 19, 20, 21, 22}
Bola13: valores únicos {15, 16, 17, 18, 19, 20, 21, 22, 23}
Bola14: valores únicos {17, 18, 19, 20, 21, 22, 23, 24}
Bola15: valores únicos {18, 19, 20, 21, 22, 23, 24, 25}


* Nota-se que os dados contidas sobre os números das bola sorteadas estão dispostos de forma ordenada do menor valor sorteado para o maior e não por ordem de sorteio.

**Verificando valores duplicados**

In [57]:
df[bolas_cols].duplicated().sum()

0

* Não existem duplicidade de sorteios, todos os resultados são distintos

### 2.5 Ganhadores

In [58]:
ganhadores_cols = ['Ganhadores 15 acertos','Ganhadores 14 acertos','Ganhadores 13 acertos',
                   'Ganhadores 12 acertos','Ganhadores 11 acertos']

In [59]:
df[ganhadores_cols].head(2)

Unnamed: 0,Ganhadores 15 acertos,Ganhadores 14 acertos,Ganhadores 13 acertos,Ganhadores 12 acertos,Ganhadores 11 acertos
0,5,154,4645,48807,257593
1,1,184,6232,81252,478188


**Verificando valores duplicados**

In [60]:
df[ganhadores_cols].duplicated().sum()

0

### 2.6 Cidade / UF

In [61]:
df[["Cidade / UF"]]

Unnamed: 0,Cidade / UF
0,BA; \nPR; \nSP
1,SP
2,SP
3,MT
4,BA; \nMS
...,...
2889,SALVADOR/BA; ANITAPOLIS/SC
2890,MACAPA/AP; BRASILIA/DF
2891,BEQUIMAO/MA; DUQUE DE CAXIAS/RJ
2892,


* É necessário efetuar a remoção de caracteres especiais e padronizar os dados;
* É possivel separar as colunas em duas uma contendo somente os dados do nome da `'Cidades'` e outra os dados do nome da  `'UF'`;
* Tambem é necessário preencher os dados nulos

### 2.7 Rateios, valores acumulados e arrecadação

In [62]:
rateios_cols = ["Rateio 15 acertos", "Rateio 14 acertos", "Rateio 13 acertos", "Rateio 12 acertos",
                "Rateio 11 acertos", "Acumulado 15 acertos","Arrecadacao Total", "Estimativa Prêmio",
                "Acumulado sorteio especial Lotofácil da Independência"]

In [63]:
df[rateios_cols].head(2)

Unnamed: 0,Rateio 15 acertos,Rateio 14 acertos,Rateio 13 acertos,Rateio 12 acertos,Rateio 11 acertos,Acumulado 15 acertos,Arrecadacao Total,Estimativa Prêmio,Acumulado sorteio especial Lotofácil da Independência
0,"R$49.765,82","R$689,84","R$10,00","R$4,00","R$2,00","R$0,00","R$0,00","R$0,00","R$0,00"
1,"R$596.323,70","R$1.388,95","R$10,00","R$4,00","R$2,00","R$0,00","R$0,00","R$0,00","R$0,00"


**Verificando valores duplicados**

In [64]:
df[rateios_cols].duplicated().sum()

0

* Os dados estão em formato Object é necessário efetuar a transformação para Float;
* É necessário remover os caracteres: `'R$'` e `'.'` para transformar o tipo de dado

### 2.8 Observação

In [65]:
df[["Observação"]]

Unnamed: 0,Observação
0,Estimativa de prêmio (15 ACERTOS) próximo conc...
1,ESTIMATIVA DE PRÊMIO PARA O PRÓXIMO CONCURSO (...
2,Estimativa de prêmio (15 ACERTOS) próximo conc...
3,Estimativa de prêmio (15 ACERTOS) próximo conc...
4,Estimativa de prêmio para o próximo concurso (...
...,...
2889,
2890,
2891,
2892,


In [66]:
df[df["Observação"] == 'GANHADOR DE 15 ACERTOS: BELO HORIZONTE/MG'][["Cidade / UF","Observação"]]

Unnamed: 0,Cidade / UF,Observação
379,MG,GANHADOR DE 15 ACERTOS: BELO HORIZONTE/MG


* Necessário padronizar os dados, remover caracteres especiais;
* Possui informações sobre cidade e UF que podem ser reutilizados para preenchimento de dados ausentes;
* Informações sobre valores acumulados e arrecadação para preenchimento de dados ausentes.

## 3 - Tratamento de dados 👷

### 3.1 Tratamento Data Sorteio

A função `'transform_data_type'` faz a transformação do dado para um tipo: datetime64[ns], a função também verifica se a transformação foi bem sucedida



In [67]:
transform_data_type(df)

A transformação para data foi bem-sucedida.


### 3.2 Tratamento Cidade / UF

A função `'dividir_cidade_uf'` faz a separação dos dados das cidade e UFs em **valores únicos**, caso o valor for nulo/ausente ele incluira o valor `NAO ESPECIFICADO`.

A solução também faz a remoção de caracteres especiais e transforma todos os dados em maiúsculos

* A solução implementada talvez não seja a melhor solução, pois existe uma perda de informação nesta transformação, desta forma não é possivel especificar quantas apostas foram premiadas por cidade ou UF em um único sorteio;
* Outra solução pensada seria criar mais uma coluna possuindo um contador de apostas premiadas por cidade/uf, porem esta solução ainda esta em desenvolvimento.
* Para o desenvolvimento deste tipo de transformação seria necessário entrar em contato com as partes interessadas para alinhar qual solução seria mais interessante.
 

In [68]:
# Adcionando as duas colunas ao DataFrame contendo os dados separados por cidade e UF
df[['Cidade', 'UF']]  = df['Cidade / UF'].apply(dividir_cidade_uf)

In [69]:
df[['Cidade', 'UF']]

Unnamed: 0,Cidade,UF
0,CIDADE NAO ESPECIFICADA,"PR, SP, BA"
1,CIDADE NAO ESPECIFICADA,SP
2,CIDADE NAO ESPECIFICADA,SP
3,CIDADE NAO ESPECIFICADA,MT
4,CIDADE NAO ESPECIFICADA,"MS, BA"
...,...,...
2889,"SALVADOR, ANITAPOLIS","SC, BA"
2890,"MACAPA, BRASILIA","DF, AP"
2891,"BEQUIMAO, DUQUE DE CAXIAS","RJ, MA"
2892,CIDADE NAO ESPECIFICADA,UF NAO ESPECIFICADA


**Remoção da coluna Cidade / UF após tratamento**

In [70]:
# Remoção do conjunto de dados originais `Cidade / UF` após a transformação
df = df.drop("Cidade / UF", axis = 1)

### 3.3 Tratamento das colunas correspondetes ao rateios, valores acumulados e arrecação

* A função `remove_cifrao` remove o `'R$'` presente nos dados corresponde aos valores;
* Após a remoção converte o valor para float;
* Caso não consiga efetuar a transformação exibe a mensagem de erro identificando a coluna que não foi possivel efetuar a transformação

In [71]:
df[rateios_cols].dtypes

Rateio 15 acertos                                        object
Rateio 14 acertos                                        object
Rateio 13 acertos                                        object
Rateio 12 acertos                                        object
Rateio 11 acertos                                        object
Acumulado 15 acertos                                     object
Arrecadacao Total                                        object
Estimativa Prêmio                                        object
Acumulado sorteio especial Lotofácil da Independência    object
dtype: object

In [72]:
df = remove_cifrao(df, rateios_cols)
df[rateios_cols].head(2)

Unnamed: 0,Rateio 15 acertos,Rateio 14 acertos,Rateio 13 acertos,Rateio 12 acertos,Rateio 11 acertos,Acumulado 15 acertos,Arrecadacao Total,Estimativa Prêmio,Acumulado sorteio especial Lotofácil da Independência
0,49765.82,689.84,10.0,4.0,2.0,0.0,0.0,0.0,0.0
1,596323.7,1388.95,10.0,4.0,2.0,0.0,0.0,0.0,0.0


In [73]:
df[rateios_cols].dtypes

Rateio 15 acertos                                        float64
Rateio 14 acertos                                        float64
Rateio 13 acertos                                        float64
Rateio 12 acertos                                        float64
Rateio 11 acertos                                        float64
Acumulado 15 acertos                                     float64
Arrecadacao Total                                        float64
Estimativa Prêmio                                        float64
Acumulado sorteio especial Lotofácil da Independência    float64
dtype: object

### 3.4 Tratamento de observações e enriquecimento de dados

* A solução para tratamento/enriquecimento de dados seria utilizar um regex para categorizar as observações da seguinte maneira:

|Tipo observação  | código da observação|
|:---------------:|:-------------------:|
| Acumulou        |          1          |
| Postergou       |          2          |
| Dados da cidade |          3          |
| Dados ganhador  |          4          |


* Foi criado a função `categorize_observacao` que faz justamente esta classificação;

* Criando uma nova coluna chamada `Observacao_code` no conjunto de dados contendo esta classificação pode facilitar
    - A filtragem de dados;
    - Identificação de anomalias;
    - identificação de dados dos ganhadores como cidade e UFs para preenchimento de campos nulos no rawdata e classificados anteriormente como não especificado;
    - Melhoria geral na compreensão do conjunto de dados.

* Nesta versão é necessário aprimorar esta classificação via regex, mas com o amadurecimento desta classificão/código, criando mais categorias é possivel rodar um modelo de machine learning supervisinado/semi supervisionado para classificar dados futuros.

In [74]:
df = categorize_observacao(df)

In [75]:
df.head(2)

Unnamed: 0,Concurso,Data Sorteio,Bola1,Bola2,Bola3,Bola4,Bola5,Bola6,Bola7,Bola8,Bola9,Bola10,Bola11,Bola12,Bola13,Bola14,Bola15,Ganhadores 15 acertos,Rateio 15 acertos,Ganhadores 14 acertos,Rateio 14 acertos,Ganhadores 13 acertos,Rateio 13 acertos,Ganhadores 12 acertos,Rateio 12 acertos,Ganhadores 11 acertos,Rateio 11 acertos,Acumulado 15 acertos,Arrecadacao Total,Estimativa Prêmio,Acumulado sorteio especial Lotofácil da Independência,Observação,Cidade,UF,Observacao_code
0,1,2003-09-29,2,3,5,6,9,10,11,13,14,16,18,20,23,24,25,5,49765.82,154,689.84,4645,10.0,48807,4.0,257593,2.0,0.0,0.0,0.0,0.0,Estimativa de prêmio (15 ACERTOS) próximo conc...,CIDADE NAO ESPECIFICADA,"PR, SP, BA",0
1,2,2003-10-06,1,4,5,6,7,9,11,12,13,15,16,19,20,23,24,1,596323.7,184,1388.95,6232,10.0,81252,4.0,478188,2.0,0.0,0.0,0.0,0.0,ESTIMATIVA DE PRÊMIO PARA O PRÓXIMO CONCURSO (...,CIDADE NAO ESPECIFICADA,SP,0


In [76]:
@interact(cat_observacao = set(df.Observacao_code))
def slice_df(cat_observacao):
    return df[df.Observacao_code == cat_observacao]

interactive(children=(Dropdown(description='cat_observacao', options=(0, 1, 2, 3, 4), value=0), Output()), _do…

## 4 - Modelagem de Dados:

In [77]:
# Conectar ao banco de dados
conn = sqlite3.connect('PotatoCore.db')
cursor = conn.cursor()

# Criar tabela de ganhadores_lotofacil
cursor.execute('''
    CREATE TABLE IF NOT EXISTS ganhadores_lotofacil (
        id INTEGER PRIMARY KEY,
        concurso_id INTEGER NOT NULL,
        ganhadores_15 INTEGER,
        ganhadores_14 INTEGER,
        ganhadores_13 INTEGER,
        ganhadores_12 INTEGER,
        ganhadores_11 INTEGER,
        cidade TEXT,
        uf TEXT,
        FOREIGN KEY (concurso_id) REFERENCES concursos_lotofacil (concurso_id)
    )
''')

# Criar tabela de sorteios_lotofacil
cursor.execute('''
    CREATE TABLE IF NOT EXISTS sorteios_lotofacil (
        id INTEGER PRIMARY KEY,
        concurso_id INTEGER NOT NULL,
        bola1 INTEGER,
        bola2 INTEGER,
        bola3 INTEGER,
        bola4 INTEGER,
        bola5 INTEGER,
        bola6 INTEGER,
        bola7 INTEGER,
        bola8 INTEGER,
        bola9 INTEGER,
        bola10 INTEGER,
        bola11 INTEGER,
        bola12 INTEGER,
        bola13 INTEGER,
        bola14 INTEGER,
        bola15 INTEGER,
        FOREIGN KEY (concurso_id) REFERENCES concursos_lotofacil (concurso_id)
    )
''')

# Criar tabela de concursos_lotofacil
cursor.execute('''
    CREATE TABLE IF NOT EXISTS concursos_lotofacil (
        concurso_id INTEGER PRIMARY KEY,
        data_sorteio DATE NOT NULL,
        acumulado_15 INTEGER NOT NULL,
        rateio_15 REAL,
        ganhadores_14 INTEGER NOT NULL,
        rateio_14 REAL,
        ganhadores_13 INTEGER NOT NULL,
        rateio_13 REAL,
        ganhadores_12 INTEGER NOT NULL,
        rateio_12 REAL,
        ganhadores_11 INTEGER NOT NULL,
        rateio_11 REAL,
        acumulado_especial INTEGER NOT NULL,
        arrecadacao_total REAL,
        estimativa_premio REAL,
        observacao TEXT,
        observacao_code INTEGER
    )
''')

# Commit (salvar) as alterações no banco de dados
conn.commit()

## 5 - Load data PotatoCore.db

In [78]:
# Renomeando colunas do dataframe e copiando para um dataframe copia
df_copy_to_load_db = df.rename(columns={
                               'Concurso': 'concurso_id',
                               'Data Sorteio': 'data_sorteio',
                               'Ganhadores 15 acertos': 'ganhadores_15',
                               'Rateio 15 acertos': 'rateio_15',
                               'Ganhadores 14 acertos': 'ganhadores_14',
                               'Rateio 14 acertos': 'rateio_14',
                               'Ganhadores 13 acertos': 'ganhadores_13',
                               'Rateio 13 acertos': 'rateio_13',
                               'Ganhadores 12 acertos': 'ganhadores_12',
                               'Rateio 12 acertos': 'rateio_12',
                               'Ganhadores 11 acertos': 'ganhadores_11',
                               'Rateio 11 acertos': 'rateio_11',
                               'Acumulado 15 acertos': 'acumulado_15',
                               'Arrecadacao Total': 'arrecadacao_total',
                               'Estimativa Prêmio': 'estimativa_premio',
                               'Acumulado sorteio especial Lotofácil da Independência': 'acumulado_especial',
                               'Observação': 'observacao',
                               'Cidade': 'cidade',
                               'UF': 'uf',
                               'Observacao_code': 'observacao_code'})


# Inserir os dados do DataFrame na tabela de concursos_lotofacil
df_copy_to_load_db[['concurso_id', 'data_sorteio', 'acumulado_15', 'rateio_15', 'ganhadores_14', 'rateio_14',
                    'ganhadores_13', 'rateio_13', 'ganhadores_12', 'rateio_12', 'ganhadores_11', 'rateio_11',
                    'acumulado_especial', 'arrecadacao_total', 'estimativa_premio', 'observacao', 'observacao_code']].to_sql('concursos_lotofacil', conn, if_exists='replace', index=False)


# Inserir os dados do DataFrame na tabela de ganhadores
df_copy_to_load_db[['concurso_id', 'ganhadores_15', 'ganhadores_14', 'ganhadores_13', 'ganhadores_12', 'ganhadores_11', 'cidade', 'uf']].to_sql('ganhadores_lotofacil', conn, if_exists='replace', index=False)

# Inserir os dados do DataFrame na tabela de sorteios_lotofacil
df_copy_to_load_db[['concurso_id', 'Bola1', 'Bola2', 'Bola3', 'Bola4', 'Bola5', 'Bola6', 'Bola7', 'Bola8', 'Bola9',
                    'Bola10', 'Bola11', 'Bola12', 'Bola13', 'Bola14', 'Bola15']].to_sql('sorteios_lotofacil', conn, if_exists='replace', index=False)


2894

In [79]:
# Estabelecer uma conexão com o banco de dados existente (PotatoCore.db)
conn = sqlite3.connect('PotatoCore.db')

# Consulta SQL para carregar os dados da tabela concursos
query = "SELECT * FROM concursos_lotofacil LIMIT 1"

# Carregar os dados da tabela concursos em um DataFrame
sql_query = pd.read_sql_query(query, conn)
sql_query

Unnamed: 0,concurso_id,data_sorteio,acumulado_15,rateio_15,ganhadores_14,rateio_14,ganhadores_13,rateio_13,ganhadores_12,rateio_12,ganhadores_11,rateio_11,acumulado_especial,arrecadacao_total,estimativa_premio,observacao,observacao_code
0,1,2003-09-29 00:00:00,0.0,49765.82,154,689.84,4645,10.0,48807,4.0,257593,2.0,0.0,0.0,0.0,Estimativa de prêmio (15 ACERTOS) próximo conc...,0


In [80]:
# Fechar a conexão com o banco de dados
conn.close()

## 6 - Nexts steps 🎯

* Aprimorar o processo de modelagem do database;
* Aprimorar a classificação de `Observações`;
* Gerar modelo de classificação de `Observações` para otimizar ingestão de dados futuros;
* Criar arquivo.py que faz a automação da pipeline de ETL;
* Implementar ETL no Airflow utilizando Docker;
* Implementar sistema de segurança de maneira robusta no database.
  