## Estudo ETL Formula1 data jupyter notebook
 >projeto: Formula_Analitycs_One

 >propósito do script: estudar o processo de ETL para gerar as informações de requisitos 

### 1. Instalação, configuração e teste de conexão com AWS

#### 1.1 instale as bibliotecas necessárias

In [683]:
#!pip install sqlalchemy
#!pip install pandas
#!pip install pymysql

#### 1.2 importe as bibliotecas necessárias

In [None]:
import pymysql
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

#### 1.3 defina as variáveis de conexão com o drive pymysql e aws

In [None]:
AWS_DB_HOST = 'database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com'
AWS_DB_USER = 'admin'
AWS_DB_PASS = 'mysqladmin1509'
AWS_DB_OLAT = 'DW_F1'

#### 1.4 teste a conexão para qualquer qulquer base de dados na aws

In [None]:
def teste_conexao_base_pymysql(bdados):
    """
    fução para conectar uma base qualquer na instancia da AWS
    """
    try:        
        pymysql.connect(host=AWS_DB_HOST,user=AWS_DB_USER,
        password=AWS_DB_PASS,
        database=bdados)
        print("Base de dados " + bdados + " conectada com sucesso!")

    except Exception as err:
        print("Falha na conexão")
        print(err)

#### 1.5 teste a conexao  para o OLAP na nuvem aws

In [4]:
teste_conexao_base_pymysql(AWS_DB_OLAT)

Base de dados DW_F1 conectada com sucesso!


#### 1.6 defina uma conexão  com uma base para o OLAP  do projeto via  engine sqlalchemy 

In [5]:
engine_bdwf1 = sqlalchemy.create_engine('mysql+pymysql://admin:mysqladmin1509@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1')
engine_bdwf1

Engine(mysql+pymysql://admin:***@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1)

### 2. Mineração de dados no DW

#### 2.1 lendo os dados das tabelas do dataware house e definindo variáveis globais de manipulação

In [6]:
fato_resultado = pd.read_sql_table("fato_resultados", engine_bdwf1)
dim_circuitos = pd.read_sql_table("dim_circuitos", engine_bdwf1)
dim_construtores = pd.read_sql_table("dim_construtores", engine_bdwf1)
dim_corridas = pd.read_sql_table("dim_corridas", engine_bdwf1)
dim_pilotos = pd.read_sql_table("dim_pilotos", engine_bdwf1)
dim_tempo = pd.read_sql_table("dim_tempo", engine_bdwf1)

#### 2.2 analisando a classificação de pilotos

2.2.1 - limpe as tabelas para analisar os registros dentro dos interesses de requisitos

In [7]:
#limpe a tabela fato resultados apenas para as colunas de interesse na classificação de pilotos
classificacao_piloto = pd.read_sql_table("fato_resultados", engine_bdwf1, columns=['temporada','id_dim_piloto', 'id_dim_corrida', 'pontos_ganhos'])

#limpe a tabela  de dimensão pilotos apenas para as colunasref_piloto e nacionalidade
dim_piloto_interesse = pd.read_sql_table("dim_pilotos", engine_bdwf1, columns=['id_dim_piloto', 'ref_piloto', 'nacionalidade'])

# una as tabelas de interesse 
tabela_unida_interesse = pd.merge(classificacao_piloto, dim_piloto_interesse, on='id_dim_piloto')

#limpe a tabela  de dimensão corridas apenas apra as colunas id_dim_corrida e nome_gp
dim_corrida_interesse = pd.read_sql_table("dim_corridas", engine_bdwf1, columns=['id_dim_corrida', 'nome_gp'])

# adicione o nome do gp a tabela de interesse
tabela_unida_interesse = pd.merge(tabela_unida_interesse, dim_corrida_interesse, on='id_dim_corrida')

#filte a tabela unida de interesse para ficar com: ano da temporada, nome piloto, pais do piloto, pontos por corrida, nome da corrida, 
tabela_unida_interesse

#gere um dataframe de classificacao apenas apra as colunas temporada, nacionalidade, ref_piloto,  pontos_ganhos, nome_gp
classificacao = pd.DataFrame(tabela_unida_interesse, columns = ['temporada','ref_piloto','nacionalidade', 'nome_gp', 'pontos_ganhos'])


2.2.1 - Exiba todos os pontos de cada corrida de um piloto especifico em uma temporada qualquer e tambem o total de pontos do piloto na temporada escolhida

In [8]:
def total_pontos_piloto_temporada(temporada, piloto):
    """
    Exibe todos os pontos por corrida de um piloto em uma temporada e calcula o total de pontos
    """
    filtro = classificacao[(classificacao['temporada']== temporada) & (classificacao['ref_piloto']== piloto)] 
    filtro = filtro.reset_index(drop=True)
    total_pontos = filtro['pontos_ganhos'].sum()
    print(f"Total de pontos do piloto {piloto} na temporada {temporada} é de {total_pontos} pontos")    
    filtro = filtro.drop(columns=['ref_piloto','temporada', 'nacionalidade'])
    filtro = filtro.T
    return filtro

2.2.2 - Exiba o quais e quantos pilotos que participaram de uma determinada temporada

In [9]:
def pilotos_temporada(temporada):
    so_temporada_piloto = classificacao.query('temporada=="{}"'.format(temporada))
    lista_piloto_temporada = list(so_temporada_piloto['ref_piloto'].unique())
    qtd_pilotos_temporada =  len(lista_piloto_temporada)       
    return lista_piloto_temporada    

2.2.3 - Exiba apenas os pontos de um piloto em uma temporada

In [10]:
def apenas_pontos_piloto_temporada(temporada, piloto):
    """
    Exibe tapenas os pontos de um piloto em uma temporada
    """
    filtro = classificacao[(classificacao['temporada']== temporada) & (classificacao['ref_piloto']== piloto)] 
    filtro = filtro.reset_index(drop=True)
    total_pontos = filtro['pontos_ganhos'].sum()     
    filtro = filtro.drop(columns=['ref_piloto','nome_gp','temporada', 'nacionalidade'])
    filtro = filtro
    return filtro

2.2.3 - Exiba apenas os nomes de todos os gps de uma temporada

In [39]:
def apenas_gps_temporada(temporada):
    """
    Exibe todos os pontos por corrida de um piloto em uma temporada e calcula o total de pontos
    """
    so_gps_temporada = classificacao.query('temporada=="{}"'.format(temporada))
    lista_piloto_temporada = list(so_gps_temporada['nome_gp'].unique())           
    return lista_piloto_temporada  

2.2.3 - Exiba pontuacao de pilotos por uma temporada qualquer

In [51]:
def pontuacao_pilotos_temporada(temporada):
    """
    retorna a pontuação de pilotos por uma temporada qualquer
    """
    array_pilotos = pilotos_temporada(temporada)
    data_pontos = []
    qtd_pilotos = len(array_pilotos)

    for x in range(qtd_pilotos):
        resultado = apenas_pontos_piloto_temporada(temporada, array_pilotos[x])
        lista = list(resultado.pontos_ganhos)
        data_pontos .append(lista)
   
    pontuacao_pilotos = pd.DataFrame(data=data_pontos ,index = pilotos_temporada(temporada), columns=apenas_gps_temporada(temporada))
    return pontuacao_pilotos

In [52]:
def array_total_pontos_pilotos_temporada(temporada):    
    """
    Detorna um array contendo o total de pontos dos pilotos por temporada
    """
    pilotos = pilotos_temporada(temporada)
    array_pontos_pilotos = []
    qtd_pilotos = len(pilotos)
    for x in range(qtd_pilotos):
        pontos_ganhos = apenas_pontos_piloto_temporada(temporada, pilotos[x])
        total_pontos =  pontos_ganhos['pontos_ganhos'].sum()  
        array_pontos_pilotos.append(total_pontos)
    return array_pontos_pilotos

In [53]:
def colocacao_pilotos_temporada(temporada):
    """
    Retorna um dataframe com o total de pontos dos pilotos por temporada
    """
    pilotos = pilotos_temporada(temporada)
    data_total_pontos = array_total_pontos_pilotos_temporada(temporada)
    df_classificacao = pd.DataFrame(data=data_total_pontos ,index = pilotos, columns=['total_pontos'])
    return df_classificacao

In [54]:
def classificacao_campeonato_pilotos(temporada):
    """
     retorna a classificacao do campeonato de pilotos 
    """
    array_pontos_pilotos = array_total_pontos_pilotos_temporada(temporada)
    df1 = colocacao_pilotos_temporada(temporada)
    df2 = pontuacao_pilotos_temporada(temporada)
    df2.insert(0, "total pontos", array_pontos_pilotos, True)
    classificacao_pilotos = df2.sort_values("total pontos", ascending=False)
    return classificacao_pilotos

### 3. Resposta ao requisito de classificação de campeonato de pilotos

#### 3.1 exiba os registros de classificação de campeonato de piloto na tabela de fato resultados

In [55]:
classificacao.sort_values("temporada",ascending=False).head(10).style.hide_index()

temporada,ref_piloto,nacionalidade,nome_gp,pontos_ganhos
2021,vettel,German,Bahrain Grand Prix,0
2021,perez,Mexican,Emilia Romagna Grand Prix,0
2021,gasly,French,Portuguese Grand Prix,1
2021,russell,British,Portuguese Grand Prix,0
2021,norris,British,Portuguese Grand Prix,10
2021,latifi,Canadian,Portuguese Grand Prix,0
2021,tsunoda,Japanese,Portuguese Grand Prix,0
2021,mick_schumacher,German,Portuguese Grand Prix,0
2021,mazepin,Russian,Portuguese Grand Prix,0
2021,mazepin,Russian,Bahrain Grand Prix,0


#### 3.3 mostre a classificação do campeonato de pilotos por temporada

In [56]:
classificacao_campeonato_pilotos("1990")

Unnamed: 0,total pontos,Mexican Grand Prix,Japanese Grand Prix,Portuguese Grand Prix,Hungarian Grand Prix,Brazilian Grand Prix,German Grand Prix,Italian Grand Prix,United States Grand Prix,French Grand Prix,San Marino Grand Prix,Australian Grand Prix,Spanish Grand Prix,Monaco Grand Prix,British Grand Prix,Belgian Grand Prix,Canadian Grand Prix
senna,78,0,0,6.0,6.0,4.0,9.0,9.0,9.0,4.0,0.0,0.0,0.0,9.0,4.0,9.0,9.0
prost,73,9,0,4.0,0.0,9.0,3.0,6.0,0.0,9.0,3.0,4.0,9.0,0.0,9.0,6.0,2.0
piquet,44,1,9,2.0,4.0,1.0,0.0,0.0,3.0,3.0,2.0,9.0,0.0,0.0,2.0,2.0,6.0
berger,43,4,0,3.0,0.0,6.0,4.0,4.0,0.0,2.0,6.0,3.0,0.0,4.0,0.0,4.0,3.0
mansell,37,6,0,9.0,0.0,3.0,0.0,3.0,0.0,0.0,0.0,6.0,6.0,0.0,0.0,0.0,4.0
boutsen,34,2,2,0.0,9.0,2.0,1.0,0.0,4.0,0.0,0.0,2.0,3.0,3.0,6.0,0.0,0.0
patrese,23,0,3,0.0,3.0,0.0,2.0,2.0,0.0,1.0,9.0,1.0,2.0,0.0,0.0,0.0,0.0
nannini,21,3,1,0.0,0.0,6.0,0.0,0.0,0.0,4.0,4.0,0.0,0.0,3.0,0.0,,
alesi,13,0,0,0.0,0.0,0.0,0.0,0.0,6.0,0.0,1.0,0.0,0.0,6.0,0.0,0.0,0.0
capelli,6,0,0,0.0,0.0,0.0,0.0,0.0,0.0,6.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
