## Classificação de campeonato de piolotos e construtores 


1. __Instalação, teste e configuração de conexão com o dataware house__ 

       1.1 instale as bibliotecas necessárias
       1.2 importe as bibliotecas necessárias
       1.3 defina as variáveis de conexão com o drive pymysql e aws
       1.4 teste a conexão para uma base de dados na aws
       1.5 teste a conexao  com o OLAP na nuvem aws
       1.6 defina uma conexão com o dataware house
   
2. __Mineração e análise de dados no dataware house__

       2.1 lendo os dados das tabelas do dataware house e definindo variáveis globais de manipulação
   
       2.2 analisando a classificação de campeonato de pilotos
   
           2.2.1 - limpeza e extração de dados no dominio do requisito campeonatos de pilotos
           2.2.2 - total de pontos de um piloto por temporada
           2.2.3 - pilotos de uma temporada
           2.2.4 - pontos de um piloto em uma temporada
           2.2.5 - todos os gps de uma temporada
           2.2.6 - pontuacao de pilotos por uma temporada qualquer
           2.2.7 - array com o total de pontos dos pilotos por temporada
           2.2.8 - colocação dos pilotos em uma temporada
           2.2.9 - classificação do campeonato de pilotos
       
       2.3 analisando a classificação de campeonato de construtores
   
           2.3.1 - limpeza e extração de dados no dominio do requisito campeonatos de construtores
           2.3.2 - total de pontos de um construtor por temporada
           2.3.3 - construtores de uma temporada
           2.3.4 - pontos de um construtor em uma temporada
           2.3.5 - todos os gps de um construtor
           2.3.6 - pontuacao de construtores por uma temporada qualquer
           2.3.7 - array com o total de pontos dos construtores por temporada
           2.3.8 - colocação dos construtores em uma temporada
           2.3.9 - classificação do campeonato de construtores
       
       

3. __Solução do Projeto__ 

        3.1 - classificação de campeonato de pilotos  
        3.2 - classificação de campeonato de construtores


### 1.Instalação, teste e configuração de conexão com o dataware house 

#### 1.1 instale as bibliotecas necessárias

In [683]:
#!pip install sqlalchemy
#!pip install pandas
#!pip install pymysql

#### 1.2 importe as bibliotecas necessárias

In [394]:
import pymysql
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

#### 1.3 defina as variáveis de conexão com o drive pymysql e aws

In [395]:
AWS_DB_HOST = 'database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com'
AWS_DB_USER = 'admin'
AWS_DB_PASS = 'mysqladmin1509'
AWS_DB_OLAT = 'DW_F1'

#### 1.4 teste a conexão para uma base de dados na aws

In [396]:
def teste_conexao_base_pymysql(bdados):
    """
    fução para conectar uma base qualquer na instancia da AWS
    """
    try:        
        pymysql.connect(host=AWS_DB_HOST,user=AWS_DB_USER,
        password=AWS_DB_PASS,
        database=bdados)
        print("Base de dados " + bdados + " conectada com sucesso!")

    except Exception as err:
        print("Falha na conexão")
        print(err)

#### 1.5 teste a conexao  com o OLAP na nuvem aws

In [397]:
teste_conexao_base_pymysql(AWS_DB_OLAT)

Base de dados DW_F1 conectada com sucesso!


#### 1.6 defina uma conexão  com o dataware house

In [398]:
engine_bdwf1 = sqlalchemy.create_engine('mysql+pymysql://admin:mysqladmin1509@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1')
engine_bdwf1

Engine(mysql+pymysql://admin:***@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1)

### 2. Mineração de dados no dataware house

#### 2.1 lendo os dados das tabelas do dataware house e definindo variáveis globais de manipulação

In [399]:
fato_resultado = pd.read_sql_table("fato_resultados", engine_bdwf1)
dim_circuitos = pd.read_sql_table("dim_circuitos", engine_bdwf1)
dim_construtores = pd.read_sql_table("dim_construtores", engine_bdwf1)
dim_corridas = pd.read_sql_table("dim_corridas", engine_bdwf1)
dim_pilotos = pd.read_sql_table("dim_pilotos", engine_bdwf1)
dim_tempo = pd.read_sql_table("dim_tempo", engine_bdwf1)

#### 2.2 analisando a classificação de campeonato de pilotos

2.2.1 - limpe as tabelas para analisar os registros no domínio dos interesses de requisitos de classificaão de campeonato de pilotos

In [400]:
#limpe a tabela fato resultados apenas para as colunas de interesse na classificação de campeonato de pilotos
classificacao_piloto = pd.read_sql_table("fato_resultados", engine_bdwf1, columns=['temporada','id_dim_piloto', 'id_dim_corrida', 'pontos_ganhos'])

#limpe a tabela  de dimensão pilotos apenas para as colunasref_piloto e nacionalidade
dim_piloto_interesse = pd.read_sql_table("dim_pilotos", engine_bdwf1, columns=['id_dim_piloto', 'ref_piloto', 'nacionalidade'])

# una as tabelas de interesse 
tabela_unida_interesse = pd.merge(classificacao_piloto, dim_piloto_interesse, on='id_dim_piloto')

#limpe a tabela  de dimensão corridas apenas apra as colunas id_dim_corrida e nome_gp
dim_corrida_interesse = pd.read_sql_table("dim_corridas", engine_bdwf1, columns=['id_dim_corrida', 'nome_gp'])

# adicione o nome do gp a tabela de interesse
tabela_unida_interesse = pd.merge(tabela_unida_interesse, dim_corrida_interesse, on='id_dim_corrida')

#gere um dataframe de classificacao apenas apra as colunas temporada, nacionalidade, ref_piloto,  pontos_ganhos, nome_gp
classificacao = pd.DataFrame(tabela_unida_interesse, columns = ['temporada','ref_piloto','nacionalidade', 'nome_gp', 'pontos_ganhos'])



2.2.2 - analise o total de pontos de um piloto por temporada

In [402]:
def total_pontos_piloto_temporada(temporada, piloto):
    """
    Exibe todos os pontos por corrida de um piloto em uma temporada e calcula o total de pontos
    """
    filtro = classificacao[(classificacao['temporada']== temporada) & (classificacao['ref_piloto']== piloto)] 
    filtro = filtro.reset_index(drop=True)
    total_pontos = filtro['pontos_ganhos'].sum()
    print(f"Total de pontos do piloto {piloto} na temporada {temporada} é de {total_pontos} pontos")    
    filtro = filtro.drop(columns=['ref_piloto','temporada', 'nacionalidade'])
    filtro = filtro.T
    return filtro

2.2.3 - mostre quais os pilotos de uma temporada

In [403]:
def pilotos_temporada(temporada):
    so_temporada_piloto = classificacao.query('temporada=="{}"'.format(temporada))
    lista_piloto_temporada = list(so_temporada_piloto['ref_piloto'].unique())
    qtd_pilotos_temporada =  len(lista_piloto_temporada)       
    return lista_piloto_temporada    

2.2.4 - exiba apenas os pontos de um piloto em uma temporada

In [404]:
def apenas_pontos_piloto_temporada(temporada, piloto):
    """
    Exibe tapenas os pontos de um piloto em uma temporada
    """
    filtro = classificacao[(classificacao['temporada']== temporada) & (classificacao['ref_piloto']== piloto)] 
    filtro = filtro.reset_index(drop=True)
    total_pontos = filtro['pontos_ganhos'].sum()     
    filtro = filtro.drop(columns=['ref_piloto','nome_gp','temporada', 'nacionalidade'])
    return filtro

2.2.5 - exiba apenas os nomes de todos os gps de uma temporada

In [405]:
def apenas_gps_temporada(temporada):
    so_gps_temporada = classificacao.query('temporada=="{}"'.format(temporada))
    lista_piloto_temporada = list(so_gps_temporada['nome_gp'].unique())           
    return lista_piloto_temporada  

2.2.6 - exiba pontuacao de pilotos por uma temporada qualquer

In [406]:
def pontuacao_pilotos_temporada(temporada):
    """
    retorna a pontuação de pilotos por uma temporada qualquer
    """
    array_pilotos = pilotos_temporada(temporada)
    data_pontos = []
    qtd_pilotos = len(array_pilotos)

    for x in range(qtd_pilotos):
        resultado = apenas_pontos_piloto_temporada(temporada, array_pilotos[x])
        lista = list(resultado.pontos_ganhos)
        data_pontos.append(lista)
   
    pontuacao_pilotos = pd.DataFrame(data=data_pontos ,index = pilotos_temporada(temporada), columns=apenas_gps_temporada(temporada))
    return pontuacao_pilotos

2.2.7 - exiba um array com o total de pontos dos pilotos por temporada

In [408]:
def array_total_pontos_pilotos_temporada(temporada):    
    """
    retorna um array contendo o total de pontos dos pilotos por temporada
    """
    pilotos = pilotos_temporada(temporada)
    array_pontos_pilotos = []
    qtd_pilotos = len(pilotos)
    for x in range(qtd_pilotos):
        pontos_ganhos = apenas_pontos_piloto_temporada(temporada, pilotos[x])
        total_pontos =  pontos_ganhos['pontos_ganhos'].sum()  
        array_pontos_pilotos.append(total_pontos)
    return array_pontos_pilotos

2.2.8 - exiba a colocação dos pilotos em uma temporada

In [409]:
def colocacao_pilotos_temporada(temporada):
    """
    Retorna um dataframe com o total de pontos dos pilotos por temporada
    """
    pilotos = pilotos_temporada(temporada)
    data_total_pontos = array_total_pontos_pilotos_temporada(temporada)
    df_classificacao = pd.DataFrame(data=data_total_pontos ,index = pilotos, columns=['total_pontos'])
    return df_classificacao.sort_values("total_pontos",ascending=False)

2.2.9 - exiba a tabela d classificação do campeonato de pilotos 

In [410]:
def classificacao_campeonato_pilotos(temporada):
    """
     retorna a classificacao do campeonato de pilotos 
    """
    array_pontos_pilotos = array_total_pontos_pilotos_temporada(temporada)
    df1 = colocacao_pilotos_temporada(temporada)
    df2 = pontuacao_pilotos_temporada(temporada)
    df2.insert(0, "total pontos", array_pontos_pilotos, True)
    classificacao_pilotos = df2.sort_values("total pontos", ascending=False)
    return classificacao_pilotos

#### 2.3 analisando a classificação de campeonato de construtores

2.3.1 - limpe as tabelas para analisar os registros dentro dos interesses de requisitos de classificação de campeonato de construtores

In [411]:
#limpe a tabela fato resultados apenas para as colunas de interesse na classificação de campeonato de contrutores
classificacao_contrutores = pd.read_sql_table("fato_resultados", engine_bdwf1, columns=['temporada','id_dim_construtor', 'id_dim_piloto','id_dim_corrida', 'pontos_ganhos'])

#limpe a tabela  de dimensão contrutor apenas para as colunas ref_piloto e nacionalidade
dim_construtor_interesse = pd.read_sql_table("dim_construtores", engine_bdwf1, columns=['id_dim_construtor', 'nome_construtor', 'nacionalidade_construtor'])

# una as tabelas de interesse
tabela_unida_interesse = pd.merge(classificacao_contrutores, dim_construtor_interesse, on='id_dim_construtor')

#limpe a tabela  de dimensão corridas apenas apra as colunas id_dim_corrida e nome_gp
dim_corrida_interesse = pd.read_sql_table("dim_corridas", engine_bdwf1, columns=['id_dim_corrida', 'nome_gp'])

# adicione o nome do gp a tabela de interesse
tabela_unida_interesse = pd.merge(tabela_unida_interesse, dim_corrida_interesse, on='id_dim_corrida')

#limpe a tabela  de dimensão pilotos apenas para as colunasref_piloto e nacionalidade
dim_piloto_interesse = pd.read_sql_table("dim_pilotos", engine_bdwf1, columns=['id_dim_piloto', 'ref_piloto', 'nacionalidade'])

#gere um dataframe de classificacao apenas apra as colunas temporada, nacionalidade, ref_piloto,  pontos_ganhos, nome_gp
classificacao_construtores = pd.DataFrame(tabela_unida_interesse, columns = ['id_dim_piloto', 'temporada','nome_construtor','nacionalidade_construtor','pontos_ganhos','nome_gp'])

#tabela unida de interesser 
tabela_unida_interesse = pd.merge(classificacao_construtores, dim_piloto_interesse, on='id_dim_piloto')

# definicao do dataframe de classificacao de construtores
classificacao_construtores = pd.DataFrame(tabela_unida_interesse, columns = ['temporada','nome_construtor','ref_piloto', 'nacionalidade_construtor', 'pontos_ganhos', 'nome_gp'])

2.3.2 - Exiba o total de pontos de um construtor por temporada

In [412]:
def total_pontos_construtores_temporada(temporada, construtor):
    """
    Exibe todos os pontos por corrida de um piloto em uma temporada e calcula o total de pontos
    """
    filtro = classificacao_construtores[(classificacao_construtores['temporada']== temporada) & (classificacao_construtores['nome_construtor']== construtor)] 
    filtro = filtro.reset_index(drop=True)
    total_pontos = filtro['pontos_ganhos'].sum()
    print(f"Total de pontos do construtor {construtor} na temporada {temporada} é de {total_pontos} pontos")    
    filtro = filtro.drop(columns=['temporada', 'nacionalidade_construtor'])
    filtro = filtro
    return filtro

2.3.3 - Mostre quais os construtores de uma temporada

In [413]:
def construtores_temporada(temporada):
    so_temporada_construtores = classificacao_construtores.query('temporada=="{}"'.format(temporada))
    lista_construtores_temporada = list(so_temporada_construtores['nome_construtor'].unique())    
    return lista_construtores_temporada    

2.3.4 - Exiba apenas os pontos de um construtor em uma temporada

In [414]:
def apenas_pontos_construtores_temporada(temporada, construtor):
    """
    retorna os pontos de um contrutor em uma temporada
    """
    filtro = classificacao_construtores[(classificacao_construtores['temporada']== temporada) & (classificacao_construtores['nome_construtor']== construtor)] 
    filtro = filtro.reset_index(drop=True)      
    filtro = filtro.drop(columns=['nome_construtor','ref_piloto','temporada','nome_gp','nacionalidade_construtor'])
    return filtro

2.3.5 - Exiba apenas os nomes de todos os gps de construtores em uma temporada

In [415]:
def apenas_gps_temporada_construtor(temporada,construtor):
    """
    retorna os gps de um contrutor em uma temporada
    """
    filtro = classificacao_construtores[(classificacao_construtores['temporada']== temporada) & (classificacao_construtores['nome_construtor']== construtor)] 
    filtro = filtro.reset_index(drop=True)      
    filtro = filtro.drop(columns=['nome_construtor','pontos_ganhos','ref_piloto','temporada','nacionalidade_construtor'])
    return filtro 

2.3.6 - Exiba pontuacao de construtores por temporada

In [416]:
def pontuacao_construtores_temporada(temporada):
    """
    retorna a pontuação dos construtores por uma temporada qualquer
    """
    array_construtores = construtores_temporada(temporada)
    data_pontos = []
    qtd_construtores = len(array_construtores)

    for x in range(qtd_construtores):
        resultado = apenas_pontos_construtores_temporada(temporada, array_construtores[x])
        lista = list(resultado.pontos_ganhos)
        data_pontos.append(lista)
   
    pontuacao_construtores = pd.DataFrame(data=data_pontos ,index = construtores_temporada(temporada), columns=apenas_gps_temporada_construtor(temporada, array_construtores[0]))
    return pontuacao_construtores

2.3.7 - Exiba um array com o total de pontos dos pilotos por temporada

In [417]:
def array_total_pontos_construtores_temporada(temporada):    
    """
    retorna um array contendo o total de pontos dos contrutores por temporada
    """
    construtores = construtores_temporada(temporada)
    array_pontos_construtores = []
    qtd_construtores = len(construtores)
    for x in range(qtd_construtores):
        pontos_ganhos = apenas_pontos_construtores_temporada(temporada, construtores[x])
        total_pontos =  pontos_ganhos['pontos_ganhos'].sum()  
        array_pontos_construtores.append(total_pontos)
    return array_pontos_construtores

2.3.8 - Exiba a colocação dos construtores em uma temporada

In [418]:
def colocacao_construtores_temporada(temporada):
    """
    Retorna um dataframe com o total de pontos dos construtores por temporada
    """
    construtores = construtores_temporada(temporada)
    data_total_pontos = array_total_pontos_construtores_temporada(temporada)
    df_classificacao = pd.DataFrame(data=data_total_pontos ,index = construtores, columns=['total_pontos'])
    return df_classificacao.sort_values("total_pontos",ascending=False)

2.3.9 - Exiba a tabela d classificação do campeonato de construtores

In [419]:
def classificacao_campeonato_construtores(temporada):
    """
     retorna a classificacao do campeonato de construtores 
    """
    array_pontos_construtores = array_total_pontos_construtores_temporada(temporada)
    df1 = colocacao_construtores_temporada(temporada)
    df2 = pontuacao_construtores_temporada(temporada)
    df2.insert(0, "total pontos", array_pontos_construtores, True)
    classificacao_construtores = df2.sort_values("total pontos", ascending=False)
    return classificacao_construtores

### 3. Solução do Projeto

 3.1 - classificação de campeonato de pilotos        

In [420]:
classificacao_campeonato_pilotos("2020")

Unnamed: 0,total pontos,Emilia Romagna Grand Prix,Portuguese Grand Prix,Hungarian Grand Prix,Turkish Grand Prix,Russian Grand Prix,70th Anniversary Grand Prix,Italian Grand Prix,Spanish Grand Prix,Tuscan Grand Prix,Abu Dhabi Grand Prix,British Grand Prix,Austrian Grand Prix,Eifel Grand Prix,Bahrain Grand Prix,Belgian Grand Prix,Styrian Grand Prix,Sakhir Grand Prix
hamilton,347,26,26.0,26.0,25.0,15.0,19.0,7.0,25.0,26.0,15.0,25.0,12.0,25.0,25.0,25.0,25.0,
bottas,223,18,18.0,15.0,0.0,26.0,15.0,10.0,16.0,18.0,18.0,0.0,25.0,0.0,4.0,18.0,18.0,4.0
max_verstappen,214,0,15.0,18.0,8.0,18.0,25.0,0.0,18.0,0.0,25.0,19.0,0.0,19.0,19.0,15.0,15.0,0.0
perez,125,8,6.0,6.0,18.0,12.0,1.0,10.0,10.0,0.0,8.0,12.0,0.0,1.0,8.0,25.0,,
ricciardo,119,15,2.0,4.0,1.0,10.0,0.0,8.0,0.0,12.0,7.0,12.0,0.0,15.0,6.0,13.0,4.0,10.0
albon,105,0,0.0,10.0,6.0,1.0,10.0,0.0,4.0,15.0,12.0,4.0,0.0,0.0,15.0,8.0,12.0,8.0
sainz,105,6,8.0,2.0,10.0,0.0,0.0,18.0,8.0,0.0,8.0,0.0,10.0,10.0,10.0,0.0,3.0,12.0
leclerc,98,10,12.0,0.0,12.0,8.0,12.0,0.0,0.0,4.0,0.0,15.0,18.0,6.0,1.0,0.0,0.0,0.0
norris,97,4,0.0,0.0,5.0,0.0,2.0,12.0,1.0,8.0,10.0,10.0,16.0,0.0,12.0,6.0,10.0,1.0
stroll,75,0,0.0,12.0,2.0,0.0,8.0,15.0,12.0,0.0,1.0,2.0,0.0,0.0,2.0,6.0,15.0,


  3.2 - classificação de campeonato de construtores


In [421]:
classificacao_campeonato_construtores("2020")

Unnamed: 0,total pontos,"(Emilia Romagna Grand Prix,)","(Portuguese Grand Prix,)","(Hungarian Grand Prix,)","(Turkish Grand Prix,)","(Russian Grand Prix,)","(70th Anniversary Grand Prix,)","(Italian Grand Prix,)","(Spanish Grand Prix,)","(Tuscan Grand Prix,)",...,"(Spanish Grand Prix,).1","(Tuscan Grand Prix,).1","(Abu Dhabi Grand Prix,)","(British Grand Prix,)","(Austrian Grand Prix,)","(Eifel Grand Prix,)","(Bahrain Grand Prix,)","(Belgian Grand Prix,)","(Styrian Grand Prix,)","(Sakhir Grand Prix,)"
Mercedes,573,26,26,26,25,15,19,7,25,26,...,16,18,18,0,25,0,4,18,18,3
Red Bull,319,0,15,18,8,18,25,0,0,18,...,8,4,15,12,4,0,0,15,8,12
Racing Point,210,6,0,4,8,6,6,18,12,1,...,15,15,12,0,1,2,0,0,2,6
McLaren,202,6,8,2,10,0,0,18,12,8,...,1,1,8,10,10,16,0,12,6,10
Renault,181,15,2,4,1,10,0,8,10,0,...,18,0,0,2,8,4,0,2,10,0
Ferrari,131,0,1,8,15,0,0,0,0,6,...,0,0,4,0,15,18,6,1,0,0
AlphaTauri,107,12,0,0,0,4,1,2,6,0,...,0,2,0,4,6,6,8,8,4,0
Alfa Romeo,8,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,2,1,0,0,0
Haas F1 Team,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Williams,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
