## Estudo ETL Formula1 data jupyter notebook
 >projeto: Formula_Analitycs_One

 >propósito do script: estudar o processo de ETL para gerar as informações de requisitos 

### 1. Instalação, configuração e teste de conexão com AWS

#### 1.1 instale as bibliotecas necessárias

In [None]:
"""
!pip install sqlalchemy
!pip install pandas
!pip install pymysql
!pip install plotly
"""

#### 2.1 importe as bibliotecas necessárias

In [9]:
import pymysql
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

#### 3.1 defina as variáveis de conexão com o drive pymysql e aws

In [10]:
AWS_DB_HOST = 'database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com'
AWS_DB_USER = 'admin'
AWS_DB_PASS = 'mysqladmin1509'
AWS_DB_OLTP = 'FORMULA1'
AWS_DB_OLAT = 'DW_F1'

#### 4.1 teste a conexão para qualquer qulquer base de dados na aws

In [11]:
def teste_conexao_base_pymysql(bdados):
    """
    fução para conectar uma base qualquer na instancia da AWS
    """
    try:        
        pymysql.connect(host=AWS_DB_HOST,user=AWS_DB_USER,
        password=AWS_DB_PASS,
        database=bdados)
        print("Base de dados " + bdados + " conectada com sucesso!")

    except Exception as err:
        print("Falha na conexão")
        print(err)

#### 5.1 teste a conexao  para o OLTP e OLAP na nuvem aws

In [12]:
teste_conexao_base_pymysql(AWS_DB_OLTP)

Base de dados FORMULA1 conectada com sucesso!


In [13]:
teste_conexao_base_pymysql(AWS_DB_OLAT)

Base de dados DW_F1 conectada com sucesso!


#### 6.1 defina uma conexão  com uma base para o OLTP do projeto  via  engine sqlalchemy 

In [14]:
# OLTP - banco de dados transacional - FORMULA1
engine_bdf1 = sqlalchemy.create_engine('mysql+pymysql://admin:mysqladmin1509@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/FORMULA1')
engine_bdf1

Engine(mysql+pymysql://admin:***@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/FORMULA1)

#### 7.1 defina uma conexão  com uma base para o OLAP  do projeto via  engine sqlalchemy 

In [15]:
engine_bdwf1 = sqlalchemy.create_engine('mysql+pymysql://admin:mysqladmin1509@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1')
engine_bdwf1

Engine(mysql+pymysql://admin:***@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1)

### 2. Mineração de dados no DW

#### 2.1 lendo os dados das tabelas do dataware house e definindo variáveis globais de manipulação

In [16]:
fato_resultado = pd.read_sql_table("fato_resultados", engine_bdwf1)
dim_circuitos = pd.read_sql_table("dim_circuitos", engine_bdwf1)
dim_construtores = pd.read_sql_table("dim_construtores", engine_bdwf1)
dim_corridas = pd.read_sql_table("dim_corridas", engine_bdwf1)
dim_pilotos = pd.read_sql_table("dim_pilotos", engine_bdwf1)
dim_tempo = pd.read_sql_table("dim_tempo", engine_bdwf1)

#### 2.2 analisando a classificação de pilotos

2.2.1 - Exiba a classificação dos pilotos ordenada por temporada

In [77]:
#limpe a tabela fato resultados apenas para as colunas de interesse na classificação de pilotos
classificacao_piloto = pd.read_sql_table("fato_resultados", engine_bdwf1, columns=['temporada','id_dim_piloto', 'id_dim_corrida', 'pontos_ganhos'])

#limpe a tabela  de dimensão pilotos apenas para as colunasref_piloto e nacionalidade
dim_piloto_interesse = pd.read_sql_table("dim_pilotos", engine_bdwf1, columns=['id_dim_piloto', 'ref_piloto', 'nacionalidade'])

# una as tabelas de interesse 
tabela_unida_interesse = pd.merge(classificacao_piloto, dim_piloto_interesse, on='id_dim_piloto')

#limpe a tabela  de dimensão corridas apenas apra as colunas id_dim_corrida e nome_gp
dim_corrida_interesse = pd.read_sql_table("dim_corridas", engine_bdwf1, columns=['id_dim_corrida', 'nome_gp'])

# adicione o nome do gp a tabela de interesse
tabela_unida_interesse = pd.merge(tabela_unida_interesse, dim_corrida_interesse, on='id_dim_corrida')

#filte a tabela unida de interesse para ficar com: ano da temporada, nome piloto, pais do piloto, pontos por corrida, nome da corrida, 
tabela_unida_interesse

#gere um dataframe de classificacao apenas apra as colunas temporada, nacionalidade, ref_piloto,  pontos_ganhos, nome_gp
classificacao = pd.DataFrame(tabela_unida_interesse, columns = ['temporada','ref_piloto','nacionalidade','pontos_ganhos', 'nome_gp'])

#exiba a tabela de interesses unidos ordenando as informações por temporada comerçando pela mais recente
classificacao.sort_values("temporada",ascending=False).head(10)


Unnamed: 0,temporada,ref_piloto,nacionalidade,pontos_ganhos,nome_gp
7379,2021,vettel,German,0,Bahrain Grand Prix
5796,2021,perez,Mexican,0,Emilia Romagna Grand Prix
7554,2021,gasly,French,1,Portuguese Grand Prix
7555,2021,russell,British,0,Portuguese Grand Prix
7556,2021,norris,British,10,Portuguese Grand Prix
7557,2021,latifi,Canadian,0,Portuguese Grand Prix
7558,2021,tsunoda,Japanese,0,Portuguese Grand Prix
7559,2021,mick_schumacher,German,0,Portuguese Grand Prix
7560,2021,mazepin,Russian,0,Portuguese Grand Prix
7396,2021,mazepin,Russian,0,Bahrain Grand Prix


2.2.2 - crie uma função que seja capaz de filtrar a classicação por temporada de um piloto qualquer e exiba o total de pontos

In [85]:
def clafficacao_piloto_temporada(temporada, piloto):
    filtro = classificacao[(classificacao['temporada']== temporada) & (classificacao['ref_piloto']== piloto)]
    return filtro  

In [90]:
clafficacao_piloto_temporada("2010", "vettel")

Unnamed: 0,temporada,ref_piloto,nacionalidade,pontos_ganhos,nome_gp
1616,2010,vettel,German,18,Monaco Grand Prix
1640,2010,vettel,German,8,Chinese Grand Prix
1665,2010,vettel,German,25,Abu Dhabi Grand Prix
1689,2010,vettel,German,0,Korean Grand Prix
1713,2010,vettel,German,25,Japanese Grand Prix
1736,2010,vettel,German,15,German Grand Prix
1760,2010,vettel,German,0,Turkish Grand Prix
1785,2010,vettel,German,25,Brazilian Grand Prix
1808,2010,vettel,German,15,Spanish Grand Prix
1832,2010,vettel,German,12,Bahrain Grand Prix


In [125]:
filtro = classificacao[(classificacao['temporada']== "2010") & (classificacao['ref_piloto']== "vettel")]
qtd_registro = len(filtro)
filtro.reset_index()

filtro
    

Unnamed: 0,temporada,ref_piloto,nacionalidade,pontos_ganhos,nome_gp
1616,2010,vettel,German,18,Monaco Grand Prix
1640,2010,vettel,German,8,Chinese Grand Prix
1665,2010,vettel,German,25,Abu Dhabi Grand Prix
1689,2010,vettel,German,0,Korean Grand Prix
1713,2010,vettel,German,25,Japanese Grand Prix
1736,2010,vettel,German,15,German Grand Prix
1760,2010,vettel,German,0,Turkish Grand Prix
1785,2010,vettel,German,25,Brazilian Grand Prix
1808,2010,vettel,German,15,Spanish Grand Prix
1832,2010,vettel,German,12,Bahrain Grand Prix
