## Estudo ETL Formula1 data jupyter notebook
 >projeto: Formula_Analitycs_One

 >propósito do script: estudar o processo de ETL para gerar as informações de requisitos 

### 1. Instalação, configuração e teste de conexão com AWS

#### 1.1 instale as bibliotecas necessárias

In [None]:
!pip install sqlalchemy
!pip install pandas
!pip install pymysql

#### 2.1 importe as bibliotecas necessárias

In [2]:
import pymysql
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine
from matplotlib import pyplot as plt

#### 3.1 defina as variáveis de conexão com o drive pymysql e aws

In [3]:
AWS_DB_HOST = 'database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com'
AWS_DB_USER = 'admin'
AWS_DB_PASS = 'mysqladmin1509'
AWS_DB_OLTP = 'FORMULA1'
AWS_DB_OLAT = 'DW_F1'

#### 4.1 teste a conexão para qualquer base de dados na aws

In [4]:
def teste_conexao_base_pymysql(bdados):
    """
    fução para conectar uma base qualquer na instancia da AWS
    """
    try:        
        pymysql.connect(host=AWS_DB_HOST,user=AWS_DB_USER,
        password=AWS_DB_PASS,
        database=bdados)
        print("Base de dados " + bdados + " conectada com sucesso!")

    except Exception as err:
        print("Falha na conexão")
        print(err)

#### 5.1 teste a conexao  para o OLTP e OLAP na nuvem aws

In [5]:
teste_conexao_base_pymysql(AWS_DB_OLTP)

Base de dados FORMULA1 conectada com sucesso!


In [6]:
teste_conexao_base_pymysql(AWS_DB_OLAT)

Base de dados DW_F1 conectada com sucesso!


#### 6.1 defina uma conexão  com uma base para o OLTP do projeto  via  engine sqlalchemy 

In [7]:
# OLTP - banco de dados transacional - FORMULA1
engine_bdf1 = sqlalchemy.create_engine('mysql+pymysql://admin:mysqladmin1509@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/FORMULA1')
engine_bdf1

Engine(mysql+pymysql://admin:***@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/FORMULA1)

#### 7.1 crie uma conexão  com uma base para o OLAP  do projeto via  engine sqlalchemy 

In [8]:
engine_bdwf1 = sqlalchemy.create_engine('mysql+pymysql://admin:mysqladmin1509@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1')
engine_bdwf1

Engine(mysql+pymysql://admin:***@database-1.c2hbzw6k9btq.us-east-2.rds.amazonaws.com:3306/DW_F1)

### Usando a engine do sqlalchemy para mineração de dados


In [305]:
## code com sqlalchemy

### Usando a pandas  para mineração de dados

###### 8. olhe para a quantidade de registros na  tabela pilotos

In [9]:
tabela_piloto = pd.read_sql_table("pilotos", engine_bdf1)
tabela_piloto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 853 entries, 0 to 852
Data columns (total 7 columns):
id_piloto               853 non-null int64
ref_piloto              853 non-null object
code_piloto             96 non-null object
primeiro_nome           853 non-null object
ultimo_nome             853 non-null object
nascimento              846 non-null datetime64[ns]
nacionalidade_piloto    853 non-null object
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 30.0+ KB


#### 9. olhe para os 10 primeiros registros da tabela pilotos

In [10]:
tabela_piloto.head(10)

Unnamed: 0,id_piloto,ref_piloto,code_piloto,primeiro_nome,ultimo_nome,nascimento,nacionalidade_piloto
0,1,hamilton,HAM,Lewis,Hamilton,1985-01-07,British
1,2,heidfeld,HEI,Nick,Heidfeld,1977-05-10,German
2,3,rosberg,ROS,Nico,Rosberg,1985-06-27,German
3,4,alonso,ALO,Fernando,Alonso,1981-07-29,Spanish
4,5,kovalainen,KOV,Heikki,Kovalainen,1981-10-19,Finnish
5,6,nakajima,NAK,Kazuki,Nakajima,1985-01-11,Japanese
6,7,bourdais,BOU,Sébastien,Bourdais,1979-02-28,French
7,8,raikkonen,RAI,Kimi,Räikkönen,1979-10-17,Finnish
8,9,kubica,KUB,Robert,Kubica,1984-12-07,Polish
9,10,glock,GLO,Timo,Glock,1982-03-18,German


#### 10. olhe para os 10 primeiros da tabela pilotos nas colunas id_piloto e ref_piloto

In [13]:
coluna_pilotos = pd.read_sql_table("pilotos", engine_bdf1, columns=['id_piloto', 'ref_piloto'])
coluna_pilotos.head(10)


Unnamed: 0,id_piloto,ref_piloto
0,1,hamilton
1,2,heidfeld
2,3,rosberg
3,4,alonso
4,5,kovalainen
5,6,nakajima
6,7,bourdais
7,8,raikkonen
8,9,kubica
9,10,glock


#### 11. exporte os registros selecionados na etapa anterior para um arquivo .csv

In [332]:
coluna_pilotos.to_csv (r'export_coluna_pilotos.csv', index = False, header=True)

##### 12. leia as colunas da tabela id_corrida e id_circuito limitando o resultado entre o 30 e 50 registro

In [77]:
colunas_corrida = pd.read_sql('corridas', engine_bdf1, columns=['id_corrida', 'id_circuito'])
colunas_corrida.loc[30:50]

Unnamed: 0,id_corrida,id_circuito
30,91,2
31,109,2
32,125,2
33,142,2
34,174,2
35,189,2
36,339,2
37,842,2
38,861,2
39,881,2


##### 13. Olhe para a tabela corridas apenas nos registros com id_circuito igual a 1

In [119]:
tabela_corridas = pd.read_sql('corridas', engine_bdf1)
tabela_corridas.query('id_circuito=="1"')

Unnamed: 0,id_corrida,ano_corrida,rodada,id_circuito,nome_corrida,data_corrida,horario_corrida
0,1,2009,1,1,Australian Grand Prix,2009-03-29,06:00:00
17,18,2008,1,1,Australian Grand Prix,2008-03-16,04:30:00
35,36,2007,1,1,Australian Grand Prix,2007-03-18,03:00:00
54,55,2006,3,1,Australian Grand Prix,2006-04-02,14:00:00
70,71,2005,1,1,Australian Grand Prix,2005-03-06,14:00:00
89,90,2004,1,1,Australian Grand Prix,2004-03-07,00:00:00
107,108,2003,1,1,Australian Grand Prix,2003-03-09,00:00:00
123,124,2002,1,1,Australian Grand Prix,2002-03-03,00:00:00
140,141,2001,1,1,Australian Grand Prix,2001-03-04,00:00:00
157,158,2000,1,1,Australian Grand Prix,2000-03-12,00:00:00


##### 13. analise e conte os anos em ordem crescente os registro de corridas no Brazilian Grand Prix 

In [154]:
# pegue a tabela de corridas com as colunas de interesse
tabela_corridas = pd.read_sql('corridas', engine_bdf1, columns=['id_circuito','ano_corrida', 'nome_corrida'])

# filte a tabela de corridas que contém corridas apenas no Brasil
registro_analise = tabela_corridas.query('nome_corrida=="Brazilian Grand Prix"')

# olhe a total de corridas no brasil
total_registro_analise = len(registro_analise)
print("a quantidade de corridas no Brazilian Grand Prix é de:", total_registro_analise)

# ordene o resultado por ano de maneira crescente
registro_analise.sort_values("ano_corrida")


a quantidade de corridas no Brazilian Grand Prix é de: 48


Unnamed: 0,id_circuito,ano_corrida,nome_corrida
605,18,1973,Brazilian Grand Prix
590,18,1974,Brazilian Grand Prix
576,18,1975,Brazilian Grand Prix
559,18,1976,Brazilian Grand Prix
543,18,1977,Brazilian Grand Prix
527,36,1978,Brazilian Grand Prix
512,18,1979,Brazilian Grand Prix
498,18,1980,Brazilian Grand Prix
483,36,1981,Brazilian Grand Prix
467,36,1982,Brazilian Grand Prix


#### 14. analise e conte os circuitos que aconteceram no Brasil

In [159]:
# pegue a tabela de circuitos
tabela_circuitos = pd.read_sql('circuitos', engine_bdf1)

# filte a tabela de corridas que contém circuitos apenas no Brasil
tabela_circuito_analise = tabela_circuitos.query('pais_circuito =="Brazil"')

# conte total de corridas no brasil
total_circuito_analise = len(tabela_circuito_analise)
print("a quantidade de circuitos que aconteceram no Brasil é de:", total_circuito_analise)

#olhe para a tabela de interesse
tabela_circuito_analise

a quantidade de circuitos que aconteceram no Brasil é de: 2


Unnamed: 0,id_circuito,ref_circuito,nome_circuito,location_circuito,pais_circuito
17,18,interlagos,Autódromo José Carlos Pace,São Paulo,Brazil
35,36,jacarepagua,Autódromo Internacional Nelson Piquet,Rio de Janeiro,Brazil


#### 15. junte algumas colunas de duas tabelas diferentes e exiba os 10 primeiros registros da união

In [218]:
tabela_circuitos = pd.read_sql('circuitos', engine_bdf1)
tabela_corridas = pd.read_sql('corridas', engine_bdf1,columns=['id_circuito','nome_corrida'] )
tabela_unida = pd.merge(tabela_circuitos, tabela_corridas, how="right", on="id_circuito")
tabela_unida.head(20)

Unnamed: 0,id_circuito,ref_circuito,nome_circuito,location_circuito,pais_circuito,nome_corrida
0,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
1,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
2,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
3,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
4,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
5,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
6,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
7,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
8,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix
9,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,Australian Grand Prix


#### 14. filtre a tabela resultado de acordo com a tabela fato mostrado  na figura abaixo

<img src="fato_resultados.png" width="150">

a) identifique quais colunas existem na tabela resultados do OLTP

In [207]:
tabela_resultados = pd.read_sql('resultados', engine_bdf1)
tabela_resultados.head(1)

Unnamed: 0,id_resultado,id_corrida,id_piloto,id_construtor,numero,grid,posicao,texto_posicao,ordem_posicao,pontos,voltas,tempo,milisegundos,voltarapida,ranking,tempo_volta,tempo_voltarapida,id_status
0,1,18,1,1,22,1,1.0,1,1,10.0,58,1:34:50.616,5690616.0,39.0,2.0,1:27.452,218.3,1


b) perceba que o id_circuito na da figura não está presente na tabela resultados então encontre ele e coloque-o no lugar adequado

In [233]:
#filtrando a tabela resultado com alguns interesses presentes na tabela de fato
tabela_resultados = pd.read_sql('resultados', engine_bdf1, columns=['id_construtor','id_piloto','id_corrida','pontos','voltas', 'grid', 'ordem_posicao', 'ranking','tempo'])
tabela_corridas = pd.read_sql('corridas', engine_bdf1,columns=['id_corrida','id_circuito'] )
tabela_unida = pd.merge(tabela_resultados, tabela_corridas, how="right", on="id_corrida")
tabela_unida.head(30)

Unnamed: 0,id_construtor,id_piloto,id_corrida,pontos,voltas,grid,ordem_posicao,ranking,tempo,id_circuito
0,1.0,1.0,18,10.0,58.0,1.0,1.0,2.0,1:34:50.616,1
1,2.0,2.0,18,8.0,58.0,5.0,2.0,3.0,+5.478,1
2,3.0,3.0,18,6.0,58.0,7.0,3.0,5.0,+8.163,1
3,4.0,4.0,18,5.0,58.0,11.0,4.0,7.0,+17.181,1
4,1.0,5.0,18,4.0,58.0,3.0,5.0,1.0,+18.014,1
5,3.0,6.0,18,3.0,57.0,13.0,6.0,14.0,,1
6,5.0,7.0,18,2.0,55.0,17.0,7.0,12.0,,1
7,6.0,8.0,18,1.0,53.0,15.0,8.0,4.0,,1
8,2.0,9.0,18,0.0,47.0,2.0,9.0,9.0,,1
9,7.0,10.0,18,0.0,43.0,18.0,10.0,13.0,,1
