In [64]:
# !pip install ydata_profiling==4.5
# !pip install sqlalchemy
# !pip install psycopg2
# !pip install pandas

In [65]:
import basedosdados as bd
import pandas as pd
import datetime
import sqlalchemy as sqlal
from sqlalchemy import create_engine, text as sql_text, MetaData
from ydata_profiling import ProfileReport

---
### API Dados Abertos - Futebol Brasileiro
### Extraindo dados sobre o campeonato brasileiro de futebol (brasileirao série A)

In [93]:
df_bronze = bd.read_table(dataset_id='mundo_transfermarkt_competicoes',
                   table_id='brasileirao_serie_a',
                   billing_project_id="api-futebol-bd",
                   limit= """1; 
                   SELECT * 
                   FROM `basedosdados.mundo_transfermarkt_competicoes.brasileirao_serie_a` 
                   WHERE ano_campeonato=2003""")


Downloading: 100%|██████████| 456/456 [00:00<00:00, 957.79rows/s]


In [94]:
df_bronze

Unnamed: 0,ano_campeonato,data,rodada,estadio,arbitro,publico,publico_max,time_mandante,time_visitante,tecnico_mandante,...,chutes_bola_parada_mandante,chutes_bola_parada_visitante,defesas_mandante,defesas_visitante,impedimentos_mandante,impedimentos_visitante,chutes_mandante,chutes_visitante,chutes_fora_mandante,chutes_fora_visitante
0,2003,2003-05-11,8,Arena do Grêmio,,,,Grêmio,Coritiba FC,,...,,,,,,,,,,
1,2003,2003-06-15,13,Arena do Grêmio,,,,Grêmio,Internacional,,...,,,,,,,,,,
2,2003,2003-07-06,16,Arena do Grêmio,,,,Grêmio,Flamengo,,...,,,,,,,,,,
3,2003,2003-08-02,23,Arena do Grêmio,,,,Grêmio,Santos FC,,...,,,,,,,,,,
4,2003,2003-08-23,28,Arena do Grêmio,,,,Grêmio,São Caetano,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
451,2003,2003-08-24,28,Estádio Orlando Scarpelli,,,,Figueirense FC,Coritiba FC,,...,,,,,,,,,,
452,2003,2003-09-14,30,Estádio Orlando Scarpelli,,,,Figueirense FC,São Paulo,,...,,,,,,,,,,
453,2003,2003-09-26,32,Estádio Orlando Scarpelli,,,,Figueirense FC,Fluminense,,...,,,,,,,,,,
454,2003,2003-10-12,36,Estádio Orlando Scarpelli,,,,Figueirense FC,Criciúma EC,,...,,,,,,,,,,


---
## ydata_profiling

In [95]:
df_bronze.dtypes

ano_campeonato                      Int64
data                               dbdate
rodada                              Int64
estadio                            object
arbitro                            object
publico                             Int64
publico_max                         Int64
time_mandante                      object
time_visitante                     object
tecnico_mandante                   object
tecnico_visitante                  object
colocacao_mandante                  Int64
colocacao_visitante                 Int64
valor_equipe_titular_mandante       Int64
valor_equipe_titular_visitante      Int64
idade_media_titular_mandante      float64
idade_media_titular_visitante     float64
gols_mandante                       Int64
gols_visitante                      Int64
gols_1_tempo_mandante               Int64
gols_1_tempo_visitante              Int64
escanteios_mandante                 Int64
escanteios_visitante                Int64
faltas_mandante                   

In [96]:
# Etapa de transformação necessária para gerar o relatório do ydata_profiling
df_bronze_temp = df_bronze.copy()
df_bronze_temp['data'] = pd.to_datetime(df_bronze_temp['data'])

In [97]:
# profile = ProfileReport(df_bronze_temp, title="Brasileirao Série A - Profiling Report")
# profile.to_file("brasileirao-serie-A-profiling-report.html")

---
## Great Expectations

In [98]:
# !pip install great_expectations

In [99]:
import great_expectations as gx

In [100]:
df_gx = gx.from_pandas(df_bronze)

In [101]:
#expectativa de que as colunas precisam ser do tipo int64
df_gx.expect_column_values_to_be_of_type(column='ano_campeonato', type_='int64') 
df_gx.expect_column_values_to_be_of_type(column='rodada', type_='int64')
df_gx.expect_column_values_to_be_of_type(column='colocacao_mandante', type_='int64')
df_gx.expect_column_values_to_be_of_type(column='colocacao_visitante', type_='int64')

# Campeonato brasileiro de futebol com pontos corridos iniciou em 2003
#expectativa de valores esperados entre 1989 e o ano atual para a coluna 'ano_campeonato'
df_gx.expect_column_values_to_be_between(
    column="ano_campeonato",
    min_value=2003,
    max_value=datetime.datetime.now().year,
)

#expectativa de colunas que não podem conter valores nulos
df_gx.expect_column_values_to_not_be_null(column='colocacao_mandante')
df_gx.expect_column_values_to_not_be_null(column='rodada')
df_gx.expect_column_values_to_not_be_null(column='ano_campeonato')
df_gx.expect_column_values_to_not_be_null(column='colocacao_mandante')
df_gx.expect_column_values_to_not_be_null(column='colocacao_visitante')

#expectativa para verificar se as colunas existem
df_gx.expect_column_to_exist(column='time_mandante')
df_gx.expect_column_to_exist(column='time_visitante')
df_gx.expect_column_to_exist(column='data')


{
  "success": true,
  "result": {},
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

In [102]:
response_gx = df_gx.validate()
_ = [print(f"{chave}: {valor}") for chave, valor in response_gx['statistics'].items()]

evaluated_expectations: 12
successful_expectations: 10
unsuccessful_expectations: 2
success_percent: 83.33333333333334


In [103]:
if not response_gx['success']:
    lista_falhas_gx = [item for item in response_gx['results'] if item['success']== False]

    for i in lista_falhas_gx:
        print(i,
              '\n\n --------------------------')
        
    raise SystemExit('Falha nas expectativas do Great Expectations')

{
  "success": false,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_not_be_null",
    "kwargs": {
      "column": "colocacao_mandante",
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "element_count": 456,
    "unexpected_count": 456,
    "unexpected_percent": 100.0,
    "unexpected_percent_total": 100.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_message": null,
    "exception_traceback": null
  }
} 

 --------------------------
{
  "success": false,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_not_be_null",
    "kwargs": {
      "column": "colocacao_visitante",
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "element_count": 456,
    "unexpected_count": 456,
    "unexpected_percent": 100.0,
    "unexpected_percent_total": 100.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_

SystemExit: Falha nas expectativas do Great Expectations

In [91]:
seed_path = 'C:/Users/nicolas.evilasio/PycharmProjects/pythonProject/demo_dbt/seeds/'
df_bronze.to_csv(seed_path + 'brasileirao_serie_a_bronze.csv', index=False)

---
### Leitura dos dados na camada Bronze

In [78]:
# query = """
# SELECT *
# FROM bronze.brasileirao_serie_a_bronze
# WHERE ano_campeonato = 2023
# """
# engine = create_engine('postgresql://postgres:123@localhost:5432/Ada')
# df_silver = pd.read_sql(sql=sql_text(query), con=engine.connect())
# df_silver   