### Tratamento de CSV para Banco de Dados Relacional (MySQL)

Utilizei este notebook para tratar os dados do CSV e inserir no banco de dados relacional MySQL.

In [174]:
import pandas as pd
import numpy as np
import json

#### Importando os dados

In [150]:
df_jogadores = pd.read_csv('../../data/dados/players_fifa22.csv', sep = ';', low_memory = False)
df_clubes = pd.read_csv('../../data/dados/teams_fifa22.csv', sep = ',', low_memory = False)


with open('../../data/dados/country_league.json', 'r',  encoding='utf-8') as arquivo:
    linha = arquivo.read()
    pais_liga = json.loads(linha)

df_pais_liga = pd.DataFrame.from_dict(pais_liga, orient='index').reset_index()
df_pais_liga.rename(columns={'index': 'pais'}, inplace=True)

#### Iniciando alguns dataframes para auxiliar no tratamento dos dados

In [151]:
paises = df_jogadores['Nationality'].drop_duplicates().sort_values(ascending = True)
posicoes = df_jogadores['BestPosition'].drop_duplicates()
habilidades = df_jogadores.columns[29:69]

#### Criando os datasets das entidades fortes

In [152]:
df_nacionalidade = pd.DataFrame({'ID': range(1, len(paises) + 1), 'nome': paises.values})
df_habilidade = pd.DataFrame({'ID': range(1, len(habilidades) + 1), 'nome': habilidades.values})
df_posicao = pd.DataFrame({'ID': range(1, len(posicoes) + 1), 'nome': posicoes.values})

#### Limpando dataframes com colunas excedentes para suas respectivas tabelas

In [154]:
df_liga = df_clubes.drop(['ID', 'Name', 'LeagueId', 'Overall', 'Attack', 'Midfield', 'Defence', 'Players', 'StartingAverageAge', 'AllTeamAverageAge', 'TransferBudget',	'DomesticPrestige', 'IntPrestige'], axis = 1)
df_liga.drop_duplicates(inplace = True)
df_liga.drop(df_liga[df_liga['League'] == '1024'].index, inplace = True)

df_clube = df_clubes.drop(['ID', 'LeagueId', 'Overall', 'Attack', 'Midfield', 'Defence', 'Players', 'StartingAverageAge', 'AllTeamAverageAge'], axis = 1)

df_jogador = df_jogadores.drop(['ID', 'Nationality', 'Growth', 'TotalStats', 'BaseStats', 'Positions', 'BestPosition', 'Club', 'ClubPosition', 'ClubNumber', 'NationalTeam', 'NationalPosition', 'NationalNumber', 'AttackingWorkRate', 'DefensiveWorkRate'], axis = 1)

#### Removendo possibilidade de seleções

In [155]:
df_liga.drop(df_liga[df_liga['League'].str.contains('International')].index, inplace = True)
df_clube.drop(df_clube[df_clube['League'].str.contains('International')].index, inplace = True)

#### Criando e alterando dados para complementar o banco de dados

In [156]:
pos_tuplas = [('CAM', 'MAT', 'Center attacking midfielder', 'Meia-atacante'),
              ('CB', 'ZAG', 'Counter back', 'Zagueiro'),
              ('CDM', 'VOL', 'Central defensive midifielder', 'Volante'),
              ('CF', 'CEN', 'Center Forward', 'Centroavante'),
              ('CM', 'MC', 'Central Midfielder', 'Meio campista central'),
              ('GK', 'GOL', 'Goalkeeper', 'Goleiro'),
              ('LB', 'LE', 'Left back', 'Lateral esquerdo'),
              ('LF', 'ATA', 'Striker', 'Atacante'),
              ('LM', 'ME', 'Left Midfielder', 'Meia-esquerda'),
              ('LW', 'PE', 'Left wing', 'Ponta-esquerda'),
              ('LWB', 'AE', 'Lft wing back', 'Ala esquerdo'),
              ('RB', 'LD', 'Right back', 'Lateral direito'),
              ('RES', 'RES', 'Reserve', 'Reserva'),
              ('RF', 'ATA', 'Striker', 'Atacante'),
              ('RM', 'MD', 'Right midfielder', 'Meia-direita'),
              ('RW', 'PD', 'Right wing', 'Ponta-direita'),
              ('RWB', 'AD', 'Right wing back', 'Ala direito'),
              ('ST', 'ATA', 'Striker', 'Atacante'),
              ('SUB', 'SUB', 'Substitute', 'Substituto')]

trad_habilidades = ['Velocidade Total', 'Finalização Total', 'Passe Total', 'Drible Total', 'Defesa Total', 'Físico Total', 'Cruzamento', 'Finalização', 'Precisão no Cabeceio', 
                    'Passe Curto', 'Chutes de primeira', 'Drible', 'Curva', 'Precisão em Faltas', 'Passe Longo', 'Controle de Bola', 'Aceleração', 'Velocidade de Sprint', 'Agilidade',
                    'Reações', 'Equilíbrio', 'Potência de Chute', 'Salto', 'Resistência', 'Força', 'Chutes de longa distância', 'Aggressividade', 'Intercepções', 'Posicionamento', 
                    'Visão de jogo', 'Pênaltis', 'Compostura', 'Marcação', 'Tackle em pé', 'Tackle deslizando', 'Defesa de Goleiro (Mergulho)', 'Defesa de Goleiro (Manejo)', 
                    'Defesa de Goleiro (Chute)', 'Defesa de Goleiro (Posicionamento)', 'Defesa de Goleiro (Reflexos)']

In [157]:
df_jogadores['ID'] = range(1, len(df_jogadores) + 1)
df_clube['ID'] = range(1, len(df_clube) + 1)

df_liga['ID'] = range(1, len(df_liga) + 1)
df_jogador['ID'] = range(1, len(df_jogador) + 1)

df_pais = pd.DataFrame({'ID': range(1, len(paises) + 1), 'nome': paises.values})

df_posicao = pd.DataFrame(pos_tuplas, columns = ['nome', 'abreviacao', 'descricao', 'descricao_pt'])
df_posicao['ID'] = range(1, len(df_posicao) + 1)

df_habilidade['nome_traduzido'] = trad_habilidades

#### Alterando os dataframes para que abriguem os relacionamentos entre as tabelas

In [1]:
df_clube['liga_id'] = df_clube['League'].apply(lambda x: df_liga[df_liga['League'] == x]['ID'].values[0])
df_clube.drop('League', axis = 1, inplace = True)

In [164]:
df_jogador['pais_id'] = df_jogadores['Nationality'].apply(lambda x: df_pais[df_pais['nome'] == x]['ID'].values[0])

In [163]:
df_jogador['clube_id'] = df_jogadores['Club'].apply(lambda x: df_clube[df_clube['Name'] == x]['ID'].values[0] - 1 if (x != 'Free agent' and len(df_clube[df_clube['Name'] == x]) > 0) else None)
df_jogador['clube_id'] = df_jogador['clube_id'].astype('Int64')

In [166]:
df_jogador['posicao_principal_id'] = df_jogadores['BestPosition'].apply(lambda x: df_posicao[df_posicao['nome'] == x]['ID'].values[0] - 1)

In [167]:
df_jogador['posicao_clube_id'] = df_jogadores['ClubPosition'].apply(lambda x: df_posicao[df_posicao['nome'] == x]['ID'].values[0] - 1 if len(df_posicao[df_posicao['nome'] == x]) > 0 else None)
df_jogador['posicao_clube_id'] = df_jogador['posicao_clube_id'].astype('Int64')

In [168]:
df_jogador['PreferredFoot'] = df_jogador['PreferredFoot'].str[0]

#### Criando as tabelas de relacionamentos associativos

In [15]:
df_assoc_liga_pais = pd.DataFrame(columns=['liga_id', 'pais_id'])

for index, row in df_pais_liga.iterrows():
    if row[0] is not None:
        pais = row['pais']
        id_pais = df_pais[df_pais['nome'] == pais]['ID'].values[0]

        for i in row:
            if i is not None and i != pais:
                id_liga = df_liga[df_liga['League'] == i]
                if not id_liga.empty:
                    liga_id = id_liga.loc[id_liga.index[0], 'ID']
                    df_assoc_liga_pais = pd.concat([df_assoc_liga_pais, pd.DataFrame({'liga_id': [liga_id], 'pais_id': [id_pais]})], ignore_index=True)

In [2]:
df_assoc_jogador_habilidade = pd.DataFrame(columns=['liga_id', 'habilidade_id', 'valor'])

for index, row in df_jogadores.iterrows():
    for col in habilidades:
        if row[col]:
            habilidade_id = df_habilidade[df_habilidade['nome'] == col]['ID'].values[0]
            df_assoc_jogador_habilidade = pd.concat([df_assoc_jogador_habilidade, pd.DataFrame({'jogador_id': [row['ID']], 'habilidade_id': [habilidade_id], 'valor': [row[col]]})], ignore_index=True)

In [25]:
#df_assoc_jogador_habilidade.to_csv("../../data/dados/relacionamento/jogador_habilidade2.csv", sep=";")

In [26]:
df_assoc_jogador_posicao = pd.DataFrame(columns=['jogador_id', 'posicao_id'])

for index, row in df_jogadores.iterrows():
    for i in row['Positions'].split(','):
        posicao_id = df_posicao[df_posicao['nome'] == i]['ID'].values[0]
        df_assoc_jogador_posicao = pd.concat([df_assoc_jogador_posicao, pd.DataFrame({'jogador_id': [row['ID']], 'posicao_id': [posicao_id]})], ignore_index=True)

In [None]:
#df_assoc_jogador_posicao.to_csv("../../data/dados/relacionamento/jogador_posicao.csv", sep=";")

#### Renomeando as colunas para seguir o padrão do banco de dados

In [169]:
df_jogador = df_jogador[['Name', 'FullName', 'Age', 'Height', 'Weight', 'Overall', 'Potential', 'ValueEUR', 'WageEUR', 'ReleaseClause', 'ContractUntil', 'ClubJoined', 'OnLoad', 'PreferredFoot', 'ID', 'pais_id', 'clube_id', 'posicao_principal_id', 'posicao_clube_id']]

In [170]:
df_clube.columns = ['nome', 'dinheiro_transferencia', 'prestigio_domestico', 'prestigio_internacional', 'id', 'liga_id']
df_liga.columns = ['nome', 'id']
df_assoc_liga_pais.columns = ['liga_id', 'pais_id']
df_pais.columns = ['id', 'nome']
df_jogador.columns = ['nome', 'nome_completo', 'idade', 'altura', 'peso', 'overall', 'potencial', 'valor_mercado_eur', 'valor_salario_eur', 'valor_clausula_venda_eur', 
                      'fim_contrato', 'inicio_contrato', 'is_emprestimo', 'pe', 'id', 'pais_id', 'clube_id', 'posicao_principal_id', 'posicao_clube_id']
df_posicao.columns = ['sigla', 'sigla_traduzida', 'nome', 'nome_traduzido', 'id']
df_jogador.columns = ['nome', 'nome_completo', 'idade', 'altura', 'peso', 'overall', 'potencial', 'valor_mercado_eur', 'valor_salario_eur', 'valor_clausula_venda_eur',
                        'fim_contrato', 'inicio_contrato', 'is_emprestimo', 'pe', 'id', 'pais_id', 'clube_id', 'posicao_principal_id', 'posicao_clube_id']

In [171]:
df_assoc_jogador_habilidade = df_assoc_jogador_habilidade[['jogador_id', 'habilidade_id', 'valor']]
df_assoc_jogador_posicao = df_assoc_jogador_posicao[['jogador_id', 'posicao_id']]

#### Conexão com o banco de dados

In [108]:
from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://root:senha@localhost:3306/fifa')

#### Inserindo dados dentro das tabelas

In [293]:
df_liga.to_sql('liga', con=engine, if_exists='append', index=False)

In [125]:
df_clube.to_sql('clube', con=engine, if_exists='append', index=False)

701

In [126]:
df_pais.to_sql('pais', con=engine, if_exists='append', index=False)

163

In [127]:
df_assoc_liga_pais.to_sql('liga_pais', con=engine, if_exists='append', index=False)

58

In [194]:
df_posicao.to_sql('posicao', con=engine, if_exists='append', index=False)

19

In [129]:
df_habilidade = pd.DataFrame({'nome': habilidades.values, 'nome_traduzido': trad_habilidades})
df_habilidade.to_sql('habilidade', con=engine, if_exists='append', index=False)

40

#### Tratando e inserindo os dados por conta da regra de negócio

In [296]:
df_jogador['posicao_principal_id'] = df_jogador['posicao_principal_id'].apply(lambda x: np.nan if np.isnan(x) or x == 0 else x)

In [297]:
df_jogador.drop('id', axis = 1, inplace = True)

In [247]:
df_jogador.to_sql('jogador', con=engine, if_exists='append', index=False)

19248

In [231]:
df_jogador['posicao_clube_id'] = df_jogador['posicao_clube_id'].apply(lambda x: None if pd.isna(x) else x)

In [298]:
df_jogador['posicao_clube_id'] = df_jogador['posicao_clube_id'].replace(0, 1)

In [299]:
df_jogador['clube_id'] = df_jogador['clube_id'].apply(lambda x: None if pd.isna(x) else x)

In [300]:
df_jogador['clube_id'] = df_jogador['clube_id'].apply(lambda x: x + 1 if x is not None else x)

In [290]:
df_assoc_jogador_habilidade = df_assoc_jogador_habilidade[df_assoc_jogador_habilidade['jogador_id'].isin(pd.read_sql('SELECT id FROM jogador', con=engine)['id'])]
df_assoc_jogador_habilidade.to_sql('jogador_habilidade', con=engine, if_exists='append', index=False)

308038

In [292]:
df_assoc_jogador_posicao = df_assoc_jogador_posicao[df_assoc_jogador_posicao['jogador_id'].isin(pd.read_sql('SELECT id FROM jogador', con=engine)['id'])]
df_assoc_jogador_posicao.to_sql('jogador_posicao', con=engine, if_exists='append', index=False)

26750