# Tratando dados coletados e armazenando no MySQL Workbench
## Importando bibliotecas necessárias

In [240]:
import pandas as pd
import os
import MySQLdb
import sqlalchemy

## Importando arquivo que contém os dados

In [241]:
df = pd.read_csv('dados_jogadores.csv', sep= ';', encoding='latin-1')
df

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,03/09/1990,Dama,Chile,14.0,0.0,14.0
1,Jogador 2,Feminino,01/05/1986,Jogo da velha,Chile,39.0,20.0,59.0
2,Jogador 3,Masculino,04/10/1964,Jogo da velha,Brasil,26.0,3.0,29.0
3,Jogador 4,Masculino,28/09/1979,Jogo da velha,Argentina,9.0,72.0,81.0
4,Jogador 5,Masculino,03/09/1978,Dama,Uruguai,1.0,54.0,55.0
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,03/06/1974,Dama,Chile,52.0,28.0,80.0
495,Jogador 496,Masculino,09/02/1959,Dama,Chile,13.0,51.0,64.0
496,Jogador 497,Masculino,06/01/1962,Jogo da velha,Argentina,57.0,,80.0
497,Jogador 498,Masculino,28/09/1958,Jogo da velha,Chile,5.0,3.0,8.0


<hr style="border:1px solid black"> </hr>

## Tratando os dados
É essencial preparar e organizar os dados coletados antes de armazená-los no banco de dados. Isso deve ser feito porque a maioria dos dados coletados possuem alguns tipos de valores inconsistentes e também ausentes que caso não sejam tratados tornarão a base de dados incosistente para análises, podendo inclusive gerar resultados incorretos.

In [242]:
# Verifica as informações do dataframe.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 499 entries, 0 to 498
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   jogador          499 non-null    object 
 1   genero           499 non-null    object 
 2   data_nascimento  499 non-null    object 
 3   jogo             499 non-null    object 
 4   pais             499 non-null    object 
 5   num_vitorias     491 non-null    float64
 6   num_derrotas     494 non-null    float64
 7   total_partidas   491 non-null    float64
dtypes: float64(3), object(5)
memory usage: 31.3+ KB


Com a função 'info()' é possível identificar o tamanho do dataframe, bem como a existência de valores ausentes (nulos) nas colunas 'num_vitorias', 'num_derrotas' e 'total_partidas'. Nestas colunas também verificamos que o seu tipo é float, mas deve ser convertido para inteiro. Também foi possível notar que o tipo da coluna 'data_nascimento' é uma string, portanto será necessário convertê-la para o tipo datetime.
Inicialmente serão tratados os valores ausentes do dataframe e depois serão convertidos os tipos de dados.

### Tratando valores ausentes

Utilizando as funções isnull() e sum() podemos saber o número de valores ausentes por coluna.

In [224]:
df.isnull().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       8
num_derrotas       5
total_partidas     8
dtype: int64

Nota-se que há valores ausentes somente em três colunas e a sua quantidade não é tão alta. Mesmo assim, é importante tratar estes valores corretamente para que sejam utilizados no futuro. Primeiramente, vamos criar um dataframe contendo somente as linhas que possuem ao menos um valor ausente. Para isso, será utilizado a função '.loc[ ]' 

In [246]:
# Cria um novo dataframe que contém apenas linhas que possuam algum valor ausente
df_ausentes = df.loc[df['num_vitorias'].isnull() | df['num_derrotas'].isnull() | df['total_partidas'].isnull()]
df_ausentes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21 entries, 46 to 496
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   jogador          21 non-null     object 
 1   genero           21 non-null     object 
 2   data_nascimento  21 non-null     object 
 3   jogo             21 non-null     object 
 4   pais             21 non-null     object 
 5   num_vitorias     13 non-null     float64
 6   num_derrotas     16 non-null     float64
 7   total_partidas   13 non-null     float64
dtypes: float64(3), object(5)
memory usage: 1.5+ KB


Nota-se agora que o tamanho do dataframe_ausentes é reduzido pois corresponde somente às linhas que possuem algum valor nulo. Agora podemos analisar as ocorrências de valores ausentes e decidir como tratar de forma eficiente esses dados.

In [247]:
df_ausentes

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas
46,Jogador 47,Masculino,31/01/1978,Dama,Uruguai,,68.0,85.0
55,Jogador 56,Feminino,27/01/1959,Dama,Paraguai,,29.0,80.0
71,Jogador 72,Masculino,27/03/2005,Dama,Paraguai,29.0,7.0,
86,Jogador 87,Feminino,25/05/1975,Dama,Argentina,80.0,6.0,
97,Jogador 98,Feminino,16/04/1980,Dama,Paraguai,,1.0,10.0
137,Jogador 138,Feminino,16/02/1963,Jogo da velha,Chile,,28.0,44.0
246,Jogador 247,Feminino,14/02/1954,Dama,Argentina,33.0,,89.0
251,Jogador 252,Masculino,18/08/1985,Jogo da velha,Chile,,27.0,28.0
255,Jogador 256,Feminino,28/09/2000,Xadrez,Chile,1.0,,73.0
287,Jogador 288,Masculino,01/02/1952,Xadrez,Brasil,3.0,,17.0


Analisando os valores ausentes nota-se que é possível calcular seus valores com base nas informações de outras colunas. Sendo assim será calculado:
<ul>
    <li>o 'num_vitorias' sabendo que seu valor corresponde à subtração de 'total_partidas' e 'num_derrotas';</li>
    <li>o 'num_derrotas' corresponde à subtração de 'total_partidas' e 'num_vitorias'; e</li>
    <li>o 'total_partidas' corresponde a soma de 'num_vitorias' e 'num_derrotas.</li>
</ul>

In [252]:
# Calculando num_vitorias
df_ausentes.loc[df_ausentes['num_vitorias'].isnull(), ['num_vitorias']] = df_ausentes['total_partidas'] - df_ausentes['num_derrotas']
df_ausentes.isnull().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       0
num_derrotas       0
total_partidas     0
dtype: int64

In [249]:
# Calculando num_derrotas
df_ausentes.loc[df_ausentes['num_derrotas'].isnull(), ['num_derrotas']] = df_ausentes['total_partidas'] - df_ausentes['num_vitorias']
df_ausentes.isnull().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       0
num_derrotas       0
total_partidas     8
dtype: int64

In [250]:
# Calculando total de partidas
df_ausentes.loc[df_ausentes['total_partidas'].isnull(), ['total_partidas']] = df_ausentes['num_vitorias'] + df_ausentes['num_derrotas']
df_ausentes.isnull().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       0
num_derrotas       0
total_partidas     0
dtype: int64

Após realizar os cálculos, atribuí-los a seus respectivos campos, verificamos que não há mais nenhum valor ausente. Agora podemos adicionar os valores ao dataframe original.

In [253]:
#Adicionando os valores de 'num_vitorias'
df.loc[df['num_vitorias'].isnull(), ['num_vitorias']] = df_ausentes['num_vitorias']
df.isnull().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       0
num_derrotas       5
total_partidas     8
dtype: int64

In [254]:
# Adicionando valores de 'num_derrotas'
df.loc[df['num_derrotas'].isnull(), ['num_derrotas']] = df_ausentes['num_derrotas']
df.isnull().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       0
num_derrotas       0
total_partidas     8
dtype: int64

In [255]:
# Adicionando valores de 'total_partidas'
df.loc[df['total_partidas'].isnull(), ['total_partidas']] = df_ausentes['total_partidas']
df.isnull().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       0
num_derrotas       0
total_partidas     0
dtype: int64

Neste ponto, os dados ausentes foram tratados, agora temos que tratar os tipos de dados.

### Tratando os tipos de dados
No dataframe é possível identificar a existência de uma coluna referente à data de nascimento do jogador. O tipo desta coluna está definido como string. Ela deve ser alterada para o tipo datetime para facilitar sua manipulação e inserção no banco de dados. Além disso, também devem ser alterados os tipos das colunas referentes ao número de vitórias, de derrotas e total de partidas para o tipo inteiro.

In [256]:
#Converte a coluna para o tipo datetime
df['data_nascimento'] = pd.to_datetime(df['data_nascimento'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 499 entries, 0 to 498
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   jogador          499 non-null    object        
 1   genero           499 non-null    object        
 2   data_nascimento  499 non-null    datetime64[ns]
 3   jogo             499 non-null    object        
 4   pais             499 non-null    object        
 5   num_vitorias     499 non-null    float64       
 6   num_derrotas     499 non-null    float64       
 7   total_partidas   499 non-null    float64       
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 31.3+ KB


In [257]:
#Converte as colunas para o tipo inteiro
df = df.astype({'num_vitorias':'int', 'num_derrotas':'int', 'total_partidas':'int'})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 499 entries, 0 to 498
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   jogador          499 non-null    object        
 1   genero           499 non-null    object        
 2   data_nascimento  499 non-null    datetime64[ns]
 3   jogo             499 non-null    object        
 4   pais             499 non-null    object        
 5   num_vitorias     499 non-null    int32         
 6   num_derrotas     499 non-null    int32         
 7   total_partidas   499 non-null    int32         
dtypes: datetime64[ns](1), int32(3), object(4)
memory usage: 25.5+ KB


In [259]:
df

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-03-09,Dama,Chile,14,0,14
1,Jogador 2,Feminino,1986-01-05,Jogo da velha,Chile,39,20,59
2,Jogador 3,Masculino,1964-04-10,Jogo da velha,Brasil,26,3,29
3,Jogador 4,Masculino,1979-09-28,Jogo da velha,Argentina,9,72,81
4,Jogador 5,Masculino,1978-03-09,Dama,Uruguai,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-03-06,Dama,Chile,52,28,80
495,Jogador 496,Masculino,1959-09-02,Dama,Chile,13,51,64
496,Jogador 497,Masculino,1962-06-01,Jogo da velha,Argentina,57,23,80
497,Jogador 498,Masculino,1958-09-28,Jogo da velha,Chile,5,3,8


O tratamento dos dados foi feito e agora podemos armazená-los no banco de dados para consultas futuras.

<hr style="border:1px solid black"> </hr>

## Armazenando os dados no banco de dados MySQL
### Criando conexão com o banco de dados
Antes de criar a conexão com o banco de dados é necessário criar o schema dentro do MySQL Workbench. Feito isso, basta criar a string de conexão com o banco de dados, a qual é composta pelo o usuário, a senha, o caminho e o schema do banco de dados que vai ser utilizado.


In [260]:
user = 'root'
password = '1234'
host = 'localhost'
database = 'desafio_igti' #schema

string_conexao = f'mysql://{user}:{password}@{host}/{database}'
string_conexao #testar a string de conexão com o banco de dados. 

'mysql://root:1234@localhost/desafio_igti'

In [261]:
engine = sqlalchemy.create_engine(string_conexao)
conn = engine.connect()

Após a conexão ter sido feita, é necessário criar as tabelas nas quais os dados serão inseridos. No dataset é possível identificar informações do jogador, país e jogo. Portanto, serão criadas tabelas para os três.
Segue abaixo o diagrama de entidade e relacionamento modelado.

![image.png](attachment:image.png)


### Preparando dados para inserção no banco de dados

Após criado o modelo de entidade e relacionamento é preciso preparar os dados para inserção nas tabelas. Inicialmente serão salvos os dados correspondentes as tabelas em locais apropriados para sua inserção. Os dados de país e jogo possuem apenas uma coluna, portanto podem ser armazenados em uma lista. Já os dados de jogador requerem a criação de um dataframe pois possui várias colunas com dados.

In [262]:
paises = list(df.pais.unique())
jogos = list(df.jogo.unique())
df_jogadores = df[['jogador', 'genero', 'data_nascimento', 'num_vitorias', 'num_derrotas', 'total_partidas', 'pais', 'jogo']].drop_duplicates()

In [263]:
df_jogadores.head()

Unnamed: 0,jogador,genero,data_nascimento,num_vitorias,num_derrotas,total_partidas,pais,jogo
0,jogador 1,Masculino,1990-03-09,14,0,14,Chile,Dama
1,Jogador 2,Feminino,1986-01-05,39,20,59,Chile,Jogo da velha
2,Jogador 3,Masculino,1964-04-10,26,3,29,Brasil,Jogo da velha
3,Jogador 4,Masculino,1979-09-28,9,72,81,Argentina,Jogo da velha
4,Jogador 5,Masculino,1978-03-09,1,54,55,Uruguai,Dama


In [264]:
paises

['Chile', 'Brasil', 'Argentina', 'Uruguai', 'Paraguai']

In [265]:
jogos

['Dama', 'Jogo da velha', 'Xadrez']

### Inserindo dados no banco de dados
É necessário inserir primeiramente os valores nas tabelas que não possuem dependências com outras. Por isso começaremos com as tabelas pais e jogo.

In [266]:
#Inserindo dados dos países
for pais in paises:
    try:
        query = f"""insert into pais (nome_pais) 
                     values ('{pais}')"""
        conn.execute(query)
    except Exception as e:
        print(f"Não foi possível inserir o regristro {pais}. O erro foi encontrado foi: {e}")    

In [267]:
#Inserindo dados dos jogos
for jogo in jogos:
    try:
        query = f"""insert into jogo(nome_jogo)
                     values('{jogo}')"""
        conn.execute(query)
    except Exception as e:
        print(f"Não foi possível inserir o registro {jogo}. O erro encontrado foi: {e}")

 Agora é necessário inserir os dados da tabela de jogadores. Esta tabela possui dependências de outras tabelas, como o cod_pais e cod_jogo. Por isso é necessário consultar primeiro as outras tabelas para depois popular a tabela de jogadores com os respectivos códigos.

In [268]:
#Lendo tabela pais
df_pais = pd.read_sql('pais', con=conn)
df_pais

Unnamed: 0,cod_pais,nome_pais
0,1,Chile
1,2,Brasil
2,3,Argentina
3,4,Uruguai
4,5,Paraguai


In [269]:
#lendo tabela jogo
df_jogo = pd.read_sql('jogo', con=conn)
df_jogo

Unnamed: 0,cod_jogo,nome_jogo
0,1,Dama
1,2,Jogo da velha
2,3,Xadrez


 Após realizar a consulta e armazená-la em seus respectivos dataframes, é preciso setar as colunas dos nomes como index. Esta coluna será utilizada para buscar os dados no dataframe original. Para isso, será necessário transformar o dataframe em um dicionário.

In [270]:
#Converte o dataframe em um dicionário
dict_pais = df_pais.set_index(df_pais.nome_pais)['cod_pais'].to_dict()
dict_pais

{'Chile': 1, 'Brasil': 2, 'Argentina': 3, 'Uruguai': 4, 'Paraguai': 5}

In [271]:
#Converte o dataframe em um dicionário
dict_jogo = df_jogo.set_index(df_jogo.nome_jogo)['cod_jogo'].to_dict()
dict_jogo

{'Dama': 1, 'Jogo da velha': 2, 'Xadrez': 3}

Feito isso, é preciso associar os nomes dos paises e dos jogos com seus respectivos códigos utilizando a função map.

In [272]:
df_jogadores.pais = df_jogadores.pais.map(dict_pais)
df_jogadores.head(5)

Unnamed: 0,jogador,genero,data_nascimento,num_vitorias,num_derrotas,total_partidas,pais,jogo
0,jogador 1,Masculino,1990-03-09,14,0,14,1,Dama
1,Jogador 2,Feminino,1986-01-05,39,20,59,1,Jogo da velha
2,Jogador 3,Masculino,1964-04-10,26,3,29,2,Jogo da velha
3,Jogador 4,Masculino,1979-09-28,9,72,81,3,Jogo da velha
4,Jogador 5,Masculino,1978-03-09,1,54,55,4,Dama


In [273]:
df_jogadores.jogo = df_jogadores.jogo.map(dict_jogo)
df_jogadores.head(5)

Unnamed: 0,jogador,genero,data_nascimento,num_vitorias,num_derrotas,total_partidas,pais,jogo
0,jogador 1,Masculino,1990-03-09,14,0,14,1,1
1,Jogador 2,Feminino,1986-01-05,39,20,59,1,2
2,Jogador 3,Masculino,1964-04-10,26,3,29,2,2
3,Jogador 4,Masculino,1979-09-28,9,72,81,3,2
4,Jogador 5,Masculino,1978-03-09,1,54,55,4,1



Agora é possível inserir os dados na tabela jogador.


In [274]:
#Inserindo dados do jogador
for jogador in df_jogadores.itertuples():
    nome_jogador = jogador.jogador
    genero = jogador.genero
    data_nascimento = jogador.data_nascimento
    num_vitorias = jogador.num_vitorias
    num_derrotas = jogador.num_derrotas
    total_partidas = jogador.total_partidas
    cod_pais = jogador.pais
    cod_jogo = jogador.jogo
    try:
        query = f"""insert into jogador (nome_jogador, genero, data_nascimento, num_vitorias, num_derrotas, total_partidas, cod_pais, cod_jogo) 
                     values ('{nome_jogador}', '{genero}', '{data_nascimento}', '{num_vitorias}', '{num_derrotas}', '{total_partidas}', '{cod_pais}', '{cod_jogo}')"""
        conn.execute(query)
    except Exception as e:
        print(f"Não foi possível inserir o regristro {pais}. O erro foi encontrado foi: {e}")    

Neste ponto os dados já foram inseridos no banco de dados e agora podem ser manipulados e consultados quando necessário.