# Modulo 2 - Trabalho prático 2 - Coleta de dados (Atv1)

### **Enunciado**

Uma das atividades de um arquiteto de Big Data é saber coletar, tratar e manipular bem os dados. 
Além disso, é fundamental que o profissional saiba lidar com diferentes tipos de base de dados. É 
muito comum no dia a dia de um arquiteto de Big Data se deparar com fonte de dados distintas. E 
esses dados podem vir em diversas fontes, como: 

• Dados de arquivos de texto;

• Dados coletados na Web;

• Dados oriundos de planilhas eletrônicas;

• Dados de questionários;

• Dados não estruturados;

• Dados persistidos em banco de dados. 

O objetivo desta atividade é treinar e capacitar o aluno a realizar a coleta, armazenamento e 
manipulação de dados. Dessa forma, os alunos deverão realizar a coleta de dados em dois arquivos:

• dados_jogadores.csv

• lista_jogadores_chess.json

O dataset de jogadores é um dado estatístico fictício utilizado para o desenvolvimento desse 
trabalho. Nesse arquivo temos dados de jogadores que realizaram partidas de jogos. Os jogos 
podem ser: Damas, Xadrez ou jogo da velha. O arquivo possui os seguintes atributos:

1. jogador:
    o Informação do jogador.
    
2. Gênero:
    o Gênero do jogador.
    
3. data_nascimento:
    o Data de nascimento do jogador.
    
4. Jogo:
    o Tipo do jogo.
    
5. País:
    o O país do jogador.
    
6. num_vitorias:
    o O número de vitórias que o jogador possui.
    
7. num_derrotas:
    o O número de derrotas que o jogador possui.
    
8. total_partidas:
    o Total de partidas que o jogador possui.

Já os dados que contêm a lista de jogadores do Chess foram extraídos através de uma coleta de 
dados utilizando API do jogo de xadrez (Chess) ilustrado em uma videoaula deste curso. Dessa 
forma, essa lista contém dados reais de jogadores de xadrez reconhecidos em todo o mundo. Os 
dados se encontram em um arquivo JSON e precisam ser tratados e armazenados. Os atributos 
dessa lista são: 'avatar', 'player_id', '@id', 'url', 'name', 'username', 'title', 'followers', 'country', 'last_online', 'joined', 'status', 'is_streamer'.


**Atividade I:**

Os alunos deverão desempenhar as seguintes atividades:

Para responder às questões de 1 a 5, os alunos deverão:

1. Coletar os dados fornecidos (dados_jogadores.csv);
2. Criar um banco de dados relacional MySQL;
3. Criar estrutura de tabelas no banco de dados MySQL;
4. Avaliar dados ausentes das colunas e corrigi-los; 
5. Inserir dados coletados na estrutura criada;
6. Realizar comandos SQL para extrair informações da base de dados.

Observações: 

1. Os alunos deverão ter atenção com valores nulos na base de dados e corrigi-los antes de inserir no banco de dados e realizar as operações SQL.
2. O banco MySQL tem o formato de inserção de datas o ano, mês e dia (Y/m/d). Dessa forma, o aluno deverá mudar a estrutura da data do arquivo de dia, mês e ano (d/m/Y) para fazer a inserção da data no banco. 
3. Abaixo segue uma sugestão para modelagem dos dados no banco MySQL

![image.png](attachment:image.png)

## Importando bibliotecas

In [262]:
import pandas as pd
import os
import MySQLdb
import sqlalchemy

## Coletando dados

In [263]:
diretorio = "C:\\Users\\CRISTINA RAMOS\\Desktop\\desafio-M2-ABD-master\\dataset1\\"
arquivo = "dados_jogadores.csv"
dados = os.path.join(diretorio, arquivo)

In [264]:
dados

'C:\\Users\\CRISTINA RAMOS\\Desktop\\desafio-M2-ABD-master\\dataset1\\dados_jogadores.csv'

In [265]:
df_jogadores = pd.read_csv(dados, sep=';', encoding ='latin-1')

In [266]:
df_jogadores

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-09-03,Dama,Chile,14,0,14
1,Jogador 2,Feminino,1986-05-01,Jogo da velha,Chile,39,20,59
2,Jogador 3,Masculino,1964-10-04,Jogo da velha,Brasil,26,3,29
3,Jogador 4,Masculino,1979-09-28,Jogo da velha,Argentina,9,72,81
4,Jogador 5,Masculino,1978-09-03,Dama,Uruguai,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,Dama,Chile,52,28,80
495,Jogador 496,Masculino,1959-02-09,Dama,Chile,13,51,64
496,Jogador 497,Masculino,1962-01-06,Jogo da velha,Argentina,57,23,80
497,Jogador 498,Masculino,1958-09-28,Jogo da velha,Chile,5,3,8


## Preparando dados

In [267]:
# informações basicas
df_jogadores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 499 entries, 0 to 498
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   jogador          499 non-null    object
 1   genero           499 non-null    object
 2   data_nascimento  499 non-null    object
 3   jogo             499 non-null    object
 4   pais             499 non-null    object
 5   num_vitorias     499 non-null    int64 
 6   num_derrotas     499 non-null    int64 
 7   total_partidas   499 non-null    int64 
dtypes: int64(3), object(5)
memory usage: 31.3+ KB


In [268]:
#dados estatisticos
df_jogadores.describe()

Unnamed: 0,num_vitorias,num_derrotas,total_partidas
count,499.0,499.0,499.0
mean,25.008016,23.084168,48.038076
std,21.000381,21.400487,28.205865
min,1.0,0.0,1.0
25%,8.0,6.0,24.0
50%,20.0,17.0,45.0
75%,38.0,34.5,73.5
max,93.0,92.0,100.0


### Verificando dados ausentes

In [269]:
# valores nulos
df_jogadores.isna().sum()

jogador            0
genero             0
data_nascimento    0
jogo               0
pais               0
num_vitorias       0
num_derrotas       0
total_partidas     0
dtype: int64

Existem valores nulos nas colunas num vitorias, derrotas, total_partidas. Total:21

In [270]:
# verificando as colunas que estão com registros nulos

#num_vitorias
df_jogadores[df_jogadores['num_vitorias'].isnull()]

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas


In [271]:
#num_derrotas
df_jogadores[df_jogadores['num_derrotas'].isnull()]

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas


In [272]:
#total partidas
df_jogadores[df_jogadores['total_partidas'].isnull()]

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas


Para tratar os dados nulos, podemos apagar todos os registros ou calcular:

vitoria = total_partidas - num_derrotas

derrota = total_partidas - num_vitoria

total_partida = num_vitoria + num_derrota

vitoria = df_jogadores['num_vitorias'] - df_jogadores['num_derrotas']
vitoria

derrota = df_jogadores['total_partidas'] - df_jogadores['num_vitorias']
derrota

total_partidas = df_jogadores['num_vitorias'] + df_jogadores['num_derrotas']
total_partidas

In [273]:
# tratei os nulos do excel aprovetei e mudei o formato de data
# dropando linhas repetidas
df_jogadores.drop_duplicates()

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-09-03,Dama,Chile,14,0,14
1,Jogador 2,Feminino,1986-05-01,Jogo da velha,Chile,39,20,59
2,Jogador 3,Masculino,1964-10-04,Jogo da velha,Brasil,26,3,29
3,Jogador 4,Masculino,1979-09-28,Jogo da velha,Argentina,9,72,81
4,Jogador 5,Masculino,1978-09-03,Dama,Uruguai,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,Dama,Chile,52,28,80
495,Jogador 496,Masculino,1959-02-09,Dama,Chile,13,51,64
496,Jogador 497,Masculino,1962-01-06,Jogo da velha,Argentina,57,23,80
497,Jogador 498,Masculino,1958-09-28,Jogo da velha,Chile,5,3,8


In [274]:
df_jogadores.shape

(499, 8)

## Armazenando dados no mysql

In [275]:
# conexão
user = 'root'
password = '******'
host = 'localhost'
database = 'dbdadosjogadores'

string_conexao = f'mysql://{user}:{password}@{host}/{database}'
string_conexao

'mysql://root:1234@localhost/dbdadosjogadores'

In [276]:
#engine para conexão ao servidor
engine = sqlalchemy.create_engine(string_conexao)
conn = engine.connect()

In [277]:
df_jogadores 

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-09-03,Dama,Chile,14,0,14
1,Jogador 2,Feminino,1986-05-01,Jogo da velha,Chile,39,20,59
2,Jogador 3,Masculino,1964-10-04,Jogo da velha,Brasil,26,3,29
3,Jogador 4,Masculino,1979-09-28,Jogo da velha,Argentina,9,72,81
4,Jogador 5,Masculino,1978-09-03,Dama,Uruguai,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,Dama,Chile,52,28,80
495,Jogador 496,Masculino,1959-02-09,Dama,Chile,13,51,64
496,Jogador 497,Masculino,1962-01-06,Jogo da velha,Argentina,57,23,80
497,Jogador 498,Masculino,1958-09-28,Jogo da velha,Chile,5,3,8


In [278]:
df_jogadores.to_sql('stg_jogadores3', con = conn, schema = 'dbdadosjogadores')

499

In [279]:
#qtd de paises unicos na tabela
paises = list(df_jogadores.pais.unique())
paises

['Chile', 'Brasil', 'Argentina', 'Uruguai', 'Paraguai']

In [280]:
df_pais = df_jogadores[['pais']].drop_duplicates().reset_index(drop=True)

In [281]:
#qtd de jogos unicos na tabela
jogo = list(df_jogadores.jogo.unique())
jogo

['Dama', 'Jogo da velha', 'Xadrez']

In [282]:
df_jogo = df_jogadores[['jogo']].drop_duplicates().reset_index(drop=True)
df_jogo

Unnamed: 0,jogo
0,Dama
1,Jogo da velha
2,Xadrez


In [283]:
a = type(df_jogadores)
b = type(df_jogo)
c = type(df_pais)

print(a)
print(b)
print(c)

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


## Inserindo registros no banco de dados Mysql

### País

In [284]:
# inserindo tabela pais

for pais in paises:
    try:
        query = f"""insert into pais (nome_pais) 
                    values ('{pais}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso! pais =: {pais}")
    except Exception as e:        
        print(f"Não foi possível inserir o registro {pais}. O erro foi encontrado foi: {e}") 

Registro inserido com sucesso! pais =: Chile
Registro inserido com sucesso! pais =: Brasil
Registro inserido com sucesso! pais =: Argentina
Registro inserido com sucesso! pais =: Uruguai
Registro inserido com sucesso! pais =: Paraguai


In [285]:
# Lê o dado na tabela do banco de dados
df_pais = pd.read_sql('pais', con=conn) 
df_pais

Unnamed: 0,cod_pais,nome_pais
0,1,Chile
1,2,Brasil
2,3,Argentina
3,4,Uruguai
4,5,Paraguai


In [286]:
dict_pais = df_pais.set_index(df_pais.nome_pais)['cod_pais'].to_dict()
dict_pais

{'Chile': 1, 'Brasil': 2, 'Argentina': 3, 'Uruguai': 4, 'Paraguai': 5}

In [287]:
#inserindo pais - df jogadores
df_jogadores.pais = df_jogadores.pais.map(dict_pais) 
df_jogadores

Unnamed: 0,jogador,genero,data_nascimento,jogo,pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-09-03,Dama,1,14,0,14
1,Jogador 2,Feminino,1986-05-01,Jogo da velha,1,39,20,59
2,Jogador 3,Masculino,1964-10-04,Jogo da velha,2,26,3,29
3,Jogador 4,Masculino,1979-09-28,Jogo da velha,3,9,72,81
4,Jogador 5,Masculino,1978-09-03,Dama,4,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,Dama,1,52,28,80
495,Jogador 496,Masculino,1959-02-09,Dama,1,13,51,64
496,Jogador 497,Masculino,1962-01-06,Jogo da velha,3,57,23,80
497,Jogador 498,Masculino,1958-09-28,Jogo da velha,1,5,3,8


In [288]:
df_jogadores = df_jogadores.rename(columns={'pais' : 'cod_pais'})
df_jogadores

Unnamed: 0,jogador,genero,data_nascimento,jogo,cod_pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-09-03,Dama,1,14,0,14
1,Jogador 2,Feminino,1986-05-01,Jogo da velha,1,39,20,59
2,Jogador 3,Masculino,1964-10-04,Jogo da velha,2,26,3,29
3,Jogador 4,Masculino,1979-09-28,Jogo da velha,3,9,72,81
4,Jogador 5,Masculino,1978-09-03,Dama,4,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,Dama,1,52,28,80
495,Jogador 496,Masculino,1959-02-09,Dama,1,13,51,64
496,Jogador 497,Masculino,1962-01-06,Jogo da velha,3,57,23,80
497,Jogador 498,Masculino,1958-09-28,Jogo da velha,1,5,3,8


### Jogo

In [289]:
# inserindo tabela jogo

for jogo in jogos:
    try:
        query = f"""insert into jogo (nome_jogo) 
                    values ('{jogo}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso! pais =: {jogo}")
    except Exception as e:        
        print(f"Não foi possível inserir o registro {jogo}. O erro foi encontrado foi: {e}") 

Registro inserido com sucesso! pais =: Dama
Registro inserido com sucesso! pais =: Jogo da velha
Registro inserido com sucesso! pais =: Xadrez


In [290]:
# Lê o dado na tabela do banco de dados
df_jogo = pd.read_sql('jogo', con=conn) 
df_jogo

Unnamed: 0,cod_jogo,nome_jogo
0,1,Dama
1,2,Jogo da velha
2,3,Xadrez


In [291]:
dict_jogo = df_jogo.set_index(df_jogo.nome_jogo)['cod_jogo'].to_dict()
dict_jogo

{'Dama': 1, 'Jogo da velha': 2, 'Xadrez': 3}

In [292]:
#inserindo pais - df jogadores
df_jogadores.jogo = df_jogadores.jogo.map(dict_jogo) 
df_jogadores

Unnamed: 0,jogador,genero,data_nascimento,jogo,cod_pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-09-03,1,1,14,0,14
1,Jogador 2,Feminino,1986-05-01,2,1,39,20,59
2,Jogador 3,Masculino,1964-10-04,2,2,26,3,29
3,Jogador 4,Masculino,1979-09-28,2,3,9,72,81
4,Jogador 5,Masculino,1978-09-03,1,4,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,1,1,52,28,80
495,Jogador 496,Masculino,1959-02-09,1,1,13,51,64
496,Jogador 497,Masculino,1962-01-06,2,3,57,23,80
497,Jogador 498,Masculino,1958-09-28,2,1,5,3,8


In [293]:
df_jogadores = df_jogadores.rename(columns={'jogo' : 'cod_jogo'})
df_jogadores

Unnamed: 0,jogador,genero,data_nascimento,cod_jogo,cod_pais,num_vitorias,num_derrotas,total_partidas
0,jogador 1,Masculino,1990-09-03,1,1,14,0,14
1,Jogador 2,Feminino,1986-05-01,2,1,39,20,59
2,Jogador 3,Masculino,1964-10-04,2,2,26,3,29
3,Jogador 4,Masculino,1979-09-28,2,3,9,72,81
4,Jogador 5,Masculino,1978-09-03,1,4,1,54,55
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,1,1,52,28,80
495,Jogador 496,Masculino,1959-02-09,1,1,13,51,64
496,Jogador 497,Masculino,1962-01-06,2,3,57,23,80
497,Jogador 498,Masculino,1958-09-28,2,1,5,3,8


In [294]:
df_jogadores = df_jogadores[["jogador", "genero", "data_nascimento", "num_vitorias", "num_derrotas", "total_partidas", "cod_jogo", "cod_pais"]]
df_jogadores

Unnamed: 0,jogador,genero,data_nascimento,num_vitorias,num_derrotas,total_partidas,cod_jogo,cod_pais
0,jogador 1,Masculino,1990-09-03,14,0,14,1,1
1,Jogador 2,Feminino,1986-05-01,39,20,59,2,1
2,Jogador 3,Masculino,1964-10-04,26,3,29,2,2
3,Jogador 4,Masculino,1979-09-28,9,72,81,2,3
4,Jogador 5,Masculino,1978-09-03,1,54,55,1,4
...,...,...,...,...,...,...,...,...
494,Jogador 495,Feminino,1974-06-03,52,28,80,1,1
495,Jogador 496,Masculino,1959-02-09,13,51,64,1,1
496,Jogador 497,Masculino,1962-01-06,57,23,80,2,3
497,Jogador 498,Masculino,1958-09-28,5,3,8,2,1


In [295]:
# Escrevendo registros armazenados em um DataFrame para um banco de dados SQL.
df_jogadores.to_sql('stg_jogadores', con = conn, schema = 'dbdadosjogadores')

499

### Jogadores

In [296]:
#percorrer o df e retorna elas em tuplas (chave e valor)
for jogador in df_jogadores[:3].itertuples():
    print(jogador)

Pandas(Index=0, jogador='jogador 1', genero='Masculino', data_nascimento='1990-09-03', num_vitorias=14, num_derrotas=0, total_partidas=14, cod_jogo=1, cod_pais=1)
Pandas(Index=1, jogador='Jogador 2', genero='Feminino', data_nascimento='1986-05-01', num_vitorias=39, num_derrotas=20, total_partidas=59, cod_jogo=2, cod_pais=1)
Pandas(Index=2, jogador='Jogador 3', genero='Masculino', data_nascimento='1964-10-04', num_vitorias=26, num_derrotas=3, total_partidas=29, cod_jogo=2, cod_pais=2)


In [None]:
type(jogador.genero)

Agora é só consultar no Mysql