In [1]:
# Bibliotecas
import pandas as pd

## Exploração de Dados (EDA): Licença Médica

In [2]:
# Dados licença médica
df_licenca = pd.read_csv('data/dados_licencas_medicas.csv', sep=';', encoding='latin-1')

In [3]:
df_licenca.shape

(1013, 18)

In [4]:
df_licenca.columns

Index(['nome_medico', 'especialidade', 'motivo_licença', 'id_colaborador',
       'nome_colaborador', 'data_nascimento', 'estado_colaborador',
       'sexo_colaborador', 'inicio_licenca', 'fim_licenca', 'duracao_licensa',
       'idade', 'escolaridade', 'salario', 'qtd_filhos', 'hobbie',
       'possui_pet', 'estado_civil'],
      dtype='object')

In [5]:
df_licenca.duplicated().sum()

17

In [6]:
df_licenca.isnull().sum()

nome_medico            0
especialidade          0
motivo_licença         0
id_colaborador         0
nome_colaborador       0
data_nascimento        0
estado_colaborador     0
sexo_colaborador       0
inicio_licenca         0
fim_licenca            0
duracao_licensa        0
idade                  0
escolaridade           0
salario               18
qtd_filhos             6
hobbie                 0
possui_pet             0
estado_civil           5
dtype: int64

In [7]:
df_licenca.head()

Unnamed: 0,nome_medico,especialidade,motivo_licença,id_colaborador,nome_colaborador,data_nascimento,estado_colaborador,sexo_colaborador,inicio_licenca,fim_licenca,duracao_licensa,idade,escolaridade,salario,qtd_filhos,hobbie,possui_pet,estado_civil
0,Dr. Pedro,Clínico geral,Acidente de trabalho,2,Sophie Aragão,27/03/1970,Rio Grande do Sul,Feminino,22/10/2022,27/10/2022,5,53,Fundamental,3966.24,2.0,Música,Sim,Solteiro(a)
1,Dr. Marcelo,Clínico geral,Acidente de trajeto,6,Juliana da Luz,25/06/1957,Ceará,Feminino,15/08/2023,04/09/2023,20,65,Médio,8924.56,4.0,Artes,Não,Casado(a)
2,Dr. Gustavo,Clínico geral,Enfermidade de filhos pequenos,7,Marina da Rocha,06/01/1978,Rio Grande do Norte,Feminino,02/04/2023,01/05/2023,29,45,Fundamental,4020.64,1.0,Leitura,Não,Viúvo(a)
3,Dr. Lucas,Clínico geral,Comum,11,Davi da Mota,27/09/1956,Tocantins,Masculino,09/03/2023,30/03/2023,21,66,Fundamental,6680.35,2.0,Artes,Não,Viúvo(a)
4,Dr. Pedro,Clínico geral,Acidente de trabalho,12,Paulo Souza,09/04/1968,Roraima,Masculino,13/11/2023,04/12/2023,21,55,Fundamental,3038.72,3.0,Artes,Não,Divorciado(a)


## Tratamento dos dados: Licença Médica

In [8]:
#### Drop duplicate values
df_licenca.drop_duplicates(inplace=True)

In [9]:
df_licenca.duplicated().sum()

0

In [10]:
df_licenca.shape

(996, 18)

In [11]:
### Tratar dados nulos
## salario 18: com média arredondando 2 casas decimais
## qtd_filhos 6: com a média somente com round
## estado_civil 5: pegar a moda

In [12]:
# Média de salários fillna(média)
media_salario = round(df_licenca.salario.mean(), 2) 

In [13]:
df_licenca.salario.fillna(media_salario, inplace=True)

In [14]:
df_licenca.isnull().sum()

nome_medico           0
especialidade         0
motivo_licença        0
id_colaborador        0
nome_colaborador      0
data_nascimento       0
estado_colaborador    0
sexo_colaborador      0
inicio_licenca        0
fim_licenca           0
duracao_licensa       0
idade                 0
escolaridade          0
salario               0
qtd_filhos            6
hobbie                0
possui_pet            0
estado_civil          5
dtype: int64

In [15]:
# Média de quantidade de filhos
media_filhos = round(df_licenca.qtd_filhos.mean())

In [16]:
df_licenca.qtd_filhos.fillna(media_filhos, inplace=True)

In [17]:
df_licenca.isnull().sum()

nome_medico           0
especialidade         0
motivo_licença        0
id_colaborador        0
nome_colaborador      0
data_nascimento       0
estado_colaborador    0
sexo_colaborador      0
inicio_licenca        0
fim_licenca           0
duracao_licensa       0
idade                 0
escolaridade          0
salario               0
qtd_filhos            0
hobbie                0
possui_pet            0
estado_civil          5
dtype: int64

In [18]:
## Moda do estado_civil
moda_estado_civil = df_licenca.estado_civil.mode()

In [19]:
df_licenca.estado_civil.fillna(moda_estado_civil, inplace=True)

In [20]:
df_licenca.isnull().sum()

nome_medico           0
especialidade         0
motivo_licença        0
id_colaborador        0
nome_colaborador      0
data_nascimento       0
estado_colaborador    0
sexo_colaborador      0
inicio_licenca        0
fim_licenca           0
duracao_licensa       0
idade                 0
escolaridade          0
salario               0
qtd_filhos            0
hobbie                0
possui_pet            0
estado_civil          5
dtype: int64

In [21]:
# Calcula a idade
from datetime import datetime
# Supondo que 'data_nascimento' está no formato 'dd/mm/yyyy'
df_licenca['data_nascimento'] = pd.to_datetime(df_licenca['data_nascimento'], format='%d/%m/%Y')

# Calcular a idade
df_licenca['idade_calculada'] = (datetime.now() - df_licenca['data_nascimento']).dt.days // 365

In [22]:
df_licenca.shape

(996, 19)

### Pergunta 1: Qual é a idade média dos colaboradores do sexo feminino que estão solteiras?

#### 46.36241610738255

In [23]:
# Pergunta 1: Qual é a idade média dos colaboradores do sexo feminino que estão solteiras?
df_feminino_solteira = df_licenca[(df_licenca.sexo_colaborador == 'Feminino') & (df_licenca.estado_civil == 'Solteiro(a)')]

In [24]:
df_feminino_solteira.idade.mean()

45.40939597315436

In [25]:
# Usar idade calculada para reponder as questões
df_feminino_solteira.idade_calculada.mean()

46.36241610738255

### Pergunta 2: Qual é o motivo de licença que foi menos frequentemente solicitado por mulheres com mais de 35 anos?
#### Acidente de trajeto

In [26]:
# Qual é o motivo de licença que foi menos frequentemente solicitado por mulheres com mais de 35 anos?
df_feminino_MAIOR_35 = df_licenca[(df_licenca.sexo_colaborador == 'Feminino') & (df_licenca.idade_calculada > 35)]

In [27]:
df_feminino_MAIOR_35.motivo_licença.value_counts()

motivo_licença
Comum                             106
Enfermidade de filhos pequenos     80
Maternidade                        78
Acidente de trabalho               55
Acidente de trajeto                53
Name: count, dtype: int64

### Pergunta 3: Dentre a lista abaixo, escolha o médico que atendeu o maior número de colaboradores do estado de Pernambuco?
#### Dr. Irineu

In [28]:
df_licenca.estado_colaborador.value_counts()

estado_colaborador
Mato Grosso do Sul     54
Espírito Santo         46
Amazonas               43
Tocantins              42
Rio Grande do Sul      41
Paraíba                40
Acre                   40
Distrito Federal       39
Rondônia               38
Piauí                  38
Maranhão               37
Minas Gerais           37
Santa Catarina         36
Amapá                  36
Pará                   35
Rio Grande do Norte    35
Rio de Janeiro         35
São Paulo              34
Alagoas                34
Paraná                 34
Roraima                33
Mato Grosso            33
Goiás                  33
Pernambuco             32
Ceará                  31
Bahia                  30
Sergipe                30
Name: count, dtype: int64

In [29]:
# Dentre a lista abaixo, escolha o médico que atendeu o maior número de colaboradores do estado de Pernambuco?
df_PE = df_licenca[df_licenca.estado_colaborador == 'Pernambuco']

In [30]:
df_PE.nome_medico.value_counts()

nome_medico
Dr. Irineu       4
Dr. Pedro        3
Dr. Gustavo      3
Dr. Lucas        3
Dr. Vinicius     3
Dr. Rafael       2
Dra. Fernanda    2
Dra. Juliana     2
Dr. Felipe       2
Dr. Roberto      2
Dra. Ana         1
Dr. Ramos        1
Dr. Eduardo      1
Dra. Vanessa     1
Dr. Ricardo      1
Dra. Daniele     1
Name: count, dtype: int64

### Pergunta 4: Qual estado tem o maior número de pessoas com ensino Fundamental que têm a leitura como hobbie?
#### Santa Catarina

In [31]:
df_licenca.escolaridade.value_counts()

escolaridade
Médio          344
Fundamental    327
Superior       325
Name: count, dtype: int64

In [32]:
df_licenca.hobbie.value_counts()

hobbie
Viagens     208
Esportes    205
Música      195
Artes       195
Leitura     193
Name: count, dtype: int64

In [33]:
# Qual estado tem o maior número de pessoas com ensino Fundamental que têm a leitura como hobbie?
df_ensinof_leitura_hobbie = df_licenca[(df_licenca.escolaridade == 'Fundamental') & (df_licenca.hobbie == 'Leitura')]

In [35]:
df_ensinof_leitura_hobbie.estado_colaborador.value_counts()

estado_colaborador
Santa Catarina         8
Rio Grande do Sul      6
Acre                   4
Paraná                 4
São Paulo              4
Amazonas               4
Maranhão               3
Paraíba                3
Rio de Janeiro         3
Tocantins              3
Sergipe                3
Pernambuco             3
Rondônia               2
Piauí                  2
Amapá                  2
Mato Grosso do Sul     2
Distrito Federal       2
Alagoas                1
Roraima                1
Espírito Santo         1
Minas Gerais           1
Ceará                  1
Rio Grande do Norte    1
Name: count, dtype: int64

### Pergunta 5: Qual é o número de pessoas com ensino superior que são naturais ou pertencem ao estado de Minas Gerais?
#### 16

In [38]:
# Qual é o número de pessoas com ensino superior que são naturais ou pertencem ao estado de Minas Gerais?
df_ensino_superior_MG = df_licenca[(df_licenca.escolaridade == 'Superior') & (df_licenca.estado_colaborador == 'Minas Gerais')]

In [39]:
df_ensino_superior_MG.shape

(16, 19)

### Pergunta 6: Calcule a média de filhos entre todas as pessoas atendidas pelo Dr. Lessa e assinale a alternativa CORRETA.
#### A média de filhos entre os colaboradores do sexo masculino é superior à média das colaboradoras do sexo feminino.



In [40]:
# Calcule a média de filhos entre todas as pessoas atendidas pelo Dr. Lessa e assinale a alternativa CORRETA.
df_Dr_Lessa = df_licenca[(df_licenca.nome_medico == 'Dr. Lessa')]

In [41]:
df_Dr_Lessa.qtd_filhos.mean()

2.3783783783783785

In [None]:
## A média de filhos entre os colaboradores do sexo feminino é superior à média das colaboradoras do sexo masculino.
## A média entre os colaboradores do sexo feminino é 2.5 enquanto a média entre os colaboradores do sexo masculino é 2.2.
## A média de filhos entre os colaboradores do sexo masculino é superior à média das colaboradoras do sexo feminino.
## A média de filhos para ambos os casos é igual.*/

In [48]:
media_filhosF = df_Dr_Lessa[df_Dr_Lessa.sexo_colaborador == 'Feminino'].qtd_filhos.mean()

In [47]:
media_filhosM = df_Dr_Lessa[df_Dr_Lessa.sexo_colaborador == 'Masculino'].qtd_filhos.mean()

In [50]:
## A média de filhos entre os colaboradores do sexo feminino é superior à média das colaboradoras do sexo masculino.
## ERRADA
## A média entre os colaboradores do sexo feminino é 2.5 enquanto a média entre os colaboradores do sexo masculino é 2.2.
## ERRADA
## A média de filhos entre os colaboradores do sexo masculino é superior à média das colaboradoras do sexo feminino.
## CORRETA
print(f'Média de filhos do sexo F: {media_filhosF}.\nMédia de filhos do sexo M: {media_filhosM}')

Média de filhos do sexo F: 2.210526315789474.
Média de filhos do sexo M: 2.5555555555555554


### Pergunta 7: Qual colaborador possui o maior salário na base de dados?
#### Nathan Barros

In [55]:
## Qual colaborador possui o maior salário na base de dados?
MAIOR_salario = df_licenca[df_licenca.salario == df_licenca.salario.max()]

In [58]:
MAIOR_salario.nome_colaborador

594    Nathan Barros
Name: nome_colaborador, dtype: object

### Pergunta 8: Qual estado apresenta a menor média salarial entre os colaboradores?
#### Sergipe

In [65]:
df_licenca.groupby('estado_colaborador')['salario'].mean().sort_values(ascending=True)

estado_colaborador
Sergipe                4713.703667
Distrito Federal       4790.579487
Acre                   4957.205500
Mato Grosso do Sul     5037.914444
Paraná                 5113.692059
Espírito Santo         5138.976739
Rio de Janeiro         5372.811429
Alagoas                5379.895882
Paraíba                5380.618750
Pernambuco             5384.340313
Rio Grande do Sul      5436.724878
Santa Catarina         5452.204444
Mato Grosso            5582.171818
Rio Grande do Norte    5612.891143
Tocantins              5624.630000
Rondônia               5637.492632
São Paulo              5706.749706
Piauí                  5755.944211
Ceará                  5762.034516
Amapá                  5809.281667
Bahia                  5970.216333
Amazonas               5970.990465
Maranhão               5992.926486
Pará                   6014.618571
Goiás                  6042.514242
Roraima                6126.146970
Minas Gerais           6175.460270
Name: salario, dtype: float64

### Pergunta 9: Qual licença teve a menor média de duração entre os colaboradores? Grupo de escolhas da pergunta
- Comum
- Acidente de trajeto
- Maternidade
- **Acidente de trabalho**  <-- **RESPOSTA**

In [67]:
# motivo_licença
# duracao_licensa
df_licenca.groupby('motivo_licença')['duracao_licensa'].mean().sort_values(ascending=True)

motivo_licença
Acidente de trabalho              14.831081
Enfermidade de filhos pequenos    15.239382
Comum                             15.362229
Maternidade                       15.555556
Acidente de trajeto               15.905063
Name: duracao_licensa, dtype: float64

### Pergunta 10: Qual especialidade realizou o maior número de atendimentos? Grupo de escolhas da pergunta
- Pediatra
- Traumatologista
- Ortopedista
- Clínico geral

In [77]:
df_licenca.groupby('especialidade')['id_colaborador'].count()

especialidade
Clínico geral             245
Ginecologista obstetra    151
Ortopedista               222
Pediatra                  193
Traumatologista           185
Name: id_colaborador, dtype: int64

### Pergunta 12: Quais são os jogadores que possuem mais que 35.000 seguidores? Grupo de escolhas da pergunta
- **Simon Williams, Hikaru Nakamura e Magnus Carlsen** <-- **RESPOSTA**
- Robert L. Hess, Simon Williams, Robert L. Hess e Magnus Carlsen
- Simon Williams e Magnus Carlsen
- Hikaru Nakamura e Robert L. Hess

## Exploração de Dados (EDA): Jogadores Chess

In [90]:
import numpy as np

In [91]:
# Lê arquivo JSON
df_jogadores = pd.read_json('data/jogadores_chess.json')

In [92]:
df_jogadores.shape

(1332, 1)

In [93]:
df_jogadores.head()

Unnamed: 0,user
0,{'avatar': 'https://images.chesscomfiles.com/u...
1,{'avatar': 'https://images.chesscomfiles.com/u...
2,{'avatar': 'https://images.chesscomfiles.com/u...
3,{'avatar': 'https://images.chesscomfiles.com/u...
4,{'avatar': 'https://images.chesscomfiles.com/u...


In [94]:
# Converte par Pandas DataFrame
df_jogadores = pd.DataFrame(data['user'])

In [95]:
df_jogadores

Unnamed: 0,avatar,player_id,@id,url,name,username,title,followers,country,last_online,joined,status,is_streamer,location,twitch_url
0,https://images.chesscomfiles.com/uploads/v1/us...,18800602,https://api.chess.com/pub/player/123lt,https://www.chess.com/member/123lt,Tingjie Lei,123lt,GM,36,https://api.chess.com/pub/country/CN,1615967972,1410059361,premium,False,,
1,https://images.chesscomfiles.com/uploads/v1/us...,29499974,https://api.chess.com/pub/player/124chess,https://www.chess.com/member/124chess,Дмитрий Хегай,124chess,GM,87,https://api.chess.com/pub/country/RU,1616173422,1471316272,premium,False,Красноярск,
2,https://images.chesscomfiles.com/uploads/v1/us...,30610578,https://api.chess.com/pub/player/1977ivan,https://www.chess.com/member/1977Ivan,Ivan Ivanisevic,1977ivan,GM,120,https://api.chess.com/pub/country/RS,1616110240,1477565847,premium,False,Belgrade,
3,https://images.chesscomfiles.com/uploads/v1/us...,13013662,https://api.chess.com/pub/player/1stsecond,https://www.chess.com/member/1stSecond,Nikita Meshkovs,1stsecond,GM,716,https://api.chess.com/pub/country/LV,1616192647,1375617889,premium,False,Riga,
4,https://images.chesscomfiles.com/uploads/v1/us...,39230304,https://api.chess.com/pub/player/2nd_life,https://www.chess.com/member/2nd_life,Florian Jenni,2nd_life,GM,25,https://api.chess.com/pub/country/CH,1615926963,1507311109,premium,False,Zurich,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1327,https://images.chesscomfiles.com/uploads/v1/us...,27723022,https://api.chess.com/pub/player/zstardust,https://www.chess.com/member/zstardust,Fernando Peralta,zstardust,GM,18,https://api.chess.com/pub/country/AR,1614588922,1460538364,premium,False,Barcelona,
1328,https://images.chesscomfiles.com/uploads/v1/us...,56242896,https://api.chess.com/pub/player/zubridis,https://www.chess.com/member/zubridis,Зубарев Александр,zubridis,GM,22,https://api.chess.com/pub/country/UA,1615815163,1547915802,premium,False,,
1329,https://images.chesscomfiles.com/uploads/v1/us...,32236996,https://api.chess.com/pub/player/zugazuando,https://www.chess.com/member/Zugazuando,Andre Diamant,zugazuando,GM,846,https://api.chess.com/pub/country/BR,1616248251,1483890316,premium,True,,https://twitch.tv/cexequemate
1330,https://images.chesscomfiles.com/uploads/v1/us...,63063390,https://api.chess.com/pub/player/zuraazmai,https://www.chess.com/member/ZURAAZMAI,ZURAB AZMAIPARASHVILI,zuraazmai,GM,76,https://api.chess.com/pub/country/GE,1616245103,1562518973,premium,False,Тбилиси,


## Tratamento dos dados: Jogadores Chess

In [96]:
df_jogadores.shape

(1332, 15)

In [98]:
df_jogadores.duplicated().sum()

0

In [99]:
df_jogadores.isna().sum()

avatar          332
player_id         0
@id               0
url               0
name            216
username          0
title             0
followers         0
country           0
last_online       0
joined            0
status            0
is_streamer       0
location        622
twitch_url     1285
dtype: int64

In [101]:
# Quais são os jogadores que possuem mais que 35.000 seguidores? 
df_jogadores[df_jogadores.followers > 35000]['name']

451     Simon Williams
594    Hikaru Nakamura
812     Magnus Carlsen
Name: name, dtype: object

## Pergunta 13: Qual a sigla do pais do jogador Magnus Carlsen? Grupo de escolhas da pergunta
- SC
- **NO** <-- **RESPOSTA**
- US
- PT
 

In [102]:
df_jogadores[df_jogadores.name == 'Magnus Carlsen'].country

812    https://api.chess.com/pub/country/NO
Name: country, dtype: object

### Pergunta 14: Qual o total de jogadores que são do Estados Unidos? Grupo de escolhas da pergunta
- 2 jogadores
- 16 jogadores
- 160 jogadores
- **233 jogadores**  <-- **RESPOSTA MAIS PRÓXIMA** Resposta correta 223

In [109]:
df_jogadores.country.value_counts()

country
https://api.chess.com/pub/country/US    223
https://api.chess.com/pub/country/RU    152
https://api.chess.com/pub/country/IN     78
https://api.chess.com/pub/country/UA     54
https://api.chess.com/pub/country/DE     42
                                       ... 
https://api.chess.com/pub/country/CI      1
https://api.chess.com/pub/country/JP      1
https://api.chess.com/pub/country/EC      1
https://api.chess.com/pub/country/UY      1
https://api.chess.com/pub/country/GL      1
Name: count, Length: 102, dtype: int64

In [111]:
jogadores_USA = df_jogadores[df_jogadores.country == 'https://api.chess.com/pub/country/US'].shape[0]
print("Número de jogadores dos EUA:", jogadores_USA)

Número de jogadores dos EUA: 223


## Pergunta 15: Quais são as classificações presentes no dataset jogadores_chess para a feature status? Grupo de escolhas da pergunta
- 'basic', 'premium', 'staff' e ‘ GM’
- **'basic', 'premium', 'staff'** <-- **RESPOSTA**
- 'basic' e 'premium'
- Nenhuma das alternativas.

In [112]:
## Quais são as classificações presentes no dataset jogadores_chess para a feature status?
df_jogadores.status.value_counts()

status
premium    1322
staff         8
basic         2
Name: count, dtype: int64