# NOTE:
Esse **Jupyter Notebook** terá comentários demasiados pelo os seguintes fatos:
 - Esse é um projeto de estudos;
 - Para quem desejar aprender a partir dos exemplos entenda o que foi feito.

## 01 - Instalando as bibliotecas necessárias

### 01.1 - Instalando a biblioteca para conexão com o Banco de Dados

**NOTE:**  
Essas bibliotecas não vem instalada no Anaconda, por isso, é necessário instalá-las fora parte:

In [1]:
!pip install pymysql openpyxl



### 01.2 - Importando as bibliotecas necessárias

**NOTE:**  
Essas bibliotecas por outro lado já vem instaladas em conjunto com o Anaconda.

In [2]:
import pandas as pd
import datetime
import glob
import math

## 02 - Criando a conexão com o nosso Banco de Dados MySQL

In [3]:
from sqlalchemy.engine import create_engine
engine = create_engine('mysql+pymysql://root:bootcamp@127.0.0.1:3307/employees')

#### Conexão com o banco de dados

 - **mysql** - Banco de Dados
 - **pymysql** - Conexão com o Banco de Dados
 - **root** - Username
 - **bootcamp** - Password
 - **@127.0.0.1:3307** - IP
 - **employees** - Nome do banco de dados

**NOTE:**  
A conexão vai ficar salva no objeto **engine**.

## 03 - Criando os  atributos (features) Satisfaction_Level e Last_Evaluation

### 03.1 - Utilizando a função read_json do Pandas para criar um DataFrame para representar avaliação de desempenho dos funcionários

Como nós sabemos uma parte dos nossos dados foi disponibilizado em formado **JSON** por uma empresa terceirizada responsável por fazer uma avaliação de desempenho dos funcionários.

Agora nós vamos pegar esse dados que estão no formato **JSON** e transformar em um DataFrame com a função **read_json()** do Pandas:

In [4]:
df_performance_evaluation = pd.read_json("../datalake/landing/performance-evaluation/employee_performance_evaluation.json", orient="records", lines=True)

**NOTE:**  
Se fosse em um Ambiente Windows o código seria o seguinte:

In [5]:
# Windows
#df_performance_evaluation = pd.read_json("..\\datalake\\landing\\performance-evaluation\\employee_performance_evaluation.json", orient="records", lines=True)

Agora vamos exibir as primeiras 50 (0 to 49) amostras do nosso conjunto de dados:

In [6]:
df_performance_evaluation.head(50)

Unnamed: 0,emp_id,satisfaction_level,last_evaluation
0,10001,38,53
1,10002,80,86
2,10003,11,88
3,10004,72,87
4,10005,37,52
5,10006,41,50
6,10007,10,77
7,10008,92,85
8,10009,89,100
9,10010,42,53


## 04 - Criando o atributo (feature) "df_number_projects"

Agora nós vamos criar um **atributo (feature)** que vai representar o número de projetos de um funcionário. Para isso vamos criar uma *query SQL* para fazer essa tarefa no nosso Banco de Dados (que está no ambiente Docker):

In [7]:
query = """SELECT Count(PROJECT_ID) as number_projects
FROM projects_emp
GROUP BY (emp_id);"""

#### Definindo a query para retorna o número de projetos por colaborador.

**NOTE:**  
Agora que já temos nossa *Query SQL* criar esse atributo com *Pandas* em conjunto com o *MySQL*. Para isso vamos utilizar a função **read_sql_query()**.

Essa função recebe 2 argumentos principais que são:

 - A **Query** que desejamos aplicar;
 - Conexão com o Banco de Dados:
   - Está salva no objeto **engine**.

In [8]:
df_number_projects = pd.read_sql_query(query, engine)

Agora que nós já criamos o **atributo (feature)** que vai representar o número de projetos que cada funcionário tem, vamos dar uma visualizada rápida apenas nas 50 (0 to 49) primeiras amostras:

In [9]:
df_number_projects.head(50)

Unnamed: 0,number_projects
0,2
1,5
2,7
3,5
4,2
5,2
6,6
7,5
8,5
9,2


## 05 - Criando o atributo (feature) "mean_work_last_3_months"

Uma das maneira de saber quão satisfeito está um funcionário dentro da empresa seria medir o seu **nível de satisfação** em `relação` a **quanto tempo ele vem trabalhando nos últimos meses (nós últimos 3 no nosso caso)**.

### 05.1 - Criando um DataFrame vazio
A primeira coisa que nós vamos fazer aqui é criar um DataFrame vazio, porém, já vamos definir algumas **colunas (festures)**:

 - **Colunas (festures):**
   - emp_id (emp = employee);
   - data;
   - hora.

In [10]:
df_temp = pd.DataFrame(data=None, columns=["emp_id", "data", "hora"])

Agora vamos exibir esse DataFrame vazio só para ver como ficou:

In [11]:
df_temp.head(50)

Unnamed: 0,emp_id,data,hora


In [12]:
print(df_temp)

Empty DataFrame
Columns: [emp_id, data, hora]
Index: []


### 05.2 - Carregando & Concatenando dados de planilhas distintas

> É muito comum em um projeto de **Data Science** nós termos dados em mais de uma planilha e em algum momento nós precisarmos juntar todos esses dados.

No nosso problema nós temos os dados referentes a horas trabalhadas dos funcionários em 6 planilhas distintas. Agora vamos ver como **carregar** e **concatenar** todos esses dados:

In [13]:
for sheet in glob.glob("../datalake/landing/working-hours/*.xlsx"):
  df_ = pd.read_excel(sheet)
  df_temp = pd.concat([df_temp, df_])

Agora vamos explicar o código acima:
 - **LINHA 1:**
   - Na linha 1 nós vamos iterar por cada arquivo **.xlsx** no diretório **working-hours**:
     - Para isso nós utilizamos o módulo **glob** para pegar apenas os arquivos **.xlsx**.
 - **LINHA 2:**
   - Para cada iteração **(arquivo .xlsx)** nós vamos:
     - Pegar o **arquivo .xlsx** *atual (sheet)* e salvar em **df_**
 - **LINHA 3:**
   - Para cada iteração nós vamos:
     - Concatenar o conteúdo do DataFrame temporário **df_temp** + o **arquivo .xlsx** *atual (sheet)*

**NOTE:**  
Se nós estivessemos trabalhando em um ambiente Windows o código seria o seguinte:

In [14]:
# Windows
#for sheet in glob.glob("..\\datalake\\landing\\working-hours\\*.xlsx"):
  #df_ = pd.read_excel(sheet)
  #df_sistema_ponto = pd.concat([df_sistema_ponto,df_])

Agora vamos ver isso visualmente para ver como ficou:

In [15]:
df_temp.head(50)

Unnamed: 0,emp_id,data,hora
0,20001,2021-12-05,10
1,20001,2021-12-04,11
2,20001,2021-12-03,4
3,20001,2021-12-02,15
4,20001,2021-12-01,10
5,20001,2021-11-30,7
6,20001,2021-11-29,9
7,20001,2021-11-28,5
8,20001,2021-11-27,3
9,20001,2020-05-31,10


In [16]:
print(df_temp)

       emp_id       data hora
0       20001 2021-12-05   10
1       20001 2021-12-04   11
2       20001 2021-12-03    4
3       20001 2021-12-02   15
4       20001 2021-12-01   10
...       ...        ...  ...
537495  15000 2020-12-27   12
537496  15000 2020-12-28    5
537497  15000 2020-12-29   11
537498  15000 2020-12-30   14
537499  15000 2020-12-31   11

[3225009 rows x 3 columns]


### 05.3 - Convertendo (Pré-Processar) dados das planilhas em dados numéricos

> As vezes é necessário antes de trabalharmos com os dados nós aplicarmos um **Pré-Processamento** dos dados.

A primeira coisa que nós vamos fazer aqui é verificar quais tipos de dados estão nossas *colunas (festures)*:

In [17]:
df_temp.dtypes

emp_id            object
data      datetime64[ns]
hora              object
dtype: object

**NOTE:**  
Por sorte os dados já estavam processados da maneira em que desejavamos. Mas se por acaso a hora estivesse em um formato diferente do numérico uma solução seria utilizar a função **to_numeric()** do Pandas:

In [18]:
df_temp["hora"] = pd.to_numeric(df_temp["hora"])

In [19]:
df_temp.dtypes

emp_id            object
data      datetime64[ns]
hora               int64
dtype: object

### 05.4 - Filtrando apenas os registros dos últimos 3 meses

Bem, o problema é que o **DataFrame (df_temp)** de horas trabalhadas por cada funcionário tem às horas trabalhadas  acima de 3 meses em relação a data atual (2021/12/06 para mim); E nós queremos às horas trabalhadas por dia de cada funcionário apenas nós últimos 3 meses.

A melhor solução aqui seria nós criarmos um script (código), onde, independente da data que nós aplicarmos ele vai:

 - Pegar a data atual;
 - Subtrair 3 meses (ou 90 dias mais ou menos) em relação a essa data atual;
 - E aplicar uma lógica para exibir apenas os 3 últimos meses.

Vamos ver como fica isso na prática?

Primeiro vamos pegar os **dados de agora (Ano, Mês, Data, Hora, Minutos e Segundos)** com a classe **datetime**:

In [20]:
from datetime import datetime

today_date = datetime.today()
print(today_date.strftime('%Y-%m-%d'))

2021-12-27


Agora vamos utilizar o **timedelta()** da classe **datetime** para subtrair 90 dias `(3 meses supondo que foram meses de 30 dias cada)`:

In [21]:
from datetime import timedelta

last_3_month = today_date - timedelta(90)
print(last_3_month.strftime('%Y-%m-%d'))

2021-09-28


**NOTE:**  
Uma coisa muito importante aqui é saber qual o tipo primitivo de dado representa essa data. Vamos verificar isso agora:

In [22]:
print(type(last_3_month.strftime('%Y-%m-%d')))

<class 'str'>


**Ótimo, temos um tipo string, logo o que nós queríamos - Mas por quê?**  
A função que nós vamos utilizar logo mais só recebe números inteiros para representar a **data (ano, mês e dia)**. O interessante aqui seria transformar essa string em uma lista Python. Uma maneira seria utilizar o método **split()** da classe string:

In [23]:
last_3_month = last_3_month.strftime('%Y-%m-%d').split("-")
print(last_3_month)

['2021', '09', '28']


**NOTE:**  
Não sei se vocês prestaram atenção, mas aqui nós temos uma lista de strings e nós queremos que seja uma lista de inteiros - **Como converter agora?**

In [24]:
temp = []
for element in last_3_month:
  temp.append(int(element))

last_3_month = temp
print(last_3_month)

[2021, 9, 28]


**Great!**  
Vejam que agora nós temos uma lista de inteiros.

**NOTE:**  
Agora vamos aplicar uma bruxaria simples aqui com *Python*, *Pandas* e essas *data* para pegar as horas trabalhada dos funcionários nos últimos 3 meses:

In [25]:
import datetime

df_last_3_month = df_temp[(df_temp['data'] > datetime.datetime(year=last_3_month[0], month=last_3_month[1], day=last_3_month[2]))]
df_last_3_month.head(50)

Unnamed: 0,emp_id,data,hora
0,20001,2021-12-05,10
1,20001,2021-12-04,11
2,20001,2021-12-03,4
3,20001,2021-12-02,15
4,20001,2021-12-01,10
5,20001,2021-11-30,7
6,20001,2021-11-29,9
7,20001,2021-11-28,5
8,20001,2021-11-27,3


**NOTE:**  
Bem, como essas planilhas eram antigas não tinhamos dados de horas trabalhadas nos últimos 3 meses. Esses que foram apresentados eu mesmo criei nas planilhas artificialmente só para deixar claro que o nosso script está funcionando corretamente.

Sabendo disso vamos determinar uma data que tenha mais dados para trabalharmos e que seja entre 3 meses de horas trabalhadas:

In [26]:
import datetime

df_last_3_month = df_temp[(df_temp['data'] > datetime.datetime(2020, 9, 30))]
df_last_3_month.head(50)

Unnamed: 0,emp_id,data,hora
0,20001,2021-12-05,10
1,20001,2021-12-04,11
2,20001,2021-12-03,4
3,20001,2021-12-02,15
4,20001,2021-12-01,10
5,20001,2021-11-30,7
6,20001,2021-11-29,9
7,20001,2021-11-28,5
8,20001,2021-11-27,3
132,20001,2020-10-01,7


Ótimo, agora temos um DataFrame com horas trabalhadas dos funcionários nos últimos 3 meses.

## 06 - Verificando a contagem de registros por colaborador

In [27]:
df_last_3_month.groupby("emp_id").count()

Unnamed: 0_level_0,data,hora
emp_id,Unnamed: 1_level_1,Unnamed: 2_level_1
10001,92,92
10002,92,92
10003,92,92
10004,92,92
10005,92,92
...,...,...
24996,92,92
24997,92,92
24998,92,92
24999,92,92


## 07 - Calcular o valor médio da quantidade de horas trabalhadas nos últimos 3 meses

Bem, agora é muito simples, nós vamos calcular o valor médio de quantas horas cada funcionário trabalhou nos último 3 meses:

In [28]:
mean_work_last_3_months = df_last_3_month.groupby("emp_id")["hora"].agg("sum")/3
mean_work_last_3_months

emp_id
10001    266.000000
10002    252.000000
10003    289.666667
10004    275.666667
10005    292.333333
            ...    
24996    253.333333
24997    288.000000
24998    272.000000
24999    276.666667
25000    261.000000
Name: hora, Length: 15000, dtype: float64

**NOTE:**  
 - Veja que primeiro nós agrupamos os registros por funcionário com o método **groupby("emp_id")** do Pandas;
 - Logo em seguida nós somamos todas as horas por registro (funcionário) e dividimos por 3 (3 meses).

## 08 - Refatorando os códigos e Criando um DataFrame com a média de horas trabalhadas nos últimos 3 meses por registro (funcionário)

Agora nós vamos criar um DataFrame que como o título já diz vai armazenar o a média de horas trabalhadas nos últimos 3 meses de cada funcionário:

In [29]:
mean_work_last_3_months = pd.DataFrame(data=mean_work_last_3_months)

In [30]:
mean_work_last_3_months.rename(columns={"hora":"mean_work_last_3_months"}, inplace=True)

In [31]:
mean_work_last_3_months.head(50)

Unnamed: 0_level_0,mean_work_last_3_months
emp_id,Unnamed: 1_level_1
10001,266.0
10002,252.0
10003,289.666667
10004,275.666667
10005,292.333333
10006,271.0
10007,268.666667
10008,274.666667
10009,269.333333
10010,280.0


## 09 - Criando o atributo (feature) "time_in_company"

> Agora nós vamos criar um atributo muito simples e importante que vai representar **o tempo que cada funcionário tem na empresa**.

Bem, nós poderíamos criar um script que pegue a data atual como nós fizemos acima, mas vamos criar uma data abstratar já que estamos trabalhando com dados de estudos e antigos:

In [32]:
reference_data = datetime.date(2021, 1, 1)
reference_data

datetime.date(2021, 1, 1)

## 10 - Definindo a query para retornar as datas de contratações do Banco de Dados

In [33]:
query = """SELECT hire_date
FROM employees;"""

In [34]:
df_hire_date = pd.read_sql_query(query, engine)

In [35]:
df_hire_date.head(50)

Unnamed: 0,hire_date
0,2018-01-17
1,2015-02-02
2,2017-01-22
3,2016-01-28
4,2018-01-17
5,2018-01-17
6,2017-01-22
7,2016-01-28
8,2016-01-28
9,2018-01-17


## 12 - Convertendo as datas de contratações para o tipo datetime

> Bem, a primeira pergunta que nós devemos fazer aqui é - **Que tipo de dados tem o meu DataFrame df_hire_date?**

Para verificar isso vamos utilizar o atributo **dtypes** do Pandas:

In [36]:
df_hire_date.dtypes

hire_date    object
dtype: object

Opa, vejam que as datas referentes a data de contratações estão no tipo **object**. Ou seja, antes nós precisamos fazer um **Pré-Processamento** para deixar essas datas do tipo que nós queremos *(datetime)*.

Para isso é muito simples, basta utilizar o método **to_datetime()** do *Pandas*:

In [37]:
df_hire_date["hire_date"] = pd.to_datetime(df_hire_date["hire_date"])
df_hire_date.dtypes

hire_date    datetime64[ns]
dtype: object

**NOTE:**  
Vejam que agora de fato as datas de contratações estão do tipo primitivo que nós queríamos - **Datetime**

## 13 - Calculando a diferença em dias a partir da data de contratação do colaborador até a data de referencia

Ok, de novo como o título já diz, nós vamos pegar a data de referência *(poderia ser a data atual)* e aplicar uma bruxaria simples para calcular a diferença entre a data de contratação para cada funcionário com a data de referência *(poderia ser a data atual)*:

In [38]:
days_diff = []
for d in df_hire_date["hire_date"]:
  diff = reference_data - d.date()
  days_diff.append(diff.days)

print(type(days_diff))
print(len(days_diff))
print(days_diff)

<class 'list'>
14999
[1080, 2160, 1440, 1800, 1080, 1080, 1440, 1800, 1800, 1080, 1080, 1440, 1800, 1080, 1080, 1080, 1080, 2160, 1080, 1800, 1440, 1080, 1440, 1080, 1080, 1800, 1800, 1080, 1080, 1080, 1440, 1080, 1080, 1080, 2160, 1440, 1080, 1080, 1440, 1080, 1800, 1080, 1080, 1440, 1440, 1440, 1080, 2160, 1080, 1080, 720, 1080, 1080, 1080, 1440, 1080, 1440, 1440, 1080, 1800, 1800, 1440, 1800, 1080, 1440, 1440, 1080, 2160, 1800, 1080, 1080, 1440, 1080, 1440, 1440, 1440, 1440, 1080, 1080, 1080, 1080, 1080, 1080, 2160, 1440, 1440, 1080, 1080, 1080, 1440, 1080, 1800, 1080, 1080, 1440, 1080, 1440, 1440, 1440, 2160, 1080, 1080, 1080, 1440, 1080, 1800, 1800, 1080, 1440, 1080, 1080, 1440, 1080, 1800, 1800, 1080, 720, 1440, 1080, 1080, 1440, 1080, 2160, 1800, 1080, 1440, 1080, 1800, 1440, 1080, 1440, 1080, 1800, 1080, 1080, 1800, 1440, 1080, 1800, 1800, 1440, 1080, 1440, 1080, 1800, 1080, 1800, 1440, 1800, 1080, 1440, 1080, 1080, 1080, 1080, 1440, 1800, 1440, 1080, 1080, 1440, 2160, 1080, 18

**NOTE:**  
Veja que nós passamos um *Dataframe Pandas* e depois da lógica aplicada nós temos:
 - Uma lista:
   - Cada item da lista vai representar o número de dias trabalhados por cada funcionário "d".
 - Com 14999 items **(datas de contratações dos funcionários, ou seja, 14999 funcionários)**

## 14 - Convertendo o número de dias em quantidade de anos

Bem, agora nós vamos converter esses dias em anos para cada funcionário:

In [39]:
nyears = []
for ndays in days_diff:
  nyears.append(int(math.ceil(ndays / 365)))

print(nyears)

[3, 6, 4, 5, 3, 3, 4, 5, 5, 3, 3, 4, 5, 3, 3, 3, 3, 6, 3, 5, 4, 3, 4, 3, 3, 5, 5, 3, 3, 3, 4, 3, 3, 3, 6, 4, 3, 3, 4, 3, 5, 3, 3, 4, 4, 4, 3, 6, 3, 3, 2, 3, 3, 3, 4, 3, 4, 4, 3, 5, 5, 4, 5, 3, 4, 4, 3, 6, 5, 3, 3, 4, 3, 4, 4, 4, 4, 3, 3, 3, 3, 3, 3, 6, 4, 4, 3, 3, 3, 4, 3, 5, 3, 3, 4, 3, 4, 4, 4, 6, 3, 3, 3, 4, 3, 5, 5, 3, 4, 3, 3, 4, 3, 5, 5, 3, 2, 4, 3, 3, 4, 3, 6, 5, 3, 4, 3, 5, 4, 3, 4, 3, 5, 3, 3, 5, 4, 3, 5, 5, 4, 3, 4, 3, 5, 3, 5, 4, 5, 3, 4, 3, 3, 3, 3, 4, 5, 4, 3, 3, 4, 6, 3, 5, 5, 4, 3, 5, 5, 3, 5, 3, 4, 4, 4, 2, 3, 3, 3, 5, 3, 4, 5, 4, 3, 3, 4, 3, 3, 3, 5, 6, 5, 4, 5, 4, 3, 4, 4, 6, 5, 3, 5, 4, 6, 3, 5, 5, 3, 3, 3, 3, 5, 3, 3, 3, 3, 5, 3, 5, 4, 3, 3, 5, 3, 5, 3, 3, 5, 6, 3, 6, 4, 3, 4, 5, 3, 3, 3, 4, 4, 3, 3, 3, 5, 3, 3, 3, 5, 4, 5, 6, 3, 5, 5, 3, 4, 3, 5, 4, 3, 5, 3, 4, 3, 5, 4, 3, 3, 6, 3, 4, 5, 4, 4, 6, 4, 6, 4, 4, 4, 3, 6, 4, 3, 3, 4, 4, 5, 3, 3, 5, 3, 4, 4, 3, 3, 3, 3, 5, 3, 4, 5, 3, 5, 3, 3, 4, 3, 4, 4, 4, 3, 3, 4, 6, 3, 3, 4, 3, 3, 5, 3, 4, 3, 3, 3, 6, 4, 3, 3, 4, 4, 

## 15 - Atribuindo os dados ao Dataframe "df_hire_date" para verificação

Até então nós estavamos só aplicando lógica e alguma bruxarias, agora vamos criar no DataFrame **df_hire_date** que já tinha as datas de contratações de cada funcionário uma nova **coluna (feature)** referente a quantos anos na empresa cada funcionáro tem:

In [40]:
df_hire_date["time_in_company"] = nyears
df_hire_date.head(50)

Unnamed: 0,hire_date,time_in_company
0,2018-01-17,3
1,2015-02-02,6
2,2017-01-22,4
3,2016-01-28,5
4,2018-01-17,3
5,2018-01-17,3
6,2017-01-22,4
7,2016-01-28,5
8,2016-01-28,5
9,2018-01-17,3


## 16 - Criando o atributo (feature) work_accident

Basicamente, agora nós vamos criar um **atributo (feature)** que vai dizer se **"x" funcionário** já teve algum acidente na empresa.

### 16.1 - Carregando os dados a partir do banco de dados
A primeira coisa a se fazer aqui é pegar os dados que vamos trabalhar no nosso Banco de Dados MySQL:

In [41]:
df_employees = pd.read_sql_table("employees", engine)

In [42]:
df_accident = pd.read_sql_table("accident", engine)

### 16.2 - Verificando quais colaboradores sofreram acidente

Bem, basicamente nós não queremos saber qual foi o acidente do **funcionário "x"**. O que importar para mim aqui é saber de esse funcionário teve ou não algum acidente na empresa. Ou seja, podemos dizer que:

 - Se o funcionário teve algum acidente vamos *binarizar* ele como **1**;
 - E se ele não teve nenhum acidente na empresa vamos *binarizar* ele como **0**.

Na prática, nós vamos aplicar uma lógica com as tabelas **employees** e **accident** para fazer essa verificação:

In [43]:
work_accident = []
for emp in df_employees["emp_no"]:
  if emp in df_accident["emp_no"].to_list():
    work_accident.append(1)
  else:
    work_accident.append(0)

print(work_accident)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

**NOTE:**  
Veja que agora nós temos uma lista que vai representar se o **funcionário "x"** teve ou não algum acidente na empresa.

### 16.3 - Criando um Dataframe para armazenar se o funcionário teve algum acidente na empresa

Agora vamos criar um DataFrame que vai armazenar os dados de acidentes para cada funcionário:

Primeiro vamos criar um DatameFrame vazio, apenas com a **coluna (feature) work_accident**:

In [44]:
df_work_accident = pd.DataFrame(data=None, columns=["work_accident"])
df_work_accident

Unnamed: 0,work_accident


Agora vamos passar nossa lista **"work_accident"** que tem os dados dizendo se o funcionário teve ou não algum acidente na empresa:

In [45]:
df_work_accident["work_accident"] = work_accident

Por fim, vamos exibir algumas amostras (50):

In [46]:
df_work_accident.head(50)

Unnamed: 0,work_accident
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0


**NOTE:**  
Veja que entre os 50 primeiros funcionários, apenas 1 sofreu algum acidente na empresa.

## 17 - Criando os atributos (features) department, salary e left

Novamente, vamos lá no Banco de Dados MySQL pegar dados para criar os *atributos (features)* **department**, **salary** e **left**:

## 17.1 - Definindo a query para retornar os atributos
Como de costume primeiro vamos escrever uma query que pega apenas os dados que vamos trabalhar:

In [47]:
query = """SELECT emp.department as department,sal.salary as salary, emp.left
FROM employees emp
INNER JOIN salaries sal
ON emp.emp_no = sal.emp_id;
"""

Agora vamos pegar os dados do Banco de Dados com essa *query* e armazenar em algum DataFrame **(df_department_salary_left)**:

In [48]:
df_department_salary_left = pd.read_sql_query(query, engine)

Por fim, vamos mostras as 50 primeiras amostras:

In [49]:
df_department_salary_left.head(50)

Unnamed: 0,department,salary,left
0,sales,low,1
1,sales,medium,1
2,sales,medium,1
3,sales,low,1
4,sales,low,1
5,sales,low,1
6,sales,low,1
7,sales,low,1
8,sales,low,1
9,sales,low,1
