# Teste Técnico - Eng. de Dados MINEHR
### **1º Passo:** Leia os dados fornecidos em csv e atribua-os a um dataframe.

*Após ler a base, analise-a para um reconhecimento inicial, você perceberá que ela está em um formato mensal, ou seja, em cada mês existe um registro do colaborador apresentando os dados dele respectivamente.*

**Comentário Geral:** Para cada uma das etapas foi criado um novo dataframe. Por mais que isso não seja necessário ou viável, a depender do tamanho da base de dados, preferi fazê-lo assim, para caso alguém do recrutamento deseje conferir os resultados de cada etapa.

In [0]:
df_baseMensalizada = spark.read.csv('/FileStore/tables/base_mensalizada_de_funcionarios.csv', header = True, sep =';', inferSchema = True)
display(df_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario
01/01/2020,11223,01/04/1995,01/06/2018,,4ª série completo,operador de colheita I,1500
01/01/2020,13456,05/03/1960,11/02/2002,,ensino médio comp,assistente de rh,1400
01/01/2020,12345,02/11/1980,,,ensino fundamental completo,operador de colheita II,1800
01/01/2020,24457,26/07/2000,10/05/2020,,mestrado,gerente de produção,11500
01/01/2020,13254,22/05/1977,03/09/2005,,ensino medio incompleto,operador de colheita I,1625
01/01/2020,57687,28/05/1991,18/10/2015,,doutorado,cientista de dados,7200
01/01/2020,46578,11/01/1972,26/11/2009,,ensino superior completo,analista de sistemas pleno,7500
01/01/2020,46578,11/01/1972,26/11/2009,,ensino superior completo,analista de sistemas pleno,7500
01/01/2020,59393,17/05/1998,08/01/2019,,ensino médio completo,assistente administrativo,1400
01/01/2020,95847,23/04/1993,25/04/2012,,graduação,líder de tecnologia,11800


### **2º Passo:** Trate os dados garantindo que os critérios abaixo sejam cumpridos:

1- **Completude**: em nossas bases, em cada mês, colunas como data de admissão, data de nascimento, id do funcionário, grau de instrução, cargo e salário não podem conter valores nulos.

**Comentário:** Para este item, preenchi os valores nulos com o valor "", por ser uma categoria única, fazendo com que não se confunda com nenhum outro dado, sendo assim, possível de se identificar estes dados faltantes, enquanto evita-se uma possível perda de dados, como aconteceria ao deletar linhas contendo valores nulos.

In [0]:
dfComp_baseMensalizada = df_baseMensalizada.na.fill("")
display(dfComp_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario
01/01/2020,11223,01/04/1995,01/06/2018,,4ª série completo,operador de colheita I,1500
01/01/2020,13456,05/03/1960,11/02/2002,,ensino médio comp,assistente de rh,1400
01/01/2020,12345,02/11/1980,,,ensino fundamental completo,operador de colheita II,1800
01/01/2020,24457,26/07/2000,10/05/2020,,mestrado,gerente de produção,11500
01/01/2020,13254,22/05/1977,03/09/2005,,ensino medio incompleto,operador de colheita I,1625
01/01/2020,57687,28/05/1991,18/10/2015,,doutorado,cientista de dados,7200
01/01/2020,46578,11/01/1972,26/11/2009,,ensino superior completo,analista de sistemas pleno,7500
01/01/2020,46578,11/01/1972,26/11/2009,,ensino superior completo,analista de sistemas pleno,7500
01/01/2020,59393,17/05/1998,08/01/2019,,ensino médio completo,assistente administrativo,1400
01/01/2020,95847,23/04/1993,25/04/2012,,graduação,líder de tecnologia,11800


2- **Unicidade**: colunas que são chaves não podem se repetir dentro de um mês referência, o que quer dizer que os dados de um funcionário não podem aparecer mais de uma vez dentro de um mês.

In [0]:
dfUni_baseMensalizada = dfComp_baseMensalizada.dropDuplicates(["mes_referencia","id_funcionario"])
display(dfUni_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario
01/01/2020,11223,01/04/1995,01/06/2018,,4ª série completo,operador de colheita I,1500
01/01/2020,12345,02/11/1980,,,ensino fundamental completo,operador de colheita II,1800
01/01/2020,13254,22/05/1977,03/09/2005,,ensino medio incompleto,operador de colheita I,1625
01/01/2020,13456,05/03/1960,11/02/2002,,ensino médio comp,assistente de rh,1400
01/01/2020,24457,26/07/2000,10/05/2020,,mestrado,gerente de produção,11500
01/01/2020,46457,12/02/1982,07/11/1998,,pós graduação,analista de BI,5900
01/01/2020,46578,11/01/1972,26/11/2009,,ensino superior completo,analista de sistemas pleno,7500
01/01/2020,57687,28/05/1991,18/10/2015,,doutorado,cientista de dados,7200
01/01/2020,59393,17/05/1998,08/01/2019,,ensino médio completo,assistente administrativo,1400
01/01/2020,95847,23/04/1993,25/04/2012,,graduação,líder de tecnologia,11800


3- **Integridade**: temos que garantir que em determinada coluna haja valores condizentes ao tipo e à finalidade dela. Por exemplo: se a coluna é do tipo texto, não pode haver valores incompatíveis como, por exemplo, números. Garanta a integridade dos dados em cada coluna.

**Comentário:** Para esta etapa, foram ignorados os dados de datas, por serem um formato diferente, e por não haver nenhuma inconsistências nestes valores na base de dados analisada.

In [0]:
from pyspark.sql import functions
from pyspark.sql.functions import *

#removendo células que contém textos e caracteres especiais de colunas que deviam ter apenas números
dfInt_baseMensalizada = dfUni_baseMensalizada.withColumn("id_funcionario", when(dfUni_baseMensalizada.id_funcionario.rlike('\D+'),"") \
                              .otherwise(dfUni_baseMensalizada.id_funcionario))

dfInt_baseMensalizada = dfInt_baseMensalizada.withColumn("salario", when(dfInt_baseMensalizada.salario.rlike('\D+'),"") \
                              .otherwise(dfInt_baseMensalizada.salario))

#removendo células com apenas números, de colunas que deveriam ser compostas por strings 
#Não há nenhuma ocorrência nesta base de dados, mas como o exercício pediu mudanças para este tipo de caso, foi desenvolvido o código para tal
dfInt_baseMensalizada = dfInt_baseMensalizada.withColumn("grau_de_instrucao", \
                                when(dfInt_baseMensalizada.grau_de_instrucao.rlike('\D+'),dfInt_baseMensalizada.grau_de_instrucao).otherwise(""))

dfInt_baseMensalizada = dfInt_baseMensalizada.withColumn("cargo", \
                                when(dfInt_baseMensalizada.cargo.rlike('\D+'),dfInt_baseMensalizada.cargo).otherwise(""))
display(dfInt_baseMensalizada)


mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario
01/01/2020,11223,01/04/1995,01/06/2018,,4ª série completo,operador de colheita I,1500.0
01/01/2020,12345,02/11/1980,,,ensino fundamental completo,operador de colheita II,1800.0
01/01/2020,13254,22/05/1977,03/09/2005,,ensino medio incompleto,operador de colheita I,1625.0
01/01/2020,13456,05/03/1960,11/02/2002,,ensino médio comp,assistente de rh,1400.0
01/01/2020,24457,26/07/2000,10/05/2020,,mestrado,gerente de produção,11500.0
01/01/2020,46457,12/02/1982,07/11/1998,,pós graduação,analista de BI,5900.0
01/01/2020,46578,11/01/1972,26/11/2009,,ensino superior completo,analista de sistemas pleno,7500.0
01/01/2020,57687,28/05/1991,18/10/2015,,doutorado,cientista de dados,7200.0
01/01/2020,59393,17/05/1998,08/01/2019,,ensino médio completo,assistente administrativo,1400.0
01/01/2020,95847,23/04/1993,25/04/2012,,graduação,líder de tecnologia,11800.0


4- **Padronização de categorias**: colunas de categorias, não podem conter outros valores além das categorias previstas para ela.

**Comentário:** como todos os dados da coluna "cargos" estão dentro de um conjunto de categorias, nenhuma alteração foi feita a eles. Já para a coluna "grau_de_instrucao", foram escolhidas as categorias: "ensino fundamental incompleto", "ensino fundamental completo", "ensino médio incompleto", "ensino médio completo", "ensino superior completo", "pós graduação", "mestrado" e "doutorado".

In [0]:
#Analisando todas as possíveis ocorrências, para que possam ser padronizadas posteriormente
display(dfInt_baseMensalizada.select('grau_de_instrucao').distinct().collect())
display(dfInt_baseMensalizada.select('cargo').orderBy('cargo').distinct().collect())

grau_de_instrucao
graduação
ensino fundamental completo
ensino medio incompleto
ensino médio comp
pós graduação
doutorado
ensino médio completo
mestrado
ensino superior completo
4ª série completo


cargo
operador de colheita I
operador de colheita II
analista de sistemas senior
analista de sistemas pleno
líder de tecnologia
gerente de produção
assistente de rh
cientista de dados
assistente administrativo
analista de BI


In [0]:
dfCat_baseMensalizada = dfInt_baseMensalizada.withColumn("grau_de_instrucao", when(dfInt_baseMensalizada.grau_de_instrucao.like('4ª série completo'),regexp_replace(dfInt_baseMensalizada.grau_de_instrucao,'4ª série completo','ensino fundamental incompleto')) \
          .when(dfInt_baseMensalizada.grau_de_instrucao.like('ensino médio comp'),regexp_replace(dfInt_baseMensalizada.grau_de_instrucao,'ensino médio comp','ensino médio completo')) \
          .when(dfInt_baseMensalizada.grau_de_instrucao.like('ensino medio incompleto'),regexp_replace(dfInt_baseMensalizada.grau_de_instrucao,'ensino medio incompleto','ensino médio incompleto')) \
          .when(dfInt_baseMensalizada.grau_de_instrucao.like('ensino médio completo'),regexp_replace(dfInt_baseMensalizada.grau_de_instrucao,'ensino médio completo','ensino médio completo')) \
          .when(dfInt_baseMensalizada.grau_de_instrucao.like('graduação'),regexp_replace(dfInt_baseMensalizada.grau_de_instrucao,'graduação','ensino superior completo')) \
          .when(dfInt_baseMensalizada.grau_de_instrucao.like('pós graduação'),regexp_replace(dfInt_baseMensalizada.grau_de_instrucao,'pós graduação','pós graduação')) \
          .otherwise(dfInt_baseMensalizada.grau_de_instrucao))
display(dfCat_baseMensalizada.select('grau_de_instrucao').distinct().collect())

grau_de_instrucao
ensino fundamental completo
pós graduação
doutorado
ensino médio completo
mestrado
ensino fundamental incompleto
ensino médio incompleto
ensino superior completo


5- **Padronize os valores dentro das colunas**: 

  1. Valores do tipo texto devem ter a primeira letra de uma palavra no modo maiúsculo;
  2. Remova espaços antes e depois de todas as colunas do tipo string;
  3. Colunas de data devem estar no formato date;
  4. Salário deve estar no formato double ou float.
  
  **Comentário:** como nesta etapa tiveram que ser aplicados os formatos date para datas e double para salários, tiveram que ser aplicados valores destes formatos para os dados nulos destas categorias. Sendo assim, os valores para as células "nulas" de data foram escolhidos como uma data antiga (01/01/1900) e os valores "nulos" de salário foram escolhidos como 0. Para assim, evitar que estes dados não atrapalhem uma análise futura por serem discrepantes dos demais.

In [0]:
#1
dfPad_baseMensalizada = dfCat_baseMensalizada.withColumn("grau_de_instrucao", initcap(col('grau_de_instrucao'))).withColumn("cargo", initcap(col('cargo')))

#2
dfPad_baseMensalizada = dfPad_baseMensalizada.withColumn('grau_de_instrucao', trim(dfPad_baseMensalizada.grau_de_instrucao)) \
                                             .withColumn('cargo', trim(dfPad_baseMensalizada.cargo))

#3
dfPad_baseMensalizada = dfPad_baseMensalizada.withColumn('mes_referencia', to_date(unix_timestamp(col('mes_referencia'), 'dd/MM/yyyy').cast("timestamp"))) \
                                             .withColumn('data_de_nascimento', to_date(unix_timestamp(col('data_de_nascimento'), 'dd/MM/yyyy').cast("timestamp"))) \
                                             .withColumn('data_de_admissao', to_date(unix_timestamp(col('data_de_admissao'), 'dd/MM/yyyy').cast("timestamp"))) \
                                             .withColumn('data_de_demissao', to_date(unix_timestamp(col('data_de_demissao'), 'dd/MM/yyyy').cast("timestamp")))
#Aplicando datas antigas aos valores nulos
dfPad_baseMensalizada = dfPad_baseMensalizada.fillna({'mes_referencia': '1900-01-01'})
dfPad_baseMensalizada = dfPad_baseMensalizada.fillna({'data_de_nascimento': '1900-01-01'})
dfPad_baseMensalizada = dfPad_baseMensalizada.fillna({'data_de_admissao': '1900-01-01'})
dfPad_baseMensalizada = dfPad_baseMensalizada.fillna({'data_de_demissao': '1900-01-01'})

#4
dfPad_baseMensalizada = dfPad_baseMensalizada.withColumn('salario', dfPad_baseMensalizada.salario.cast('double'))
#Aplicando valor 0 aos valores nulos
dfPad_baseMensalizada = dfPad_baseMensalizada.fillna({'salario': '0'})

display(dfPad_baseMensalizada)
dfPad_baseMensalizada.schema

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario
2020-01-01,11223,1995-04-01,2018-06-01,1900-01-01,Ensino Fundamental Incompleto,Operador De Colheita I,1500.0
2020-01-01,12345,1980-11-02,1900-01-01,1900-01-01,Ensino Fundamental Completo,Operador De Colheita Ii,1800.0
2020-01-01,13254,1977-05-22,2005-09-03,1900-01-01,Ensino Médio Incompleto,Operador De Colheita I,1625.0
2020-01-01,13456,1960-03-05,2002-02-11,1900-01-01,Ensino Médio Completo,Assistente De Rh,1400.0
2020-01-01,24457,2000-07-26,2020-05-10,1900-01-01,Mestrado,Gerente De Produção,11500.0
2020-01-01,46457,1982-02-12,1998-11-07,1900-01-01,Pós Graduação,Analista De Bi,5900.0
2020-01-01,46578,1972-01-11,2009-11-26,1900-01-01,Ensino Superior Completo,Analista De Sistemas Pleno,7500.0
2020-01-01,57687,1991-05-28,2015-10-18,1900-01-01,Doutorado,Cientista De Dados,7200.0
2020-01-01,59393,1998-05-17,2019-01-08,1900-01-01,Ensino Médio Completo,Assistente Administrativo,1400.0
2020-01-01,95847,1993-04-23,2012-04-25,1900-01-01,Ensino Superior Completo,Líder De Tecnologia,11800.0


Out[120]: StructType(List(StructField(mes_referencia,DateType,true),StructField(id_funcionario,StringType,true),StructField(data_de_nascimento,DateType,true),StructField(data_de_admissao,DateType,true),StructField(data_de_demissao,DateType,true),StructField(grau_de_instrucao,StringType,false),StructField(cargo,StringType,false),StructField(salario,DoubleType,true)))

### **3º Passo:** Crie novas colunas conforme se pede abaixo:

1- **Admitido no mês**: essa coluna deverá ser do tipo numérico, respeitando a seguinte condição: se a data de admissão do registro for igual ao mês de referência analisado, admitido no mês recebe valor é igual a 1, senão recebe valor igual a 0.

In [0]:
dfAdm_baseMensalizada = dfPad_baseMensalizada.withColumn("admitido_no_mes", when((month(dfPad_baseMensalizada.mes_referencia) \
                                    == month(dfPad_baseMensalizada.data_de_admissao)) & (year(dfPad_baseMensalizada.data_de_admissao) > "1900"), "1") \
                                    .otherwise ("0").cast("int"))
display(dfAdm_baseMensalizada)
dfAdm_baseMensalizada.schema

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario,admitido_no_mes
2020-01-01,11223,1995-04-01,2018-06-01,1900-01-01,Ensino Fundamental Incompleto,Operador De Colheita I,1500.0,0
2020-01-01,12345,1980-11-02,1900-01-01,1900-01-01,Ensino Fundamental Completo,Operador De Colheita Ii,1800.0,0
2020-01-01,13254,1977-05-22,2005-09-03,1900-01-01,Ensino Médio Incompleto,Operador De Colheita I,1625.0,0
2020-01-01,13456,1960-03-05,2002-02-11,1900-01-01,Ensino Médio Completo,Assistente De Rh,1400.0,0
2020-01-01,24457,2000-07-26,2020-05-10,1900-01-01,Mestrado,Gerente De Produção,11500.0,0
2020-01-01,46457,1982-02-12,1998-11-07,1900-01-01,Pós Graduação,Analista De Bi,5900.0,0
2020-01-01,46578,1972-01-11,2009-11-26,1900-01-01,Ensino Superior Completo,Analista De Sistemas Pleno,7500.0,0
2020-01-01,57687,1991-05-28,2015-10-18,1900-01-01,Doutorado,Cientista De Dados,7200.0,0
2020-01-01,59393,1998-05-17,2019-01-08,1900-01-01,Ensino Médio Completo,Assistente Administrativo,1400.0,1
2020-01-01,95847,1993-04-23,2012-04-25,1900-01-01,Ensino Superior Completo,Líder De Tecnologia,11800.0,0


Out[121]: StructType(List(StructField(mes_referencia,DateType,true),StructField(id_funcionario,StringType,true),StructField(data_de_nascimento,DateType,true),StructField(data_de_admissao,DateType,true),StructField(data_de_demissao,DateType,true),StructField(grau_de_instrucao,StringType,false),StructField(cargo,StringType,false),StructField(salario,DoubleType,true),StructField(admitido_no_mes,IntegerType,true)))

2- **Demitido no mês**: essa coluna deverá ser do tipo numérico, respeitando a seguinte condição: se a data de demissão do registro for igual ao mês de referência analisado, demitido no mês recebe valor é igual a 1, senão recebe valor igual a 0.

In [0]:
dfDem_baseMensalizada = dfAdm_baseMensalizada.withColumn("demitido_no_mes", when((month(dfPad_baseMensalizada.mes_referencia) \
                                == month(dfPad_baseMensalizada.data_de_demissao)) & (year(dfPad_baseMensalizada.data_de_demissao) > "1900"), "1") \
                                .otherwise ("0").cast("int"))
display(dfDem_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario,admitido_no_mes,demitido_no_mes
2020-01-01,11223,1995-04-01,2018-06-01,1900-01-01,Ensino Fundamental Incompleto,Operador De Colheita I,1500.0,0,0
2020-01-01,12345,1980-11-02,1900-01-01,1900-01-01,Ensino Fundamental Completo,Operador De Colheita Ii,1800.0,0,0
2020-01-01,13254,1977-05-22,2005-09-03,1900-01-01,Ensino Médio Incompleto,Operador De Colheita I,1625.0,0,0
2020-01-01,13456,1960-03-05,2002-02-11,1900-01-01,Ensino Médio Completo,Assistente De Rh,1400.0,0,0
2020-01-01,24457,2000-07-26,2020-05-10,1900-01-01,Mestrado,Gerente De Produção,11500.0,0,0
2020-01-01,46457,1982-02-12,1998-11-07,1900-01-01,Pós Graduação,Analista De Bi,5900.0,0,0
2020-01-01,46578,1972-01-11,2009-11-26,1900-01-01,Ensino Superior Completo,Analista De Sistemas Pleno,7500.0,0,0
2020-01-01,57687,1991-05-28,2015-10-18,1900-01-01,Doutorado,Cientista De Dados,7200.0,0,0
2020-01-01,59393,1998-05-17,2019-01-08,1900-01-01,Ensino Médio Completo,Assistente Administrativo,1400.0,1,0
2020-01-01,95847,1993-04-23,2012-04-25,1900-01-01,Ensino Superior Completo,Líder De Tecnologia,11800.0,0,0


3- **Idade**: calcule a idade em anos no mês de referência em relação à data de nascimento.

In [0]:
dfIda_baseMensalizada = dfDem_baseMensalizada.withColumn("idade", when ((year(dfDem_baseMensalizada.data_de_nascimento) > "1900"), \
                                 months_between(col('mes_referencia'), col('data_de_nascimento')) / 12).otherwise ("0").cast('int'))
display(dfIda_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario,admitido_no_mes,demitido_no_mes,idade
2020-01-01,11223,1995-04-01,2018-06-01,1900-01-01,Ensino Fundamental Incompleto,Operador De Colheita I,1500.0,0,0,24
2020-01-01,12345,1980-11-02,1900-01-01,1900-01-01,Ensino Fundamental Completo,Operador De Colheita Ii,1800.0,0,0,39
2020-01-01,13254,1977-05-22,2005-09-03,1900-01-01,Ensino Médio Incompleto,Operador De Colheita I,1625.0,0,0,42
2020-01-01,13456,1960-03-05,2002-02-11,1900-01-01,Ensino Médio Completo,Assistente De Rh,1400.0,0,0,59
2020-01-01,24457,2000-07-26,2020-05-10,1900-01-01,Mestrado,Gerente De Produção,11500.0,0,0,19
2020-01-01,46457,1982-02-12,1998-11-07,1900-01-01,Pós Graduação,Analista De Bi,5900.0,0,0,37
2020-01-01,46578,1972-01-11,2009-11-26,1900-01-01,Ensino Superior Completo,Analista De Sistemas Pleno,7500.0,0,0,47
2020-01-01,57687,1991-05-28,2015-10-18,1900-01-01,Doutorado,Cientista De Dados,7200.0,0,0,28
2020-01-01,59393,1998-05-17,2019-01-08,1900-01-01,Ensino Médio Completo,Assistente Administrativo,1400.0,1,0,21
2020-01-01,95847,1993-04-23,2012-04-25,1900-01-01,Ensino Superior Completo,Líder De Tecnologia,11800.0,0,0,26


4- **Escolaridade categorizada**: com base na coluna grau de instrução, categorize a escolaridade do colaborador para conter apenas as seguintes categorias: ensino fundamental incompleto, ensino fundamental completo, ensino médio incompleto, ensino médio completo, ensino superior incompleto, ensino superior completo, pós graduação, mestrado, doutorado.

**Comentário:** Como eu não havia lido esta parte ainda, eu já havia feito isto na etapa "2.4 - Padronização de categorias"

In [0]:
#Como já feito anteriormente, nenhum código foi desenvolvido para esta etapa

5- **Tempo de empresa**: com base no mês referência e a data de admissão, obtenha o tempo de empresa do colaborador em meses.

**Comentário:** alguns funcionários tem registros de rebimento de salários, mesmo antes de sua "data de admissão", eu então deixei os meses como negativos, pois são casos em que provavelmente algum erro ocorreu na inserção de suas datas de admissão, ou nos salários que eles receberam neste mês de referência. Como não é possível identificar isso através dos dados, foram adicionados valores discrepantes que servem para que fique claro que há a necessidade de uma checkagem posterior nestes registros.

In [0]:
dfTem_baseMensalizada = dfIda_baseMensalizada.withColumn("tempo_de_empresa", when ((year(dfIda_baseMensalizada.data_de_admissao) > "1900"), \
                                              months_between(col('mes_referencia'), col('data_de_admissao'))).otherwise ("0").cast('int'))
display(dfTem_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario,admitido_no_mes,demitido_no_mes,idade,tempo_de_empresa
2020-01-01,11223,1995-04-01,2018-06-01,1900-01-01,Ensino Fundamental Incompleto,Operador De Colheita I,1500.0,0,0,24,19
2020-01-01,12345,1980-11-02,1900-01-01,1900-01-01,Ensino Fundamental Completo,Operador De Colheita Ii,1800.0,0,0,39,0
2020-01-01,13254,1977-05-22,2005-09-03,1900-01-01,Ensino Médio Incompleto,Operador De Colheita I,1625.0,0,0,42,171
2020-01-01,13456,1960-03-05,2002-02-11,1900-01-01,Ensino Médio Completo,Assistente De Rh,1400.0,0,0,59,214
2020-01-01,24457,2000-07-26,2020-05-10,1900-01-01,Mestrado,Gerente De Produção,11500.0,0,0,19,-4
2020-01-01,46457,1982-02-12,1998-11-07,1900-01-01,Pós Graduação,Analista De Bi,5900.0,0,0,37,253
2020-01-01,46578,1972-01-11,2009-11-26,1900-01-01,Ensino Superior Completo,Analista De Sistemas Pleno,7500.0,0,0,47,121
2020-01-01,57687,1991-05-28,2015-10-18,1900-01-01,Doutorado,Cientista De Dados,7200.0,0,0,28,50
2020-01-01,59393,1998-05-17,2019-01-08,1900-01-01,Ensino Médio Completo,Assistente Administrativo,1400.0,1,0,21,11
2020-01-01,95847,1993-04-23,2012-04-25,1900-01-01,Ensino Superior Completo,Líder De Tecnologia,11800.0,0,0,26,92


6- **Mudou de salário**: compare o salário do mês atual com o salário do mês anterior dos funcionários, se houve mudança atribua 1 como valor para a coluna do mês atual, senão atribua 0.

**Comentário:** como para esta etapa a ordem dos valores da tabela são alterados, por ser realizada uma análise baseada no id dos funcionarios, foi realizada uma nova ordenação na tabela pelo mes de referencia, seguido pelo id dos funcionários.

In [0]:
from pyspark.sql.window import Window

windowSpec = Window.partitionBy("id_funcionario").orderBy(month("mes_referencia"))

dfMSal_baseMensalizada = dfTem_baseMensalizada.withColumn("mudou_de_salario", when(lag("salario",1).over(windowSpec) != lag("salario",0).over(windowSpec), "1"). otherwise('0')).orderBy(month('mes_referencia'), 'id_funcionario')

display(dfMSal_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario,admitido_no_mes,demitido_no_mes,idade,tempo_de_empresa,mudou_de_salario
2020-01-01,11223,1995-04-01,2018-06-01,1900-01-01,Ensino Fundamental Incompleto,Operador De Colheita I,1500.0,0,0,24,19,0
2020-01-01,12345,1980-11-02,1900-01-01,1900-01-01,Ensino Fundamental Completo,Operador De Colheita Ii,1800.0,0,0,39,0,0
2020-01-01,13254,1977-05-22,2005-09-03,1900-01-01,Ensino Médio Incompleto,Operador De Colheita I,1625.0,0,0,42,171,0
2020-01-01,13456,1960-03-05,2002-02-11,1900-01-01,Ensino Médio Completo,Assistente De Rh,1400.0,0,0,59,214,0
2020-01-01,24457,2000-07-26,2020-05-10,1900-01-01,Mestrado,Gerente De Produção,11500.0,0,0,19,-4,0
2020-01-01,46457,1982-02-12,1998-11-07,1900-01-01,Pós Graduação,Analista De Bi,5900.0,0,0,37,253,0
2020-01-01,46578,1972-01-11,2009-11-26,1900-01-01,Ensino Superior Completo,Analista De Sistemas Pleno,7500.0,0,0,47,121,0
2020-01-01,57687,1991-05-28,2015-10-18,1900-01-01,Doutorado,Cientista De Dados,7200.0,0,0,28,50,0
2020-01-01,59393,1998-05-17,2019-01-08,1900-01-01,Ensino Médio Completo,Assistente Administrativo,1400.0,1,0,21,11,0
2020-01-01,95847,1993-04-23,2012-04-25,1900-01-01,Ensino Superior Completo,Líder De Tecnologia,11800.0,0,0,26,92,0


7- **Mudou de cargo**: compare o cargo do mês atual com o cargo do mês anterior dos funcionários, se houve mudança atribua 1 como valor para a coluna do mês atual, senão atribua 0.

In [0]:
windowSpec = Window.partitionBy("id_funcionario").orderBy(month("mes_referencia"))

dfMCar_baseMensalizada = dfMSal_baseMensalizada.withColumn("mudou_de_cargo", when(lag("cargo",1).over(windowSpec) != lag("cargo",0).over(windowSpec), "1"). otherwise('0')).orderBy(month('mes_referencia'), 'id_funcionario')

display(dfMCar_baseMensalizada)

mes_referencia,id_funcionario,data_de_nascimento,data_de_admissao,data_de_demissao,grau_de_instrucao,cargo,salario,admitido_no_mes,demitido_no_mes,idade,tempo_de_empresa,mudou_de_salario,mudou_de_cargo
2020-01-01,11223,1995-04-01,2018-06-01,1900-01-01,Ensino Fundamental Incompleto,Operador De Colheita I,1500.0,0,0,24,19,0,0
2020-01-01,12345,1980-11-02,1900-01-01,1900-01-01,Ensino Fundamental Completo,Operador De Colheita Ii,1800.0,0,0,39,0,0,0
2020-01-01,13254,1977-05-22,2005-09-03,1900-01-01,Ensino Médio Incompleto,Operador De Colheita I,1625.0,0,0,42,171,0,0
2020-01-01,13456,1960-03-05,2002-02-11,1900-01-01,Ensino Médio Completo,Assistente De Rh,1400.0,0,0,59,214,0,0
2020-01-01,24457,2000-07-26,2020-05-10,1900-01-01,Mestrado,Gerente De Produção,11500.0,0,0,19,-4,0,0
2020-01-01,46457,1982-02-12,1998-11-07,1900-01-01,Pós Graduação,Analista De Bi,5900.0,0,0,37,253,0,0
2020-01-01,46578,1972-01-11,2009-11-26,1900-01-01,Ensino Superior Completo,Analista De Sistemas Pleno,7500.0,0,0,47,121,0,0
2020-01-01,57687,1991-05-28,2015-10-18,1900-01-01,Doutorado,Cientista De Dados,7200.0,0,0,28,50,0,0
2020-01-01,59393,1998-05-17,2019-01-08,1900-01-01,Ensino Médio Completo,Assistente Administrativo,1400.0,1,0,21,11,0,0
2020-01-01,95847,1993-04-23,2012-04-25,1900-01-01,Ensino Superior Completo,Líder De Tecnologia,11800.0,0,0,26,92,0,0
