#Desafio técnico MINEHR

### Por: Katia Cardoso

## Importação de diferentes bases

In [0]:
import pandas as pd
import numpy as np
import os

# URL do arquivo CSV
url_csv = 'https://storage.googleapis.com/desafio-ed/ingestion/base_colaboradores_2022.csv'
# URL do arquivo Excel (.xlsx)
url_excel = 'https://storage.googleapis.com/desafio-ed/ingestion/base_colaboradores_2023.xlsx'

# Importando dados do Excel Online
df_xlsx = pd.read_excel(url_excel)

# Substitua todos os espaços vazios por null
#df_xlsx.fillna(np.nan, inplace=True)

# Importando dados do CSV com codificação "latin-1" e separador ";"
df_csv = pd.read_csv(url_csv, encoding='latin-1', sep=';')
# Substitua todos os espaços vazios por null
#df_csv.fillna(np.nan, inplace=True)

## Padronização dos nomes das colunas

In [0]:
# Imprimir os nomes das colunas dos DataFrames
print("Nomes das colunas de df_csv antes dos ajustes:")
print(df_csv.columns)

print("\nNomes das colunas de df_excel antes dos ajustes:")
print(df_xlsx.columns)



Nomes das colunas de df_csv antes dos ajustes:
Index(['Matrícula    ', 'MÊS REFERENCIA', 'FUNCIONARIO', 'DATA ADMISSAO',
       'NACIONALIDADE', 'DATA DEMISSAO', 'ESTADO CIVIL', 'SEXO', 'CARGO',
       'EMPRESA', 'DATA NASCIMENTO'],
      dtype='object')

Nomes das colunas de df_excel antes dos ajustes:
Index(['mês referência', 'matricula', 'data admissao', 'funcionario',
       'nacionalidade', 'estado civil', 'sexo', 'cargo', 'empresa',
       'data de nascimento', 'data demissao'],
      dtype='object')


In [0]:
from unidecode import unidecode

# Função para normalizar nomes de colunas
def normalize_column_names(df):
    # Normalizar nomes das colunas (acentos, minúsculas e espaços)
    normalized_columns = [unidecode(col).lower().strip().replace(' ', '_') for col in df.columns]
    df.columns = normalized_columns
    return df

# Normalizar nomes das colunas para ambos os DataFrames
df_csv = normalize_column_names(df_csv)
df_xlsx = normalize_column_names(df_xlsx)

# Modificar o nome da coluna "data_de_nascimento" no DataFrame Excel
df_xlsx.rename(columns={'data_de_nascimento': 'data_nascimento'}, inplace=True)

# Verificar se os nomes das colunas são idênticos
if df_csv.columns.equals(df_xlsx.columns):
    # Se os nomes das colunas são idênticos, reorganize as colunas
    df_csv = df_csv[df_xlsx.columns]
else:
    # Imprimir as colunas que são diferentes
    different_columns = [col for col in df_csv.columns if col not in df_xlsx.columns]
    print(f"Colunas diferentes nos DataFrames: {different_columns}")




Colunas diferentes nos DataFrames: []


In [0]:
# Imprimir os nomes das colunas dos DataFrames
print("Nomes das colunas de df_csv apos ajustes:")
print(df_csv.columns)

print("\nNomes das colunas de df_excel apos ajustes:")
print(df_xlsx.columns)



Nomes das colunas de df_csv apos ajustes:
Index(['matricula', 'mes_referencia', 'funcionario', 'data_admissao',
       'nacionalidade', 'data_demissao', 'estado_civil', 'sexo', 'cargo',
       'empresa', 'data_nascimento'],
      dtype='object')

Nomes das colunas de df_excel apos ajustes:
Index(['mes_referencia', 'matricula', 'data_admissao', 'funcionario',
       'nacionalidade', 'estado_civil', 'sexo', 'cargo', 'empresa',
       'data_nascimento', 'data_demissao'],
      dtype='object')


## União dos arquivos

In [0]:
# Concatenar os DataFrames por linhas (um abaixo do outro)
df_final = pd.concat([df_csv, df_xlsx], ignore_index=True)

# Salvando o DataFrame como um arquivo CSV
df_final.to_csv('df_final.csv', index=False, encoding='utf-8')

# Visualizando as primeiras 5 linhas do DataFrame
df_final.head()

Unnamed: 0,matricula,mes_referencia,funcionario,data_admissao,nacionalidade,data_demissao,estado_civil,sexo,cargo,empresa,data_nascimento
0,27,28/02/2022,Colaborador 27,05/12/2005,brasil,,Casado,Masculino,Eletr Lv Transmissao Iii,Empresa 6,01/01/1977
1,28,31/01/2022,Colaborador 28,14/04/2003,brasil,,Solteiro,Feminino,Coord Tesouraria,Empresa 5,01/04/1979
2,28,28/02/2022,Colaborador 28,14/04/2003,brasil,,Casado,Feminino,Coord Tesouraria,Empresa 5,01/04/1979
3,28,31/03/2022,Colaborador 28,14/04/2003,brasil,,Solteiro,Feminino,Coord Tesouraria,Empresa 2,01/04/1979
4,28,30/04/2022,Colaborador 28,14/04/2003,brasil,,Solteiro,Feminino,Coord Tesouraria,Empresa 2,01/04/1979


In [0]:
#Verificação do numero de linhas e colunas arquivo .csv
num_linhas_csv, num_colunas_csv = df_csv.shape
print(f'Número de linhas csv : {num_linhas_csv}')
print(f'Número de colunas csv: {num_colunas_csv} \n')


#Verificação do numero de linhas e colunas arquivo .xlsx
num_linhas_xlsx, num_colunas_xlsx = df_xlsx.shape
print(f'Número de linhas xlsx: {num_linhas_xlsx}')
print(f'Número de colunas xlsx : {num_colunas_xlsx} \n ')

#Verificação do numero de linhas e colunas arquivo final
num_linhas, num_colunas = df_final.shape
print(f'Número de linhas final: {num_linhas}')
print(f'Número de colunas final: {num_colunas}')


Número de linhas csv : 20054
Número de colunas csv: 11 

Número de linhas xlsx: 27297
Número de colunas xlsx : 11 
 
Número de linhas final: 47351
Número de colunas final: 11


## Conversão para um DataFrame Spark

In [0]:
# Verificação dos tipos de dados das colunas
print(df_final.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47351 entries, 0 to 47350
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   matricula        47351 non-null  int64 
 1   mes_referencia   47351 non-null  object
 2   funcionario      47351 non-null  object
 3   data_admissao    47351 non-null  object
 4   nacionalidade    47346 non-null  object
 5   data_demissao    436 non-null    object
 6   estado_civil     47116 non-null  object
 7   sexo             47351 non-null  object
 8   cargo            47351 non-null  object
 9   empresa          47351 non-null  object
 10  data_nascimento  47351 non-null  object
dtypes: int64(1), object(10)
memory usage: 4.0+ MB
None


In [0]:
import pyspark.sql.types as t

# Conversão do tipo de dados das colunas com o tipo 'object' para 'str'
for col in df_final.columns:
    if df_final[col].dtype == 'object':
        df_final[col] = df_final[col].astype(str)

In [0]:
from pyspark.sql import SparkSession

# Conversão do DataFrame do Pandas para um DataFrame do Spark
spark_df = spark.createDataFrame(df_final)

# Exiba o esquema do DataFrame Spark
spark_df.printSchema()

root
 |-- matricula: long (nullable = true)
 |-- mes_referencia: string (nullable = true)
 |-- funcionario: string (nullable = true)
 |-- data_admissao: string (nullable = true)
 |-- nacionalidade: string (nullable = true)
 |-- data_demissao: string (nullable = true)
 |-- estado_civil: string (nullable = true)
 |-- sexo: string (nullable = true)
 |-- cargo: string (nullable = true)
 |-- empresa: string (nullable = true)
 |-- data_nascimento: string (nullable = true)



In [0]:
# Exiba o DataFrame ajustado
spark_df.show()

+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+--------------------+---------+---------------+
|matricula|mes_referencia|   funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|     sexo|               cargo|  empresa|data_nascimento|
+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+--------------------+---------+---------------+
|       27|    28/02/2022|Colaborador 27|   05/12/2005|     brasil  |          nan|      Casado|Masculino|Eletr Lv Transmis...|Empresa 6|     01/01/1977|
|       28|    31/01/2022|Colaborador 28|   14/04/2003|     brasil  |          nan|    Solteiro| Feminino|    Coord Tesouraria|Empresa 5|     01/04/1979|
|       28|    28/02/2022|Colaborador 28|   14/04/2003|     brasil  |          nan|      Casado| Feminino|    Coord Tesouraria|Empresa 5|     01/04/1979|
|       28|    31/03/2022|Colaborador 28|   14/04/2003|     brasil  |       

In [0]:
# Verificação do tipo de dados do DataFrame
print(type(spark_df))

<class 'pyspark.sql.dataframe.DataFrame'>


In [0]:
# Imprime o esquema do DataFrame
print(spark_df.dtypes)

[('matricula', 'bigint'), ('mes_referencia', 'string'), ('funcionario', 'string'), ('data_admissao', 'string'), ('nacionalidade', 'string'), ('data_demissao', 'string'), ('estado_civil', 'string'), ('sexo', 'string'), ('cargo', 'string'), ('empresa', 'string'), ('data_nascimento', 'string')]


## Padronização dos dados


 - trim(col(coluna)) remove os espaços em branco no início e no final de cada string na coluna
 - initcap() coloca as iniciais das palavras em maiúsculas. 

In [0]:
from pyspark.sql.functions import trim, initcap, col

# Lista de todas as colunas do DataFrame
columns = spark_df.columns

# Lista de colunas textuais 
textual_columns = ['mes_referencia', 'funcionario', 'data_admissao', 'nacionalidade', 'data_demissao', 'estado_civil', 'sexo', 'cargo', 'empresa', 'data_nascimento']  

# Aplicação das transformações nas colunas textuais
for column in textual_columns:
    spark_df = spark_df.withColumn(column, initcap(trim(col(column))))

# Mostra o DataFrame após as transformações
spark_df.show()

+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+--------------------+---------+---------------+
|matricula|mes_referencia|   funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|     sexo|               cargo|  empresa|data_nascimento|
+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+--------------------+---------+---------------+
|       27|    28/02/2022|Colaborador 27|   05/12/2005|       Brasil|          Nan|      Casado|Masculino|Eletr Lv Transmis...|Empresa 6|     01/01/1977|
|       28|    31/01/2022|Colaborador 28|   14/04/2003|       Brasil|          Nan|    Solteiro| Feminino|    Coord Tesouraria|Empresa 5|     01/04/1979|
|       28|    28/02/2022|Colaborador 28|   14/04/2003|       Brasil|          Nan|      Casado| Feminino|    Coord Tesouraria|Empresa 5|     01/04/1979|
|       28|    31/03/2022|Colaborador 28|   14/04/2003|       Brasil|       

verificar requisito: Para as colunas numéricas, certifique-se que tenha no máximo 4 casa decimais.

In [0]:
from pyspark.sql.functions import col, length

# Nome da coluna numérica 
numeric_columns = 'matricula'

# Verificação do comprimento dos valores na coluna numérica
spark_df.withColumn('comprimento', length(col(numeric_columns))).filter(col('comprimento') > 4).show()

+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+-----------+
|matricula|mes_referencia|funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|sexo|cargo|empresa|data_nascimento|comprimento|
+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+-----------+
+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+-----------+




abordagem de valores nulos


In [0]:
# Importe a função isnan do módulo pyspark.sql.functions
from pyspark.sql.functions import isnan, when, count, col

# Use a função isnan para verificar valores nulos em todas as colunas
spark_df.select([count(when(isnan(c) | col(c).isNull(), c)).alias(c) for c in spark_df.columns]).show()

+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+
|matricula|mes_referencia|funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|sexo|cargo|empresa|data_nascimento|
+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+
|        0|             0|          0|            0|            5|        19886|         235|   0|    0|      0|              0|
+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+



In [0]:
from pyspark.sql.functions import col, isnan, when

# Calcula o número total de linhas no DataFrame
total_linhas = spark_df.count()

# Calcula a porcentagem de dados nulos ou NaN para cada coluna
porcentagens_nulos_nan = []
for coluna in spark_df.columns:
    # Calcula o número de linhas com valores nulos ou NaN na coluna atual
    nulos_ou_nan_na_coluna = spark_df.where((col(coluna).isNull()) | (isnan(col(coluna)))).count()
    
    # Calcula a porcentagem de dados nulos ou NaN na coluna atual
    porcentagem_nulos_nan = (nulos_ou_nan_na_coluna / total_linhas) * 100
    
    # Adiciona o nome da coluna e a porcentagem de nulos ou NaN à lista
    porcentagens_nulos_nan.append((coluna, porcentagem_nulos_nan))

# Mostra as porcentagens de dados nulos ou NaN para todas as colunas
for coluna, porcentagem in porcentagens_nulos_nan:
    print(f"A coluna '{coluna}' tem {porcentagem:.2f}% de dados nulos ou NaN.")


A coluna 'matricula' tem 0.00% de dados nulos ou NaN.
A coluna 'mes_referencia' tem 0.00% de dados nulos ou NaN.
A coluna 'funcionario' tem 0.00% de dados nulos ou NaN.
A coluna 'data_admissao' tem 0.00% de dados nulos ou NaN.
A coluna 'nacionalidade' tem 0.01% de dados nulos ou NaN.
A coluna 'data_demissao' tem 42.00% de dados nulos ou NaN.
A coluna 'estado_civil' tem 0.50% de dados nulos ou NaN.
A coluna 'sexo' tem 0.00% de dados nulos ou NaN.
A coluna 'cargo' tem 0.00% de dados nulos ou NaN.
A coluna 'empresa' tem 0.00% de dados nulos ou NaN.
A coluna 'data_nascimento' tem 0.00% de dados nulos ou NaN.



fazer comentarios após analises de quantidades de numeros nulos


In [0]:
'''from pyspark.sql.functions import col

# Exclui linhas com valores nulos nas colunas "nacionalidade" e "estado_civil"
df_sem_nulos = spark_df.dropna(subset=["nacionalidade", "estado_civil"])


# Use a função isnan para verificar valores nulos em todas as colunas
df_sem_nulos.select([count(when(isnan(c) | col(c).isNull(), c)).alias(c) for c in spark_df.columns]).show()'''


'from pyspark.sql.functions import col\n\n# Exclui linhas com valores nulos nas colunas "nacionalidade" e "estado_civil"\ndf_sem_nulos = spark_df.dropna(subset=["nacionalidade", "estado_civil"])\n\n\n# Use a função isnan para verificar valores nulos em todas as colunas\ndf_sem_nulos.select([count(when(isnan(c) | col(c).isNull(), c)).alias(c) for c in spark_df.columns]).show()'

In [0]:
from pyspark.sql.functions import col
colunas_interesse = ['nacionalidade','data_nascimento', 'estado_civil']

# Remover linhas com valores nulos nas colunas especificadas
spark_df = spark_df.dropna(how="all")
# Use a função isnan para verificar valores nulos em todas as colunas
spark_df.select([count(when(isnan(c) | col(c).isNull(), c)).alias(c) for c in spark_df.columns]).show()

spark_df.show()

+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+
|matricula|mes_referencia|funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|sexo|cargo|empresa|data_nascimento|
+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+
|        0|             0|          0|            0|            5|        19886|         235|   0|    0|      0|              0|
+---------+--------------+-----------+-------------+-------------+-------------+------------+----+-----+-------+---------------+

+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+--------------------+---------+---------------+
|matricula|mes_referencia|   funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|     sexo|               cargo|  empresa|data_nascimento|
+---------+--------------+--------------+-----

coluna via-para


In [0]:
# Crie um DataFrame 

# URL do arquivo Excel (.xlsx)
url= 'https://storage.googleapis.com/desafio-ed/ingestion/de-para.xlsx'

# Importando dados do Excel Online
df_de_para = pd.read_excel(url)

df_de_para.head()


Unnamed: 0,grupo cargo,cargo
0,Analista,Adm Contratos
1,Analista,Administrador
2,Analista,Administrador Tecnico
3,Analista,Analista Administ Jr
4,Analista,Anl Administrativo I


In [0]:
df_de_para = normalize_column_names(df_de_para)

# Suponha que você tenha o DataFrame Pandas chamado "mapeamento_df_pandas" com as colunas "cargo" e "grupo_cargo"
# Converta o DataFrame Pandas para um DataFrame PySpark
spark_de_para = spark.createDataFrame(df_de_para)

spark_de_para.printSchema()

root
 |-- grupo_cargo: string (nullable = true)
 |-- cargo: string (nullable = true)



In [0]:
from pyspark.sql.functions import broadcast

# Realize o broadcast do DataFrame de mapeamento para otimizar o join
broadcast = broadcast(spark_de_para)

# Realize o join entre o DataFrame original e o DataFrame de mapeamento usando a coluna "cargo" como chave
spark_df = spark_df.join(broadcast, "cargo", "left_outer")

# Reorganize as colunas para ter "grupo_cargo" à esquerda de "Cargo"
spark_df = spark_df.select(*[coluna for coluna in spark_df.columns if coluna not in ["cargo", "grupo_cargo"]],
                           "grupo_cargo", "cargo")

# Mostra o DataFrame resultante
spark_df.show()

+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+---------+---------------+----------------+--------------------+
|matricula|mes_referencia|   funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|     sexo|  empresa|data_nascimento|     grupo_cargo|               cargo|
+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+---------+---------------+----------------+--------------------+
|       27|    28/02/2022|Colaborador 27|   05/12/2005|       Brasil|          Nan|      Casado|Masculino|Empresa 6|     01/01/1977|         Tecnico|Eletr Lv Transmis...|
|       28|    31/01/2022|Colaborador 28|   14/04/2003|       Brasil|          Nan|    Solteiro| Feminino|Empresa 5|     01/04/1979|     Coordenador|    Coord Tesouraria|
|       28|    28/02/2022|Colaborador 28|   14/04/2003|       Brasil|          Nan|      Casado| Feminino|Empresa 5|     01/04/1979|     Coordena

In [0]:
# Verificar o número de linhas após a remoção de valores nulos ou NaN
num_rows = spark_df.count()

from pyspark.sql.functions import isnan, col

# Especificar o nome da coluna com valores nulos ou NaN
nome_coluna = "data_demissao"

'''# Remover linhas com valores nulos ou NaN na coluna especificada
spark_df = spark_df.na.drop(subset=[nome_coluna])

# Verificar se existem valores nulos ou NaN na coluna especificada
if spark_df.filter((isnan(col(nome_coluna)) | col(nome_coluna).isNull())).count() == 0:
    print(f"Linhas com valores nulos ou NaN na coluna '{nome_coluna}' foram removidas com sucesso.")
else:
    print(f"Ainda existem linhas com valores nulos ou NaN na coluna '{nome_coluna}'.")'''



num_rows_after = spark_df.count()
print(f"Número de linhas após a remoção de valores nulos ou NaN: {num_rows_after}")
spark_df.show()


Número de linhas após a remoção de valores nulos ou NaN: 47351
+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+---------+---------------+----------------+--------------------+
|matricula|mes_referencia|   funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|     sexo|  empresa|data_nascimento|     grupo_cargo|               cargo|
+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+---------+---------------+----------------+--------------------+
|       27|    28/02/2022|Colaborador 27|   05/12/2005|       Brasil|          Nan|      Casado|Masculino|Empresa 6|     01/01/1977|         Tecnico|Eletr Lv Transmis...|
|       28|    31/01/2022|Colaborador 28|   14/04/2003|       Brasil|          Nan|    Solteiro| Feminino|Empresa 5|     01/04/1979|     Coordenador|    Coord Tesouraria|
|       28|    28/02/2022|Colaborador 28|   14/04/2003|       Brasil|          Nan

In [0]:
from pyspark.sql.functions import year, months_between, when, current_date,col
import pyspark.sql.functions as f
from pyspark.sql.functions import datediff, to_date, lit, floor

# Filtrando linhas com valores nulos nas colunas relevantes
#spark_df = spark_df.filter(col("mes_referencia").isNotNull() & col("data_nascimento").isNotNull() & col("data_admissao").isNotNull() & col("data_demissao").isNotNull())

# Converter as strings de data para o formato de data
spark_df = spark_df.withColumn("data_nascimento", to_date(col("data_nascimento"), "dd/MM/yyyy"))
spark_df = spark_df.withColumn("mes_referencia", to_date(col("mes_referencia"), "dd/MM/yyyy"))

# Calcular a diferença em dias entre a data de referência e a data de nascimento
diferenca_dias = datediff(col("mes_referencia"), col("data_nascimento"))

# Calcular a idade em anos (dividir por 365 e arredondar para baixo)
idade = floor(diferenca_dias / lit(365))

# Adicionar a coluna de idade ao DataFrame original
spark_df = spark_df.withColumn("idade", idade)

# Mostrar o DataFrame resultante
#spark_df.show()


# Filtrar linhas onde data_demissao é nula (ainda não foram demitidos)
funcionarios_ativos = spark_df.filter(col("data_demissao").isNull())

# Converter as strings de data para o formato de data
spark_df = spark_df.withColumn("data_admissao", to_date(col("data_admissao"), "dd/MM/yyyy"))
spark_df = spark_df.withColumn("mes_referencia", to_date(col("mes_referencia"), "dd/MM/yyyy"))

# Calcular a diferença em meses entre a data de demissão e a data de admissão
diferenca_meses = months_between(col("mes_referencia"), col("data_admissao"))

# Arredondar para baixo o resultado da diferença em meses
tempo_empresa_meses = floor(diferenca_meses)

# Adicionar a coluna de tempo na empresa ao DataFrame original
spark_df = spark_df.withColumn("tempo_empresa", tempo_empresa_meses)

# Mostra o DataFrame resultante
spark_df.show()


+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+---------+---------------+----------------+--------------------+-----+-------------+
|matricula|mes_referencia|   funcionario|data_admissao|nacionalidade|data_demissao|estado_civil|     sexo|  empresa|data_nascimento|     grupo_cargo|               cargo|idade|tempo_empresa|
+---------+--------------+--------------+-------------+-------------+-------------+------------+---------+---------+---------------+----------------+--------------------+-----+-------------+
|       27|    2022-02-28|Colaborador 27|   2005-12-05|       Brasil|          Nan|      Casado|Masculino|Empresa 6|     1977-01-01|         Tecnico|Eletr Lv Transmis...|   45|          194|
|       28|    2022-01-31|Colaborador 28|   2003-04-14|       Brasil|          Nan|    Solteiro| Feminino|Empresa 5|     1979-04-01|     Coordenador|    Coord Tesouraria|   42|          225|
|       28|    2022-02-28|Colaborador 28|   2

In [0]:
from pyspark.sql.functions import when

# Definir as condições para categorias de idade
condicoes_idade = [
    (col("idade") < 21, "Menos de 21 Anos"),
    (col("idade").between(21, 25), "Entre 21 E 25 Anos"),
    (col("idade").between(26, 30), "Entre 26 E 30 Anos"),
    (col("idade").between(31, 40), "Entre 31 E 40 Anos"),
    (col("idade").between(41, 50), "Entre 41 E 50 Anos"),
    (col("idade") > 50, "Acima De 50 Anos")
]

# Definir as condições para categorias de tempo de empresa (em meses)
condicoes_tempo_empresa = [
    (col("tempo_empresa") < 3, "Até 3 meses"),
    (col("tempo_empresa").between(3, 6), "Entre 3 E 6 Meses"),
    (col("tempo_empresa").between(2, 12), "Entre 6 Meses E 1 Ano"),
    (col("tempo_empresa").between(12, 24), "Entre 1 E 2 Anos"),
    (col("tempo_empresa").between(24, 60), "Entre 2 E 5 Anos"),
    (col("tempo_empresa").between(60, 120), "Entre 5 E 10 Anos"),
    (col("tempo_empresa") > 120, "Acima De 10 Anos")
]

# Aplicar as condições e criar as colunas categóricas
spark_df = spark_df.withColumn("ds_idade_cat", 
                                                   when(condicoes_idade[0][0], condicoes_idade[0][1])
                                                    .when(condicoes_idade[1][0], condicoes_idade[1][1])
                                                    .when(condicoes_idade[2][0], condicoes_idade[2][1])
                                                    .when(condicoes_idade[3][0], condicoes_idade[3][1])
                                                    .when(condicoes_idade[4][0], condicoes_idade[4][1])
                                                    .when(condicoes_idade[5][0], condicoes_idade[5][1])
                                                    .otherwise("Desconhecido"))
                                            
                                            
                                            
spark_df = spark_df.withColumn("ds_tempo_empresa_cat", 
                                                 when(condicoes_tempo_empresa[0][0], condicoes_tempo_empresa[0][1])
                                                    .when(condicoes_tempo_empresa[1][0], condicoes_tempo_empresa[1][1])
                                                    .when(condicoes_tempo_empresa[2][0], condicoes_tempo_empresa[2][1])
                                                    .when(condicoes_tempo_empresa[3][0], condicoes_tempo_empresa[3][1])
                                                    .when(condicoes_tempo_empresa[4][0], condicoes_tempo_empresa[4][1])
                                                    .when(condicoes_tempo_empresa[5][0], condicoes_tempo_empresa[5][1])
                                                    .when(condicoes_tempo_empresa[6][0], condicoes_tempo_empresa[6][1])
                                                    .otherwise("Desconhecido"))

# Mostrar o DataFrame resultante com as novas colunas categóricas
spark_df.select("ds_idade_cat", "ds_tempo_empresa_cat").show()

spark_df.show()


+------------------+--------------------+
|      ds_idade_cat|ds_tempo_empresa_cat|
+------------------+--------------------+
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 41 E 50 Anos|    Acima De 10 Anos|
|Entre 31 E 40 Anos|    Acima De 10 Anos|
|Entre 31 E 40 Anos|    Acima De 10 Anos|
|Entre 31 E 40 Anos|    Acima De 10 Anos|
|Entre 31 E 40 Anos|    Acima De 10 Anos|
|Entre 31 E 40 Anos|    Acima De 10 Anos|
|Entre 31 E 40 Anos|    Acima De 10 Anos|
|Entre 31 E 40 Anos|    Acima De 10 Anos|
+------------------+--------------

tentar uma contagem de categoria, algo assim

In [0]:
# Especifique o caminho onde você deseja salvar o arquivo Parquet
caminho_parquet = "/Workspace/Users/kt.cardosos@gmail.com/mensalizada.parquet"
# Salve o DataFrame como um arquivo Parquet
spark_df.write.mode("overwrite").parquet(caminho_parquet)

# Verifica se o arquivo existe
if dbutils.fs.rm(caminho_parquet, True):
    print(f"Arquivo {caminho_parquet} foi excluído com sucesso!")
else:
    print(f"O arquivo {caminho_parquet} não existe ou não pode ser excluído.")

# Em seguida, escreve o novo arquivo Parquet
spark_df.write.parquet(caminho_parquet)

# Caminho para o local onde você deseja salvar o arquivo no seu computador local
local_path = "C:/Users/Katia/Downloads/mensalizada.parquet"

# Baixa o arquivo
dbutils.fs.cp(caminho_parquet, local_path,True)

Arquivo /Workspace/Users/kt.cardosos@gmail.com/mensalizada.parquet foi excluído com sucesso!


[0;31m---------------------------------------------------------------------------[0m
[0;31mExecutionError[0m                            Traceback (most recent call last)
File [0;32m<command-3810723377291333>, line 19[0m
[1;32m     16[0m local_path [38;5;241m=[39m [38;5;124m"[39m[38;5;124mC:/Users/Katia/Downloads/mensalizada.parquet[39m[38;5;124m"[39m
[1;32m     18[0m [38;5;66;03m# Baixa o arquivo[39;00m
[0;32m---> 19[0m dbutils[38;5;241m.[39mfs[38;5;241m.[39mcp(caminho_parquet, local_path,[38;5;28;01mTrue[39;00m)

File [0;32m/databricks/python_shell/dbruntime/dbutils.py:362[0m, in [0;36mDBUtils.FSHandler.prettify_exception_message.<locals>.f_with_exception_handling[0;34m(*args, **kwargs)[0m
[1;32m    360[0m exc[38;5;241m.[39m__context__ [38;5;241m=[39m [38;5;28;01mNone[39;00m
[1;32m    361[0m exc[38;5;241m.[39m__cause__ [38;5;241m=[39m [38;5;28;01mNone[39;00m
[0;32m--> 362[0m [38;5;28;01mraise[39;00m exc

[0;31mExecutionError[0m: A

In [0]:
# Realiza o join entre o DataFrame original e o DataFrame com as categorias usando a coluna 'id_funcionario' como chave
#spark_df = spark_df.join(, 'matricula', 'left_outer')

# Mostra o DataFrame resultante
#spark_df.show()

