##**1. Entendimento do Contexto / Neg√≥cio**

**ESPA√áO RESERVADO PARA TEXTO SOBRE O CONTEXTO**

##**2. Entendimento inicial dos Dados**

### **Instala√ß√µes e Bibliotecas necess√°rias**

In [None]:
"""
ftfy (fixes text for you) √© uma biblioteca Python que ajuda a corrigir e limpar texto codificado de forma incorreta,
seja devido a problemas de codifica√ß√£o, caracteres inv√°lidos ou outros problemas semelhantes. Ele oferece uma variedade
de fun√ß√µes para corrigir e normalizar texto, incluindo a detec√ß√£o e corre√ß√£o de codifica√ß√µes ruins, a remo√ß√£o de
caracteres inv√°lidos e a padroniza√ß√£o de espa√ßos em branco.

Instala√ß√£o:
    Para instalar o ftfy via pip, voc√™ pode usar o seguinte comando:

    !pip install ftfy

Refer√™ncia:
    Documenta√ß√£o oficial do ftfy: https://ftfy.readthedocs.io/en/latest/
"""

!pip install ftfy

In [None]:
!pip install dash

In [None]:
"""
Importa√ß√µes de bibliotecas comumente usadas em an√°lise de dados e visualiza√ß√£o.

Este bloco de importa√ß√µes inclui as seguintes bibliotecas:
- requests: para fazer solicita√ß√µes HTTP.
- pandas: para manipula√ß√£o e an√°lise de dados em formato tabular.
- StringIO da io: para manipula√ß√£o de strings como arquivos.
- tabulate: para exibir dados tabulares em uma formata√ß√£o leg√≠vel.
- plotly.express: para visualiza√ß√µes interativas e expressivas.
- make_subplots de plotly.subplots: para criar subtramas em visualiza√ß√µes plotly.
- go de plotly.graph_objects: para criar figuras e gr√°ficos plotly de maneira program√°tica.
- numpy: para opera√ß√µes num√©ricas eficientes.
- matplotlib.pyplot: para visualiza√ß√µes est√°ticas e personaliz√°veis.
- seaborn: para visualiza√ß√µes estat√≠sticas atraentes e informativas.
- scipy.stats: para fun√ß√µes estat√≠sticas e testes de hip√≥teses.

Refer√™ncia:
    Documenta√ß√£o oficial das bibliotecas individuais para mais detalhes sobre suas funcionalidades e uso.
"""

import requests
import pandas as pd
from io import StringIO
import io
import ftfy
import plotly.express as px
import plotly.subplots as sp
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import dash
from dash import dcc, html
from dash.dependencies import Input, Output


# from tabulate import tabulate



import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import norm
from scipy.stats import ttest_ind

###**Extra√ß√£o e leitura dos dados**

In [None]:
"""
Configura as op√ß√µes de exibi√ß√£o do pandas para mostrar um n√∫mero m√°ximo de colunas, linhas e largura de coluna ilimitados.

Refer√™ncia:
    Documenta√ß√£o oficial do pandas sobre op√ß√µes de exibi√ß√£o: https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html
"""

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

In [None]:
"""
Este bloco de c√≥digo baixa um arquivo CSV de uma URL, decodifica seu conte√∫do, e o converte em um DataFrame pandas.
Em seguida, realiza um tratamento na coluna "Endere√ßo" para remover caracteres de nova linha.
Por fim, exibe as primeiras linhas do DataFrame.
"""

file_url = "https://github.com/Ada-Empregabilidade/adahack-2024-dados/raw/main/base_dados/base_de_dados.csv"

response = requests.get(file_url)

if response.status_code == 200:
    decoded_content = ftfy.fix_text(response.content.decode('utf-8'))

    df = pd.read_csv(io.StringIO(decoded_content))

    df['Endere√ßo'] = df['Endere√ßo'].str.replace('\n', ' ')

    display(df.head())
else:
    print(f"Erro ao obter o arquivo: {response.status_code}")


###**Colunas do DataFrame que n√£o agregam valor**
Ap√≥s an√°lise, foram identificadas colunas que n√£o agregam valor, que ser√£o exclu√≠das do DataFrame.

In [None]:
"""
Excluindo colunas do DataFrame que n√£o agregam valor
"""
df = df.drop(columns=['id', 'id.1', 'Endere√ßo'])

###**Quantidade de linhas e colunas**

In [None]:
"""
Obtendo a quantidade de linhas e colunas do dataframe criado a partir da extra√ß√£o dos dados
"""
num_linhas = len(df)
num_colunas = len(df.columns)

print(f"N√∫mero de Linhas: {num_linhas}")
print(f"N√∫mero de Colunas: {num_colunas}")

###**Verifica√ß√£o dos tipos das colunas**

In [None]:
"""
Verifica√ß√£o dos tipos das colunas existentes (int64, object, float)
"""
df.info()

###**Verifica√ß√£o de valores duplicados - Geral**

In [None]:
duplicados = df.duplicated().sum()
print(f"Existem {(duplicados)} dados duplicados")

###**Verifica√ß√£o de valores √∫nicos**

In [None]:
def summarize_dataframe(df):
    """
    Sumariza um DataFrame, fornecendo informa√ß√µes sobre os valores √∫nicos em cada coluna.

    Par√¢metros:
        df (DataFrame): O DataFrame a ser sumarizado.

    Retorna:
        DataFrame: Um DataFrame contendo informa√ß√µes sobre os valores √∫nicos em cada coluna do DataFrame de entrada.
                   O DataFrame resultante tem tr√™s colunas: 'Coluna', 'Valores √önicos' e 'N√∫mero de Valores √önicos'.
    """
    dfs = []

    for column in df.columns:
        unique_values = df[column].unique()
        num_unique_values = len(unique_values)
        temp_df = pd.DataFrame({'Coluna': [column], 'Valores √önicos': [unique_values], 'N√∫mero de Valores √önicos': [num_unique_values]})
        dfs.append(temp_df)

    df_output = pd.concat(dfs, ignore_index=True)

    return df_output

#Chamando a fun√ß√£o e e imprimindo dados
df_summary = summarize_dataframe(df)
display(df_summary)

###**Verifica√ß√£o de valores ausentes**

In [None]:
def group_columns_by_percentile(df):
    """
    Agrupa as colunas de um DataFrame por faixa percentual de valores faltantes.

    Par√¢metros:
        df (DataFrame): O DataFrame a ser agrupado.

    Retorna:
        DataFrame: Um DataFrame contendo as colunas agrupadas por faixa percentual de valores faltantes,
                   juntamente com o percentual exato de valores faltantes em cada coluna.
                   O DataFrame resultante possui tr√™s colunas: 'Faixa Percentual', 'Colunas' e 'Percentual Exato'.
    """

    colunas_por_faixa = {}
    for i in range(20):
        inicio = f'{i * 5:02.0f}.01' if i == 0 else f'{i * 5:02.0f}.01'
        fim = f'{(i + 1) * 5 - 0.01:02.0f}'
        colunas_por_faixa[f'{inicio}% at√© {fim}%'] = []

    colunas_por_faixa['0.00% (zero erro)'] = []

    colunas_por_percentual = {}

    for coluna in df.columns:
        percentual_faltante = df[coluna].isnull().sum() / len(df) * 100
        if percentual_faltante == 0:
            colunas_por_faixa['0.00% (zero erro)'].append(coluna)
            colunas_por_percentual[coluna] = 0.00
        else:
            for i in range(20):
                inicio = f'{i * 5:02.0f}.01' if i == 0 else f'{i * 5:02.0f}.01'
                fim = f'{(i + 1) * 5 - 0.01:02.0f}'
                faixa = f'{inicio}% at√© {fim}%'
                if percentual_faltante <= (i + 1) * 5:
                    colunas_por_faixa[faixa].append(coluna)
                    colunas_por_percentual[coluna] = round(percentual_faltante, 2)
                    break
            if percentual_faltante > 95:
                colunas_por_faixa['95.01% at√© 100%'].append(coluna)
                colunas_por_percentual[coluna] = round(percentual_faltante, 2)

    colunas_por_faixa = {'0.00% (zero erro)': colunas_por_faixa['0.00% (zero erro)']} | {k: v for k, v in colunas_por_faixa.items() if k != '0.00% (zero erro)'}

    df_tabela = pd.DataFrame(colunas_por_faixa.items(), columns=['Faixa Percentual', 'Colunas'])
    df_tabela['Percentual Exato'] = df_tabela['Colunas'].apply(lambda colunas: [colunas_por_percentual[coluna] for coluna in colunas])

    return df_tabela

#Chamando a fun√ß√£o e e imprimindo dados
df_grouped = group_columns_by_percentile(df)
display(df_grouped)

####**Coluna -> "Forma√ß√£o"**

In [None]:
df['Forma√ß√£o'].isnull().sum()

In [None]:
registros_nulos_formacao = df[df['Forma√ß√£o'].isnull()]
display(registros_nulos_formacao)

In [None]:
"""
Excluindo valores ausentes da coluna 'Forma√ß√£o' do DataFrame
"""
df = df.dropna(subset=['Forma√ß√£o'])

####**Coluna -> "Tempo de casa"**

In [None]:
# Quantidade de valores negativos na coluna 'Tempo de casa'
quantidade_negativos_tempo_de_casa = (df['Tempo de casa'] < 0).sum()
print(quantidade_negativos_tempo_de_casa)

In [None]:
# Quantidade de valores NaN na coluna 'Tempo de casa'
quantidade_nan_tempo_de_casa = df['Tempo de casa'].isnull().sum()
print(quantidade_nan_tempo_de_casa)

In [None]:
quantidade_negativos_nan_tempo_de_casa = (df['Tempo de casa'] < 0).sum() + df['Tempo de casa'].isnull().sum()
display(quantidade_negativos_nan_tempo_de_casa)

In [None]:
quantidade_negativos_nan_tempo_de_casa = df[(df['Tempo de casa'] < 0) | (df['Tempo de casa'].isnull())]
display(quantidade_negativos_nan_tempo_de_casa)

In [None]:
# Excluir valores negativos e valores ausentes da coluna 'Tempo de casa'
df = df[(df['Tempo de casa'] >= 0) & (~df['Tempo de casa'].isnull())]

####**Coluna -> "Idade"**

In [None]:
df['Idade'].isnull().sum()

In [None]:
registros_nulos_idade = df[df['Idade'].isnull()]
display(registros_nulos_idade)

In [None]:
"""
Excluindo valores ausentes da coluna 'Idade' do DataFrame
"""
df = df.dropna(subset=['Idade'])

###**Verifica√ß√£o de valores duplicados - Por coluna**

####**Coluna -> "Nome"**

In [None]:
registros_duplicados_nome = df[df.duplicated(subset=['Nome'], keep=False)]
registros_duplicados = registros_duplicados_nome.sort_values(by='Nome')
display(registros_duplicados_nome)

In [None]:
len(registros_duplicados_nome)

###**Relat√≥rio 1 - Considera√ß√µes iniciais**

Nesta se√ß√£o, buscou-se observar algumas caracter√≠sticas gerais dos dados.

O conjunto original dos dados possui 10000 registros e 12 colunas.

Algumas verifica√ß√µes foram realizadas para garantir dados de qualidade nas se√ß√µes subsequentes.

**1) Quanto √† dados que n√£o agregam valor**
>Na **1.1) verifica√ß√£o dos dados que n√£o agregam valor**, observou-se que as colunas:
>>**a) id**, **id.1** e **Endere√ßo**: N√£o agregam valor para os objetivos desta an√°lise e, portanto, foram exclu√≠das do DataFrame.

**2) Quanto ao tipo dos dados:**
>Na **2.1) verifica√ß√£o dos tipos das colunas**, observou-se que a coluna:
>>**a) Idade** e **Tempo de casa**: Inicialmente, causam estranheza por estarem em **float**. A priori, assume-se que o tipo mais adequado nesse caso seria **int64**, caso sejam utilizadas.**(vide Se√ß√£o 3. Prepara√ß√£o dos Dados, Tratamento 1 para informa√ß√£o complementar**);

**3) Quanto a duplicidade dos dados - Geral:**
>Na **3.1) verifica√ß√£o de valores duplicados - Geral**, n√£o foi encontrada duplicidade de registros.

**4) Quanto aos valores √∫nicos:**
>Na **4.1) verifica√ß√£o de valores √∫nicos**, ficou evidente que a coluna:
>>**a) Nome**: Possui 39 valores valores repetidos, pois existem 9961 valores √∫nicos de um total de 10000 registros (**vide item 6.1) a) üëá para informa√ß√£o complementar**);

>>**b) Forma√ß√£o**: Possui valores do tipo **NaN (vide item 5.1) a) üëá para informa√ß√£o complementar**);

>>**c) Tempo de casa**: Possui valores do tipo **NaN** e valores **Negativos (vide item 5.1) b) üëá para informa√ß√£o complementar**);

>>**d) Senioridade**: Possui valores com o mesmo significado, mas cadastrados com grafia incorreta **gerente** e **Gerente**

>>**e) Idade**: Possui valores do tipo **NaN**

**5) Quanto aos valores ausentes:**
>Na **5.1) verifica√ß√£o de valores ausentes ou negativos**, ficou evidente que na coluna:
>>**a) Forma√ß√£o**: Os 44 valores do tipo 'NaN' apresentaram muita inconsist√™ncia quando analisados em conjunto com as demais colunas. Haviam muitas situa√ß√µes como, por exemplo, uma pessoa muito jovem (menor de 18 anos) possuia um tempo de casa pr√≥ximo de sua idade e com uma Senioridade muito elevada. Certamente, esses dados n√£o est√£o confi√°veis e, portanto, foram exclu√≠dos. Dimensionamos que isso impacta muito pouco nossas an√°lises, pois corresponde a, apenas, 0.44% de todo o conjunto de dados.

>>**b) Tempo de casa**: Os 97 valores resmanescentes do tipo 'NaN' e os 199 valores 'Negativos' dessa coluna, juntos, totalizam 2.96% de todo os registros do conjunto de dados. Como esses valores representam baixo impacto, esses registros foram exclu√≠dos.

>>**c) Idade**: Os 56 valores remanescentes do tipo 'NaN' dessa coluna atinge 0.56% dos registros de todo o conjunto de dados. Como esses valores representam baixo impacto, esses registros foram exclu√≠dos.

**6) Quanto a duplicidade dos dados - Por coluna:**
>Na **6.1) verifica√ß√£o de valores duplicados - Por coluna**, ficou evidente que na coluna:
>>**a) Nome**: Os 37 valores remascentes repetidos da coluna n√£o tratam-se de duplicidade de registros, portanto, n√£o precisam ser removidos.

Ao todo, foram exclu√≠dos 395 registros, o equivalente a 3.95% de toda o conjunto dos dados.

Na Se√ß√£o seguinte, avan√ßamos na aplica√ß√£o dos tratamentos identificados, ap√≥s essas verifica√ß√µes iniciais.

##**3. Prepara√ß√£o dos Dados**

Na Se√ß√£o anterior, foi feito o entendimento inicial dos dados e, na medida do necess√°rio, algumas exclus√µes foram aplicadas, conforme explica√ß√µes do Relat√≥rio 1, naquela Se√ß√£o.

Com isso, nesta se√ß√£o ser√£o aplicados os tratamentos necess√°rios remanescentes, a saber:
>

*   **Tratamento 1**: Transforma√ß√£o do tipo das colunas **Idade** e **Tempo de casa (vide item 2.1) a) ‚òùÔ∏è para informa√ß√£o complementar)**

*   **Tratamento 2**: Transforma√ß√£o do tipo 'replace' para padronizar valor 'gerente' (primeira letra em min√∫sculo) para 'Gerente' (primeira letra em mai√∫sculo **(vide item 4.1) d) ‚òùÔ∏è para informa√ß√£o complementar)**



###**Tratamento 1:** Transforma√ß√£o do tipo das colunas **Idade** e **Tempo de casa** para 'int64'

In [None]:
df.info()

In [None]:
df['Idade'] = df['Idade'].astype(int)
df['Tempo de casa'] = df['Tempo de casa'].astype(int)

In [None]:
df.info()

###**Tratamento 2:** Transforma√ß√£o do tipo 'replace' para padronizar valor 'gerente' (primeira letra em min√∫sculo) para 'Gerente' (primeira letra em mai√∫sculo) na coluna **Senioridade**

In [None]:
df['Senioridade'] = df['Senioridade'].replace('gerente', 'Gerente')

In [None]:
df.info()

##**4. An√°lise Explorat√≥ria dos Dados**

###**G√™nero**
Observando os dados sob a perspectiva de g√™nero para analisar equidade, igualdade e inclus√£o.

####**Distribui√ß√£o de G√™nero - Geral**

In [None]:
import plotly.graph_objects as go

# Contagem por g√™nero
counts_gender = df['Genero'].value_counts()
fig_gender = go.Figure()
fig_gender.add_trace(go.Bar(x=counts_gender.index, y=counts_gender.values, marker=dict(color=['blue', 'pink'])))

# Adicionar os valores de cada barra em cima delas
for i, count in enumerate(counts_gender.values):
    fig_gender.add_annotation(x=counts_gender.index[i], y=count, text=str(count), showarrow=False, font=dict(color='black', size=12), xshift=0, yshift=5)

fig_gender.update_layout(title='Distribui√ß√£o por G√™nero')

# Exibir o gr√°fico de distribui√ß√£o de g√™nero
fig_gender.show()

####**Distribui√ß√£o de G√™nero por Forma√ß√£o**

In [None]:
import plotly.graph_objects as go
import math

# Distribui√ß√£o por Forma√ß√£o
fig_education = go.Figure()

# Calculando as contagens de forma√ß√£o para cada g√™nero
female_education_counts = df[df['Genero'] == 'Fem']['Forma√ß√£o'].value_counts()
male_education_counts = df[df['Genero'] == 'Masc']['Forma√ß√£o'].value_counts()

# Obtendo o maior valor ap√≥s o valor m√°ximo observado na contagem de forma√ß√£o
max_value = max(female_education_counts.max(), male_education_counts.max())
max_y = math.ceil(max_value / 500) * 500

# Adicionando os histogramas de distribui√ß√£o por forma√ß√£o para os g√™neros Feminino e Masculino
fig_education.add_trace(go.Bar(x=female_education_counts.index, y=female_education_counts, name='Fem', marker=dict(color='pink'), text=female_education_counts, textposition='auto'))
fig_education.add_trace(go.Bar(x=male_education_counts.index, y=male_education_counts, name='Masc', marker=dict(color='blue'), text=male_education_counts, textposition='auto'))

# Atualizando o layout para mostrar as barras lado a lado e ajustar o eixo y
fig_education.update_layout(title='Distribui√ß√£o por Forma√ß√£o', barmode='group', xaxis_title='Forma√ß√£o', yaxis_title='Contagem', yaxis=dict(range=[0, max_y], dtick=500))

# Exibindo o gr√°fico
fig_education.show()

####**Distribui√ß√£o de G√™nero por Tempo de casa - agrupado por faixas de per√≠odos**

In [None]:
import pandas as pd
import plotly.graph_objects as go

# Definindo os limites dos grupos de tempo de casa
grupos_tempo_de_casa = [
    ('At√© 2 anos', 2),
    ('3-5 anos', 5),
    ('6-10 anos', 10),
    ('11-15 anos', 15),
    ('16-20 anos', 20),
    ('21-25 anos', 25),
    ('26-30 anos', 30),
    ('31-35 anos', 35),
    ('Mais de 36 anos', float('inf'))
]

# Ordenando os grupos de tempo de casa em ordem crescente
grupos_tempo_de_casa = sorted(grupos_tempo_de_casa, key=lambda x: x[1])

# Criando uma fun√ß√£o para categorizar o tempo de casa em grupos
def categorizar_tempo_de_casa(tempo):
    for nome_grupo, limite_superior in grupos_tempo_de_casa:
        if tempo <= limite_superior:
            return nome_grupo

# Aplicando a fun√ß√£o para criar uma nova coluna 'Grupo de Tempo de Casa'
df['Grupo de Tempo de Casa'] = df['Tempo de casa'].apply(categorizar_tempo_de_casa)

# Criando uma s√©rie pandas com todos os grupos
todos_grupos = pd.Series([grupo[0] for grupo in grupos_tempo_de_casa])

# Calculando as contagens de tempo de casa para cada g√™nero
female_tempo_counts = df[df['Genero'] == 'Fem']['Grupo de Tempo de Casa'].value_counts()
male_tempo_counts = df[df['Genero'] == 'Masc']['Grupo de Tempo de Casa'].value_counts()

# Mesclando com a s√©rie de todos os grupos e preenchendo os valores ausentes com 0
female_tempo_counts = female_tempo_counts.reindex(todos_grupos, fill_value=0)
male_tempo_counts = male_tempo_counts.reindex(todos_grupos, fill_value=0)

# Criando o gr√°fico de barras
fig_tempo_casa = go.Figure()

# Adicionando os histogramas de distribui√ß√£o por tempo de casa para os g√™neros Feminino e Masculino
fig_tempo_casa.add_trace(go.Bar(x=female_tempo_counts.index, y=female_tempo_counts, name='Fem', marker=dict(color='pink'), text=female_tempo_counts, textposition='auto'))
fig_tempo_casa.add_trace(go.Bar(x=male_tempo_counts.index, y=male_tempo_counts, name='Masc', marker=dict(color='blue'), text=male_tempo_counts, textposition='auto'))

# Atualizando o layout do gr√°fico
fig_tempo_casa.update_layout(title='Distribui√ß√£o por Tempo de Casa', barmode='group', xaxis_title='Grupo de Tempo de Casa', yaxis_title='Contagem', yaxis=dict(range=[0, 4500], dtick=500), xaxis=dict(categoryorder='array', categoryarray=[grupo[0] for grupo in grupos_tempo_de_casa]))

# Exibindo o gr√°fico
fig_tempo_casa.show()

####**Distribui√ß√£o de G√™nero por Departamento - Op√ß√£o A**

In [None]:
import math
import plotly.graph_objects as go

# Distribui√ß√£o por Departamento
fig_department = go.Figure()

# Calculando as contagens de departamento para cada g√™nero
female_department_counts = df[df['Genero'] == 'Fem']['Departamento'].value_counts()
male_department_counts = df[df['Genero'] == 'Masc']['Departamento'].value_counts()

# Obtendo o maior valor ap√≥s o valor m√°ximo observado na coluna 'Departamento'
max_value = max(female_department_counts.max(), male_department_counts.max())
max_y = math.ceil(max_value / 500) * 500

# Adicionando os histogramas de distribui√ß√£o por departamento para os g√™neros Feminino e Masculino
fig_department.add_trace(go.Bar(x=female_department_counts.index, y=female_department_counts, name='Fem', marker=dict(color='pink'), text=female_department_counts, textposition='auto'))
fig_department.add_trace(go.Bar(x=male_department_counts.index, y=male_department_counts, name='Masc', marker=dict(color='blue'), text=male_department_counts, textposition='auto'))

# Atualizando o layout para mostrar as barras lado a lado e ajustar o eixo y
fig_department.update_layout(title='Distribui√ß√£o por Departamento', barmode='group', xaxis_title='Departamento', yaxis_title='Contagem', yaxis=dict(range=[0, max_y], dtick=500))

# Exibindo o gr√°fico
fig_department.show()

####**Distribui√ß√£o de G√™nero por Departamento - Op√ß√£o B**

In [None]:
import plotly.express as px

# Agrupando o DataFrame pela combina√ß√£o de G√™nero e Departamento e somando o total
df_aggregated = df.groupby(['Genero', 'Departamento']).size().reset_index(name='Total')

# Calculando o total de cada g√™nero
df_total = df_aggregated.groupby('Genero')['Total'].sum().reset_index()

# Ordenando o DataFrame em ordem decrescente pelo total de cada g√™nero
df_total_sorted = df_total.sort_values(by='Total', ascending=False)

# Criando o gr√°fico de barras empilhadas 100%
fig_department = px.bar(df_aggregated, x='Departamento', y='Total', color='Genero',
             title='Distribui√ß√£o por Departamento e G√™nero',
             labels={'Total': 'Total'},
             width=1000, height=600,
             category_orders={'Genero': df_total_sorted['Genero'].unique()},
             barmode='stack', # Definindo o modo de empilhamento
             color_discrete_map={'Fem': 'pink', 'Masc': 'blue'})  # Definindo as cores

# Adicionando os valores nas barras com 2 casas decimais
for trace in fig_department.data:
    trace.text = trace.y.round(2)  # Define o texto para os valores do eixo y com 2 casas decimais

# Adicionando o total de cada barra no topo das barras
for department in df_aggregated['Departamento'].unique():
    total_value = df_aggregated[df_aggregated['Departamento'] == department]['Total'].sum()
    fig_department.add_annotation(
        x=department,
        y=total_value,
        text=f'Total: {total_value}',  # Adiciona o total da barra
        showarrow=False,
        font=dict(size=10),
        xshift=0,
        yshift=10,
    )

# Exibindo o gr√°fico
fig_department.show()

####**Distribui√ß√£o de G√™nero por Departamento e Senioridade - Op√ß√£o A**

In [None]:
import math
import plotly.graph_objects as go
import plotly.express as px

# Obtendo a lista de todos os departamentos presentes nos dados
all_departments = df['Departamento'].unique()

# Definindo a ordem das senioridades
seniority_order = ['Estagi√°rio', 'Analista J√∫nior', 'Analista Pleno', 'Analista S√™nior', 'Gerente', 'Diretor']

# Calculando as contagens de departamento e senioridade para o g√™nero Feminino e Masculino
female_department_seniority_counts = df[df['Genero'] == 'Fem'].groupby(['Departamento', 'Senioridade']).size().unstack(fill_value=0)
female_department_seniority_counts = female_department_seniority_counts.reindex(columns=seniority_order, fill_value=0)
male_department_seniority_counts = df[df['Genero'] == 'Masc'].groupby(['Departamento', 'Senioridade']).size().unstack(fill_value=0)
male_department_seniority_counts = male_department_seniority_counts.reindex(columns=seniority_order, fill_value=0)

# Obtendo o maior valor ap√≥s o valor m√°ximo observado nas contagens para o n√≠vel de senioridade "Estagi√°rio"
max_value_female = female_department_seniority_counts.max().max()
max_value_male = male_department_seniority_counts.max().max()
max_y = math.ceil(max(max_value_female, max_value_male) / 50) * 50

# Criando uma paleta de cores para os departamentos
department_colors = px.colors.qualitative.Set3[:len(all_departments)]

# Criando o gr√°fico para cada n√≠vel de senioridade
fig_department_seniority_female = go.Figure()
fig_department_seniority_male = go.Figure()

# Adicionando os histogramas de distribui√ß√£o por departamento e senioridade para o g√™nero Feminino
for department, color in zip(all_departments, department_colors):
    fig_department_seniority_female.add_trace(go.Bar(x=seniority_order, y=female_department_seniority_counts.loc[department], name=f'Fem - {department}', marker=dict(color=color)))

# Adicionando os histogramas de distribui√ß√£o por departamento e senioridade para o g√™nero Masculino
for department, color in zip(all_departments, department_colors):
    fig_department_seniority_male.add_trace(go.Bar(x=seniority_order, y=male_department_seniority_counts.loc[department], name=f'Masc - {department}', marker=dict(color=color)))

# Atualizando o layout para mostrar as barras lado a lado e ajustar o eixo y
fig_department_seniority_female.update_layout(title='Distribui√ß√£o por Departamento e Senioridade - Fem', xaxis_title='Senioridade', yaxis_title='Contagem', yaxis=dict(range=[0, max_y], dtick=50))
fig_department_seniority_male.update_layout(title='Distribui√ß√£o por Departamento e Senioridade - Masc', xaxis_title='Senioridade', yaxis_title='Contagem', yaxis=dict(range=[0, max_y], dtick=50))

# Exibindo os gr√°ficos
fig_department_seniority_female.show()
fig_department_seniority_male.show()

####**Distribui√ß√£o de G√™nero por Departamento e Senioridade - Op√ß√£o B**

In [None]:
import math
import plotly.graph_objects as go

# Definindo a ordem das senioridades
seniority_order = ['Estagi√°rio', 'Analista J√∫nior', 'Analista Pleno', 'Analista S√™nior', 'Gerente', 'Diretor']

# Calculando as contagens de departamento e senioridade para o g√™nero Feminino
female_department_seniority_counts = df[df['Genero'] == 'Fem'].groupby(['Departamento', 'Senioridade']).size().unstack(fill_value=0)
female_department_seniority_counts = female_department_seniority_counts.reindex(columns=seniority_order, fill_value=0)

# Calculando as contagens de departamento e senioridade para o g√™nero Masculino
male_department_seniority_counts = df[df['Genero'] == 'Masc'].groupby(['Departamento', 'Senioridade']).size().unstack(fill_value=0)
male_department_seniority_counts = male_department_seniority_counts.reindex(columns=seniority_order, fill_value=0)

# Obtendo o maior valor ap√≥s o valor m√°ximo observado nas contagens para o n√≠vel de senioridade "Estagi√°rio"
max_value = max(female_department_seniority_counts.max().max(), male_department_seniority_counts.max().max())
max_y = math.ceil(max_value / 50) * 50

# Criando o gr√°fico para os n√≠veis de senioridade
fig_department_seniority = go.Figure()

# Adicionando os histogramas de distribui√ß√£o por departamento e senioridade para o g√™nero Feminino
for department in df['Departamento'].unique():
    fig_department_seniority.add_trace(go.Bar(x=seniority_order, y=female_department_seniority_counts.loc[department], name=f'Fem - {department}', marker=dict(color='pink'), text=female_department_seniority_counts.loc[department], textposition='auto'))

# Adicionando os histogramas de distribui√ß√£o por departamento e senioridade para o g√™nero Masculino
for department in df['Departamento'].unique():
    fig_department_seniority.add_trace(go.Bar(x=seniority_order, y=male_department_seniority_counts.loc[department], name=f'Masc - {department}', marker=dict(color='blue'), text=male_department_seniority_counts.loc[department], textposition='auto'))

# Atualizando o layout para mostrar as barras lado a lado e ajustar o eixo y
fig_department_seniority.update_layout(title='Distribui√ß√£o por G√™nero, Departamento e Senioridade', xaxis_title='Senioridade', yaxis_title='Contagem', yaxis=dict(range=[0, max_y], dtick=50), barmode='group')

# Exibindo o gr√°fico
fig_department_seniority.show()

####**Distribui√ß√£o de G√™nero por Departamento e Senioridade - Op√ß√£o C**

In [None]:
import plotly.express as px

# Agrupando os dados
df_defects = df.groupby(['Senioridade', 'Departamento', 'Genero']).size().reset_index(name='Count')

# Criando o gr√°fico de treemap
fig_treemap = px.treemap(df_defects, path=['Senioridade', 'Departamento', 'Genero'], values='Count',
                 title='Distribui√ß√£o por Senioridade, Departamento e G√™nero - Treemap',
                 labels={'Count': 'Contagem', 'Senioridade': 'Senioridade', 'Departamento': 'Departamento', 'Genero': 'G√™nero'},
                 width=1200, height=800)

# Adicionando r√≥tulos de quantidade nos blocos
fig_treemap.update_traces(textinfo='label+value')

# Exibindo o gr√°fico
fig_treemap.show()

###**Painel Interativo (üöß em constru√ß√£o)**

In [None]:
import pandas as pd
import plotly.graph_objects as go
import dash
from dash import dcc, html
from dash.dependencies import Input, Output


# Definindo os intervalos de idade
intervalos_idade = [(0, 13), (14, 18), (19, 24), (25, 34), (35, 44), (45, 54), (55, 64), (65, 74), (75, 84), (85, float('inf'))]
labels = ['Menos de 14', '14-18', '19-24', '25-34', '35-44', '45-54', '55-64', '65-74', '75-84', '85 ou mais']

# Fun√ß√£o para contar o n√∫mero de ocorr√™ncias de cada intervalo de idade para uma determinada ra√ßa, g√™nero, forma√ß√£o, tempo de casa e departamento
def contar_ocorrencias_por_intervalo(df, raca, genero, formacao, tempo_de_casa, departamento):
    ocorrencias = []
    for intervalo in intervalos_idade:
        filtro = ((df['Ra√ßa'] == raca) & (df['Genero'] == genero) & (df['Forma√ß√£o'] == formacao) & (df['Tempo de casa'] == tempo_de_casa) & (df['Departamento'] == departamento) & (df['Idade'] >= intervalo[0]) & (df['Idade'] <= intervalo[1]))
        ocorrencias.append(filtro.sum())
    return ocorrencias

# Obtendo os valores √∫nicos das colunas 'Ra√ßa', 'G√™nero', 'Forma√ß√£o', 'Tempo de Casa' e 'Departamento'
racas = df['Ra√ßa'].unique()
generos = df['Genero'].unique()
formacoes = df['Forma√ß√£o'].unique()
tempos_de_casa = df['Tempo de casa'].unique()
departamentos = df['Departamento'].unique()

# Criando a aplica√ß√£o Dash
app = dash.Dash(__name__)

# Layout da aplica√ß√£o
app.layout = html.Div([
    html.Label('G√™nero:'),
    dcc.Dropdown(
        id='genero-dropdown',
        options=[{'label': genero, 'value': genero} for genero in generos],
        value=generos[0]
    ),
    html.Label('Ra√ßa:'),
    dcc.Dropdown(
        id='raca-dropdown',
        options=[{'label': raca, 'value': raca} for raca in racas],
        value=racas[0]
    ),
    html.Label('Forma√ß√£o:'),
    dcc.Dropdown(
        id='formacao-dropdown',
        options=[{'label': formacao, 'value': formacao} for formacao in formacoes],
        value=formacoes[0]
    ),
    html.Label('Tempo de Casa:'),
    dcc.Dropdown(
        id='tempo-de-casa-dropdown',
        options=[{'label': tempo, 'value': tempo} for tempo in tempos_de_casa],
        value=tempos_de_casa[0]
    ),
    html.Label('Departamento:'),
    dcc.Dropdown(
        id='departamento-dropdown',
        options=[{'label': departamento, 'value': departamento} for departamento in departamentos],
        value=departamentos[0]
    ),
    dcc.Graph(id='idade-por-filtros')
])

# Callback para atualizar o gr√°fico com base nos filtros selecionados
@app.callback(
    Output('idade-por-filtros', 'figure'),
    [Input('genero-dropdown', 'value'),
     Input('raca-dropdown', 'value'),
     Input('formacao-dropdown', 'value'),
     Input('tempo-de-casa-dropdown', 'value'),
     Input('departamento-dropdown', 'value')]
)
def update_graph(genero_selecionado, raca_selecionada, formacao_selecionada, tempo_de_casa_selecionado, departamento_selecionado):
    # Contagem de ocorr√™ncias por intervalo de idade para a ra√ßa, g√™nero, forma√ß√£o, tempo de casa e departamento selecionados
    ocorrencias = contar_ocorrencias_por_intervalo(df, raca_selecionada, genero_selecionado, formacao_selecionada, tempo_de_casa_selecionado, departamento_selecionado)

    # Criando o gr√°fico de barras
    fig = go.Figure()

    # Adicionando as barras do g√™nero selecionado
    fig.add_trace(go.Bar(x=labels, y=ocorrencias, name=genero_selecionado, text=ocorrencias, textposition='outside'))

    # Definindo o layout
    fig.update_layout(
        title='Distribui√ß√£o de Idade por Filtros',
        xaxis_title='Faixa de Idade',
        yaxis_title='Contagem',
        barmode='group',
        legend_title='G√™nero'
    )

    return fig

# Executando a aplica√ß√£o
if __name__ == '__main__':
    app.run_server(debug=True)