# UNIDADE 2: Tratamento dos dados

2.1. Análise exploratória de dados (EDA)</br>
2.2. Limpeza de dados</br>
2.3. Transformação de dados</br>
2.3.1. Divisão dos dados</br>
2.3.2. Balanceamento</br>
2.3.3. Escalonamento</br>
2.3.4. Codificação e criação de features</br>
2.4. Redução de dimensionalidade</br>


# Classificação Binária

A classificação em uma de duas classes é um problema comum em aprendizado de máquina. Você pode querer prever se um cliente provavelmente fará uma compra ou não, se uma transação de cartão de crédito foi fraudulenta ou não. Todos esses são problemas de <span style="color:red">classificação binária por terem apenas duas possibilidades de resposta</span>.

Nos seus dados brutos, as classes podem ser representadas por strings como "Sim" e "Não". <span style="color:red">Antes de usar esses dados, atribuiremos um rótulo de classe: uma classe será 0 e a outra será 1</span>.

<div style="border: 2px solid #00008B; padding: 15px; border-radius: 10px; background-color: #00008B; color: #FFFFFF; font-family: Arial;">
  <h1 style="margin-top: 0;">Planejamento de Sucessão</h1>
  <p>Descrição: Identificar funcionários com potencial para ocupar cargos de liderança no futuro e planejar a sucessão de cargos críticos</p>
  <p>Dados sintéticos produzidos pelo ChatGPT, baseado no projeto Google Oxygen: Como a Google usou dados para ver se os gerentes fazem diferença?</p>

</div>


- https://www.linkedin.com/pulse/project-oxygen-8-conselhos-do-google-para-o-gerente-david/</br>
- https://www.feedz.com.br/blog/projeto-oxigenio-do-google</br>



<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
  <ul>
    <li>Idade do funcionário (valores inteiros  de 18 a 75)</li>
    <li>Nível de educação (valores Superior, Médio, Doutorado, Especialização)</li>
    <li>Avaliação de desempenho (valores inteiros  entre 0 e 5)</li>
    <li>Experiência em cargos de liderança(valores 0 ou 1)</li>
    <li>Habilidades e competências (valores inteiros entre 0 a 10)</li>
    <li>Participação em treinamentos de liderança (valores S ou N)</li>
    <li>Feedback de supervisores (valores reais enter 0.0 e 1.0)</li>
    <li>Satisfação no trabalho (valores inteiros entre 0 e 5)</li>
    <li>É um bom coach (valores S ou N)</li>
    <li>Empodera a equipe e não faz microgestão (valores S ou N)</li> 
    <li>Exprime interesse e preocupação pelo sucesso e bem-estar pessoal dos membros da equipe (valores S ou N)</li>
    <li>É produtivo e orientado para os resultados (valores S ou N)</li>
    <li>É bom comunicador - escuta e compartilha informações (valores S ou N)</li>
    <li>Ajuda com desenvolvimento de carreira (valores S ou N)</li>
    <li>Tem uma visão clara e estratégia para a equipe (valores S ou N)</li>
    <li>Possui habilidades técnicas fundamentais que o ajudam a aconselhar a equipe (valores S ou N)</li>
    <li><b>Lider (valores S ou N)</b></li>
  </ul>
</div>


<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
  <h3>Fluxo no Pipeline</h3>
  <ul>
    <li><b>Ingestão de Dados</b>: Coleta e armazenamento de dados brutos.</li>
    <li><b><span style="color:red">Análise Exploratória</b>: Utilização dos dados para EDA.</span></li>
    <li><b>Pré-processamento</b>: Limpeza e transformação dos dados.</li>
    <li><b>Normalização e Engenharia de Features</b>: Criação de datasets normalizados e finalizados para treinamento.</li>
    <li><b>Treinamento de Modelos</b>: Utilização dos dados de treinamento e validação para treinar e validar modelos.</li>
    <li><b>Implantação de Modelos</b>: Armazenamento dos modelos treinados em um Model Registry.</li>
    <li><b>Inferência</b>: Utilização de dados de inferência para obter predições dos modelos em produção.</li>
  </ul>

Considerações de MLOps

  <ul>
    <li><b>Versionamento</b>: Versionar tanto os dados quanto os modelos para garantir a reprodutibilidade.</li>
    <li><b>Monitoramento</b>: Implementar monitoramento contínuo dos modelos em produção para detectar drifts de desempenho.</li>
    <li><b>Automatização</b>: Automatizar o pipeline de dados e modelos utilizando ferramentas de CI/CD.</li>
    <li><b>Segurança</b>: Garantir a segurança e conformidade dos dados, especialmente se envolver dados sensíveis.</li>
  </ul>

</div>



<img src="../imagens/pipeline.png" width="500" height="200" />

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
#!pip install ydata-profiling

In [None]:
#Se estiver no Windows usando o Anaconda Navidator e tiver problemas na instalação tente ir ao terminal do Anaconda Navigator e executar
#!pip uninstall numba visions ydata_profiling joblib 

#conda update conda
#conda update charset-normalizer jsonpatch packaging
#conda install -c conda-forge ydata-profiling

In [None]:
#!pip install sweetviz

In [None]:
#Se tiver probelmas na instalação tente ir ao terminal do Anaconda Navigator e executar
#!pip uninstall markupsafe jinja2

#!pip install jinja2==3.0.3
#!pip install markupsafe==2.0.1
#!pip install sweetviz

In [None]:
import pandas as pd
import numpy as np

pd.set_option('display.float_format', '{:.5f}'.format)
np.random.seed(0)

from sklearn import preprocessing
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

import joblib

from tqdm import tqdm
tqdm.pandas()

import seaborn as sns

import matplotlib.cm as cm
import matplotlib.pyplot as plt
%matplotlib inline

import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots

# Ingestão de Dados

In [None]:
df_servidor = pd.read_csv("../data/raw/planejamento_sucessao.csv", sep=";")

In [None]:
df_servidor.head(5)

# Análise Exploratória dos Dados (EDA)

A Análise Exploratória dos Dados (EDA, do inglês Exploratory Data Analysis) é um processo que visa <b>entender e resumir as principais características de um conjunto de dados</b>. A EDA utiliza uma combinação de <b>estatísticas descritivas, gráficos e outras ferramentas visuais</b> para identificar padrões, detectar anomalias, testar hipóteses e verificar pressupostos. O <b>objetivo principal da EDA é obter insights sobre os dados, guiar a seleção de modelos</b> e informar decisões subsequentes em projetos de análise de dados.

<img src="../imagens/eda.png" width="500" height="200" />

https://www.dataimd.com/scripts/explorando-os-segredos-dos-dados-uma-jornada-de-descobertas-atrav-s-da-an-lise-explorat-ria/

<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
<h3>Poderíamos fazer algumas perguntas: </h3>
    
1. * Qual a **dimensão** da base de dados?
2. * Como está a **distribuição** dos dados?
3. Qual o nível de experiência em cargos de liderança da maioria dos profissionais?
4. * Quais os **valores únicos** de cada variável?
5. * Existem **valores ausentes** nas features?
6. * Os dados estão **balanceamento** nas classes?
7. Quais são os principais níveis educacionais?
8. Existe alguma relação entre o nível de educação e o feedback dos supervisores?
9. Existe relação entre Nivel Educacao,Treinamento Lideranca e Avaliacao Desempenho
10. * Existem campos com **outliers**?
 
    
</div>

<div style="background-color: #f0f8cc; padding: 20px; border-radius: 10px;">
<h3>Qual a dimensão da base de dados? </h3> 
    
Saber quantas linhas e colunas estão presentes ajuda a **entender a escala do trabalho**. Isso é essencial para planejar a análise e **definir a abordagem metodológica**.
</div>


In [None]:
# Quantidade de linhas e colunas
df_servidor.shape

In [None]:
# Tipo de dados
df_servidor.info()

<div style="background-color: #f0f8cc; padding: 20px; border-radius: 10px;">
<h3>Como está a distribuição dos dados?</h3>
    
A distribuição dos dados revela padrões importantes, como a frequência de valores, a presença de picos, vales, e assimetrias. Permite **identificar medidas** de tendência central (média, mediana, moda) e como os dados estão espalhados em torno dessas medidas. **Anomalias ou valores extremos** podem ser facilmente identificados ao analisar a distribuição, ajudando a entender se esses valores são erros ou observações significativas. Análises de distribuição ajudam a **identificar possíveis problemas com os dados**, como valores faltantes ou registros incorretos.
</div>

In [None]:
# Estatísticas descritivas básicas para dados numéricos
df_servidor['Idade'].describe()

In [None]:
# Estatísticas descritivas básicas para dados numéricos: todas as colunas
df_servidor.describe()

In [None]:
# Estatísticas descritivas básicas para dados categóricos
df_servidor.describe(include=['O'])

In [None]:
# Estatísticas descritivas básicas para todos os tipos de dados
df_servidor.describe(include='all')

In [None]:
#Transpõe o DataFrame resultante: troca linhas por colunas
df_servidor.describe().T

<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
<h3>Qual o nível de experiência em cargos de liderança da maioria dos profissionais?</h3>
    
**Contar o número total de observações** (linhas) e variáveis (colunas) fornece uma visão geral da dimensão do conjunto de dados. Contar as frequências de categorias em variáveis categóricas ajuda a **entender a distribuição e a prevalência de diferentes categorias**.

</div>

*  **value_counts()**: contar a frequência de valores únicos em uma série ou coluna de um DataFrame

In [None]:
counts = df_servidor['Experiencia_cargos_lideranca'].value_counts()
counts

In [None]:
plt.figure(figsize=(5, 5))
ax = counts.plot(kind='bar')
plt.xlabel('Nível de experiência')
plt.ylabel('Frequência Absoluta')
plt.title('Nível de Experiência em Cargos de Liderança da Maioria dos Profissionais')
plt.show()

<div style="background-color: #f0f8cc; padding: 20px; border-radius: 10px;">
<h3>Quais os valores únicos de cada variável?</h3>
    
    
Verificar os valores únicos das variáveis categóricas ajuda a <b>entender melhor os dados</b>. Isso permite identificar todas as categorias presentes em uma variável e verificar se elas fazem sentido no contexto do problema. 
    
Ao verificar os valores únicos, é possível <b>identificar erros e inconsistências nos dados</b>. Por exemplo, uma variável categórica que deveria ter apenas valores como 'Sim' e 'Não' pode conter erros tipográficos como 'sim', 'SIM', 'nao', 'Nao', etc. Corrigir esses erros é crucial para garantir a qualidade dos dados.
</div>

*  **unique()**: retornar os valores únicos presentes em uma série ou coluna de um DataFrame

In [None]:
df_servidor["Nivel_educacao"].unique()

In [None]:
df_servidor["Treinamento_lideranca"].unique()

In [None]:
df_servidor["Lider"].unique()

In [None]:
df_servidor["Coach"].unique()

In [None]:
df_servidor["Empodera"].unique()

In [None]:
df_servidor["Sucesso_membros"].unique()

In [None]:
df_servidor["Orientado_resultados"].unique()

In [None]:
df_servidor["Comunicador"].unique()

In [None]:
df_servidor["Desenvolvimento_carreira"].unique()

In [None]:
df_servidor["Estrategia_equipe"].unique()

In [None]:
df_servidor["Habilidades_tecnicas"].unique()

*  **select_dtypes()**: Éselecionar colunas de um DataFrame com base em seus tipos de dados

In [None]:
df_servidor.select_dtypes(include=['object'])

*  **columns**:  obter os nomes das colunas do Dataframe

In [None]:
df_servidor.select_dtypes(include=['object']).columns

In [None]:
# Mostrando as contagens de cada categoria
[print(f'\n{df_servidor[col].value_counts()}\n') for col in df_servidor.select_dtypes(include=['object']).columns]

<div style="background-color: #f0f8cc; padding: 20px; border-radius: 10px;">
<h3>Existem valores ausentes nas features?</h3>
<p>Valores ausentes podem <b>levar a análises incorretas ou incompletas</b>. Identificar e tratar esses valores garante que os dados utilizados para treinamento e teste sejam consistentes e completos.</p>

<p><b>Muitos algoritmos de aprendizado de máquina não conseguem lidar diretamente com valores ausentes</b>, resultando em erros ou desempenho subótimo. Por exemplo, algoritmos como regressão linear ou SVM requerem que todas as entradas sejam completas. </p>

<p>Uma outra coisa, valores ausentes <b>podem introduzir bias nos resultados do modelo</b>b> se não forem tratados adequadamente. Por exemplo, se os valores ausentes não são aleatórios e estão concentrados em uma classe ou grupo específico, isso pode distorcer os resultados e a precisão do modelo.</p>
</div>

*  **isna()**: retorna um DataFrame ou Série, onde cada elemento é um valor booleano indicando se o elemento correspondente é um valor ausente (NaN) ou não.

* **sum()**: aplicado a um DataFrame ou Série de valores booleanos, o método sum() conta o número de valores True 

In [None]:
df_servidor.isna().sum()

<div style="background-color: #f0f8cc; padding: 20px; border-radius: 10px;">
<h3>Os dados estão balanceamento nas classes?</h3>
    
A plotagem de contagem dos alvos indica um <b>desequilíbrio nos dados</b>. Este é um caso que tende a fornecer uma <b>precisão de classificação enganosa</b>. Se uma categoria é muito mais frequente do que outras, pode ser necessário aplicar técnicas de balanceamento, como oversampling, undersampling ou a geração de novos exemplos sintéticos para equilibrar a distribuição das classes.
</div>

In [None]:
count = df_servidor["Nivel_educacao"].value_counts()

In [None]:
# Usano o matplotlib: https://matplotlib.org/

plt.figure(figsize=(6, 3))
ax = count.plot(kind='bar', color='skyblue', edgecolor='black')
plt.title('Distribuição do Nível de Educação')
plt.xlabel('Nível de Educação')
plt.ylabel('Contagem')
plt.xticks(rotation=45) 
plt.show()

In [None]:
count = df_servidor["Treinamento_lideranca"].value_counts()
count

*  **reset_index()**: reseta o índice da Série resultante de value_counts(), transformando-a em um DataFrame

In [None]:
count = df_servidor["Treinamento_lideranca"].value_counts().reset_index()
count

In [None]:
count.columns = ['Treinamento_lideranca', 'Contagem']
count.columns

In [None]:
count

In [None]:
# Usando o Seaborn:  https://seaborn.pydata.org/

plt.figure(figsize=(6, 3))
sns.barplot(data=count, x='Treinamento_lideranca', y='Contagem', palette='viridis')
plt.title('Distribuição do Treinamento de liderança')
plt.xlabel('Treinamento liderança')
plt.ylabel('Contagem')
plt.xticks(rotation=45) 
plt.show()

In [None]:
count = df_servidor["Lider"].value_counts().reset_index()
count.columns = ['Lider', 'Contagem']


# Usando o Plotly:  https://plotly.com/
fig = px.bar(count, x='Lider', y='Contagem', 
             title='Distribuição da Liderança', 
             labels={'Lider':'Lider', 'Contagem':'Contagem'}, 
             color='Contagem', color_continuous_scale='Viridis')
fig.update_layout(xaxis_title='Distribuição da Liderança', yaxis_title='Contagem', xaxis_tickangle=-45)
fig.show()

In [None]:
count = df_servidor["Experiencia_cargos_lideranca"].value_counts().reset_index()
count.columns = ['Experiencia_cargos_lideranca', 'Contagem']

plt.figure(figsize=(6, 3))
sns.barplot(data=count, x='Experiencia_cargos_lideranca', y='Contagem', palette='viridis')
plt.title('Distribuição Experiencia em cargos de liderança')
plt.xlabel('Experiencia em cargos de liderança')
plt.ylabel('Contagem')
plt.xticks(rotation=45) 
plt.show()

<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
<h3>Existe alguma relação entre o nível de educação e o feedback dos supervisores?</h3>
    
**Agrupar os dados** permite **identificar padrões e tendências que podem ser específicos a determinados grupos** ou categorias, proporcionando insights mais detalhados e relevantes. Permite identificar outliers que são específicos a certos grupos, que podem ser perdidos em uma análise global. Permite **criar modelos preditivos mais precisos e específicos para diferentes grupos**, melhorando a acurácia e a relevância das previsões.
</div>

*  **copy()** é utilizado para criar uma cópia completa (deep copy) do DataFrame
*  **cut()**  do pandas é usada para segmentar e classificar dados em bins (intervalos)

In [None]:
df_servidor_temp = df_servidor.copy()
df_servidor_temp['Feedback_supervisores_range'] = pd.cut(df_servidor_temp['Feedback_supervisores'], 
                                                    bins=3, 
                                                    labels=['baixo', 'médio', 'alto'])

df_servidor_temp[['Feedback_supervisores','Feedback_supervisores_range']]

*  **groupby**:  usada para dividir um DataFrame em grupos baseados em valores de uma ou mais colunas, aplicar uma função a cada grupo de forma independente e combinar os resultados em um DataFrame, Série ou outra estrutura de dados pandas. Esse processo é frequentemente descrito pelo paradigma "split-apply-combine".

Funções comuns incluem sum(), mean(), count(), min(), max(), agg(), entre outras.


In [None]:
grouped_data = df_servidor_temp.groupby(['Nivel_educacao', 'Feedback_supervisores_range']).size().reset_index(name='Qtd')
grouped_data

*  **grouped_data.groupby('Nivel_educacao')**: Agrupa grouped_data pela coluna Nivel_educacao e calcula a soma de Qtd dentro de cada grupo.

*  **transform('sum')**: Aplica a soma a cada grupo e retorna uma Série de mesmo comprimento que grouped_data, onde cada valor é a soma total de Qtd dentro do respectivo grupo Nivel_educacao.

In [None]:
total_counts  = grouped_data.groupby('Nivel_educacao')['Qtd'].transform('sum')
total_counts

In [None]:
grouped_data['Porcentagem'] = round(grouped_data['Qtd'] /total_counts, 3)
grouped_data

In [None]:
fig = px.bar(grouped_data, 
             x='Nivel_educacao', 
             y='Porcentagem', 
             color='Feedback_supervisores_range', 
             barmode='stack',
             title='Relação entre o Nível Educacional e o Feedback dos Supervisores',
             labels={'Nivel_educacao': 'Nível Educacional', 'Porcentagem': 'Porcentagem', 'Feedback_supervisores_range': 'Feedback Supervisores'})

# Mostrar o gráfico
fig.show()


<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
<h3>Existe relação entre Nivel Educacao,Treinamento Lideranca e Avaliacao Desempenho?</h3>
</div>

In [None]:
grouped = df_servidor.groupby(['Nivel_educacao','Treinamento_lideranca'])['Avaliacao_desempenho'].mean()
grouped

In [None]:
grouped = df_servidor.groupby(['Nivel_educacao','Treinamento_lideranca'])['Avaliacao_desempenho'].mean().unstack()
grouped

In [None]:
df_servidor.groupby('Experiencia_cargos_lideranca').size().sort_values(ascending = True).plot(kind = 'bar')

In [None]:
df_servidor.groupby('Idade').size().sort_values(ascending = True).plot(kind = 'bar')

<div style="background-color: #f0f8cc; padding: 20px; border-radius: 10px;">
<h3>Existem campos com outliers?</h3>
    
Outliers são pontos de dados que <b>se desviam significativamente da maioria dos outros dados em um conjunto</b>. Eles podem surgir devido a variações normais nos dados, erros de medição, erros de entrada de dados, ou eventos raros. Identificar e tratar outliers é uma parte importante do pré-processamento de dados, pois eles <b>podem influenciar negativamente os resultados de análises estatísticas e modelos</b> de aprendizado de máquina.
</div>

<div style="background-color: #f0f8cc; padding: 20px; border-radius: 10px;">
Quartis são valores que dividem um conjunto de dados em quatro partes iguais. Eles são usados para entender a distribuição dos dados, identificando onde se situam os 25%, 50% e 75% dos valores. Aqui estão os quartis principais:
</br></br>
<b>Q1 (Primeiro Quartil)</b>: Marca o ponto abaixo do qual 25% dos dados se encontram. </br>
<b>Q2 (Mediana ou Segundo Quartil)</b>: Divide os dados ao meio, onde 50% dos valores estão abaixo e 50% acima.</br>
<b>Q3 (Terceiro Quartil)</b>: Indica o ponto abaixo do qual 75% dos dados estão. </br>
</div>

https://fernandafperes.com.br/blog/interpretacao-boxplot/


*  **dropna()** remover entradas com valores ausentes (NaN)

In [None]:
df_servidor_temp = df_servidor.copy()
df_servidor_temp = df_servidor_temp.dropna(subset=['Idade'])

# Calcular Q1, Q3, Mediana e IQR
Q1 = df_servidor_temp['Idade'].quantile(0.25)
Q3 = df_servidor_temp['Idade'].quantile(0.75)
median = df_servidor_temp['Idade'].median()
IQR = Q3 - Q1

# Definir os limites inferior e superior para detectar outliers
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

fig = go.Figure()

fig.add_trace(go.Box(
    y=df_servidor_temp['Idade'],
    boxpoints='all', 
    jitter=0.3,     
    pointpos=-1.8,  
    name='Idade',
    marker=dict(color='lightseagreen'),
    line=dict(color='darkblue')
))

# Adicionar linhas verticais para Q1, Q3, Mediana e Limites
# Mediana
fig.add_trace(go.Scatter(
    x=[-0.2, 0.2], 
    y=[median, median], 
    mode='lines', 
    line=dict(color='blue', dash='solid'), 
    name='Mediana (Q2)'
))

# Q1
fig.add_trace(go.Scatter(
    x=[-0.2, 0.2], 
    y=[Q1, Q1], 
    mode='lines', 
    line=dict(color='red', dash='dash'), 
    name='Q1 (1º Quartil)'
))

# Q3
fig.add_trace(go.Scatter(
    x=[-0.2, 0.2], 
    y=[Q3, Q3], 
    mode='lines', 
    line=dict(color='green', dash='dash'), 
    name='Q3 (3º Quartil)'
))

# Limite Inferior
fig.add_trace(go.Scatter(
    x=[-0.2, 0.2], 
    y=[limite_inferior, limite_inferior], 
    mode='lines', 
    line=dict(color='cyan', dash='dot'), 
    name='Limite Inferior'
))

# Limite Superior
fig.add_trace(go.Scatter(
    x=[-0.2, 0.2], 
    y=[limite_superior, limite_superior], 
    mode='lines', 
    line=dict(color='magenta', dash='dot'), 
    name='Limite Superior'
))

fig.update_layout(
    title='Box Plot da Idade com Quartis e Limites para Outliers',
    yaxis_title='Idade',
    xaxis=dict(
        showticklabels=False  
    ),
    showlegend=True,
    height=800  
)
fig.show()


In [None]:
outliers = df_servidor_temp[(df_servidor_temp['Idade'] < limite_inferior) | (df_servidor_temp['Idade'] > limite_superior)]
outliers

In [None]:
plt.figure(figsize=(6, 3))
sns.boxplot(x=df_servidor_temp['Idade'])
plt.title('Box Plot da Idade')
plt.xlabel('Idade')
plt.show()

In [None]:
df_servidor_temp = df_servidor_temp.dropna(subset=['Habilidades_competencias'])

Q1 = df_servidor_temp['Habilidades_competencias'].quantile(0.25)
Q3 = df_servidor_temp['Habilidades_competencias'].quantile(0.75)
IQR = Q3 - Q1

# Definir os limites inferior e superior para detectar outliers
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

outliers = df_servidor_temp[(df_servidor_temp['Habilidades_competencias'] < limite_inferior) | (df_servidor_temp['Habilidades_competencias'] > limite_superior)]
outliers

In [None]:
plt.figure(figsize=(6, 3))
sns.boxplot(x=df_servidor_temp['Habilidades_competencias'])
plt.title('Box Plot da Idade')
plt.xlabel('Habilidades_competencias')
plt.show()

<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
<h3>Quais são os principais níveis educacionais?</h3>
    
**Diferentes visualizações** podem revelar **diferentes padrões nos dados** que não são imediatamente óbvios a partir de simples estatísticas descritivas.
</div>

In [None]:
count = df_servidor['Nivel_educacao'].value_counts().reset_index()
count.columns = ['Nivel_educacao', 'N']
count['Porcentagem'] = round(count['N'] / count['N'].sum(), 3)
count = count.sort_values(by='Porcentagem', ascending=False)

fig = px.treemap(count, 
                 path=['Nivel_educacao'], 
                 values='N', 
                 color='Porcentagem',
                 color_continuous_scale='Blues',
                 title='Distribuição dos Principais Níveis Educacionais',
                 labels={'Nivel_educacao': 'Nível Educação', 'N': 'Número de Observações'})
#fig.dat+a[0].textinfo = 'label+text+value'
fig.show()

<div style="background-color: #f0f8ff; padding: 20px; border-radius: 10px;">
<h3>Ferramenta de análise de dados</h3>
    
Algumas bibliotecas permitem a criação de relatórios exploratórios completos para um DataFrame do pandas. O relatório inclui informações sobre distribuição de variáveis, estatísticas descritivas, correlações, valores ausentes, entre outros.
Sweetviz  e ProfileReport são bibliotecas de EDA que gera relatórios detalhados e interativos de forma rápida.
</div>

# Relatório pandas-profiling

# Relatório sweetviz