## Team Map

Pre requisitos:
Tabela com colunas: nome do colaborador, data da avaliação de proficiência(primeira avaliação), nível na avaliação de proficiência, data da última avaliação, nível na última avaliação.

In [34]:
# Nomes dos arquivos
NOME_TABELA_INICIAL = 'TeamMap-BakerAndina.xlsx'
NOME_TABELA_TRANSFORMADA = "./Tabela_Transformada_BA.xlsx"

# Nomes das colunas
NOME_COLUNA_NOME = 'Colaborador'
NOME_COLUNA_IDIOMA = 'Curso'
NOME_COLUNA_NIVEL_AVALIACAO = 'Classificação da Última Avaliação'
NOME_COLUNA_NIVEL_PROFICIENCIA = 'Classificação da Primeira Avaliação'
NOME_COLUNA_DATA_PROFICIENCIA = 'Data da Primeira Avaliação'
NOME_COLUNA_DATA_AVALIACAO = 'Data da Última Avaliação'
NOME_COLUNA_META_FINAL = 'Meta Final'
NOME_COLUNA_STATUS = 'Status'

# Valores de filtro
NOME_STATUS_ATIVO_FILTRO = 'Subsídio ativo'

## Imports

In [2]:
!which python

/home/pessoal/Documentos/gitc/jupyter-graphs-angela/myenv/bin/python


In [3]:
#requirement.txt
!pip install pandas
!pip install openpyxl
!pip install streamlit
!pip install plotly
!pip install matplotlib



In [9]:
import pandas as pd
import plotly.graph_objects as go
import streamlit
import plotly.express as px
%matplotlib inline
import matplotlib.pyplot as plt
import plotly.io as pio
import ipywidgets as widgets
from IPython.display import display, HTML

# Table transformer
import openpyxl
import numpy as np
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import PatternFill, Alignment, Border, Side, Font

# Transformers

In [41]:
# Carregar os dados do arquivo
data = pd.read_excel(NOME_TABELA_INICIAL)

if NOME_COLUNA_NIVEL_AVALIACAO in data.columns:
    print(f"A coluna '{NOME_COLUNA_NIVEL_AVALIACAO}' não foi encontrada no arquivo Excel.")

if not NOME_COLUNA_NIVEL_PROFICIENCIA in data.columns:
    print(f"A coluna '{NOME_COLUNA_NIVEL_PROFICIENCIA}' não foi encontrada no arquivo Excel.")
if not NOME_COLUNA_STATUS in data.columns:
    print(f"A coluna '{NOME_COLUNA_STATUS}' não foi encontrada no arquivo Excel.")
if not NOME_COLUNA_NOME in data.columns:
    print(f"A coluna '{NOME_COLUNA_NOME}' não foi encontrada no arquivo Excel.")
if not NOME_COLUNA_IDIOMA in data.columns:
    print(f"A coluna '{NOME_COLUNA_IDIOMA}' não foi encontrada no arquivo Excel.")
if not NOME_COLUNA_DATA_PROFICIENCIA in data.columns:
    print(f"A coluna '{NOME_COLUNA_DATA_PROFICIENCIA}' não foi encontrada no arquivo Excel.")
if not NOME_COLUNA_DATA_AVALIACAO in data.columns:
    print(f"A coluna '{NOME_COLUNA_DATA_AVALIACAO}' não foi encontrada no arquivo Excel.")
if not NOME_COLUNA_META_FINAL in data.columns:
    print(f"A coluna '{NOME_COLUNA_META_FINAL}' não foi encontrada no arquivo Excel.")


# Verificar e substituir 'Ground zero' por 'Marco zero' nas colunas de classificações
if NOME_COLUNA_NIVEL_AVALIACAO in data.columns:
    data[NOME_COLUNA_NIVEL_AVALIACAO] = data[NOME_COLUNA_NIVEL_AVALIACAO].replace('Ground zero', 'Marco zero')
    data[NOME_COLUNA_NIVEL_AVALIACAO] = data[NOME_COLUNA_NIVEL_AVALIACAO].replace('Marco cero', 'Marco zero')
if NOME_COLUNA_NIVEL_PROFICIENCIA in data.columns:
    data[NOME_COLUNA_NIVEL_PROFICIENCIA] = data[NOME_COLUNA_NIVEL_PROFICIENCIA].replace('Ground zero', 'Marco zero')
    data[NOME_COLUNA_NIVEL_PROFICIENCIA] = data[NOME_COLUNA_NIVEL_PROFICIENCIA].replace('Marco cero', 'Marco zero')

# Verificar se a coluna 'Status' existe antes de filtrar
if NOME_COLUNA_STATUS in data.columns:
    data.rename(columns=lambda x: x.strip(), inplace=True)  # Remover espaços dos nomes das colunas
    if NOME_COLUNA_STATUS in data.columns:
        # Filtrar apenas os usuários com 'Subsídio ativo'
        data = data[data[NOME_COLUNA_STATUS] == NOME_STATUS_ATIVO_FILTRO]
    else:
        print(f"2. A coluna '{NOME_COLUNA_STATUS}' não foi encontrada no arquivo Excel. Continuando sem filtrar por '{NOME_STATUS_ATIVO_FILTRO}'.")
else:
    print(f"1. A coluna '{NOME_COLUNA_STATUS}' não foi encontrada no arquivo Excel. Continuando sem filtrar por '{NOME_STATUS_ATIVO_FILTRO}'.")

# Ordenar os dados pelo nome do colaborador
if NOME_COLUNA_NOME in data.columns:
    data = data.sort_values(by=NOME_COLUNA_NOME)
else:
    raise KeyError(f"A coluna '{NOME_COLUNA_NOME}' não foi encontrada no arquivo Excel.")

# Lista de classificações da régua da União Europeia (modificada)
idiomas = data[NOME_COLUNA_IDIOMA].unique()
tabelas_classificacoes = {}
for idioma in idiomas:
    classificacoes_idioma = (
        data[data[NOME_COLUNA_IDIOMA] == idioma][NOME_COLUNA_NIVEL_AVALIACAO].unique().tolist() +
        data[data[NOME_COLUNA_IDIOMA] == idioma][NOME_COLUNA_NIVEL_PROFICIENCIA].unique().tolist()
    )
    tabelas_classificacoes[idioma] = list(set(classificacoes_idioma))  # Remover duplicatas

# Função para ordenar as classificações
def ordenar_classificacoes(classificacoes):
    def classificacao_key(nivel):
        if isinstance(nivel, str) and nivel.lower() == 'marco zero':
            return (0, 0, 0)
        elif isinstance(nivel, str):
            if '.' not in nivel:
                letra = nivel
                return (ord(letra[0].upper()) - ord('A') + int(letra[1])/10, 0, 0)
            nivel_split = nivel.split('.')
            letra = nivel_split[0]
            plus = 0
            if '+' in letra:
                letra = letra[:-1]
                plus = 0.1
            numero = int(nivel_split[1])
            return (ord(letra[0].upper()) - ord('A') + int(letra[1])/10, plus, numero)
        return (float('inf'), 0, 0)

    return sorted([x for x in classificacoes if pd.notna(x) and x != ""], key=classificacao_key)

# Função para preencher a tabela transformada
def preencher_tabela_transformada(row, classificacoes):
    linha_usuario = {nivel: np.nan for nivel in classificacoes}
    ciclo_origem = row.get(NOME_COLUNA_DATA_PROFICIENCIA, None)
    ciclo_atual = row.get(NOME_COLUNA_DATA_AVALIACAO, None)
    prazo_meta = row.get(NOME_COLUNA_DATA_AVALIACAO, None)

    if pd.notna(ciclo_origem):
        ciclo_origem = pd.to_datetime(ciclo_origem).strftime('%m/%Y')
    if pd.notna(ciclo_atual):
        ciclo_atual = pd.to_datetime(ciclo_atual).strftime('%m/%Y')
    if pd.notna(prazo_meta):
        prazo_meta = pd.to_datetime(prazo_meta).strftime('%m/%Y')

    ultima_classificacao = row.get(NOME_COLUNA_NIVEL_AVALIACAO, None)
    proficiencia_original = row.get(NOME_COLUNA_NIVEL_PROFICIENCIA, None)
    meta_final = row.get(NOME_COLUNA_META_FINAL, None)

    # Preencher ciclo de origem
    if proficiencia_original and pd.notna(proficiencia_original) and proficiencia_original in classificacoes:
        linha_usuario[proficiencia_original] = ciclo_origem

    # Preencher última classificação
    if ultima_classificacao and pd.notna(ultima_classificacao) and ultima_classificacao in classificacoes:
        linha_usuario[ultima_classificacao] = ciclo_atual

    # Preencher meta final
    if meta_final and pd.notna(meta_final) and meta_final in classificacoes:
        linha_usuario[meta_final] = prazo_meta

    # Colorir o caminho percorrido
    if (ultima_classificacao and proficiencia_original and
        ultima_classificacao in classificacoes and proficiencia_original in classificacoes and
        ciclo_atual):
        indices = [classificacoes.index(ultima_classificacao), classificacoes.index(proficiencia_original)]
        for i in range(min(indices), max(indices) + 1):
            if classificacoes[i] not in [ultima_classificacao, proficiencia_original]:
                linha_usuario[classificacoes[i]] = 'Caminho Percorrido'

    # Adicionar caminho a percorrer entre ciclo_atual e prazo_meta
    if (ultima_classificacao and meta_final and
        ultima_classificacao in classificacoes and meta_final in classificacoes):
        indices = [classificacoes.index(ultima_classificacao), classificacoes.index(meta_final)]
        for i in range(min(indices), max(indices) + 1):
            if classificacoes[i] not in [ultima_classificacao, meta_final, proficiencia_original]:
                linha_usuario[classificacoes[i]] = 'Caminho a Percorrer'

    # Adicionar caminho a percorrer entre ciclo_origem e prazo_meta se ciclo_atual estiver ausente
    if not ciclo_atual or pd.isna(ciclo_atual):
        if (proficiencia_original and meta_final and
            proficiencia_original in classificacoes and meta_final in classificacoes):
            indices = [classificacoes.index(proficiencia_original), classificacoes.index(meta_final)]
            for i in range(min(indices), max(indices) + 1):
                if classificacoes[i] not in [proficiencia_original, meta_final]:
                    linha_usuario[classificacoes[i]] = 'Caminho a Percorrer'

    return pd.Series(linha_usuario)

# Deletar o arquivo existente, se houver
if os.path.exists(NOME_TABELA_TRANSFORMADA):
    os.remove(NOME_TABELA_TRANSFORMADA)

# Criar tabelas separadas por idioma e salvar em Excel
with pd.ExcelWriter(NOME_TABELA_TRANSFORMADA, engine='openpyxl') as writer:
    for idioma in idiomas:
        classificacoes = ordenar_classificacoes(tabelas_classificacoes[idioma])
        data_filtrada = data[data[NOME_COLUNA_IDIOMA] == idioma]
        tabela_transformada = data_filtrada.apply(preencher_tabela_transformada, axis=1, classificacoes=classificacoes)
        usuarios = data_filtrada[NOME_COLUNA_NOME]
        tabela_transformada.index = usuarios
        tabela_transformada.to_excel(writer, sheet_name=idioma)

        # Ajustar tamanhos das células e aplicar cores
        workbook = writer.book
        worksheet = writer.sheets[idioma]

        # Garantir que a planilha esteja visível
        worksheet.sheet_state = 'visible'

        # Ajustar largura das colunas
        for col in worksheet.columns:
            max_length = 0
            column = col[0].column_letter  # Coluna
            for cell in col:
                try:
                    if cell.value is not None:
                        cell_length = len(str(cell.value))
                        if cell_length > max_length:
                            max_length = cell_length
                except:
                    pass
            adjusted_width = (max_length + 2)
            worksheet.column_dimensions[column].width = adjusted_width

        # Aplicar cores ao cabeçalho e células
        header_fill = PatternFill(start_color='1f2f36', end_color='1f2f36', fill_type='solid')
        cell_fill = PatternFill(start_color='391e70', end_color='391e70', fill_type='solid')
        cell_fill_meta_final = PatternFill(start_color='adc22f', end_color='adc22f', fill_type='solid')
        cell_fill_caminho_a_percorrer = PatternFill(start_color='adc22f', end_color='adc22f', fill_type='solid')
        header_alignment = Alignment(horizontal='center', vertical='center')
        cell_alignment = Alignment(horizontal='center', vertical='center')
        thin_border = Border(left=Side(style='thin'), right=Side(style='thin'),
                             top=Side(style='thin'), bottom=Side(style='thin'))
        header_font = Font(color='FFFFFF')

        # Colorir cabeçalho
        for cell in worksheet[1]:
            cell.fill = header_fill
            cell.alignment = header_alignment
            cell.font = header_font  # Texto branco
            cell.border = thin_border

        # Colorir primeira coluna
        for cell in worksheet['A']:
            if cell.row > 1:
                cell.fill = header_fill
                cell.font = header_font
                cell.alignment = cell_alignment
                cell.border = thin_border

        # Colorir células preenchidas, o caminho percorrido, e aplicar bordas e alinhamento
        for row in worksheet.iter_rows(min_row=2, max_row=worksheet.max_row,
                                       min_col=2, max_col=worksheet.max_column):
            aux = 0
            for cell in row:
                if cell.value not in ['Caminho Percorrido', 'Caminho a Percorrer', ""]:
                    aux += 1

            aux = 0
            for cell in row:
                if cell.value == 'Caminho Percorrido':
                    cell.fill = cell_fill
                    cell.value = ""
                elif cell.value == 'Caminho a Percorrer':
                    cell.fill = cell_fill_caminho_a_percorrer
                    cell.value = ""
                    aux = 2
                elif cell.value is not None and cell.value != "":
                    cell.fill = cell_fill

                    aux += 1
                    if aux == 3:
                        cell.fill = cell_fill_meta_final
                    else:
                        cell.font = header_font
                    cell.border = thin_border
                cell.alignment = cell_alignment

        # Fixar primeira linha e primeira coluna
        worksheet.freeze_panes = 'B2'

print("Tabela salva com sucesso!")


A coluna 'Classificação da Última Avaliação' não foi encontrada no arquivo Excel.
A coluna 'Status' não foi encontrada no arquivo Excel.
1. A coluna 'Status' não foi encontrada no arquivo Excel. Continuando sem filtrar por 'Subsídio ativo'.
Tabela salva com sucesso!


# Database

In [43]:
df = pd.read_excel(NOME_TABELA_TRANSFORMADA)
df.fillna("", inplace=True)
df.head(5)

Unnamed: 0,Colaborador,Marco zero,A1.1,A1.2,A2.1,A2.2,B1.1,B1.2,B2.1,B2.2,B2+.1,B2+.2,C1.1,C1.2,C1.3
0,Aldys Lopez,,,05/2024,,,,,,05/2024,,,,,
1,Andrea Alexandra Suntaxi Soto,,,,,,,,05/2023,,07/2024,,07/2024,,
2,Anny Lozano Cardenas,,,,06/2023,07/2024,,,07/2024,,,,,,
3,Antonio Lopez,,,,,,,02/2023,,04/2024,,04/2024,,,
4,Anyee Pamela Castillo Zambrano,05/2023,,07/2024,,07/2024,,,,,,,,,


In [44]:
data_original = pd.read_excel(NOME_TABELA_INICIAL, sheet_name=0)
transformed_single_language = pd.read_excel(NOME_TABELA_TRANSFORMADA, sheet_name='Inglês')

# TeamMap

## Distribuição de pessoas por nivel de proficiência

In [45]:
# Definir o renderizador para um compatível com interações
pio.renderers.default = "iframe"  

# Carregar dados

# Renomear a coluna para facilitar o acesso
data_original.rename(columns={NOME_COLUNA_NIVEL_PROFICIENCIA: 'Proficiency'}, inplace=True)
color_scale = [
    "#1f77b4",  # Marco zero
    "#aec7e8",  # A1.1
    "#ff7f0e",  # A1.2
    "#ffbb78",  # A2.1
    "#2ca02c",  # A2.2
    "#98df8a",  # B1.1
    "#d62728",  # B1.2
    "#ff9896",  # B2.1
    "#9467bd",  # B2.2
    "#c5b0d5",  # B2+.1
    "#8c564b",  # B2+.2
    "#c49c94",  # C1.1
    "#e377c2",  # C1.2
    "#f7b6d2",  # C1.3
    "#7f7f7f",  # C2
]

# Substituir 'Ground zero' por 'Marco zero'
data_original['Proficiency'] = data_original['Proficiency'].replace('Ground zero', 'Marco zero')
data_original['Proficiency'] = data_original['Proficiency'].replace('Marco cero', 'Marco zero')

# Definir a ordem dos níveis do CEFR
niveis_cefr = [
    "Marco zero", "A1.1", "A1.2", "A2.1", "A2.2", 
    "B1.1", "B1.2", "B2.1", "B2.2", "B2+.1", 
    "B2+.2", "C1.1", "C1.2", "C1.3", "C2"
]

# Contar ocorrências de cada nível do CEFR
contagem_proficiencia = data_original['Proficiency'].value_counts().reindex(niveis_cefr, fill_value=0)

# Calcular porcentagens e adicionar o símbolo %
porcentagem_proficiencia = (contagem_proficiencia / contagem_proficiencia.sum() * 100).round(2).astype(str) + '%'

# Preparar os dados para plotagem
dados_proficiencia = pd.DataFrame({
    "Nível de Proficiência": niveis_cefr,
    "Contagem": contagem_proficiencia.values,
    "Porcentagem": porcentagem_proficiencia.values
})

# Criar um gráfico de barras com uma escala de cores discreta, atualizando o texto para incluir as porcentagens diretamente nas barras
fig = px.bar(
    dados_proficiencia,
    x="Nível de Proficiência",
    y="Contagem",
    title="Distribuição dos Níveis de Proficiência",
    labels={"Contagem": "Número de Pessoas", "Nível de Proficiência": "Níveis do CEFR"},
    text="Porcentagem",  # Mostrar a porcentagem diretamente em cada barra
    color="Nível de Proficiência",  # Adicionar diferenciação de cor
    color_discrete_sequence=color_scale  # Usar uma escala de cores qualitativa
)

# Melhorar o layout e a estética
fig.update_traces(textposition='outside')
fig.update_layout(
    xaxis=dict(categoryorder='array', categoryarray=niveis_cefr),
    template="plotly_white",  # Tema claro para maior destaque
    title_font=dict(size=20, family='Arial, bold'),
    xaxis_title_font=dict(size=14, family='Arial'),
    yaxis_title_font=dict(size=14, family='Arial'),
)

# Mostrar o gráfico
fig.show()


In [46]:
# Definir o renderizador para um compatível com interações
pio.renderers.default = "iframe"  

# Carregar dados

# Renomear a coluna para facilitar o acesso
data_original.rename(columns={NOME_COLUNA_NIVEL_PROFICIENCIA: 'Proficiency'}, inplace=True)

# Substituir 'Ground zero' por 'Marco zero'
data_original['Proficiency'] = data_original['Proficiency'].replace('Ground zero', 'Marco zero')

# Definir a ordem dos níveis do CEFR
niveis_cefr = [
    "Marco zero", "A1.1", "A1.2", "A2.1", "A2.2", 
    "B1.1", "B1.2", "B2.1", "B2.2", "B2+.1", 
    "B2+.2", "C1.1", "C1.2", "C1.3", "C2"
]

# Contar ocorrências de cada nível do CEFR
contagem_proficiencia = data_original['Proficiency'].value_counts().reindex(niveis_cefr, fill_value=0)

# Calcular porcentagens e adicionar o símbolo %
porcentagem_proficiencia = (contagem_proficiencia / contagem_proficiencia.sum() * 100).round(2)

# Preparar os dados para plotagem
dados_proficiencia = pd.DataFrame({
    "Nível de Proficiência": niveis_cefr,
    "Contagem": contagem_proficiencia.values,
    "Porcentagem": porcentagem_proficiencia.values
})

# Criar um gráfico de barras com uma escala de cores discreta, mostrando porcentagem no eixo Y e número de pessoas como texto acima das barras
fig = px.bar(
    dados_proficiencia,
    x="Nível de Proficiência",
    y="Porcentagem",
    title="Distribuição dos Níveis de Proficiência",
    labels={"Porcentagem": "Porcentagem (%)", "Nível de Proficiência": "Níveis do CEFR"},
    text="Contagem",  # Mostrar a contagem de pessoas diretamente em cada barra
    color="Nível de Proficiência",  # Adicionar diferenciação de cor
    color_discrete_sequence=color_scale  # Usar uma escala de cores qualitativa
)

# Melhorar o layout e a estética
fig.update_traces(textposition='outside')
fig.update_layout(
    xaxis=dict(categoryorder='array', categoryarray=niveis_cefr),
    template="plotly_white",  # Tema claro para maior destaque
    title_font=dict(size=20, family='Arial, bold'),
    xaxis_title_font=dict(size=14, family='Arial'),
    yaxis_title_font=dict(size=14, family='Arial'),
)

# Mostrar o gráfico
fig.show()


## Mapeamento individual

In [47]:
# Check if 'Colaborador' column exists
if 'Colaborador' not in transformed_single_language.columns:
    raise KeyError("The column 'Colaborador' is not present in the DataFrame")

# Extract relevant columns
cef_columns = ['A1.1', 'A1.2', 'A2.1', 'A2.2', 'B1.1', 'B1.2', 'B2.1', 'B2.2', 'B2+.1', 'B2+.2', 'C1.1', 'C1.2']
transformed_single_language = transformed_single_language[ ['Colaborador'] + [col for col in cef_columns if col in transformed_single_language.columns] ]  # Order columns as specified
colaboradores = transformed_single_language[['Colaborador']]  # Extract "Colaborador" column
dates = transformed_single_language[cef_columns]

# Melt the data to long format for Plotly compatibility
long_data = pd.melt(pd.concat([colaboradores, dates], axis=1), id_vars=['Colaborador'], var_name='CEFR Level', value_name='Date')

# Filter out rows with NaN dates
long_data = long_data.dropna(subset=['Date'])

# Sort data by team member names
long_data = long_data.sort_values(by=['Colaborador', 'CEFR Level'])

# Create figure
fig = go.Figure()

# Add traces for each individual (Colaborador)
for name in long_data['Colaborador'].unique():
    #individual_data = long_data[long_data['Colaborador'] == name].sort_values(by='CEFR Level')
    individual_data = long_data[long_data['Colaborador'] == name].sort_values(by='CEFR Level')
    
    # Define marker colors and segments for line colors
    marker_colors = []
    line_segments = []
    
    if len(individual_data) == 2:
        marker_colors = ['#391e70', '#adc22f']
        line_segments = ['#adc22f']
    elif len(individual_data) >= 3:
        marker_colors = ['#391e70', '#391e70', '#adc22f'] # Default all purples
        line_segments = ['#391e70', '#adc22f'] 

    # Add scatter trace for the individual with split lines
    for i in range(len(individual_data) - 1):
        fig.add_trace(
            go.Scatter(
                x=individual_data['CEFR Level'].iloc[i:i+2],
                y=[name, name],
                mode='markers+lines',
                marker=dict(size=8, color=marker_colors[i:i+2]),
                line=dict(width=1, color=line_segments[i]),
                text=individual_data['Date'].iloc[i:i+2],  # Hover text with dates
                showlegend=False,  # Hide legend
            )
        )
team_members = sorted(long_data['Colaborador'].unique())

# Update the figure layout with explicit category orders
# Update the figure layout with explicit category orders
fig.update_layout(
    title='Team Map and Timeline of CEFR Level Progression',
    xaxis_title='CEFR Level',
    yaxis_title='Team Members',
    xaxis=dict(
        showgrid=True,
        fixedrange=False,  # Allow zooming and panning
        type='category',
        categoryorder='array',
        categoryarray=cef_columns,  # Order CEFR levels as specified
        range=['A2.1', 'B2.2'],  # Set initial zoom range for CEFR levels
    ),
    yaxis=dict(
        showgrid=False,
        automargin=True,
        autorange='reversed',
        fixedrange=False,  # Allow zooming and panning
        type='category',
        categoryorder='array',
        categoryarray=team_members,  # Order team members alphabetically
    ),
    template='plotly_white',
    height=800,
    width=1000,
    margin=dict(l=50, r=50, t=50, b=50),
)


# Add annotation for dates at the markers
for _, row in long_data.iterrows():
    fig.add_annotation(
        x=row['CEFR Level'],
        y=row['Colaborador'],
        text=row['Date'],
        showarrow=False,
        font=dict(size=10),
        align='center',
        xanchor='center',
        yshift=-10,  # Move text down
        xshift=-20,  # Move text to the left
    )

# Display the chart
fig.show()


## Distribuição de Colaboradores por Nível CEFR

In [50]:
# Step 1: Adjust Jupyter Notebook Output Cell Height
display(HTML("""
    <style>
        .output_scroll { height: auto !important; max-height: none !important; }
    </style>
"""))

# Step 2: Load the Excel File
df = pd.read_excel(NOME_TABELA_INICIAL)

# Step 3: Rename Columns for Consistency
df.rename(columns={
    NOME_COLUNA_NOME: 'Colaborador',
    NOME_COLUNA_NIVEL_AVALIACAO: 'Classificação'
}, inplace=True)

# Step 4: Define the Grouping Function
def group_level(level):
    """
    Groups the CEFR levels into broader categories.

    Parameters:
    - level (str): The CEFR level of a collaborator.

    Returns:
    - str: The grouped level category.
    """
    if isinstance(level, str):
        if level.startswith('A') or level.startswith('M') or level.startswith('G'):
            return 'Nível limitado'
        elif level.startswith('B'):
            if '+' in level:
                return 'Nível sólido'
            return 'Nível independente'
        elif level.startswith('C'):
            return 'Nível competente'
    return None  # Exclude 'Outro' and any non-matching entries

# Step 5: Apply the Grouping Function
df['Grupo Nível'] = df['Classificação'].apply(group_level)

# Step 6: Filter Out 'Outro' and Any Non-Matching Entries
df_filtered = df.dropna(subset=['Grupo Nível']).copy()

# Step 7: Get Unique 'Idioma' Values
idiomas = df_filtered[NOME_COLUNA_IDIOMA].dropna().unique()
idiomas_sorted = sorted(idiomas)  # Optional: sort the languages alphabetically

# Step 8: Define the Function to Create Sunburst Chart for a Given 'Idioma'
def create_sunburst(selected_idioma):
    """
    Creates a Sunburst chart for the selected 'Idioma'.

    Parameters:
    - selected_idioma (str): The selected language.

    Returns:
    - Plotly Figure: The Sunburst chart.
    """
    # Filter data for the selected 'Idioma'
    df_idioma = df_filtered[df_filtered[NOME_COLUNA_IDIOMA] == selected_idioma].copy()

    # Step 9: Count the Number of Collaborators in Each CEFR Level
    cefr_counts = df_idioma['Classificação'].value_counts().reset_index()
    cefr_counts.columns = ['Classificação', 'Count']

    # Step 10: Assign 'Grupo Nível' to Each CEFR Level
    cefr_counts['Grupo Nível'] = cefr_counts['Classificação'].apply(group_level)

    # Ensure no 'Outro' is present
    cefr_counts = cefr_counts.dropna(subset=['Grupo Nível'])

    # Step 11: Create the Sunburst Chart
    fig = px.sunburst(
        cefr_counts,
        path=['Grupo Nível', 'Classificação'],
        values='Count',
        color='Grupo Nível',
        color_discrete_map={
            'Nível limitado': 'lightblue',
            'Nível independente': 'lightgreen',
            'Nível competente': 'lightcoral',
            'Nível sólido': 'lightgray'
        },
        title=f'Distribuição de Colaboradores por Nível CEFR - Idioma: {selected_idioma}',
        hover_data={'Count': True},
        labels={'Count': 'Número de Colaboradores'}
    )

    # Step 12: Update Layout for Better Appearance
    fig.update_layout(
        margin=dict(t=50, l=25, r=25, b=25)
    )

    return fig

# Step 13: Create an Interactive Dropdown Widget
idioma_dropdown = widgets.Dropdown(
    options=idiomas_sorted,
    value=idiomas_sorted[0],  # Set the default value to the first language
    description='Idiomas:',
    disabled=False,
)

# Step 14: Define the Function to Update the Plot Based on Dropdown Selection
def update_plot(selected_idioma):
    fig = create_sunburst(selected_idioma)
    fig.show()

# Step 15: Use `interactive_output` to Link the Dropdown with the Plot Update Function
out = widgets.interactive_output(update_plot, {'selected_idioma': idioma_dropdown})

# Step 16: Display the Dropdown and the Output Plot
display(idioma_dropdown, out)


Dropdown(description='Idiomas:', options=('Inglês', 'Português'), value='Inglês')

Output()