<div style="border: none; margin: 5px 0; border-top: 1px dashed #FFFFFF; border-bottom: 1px dashed #FFFFFF; height: 5px;"></div>

<h2 style="color: #FFA07A;">4. An√°lise e explicabilidade dos agrupamentos (<i>clusters</i>) com intelig√™ncia artificial</h2>

In [1]:
import ipywidgets as widgets
import time
from IPython.display import display

# --- Criar um aplicativo HTML para exibir o efeito de escrita ---
output = widgets.HTML(value="<div></div>")
display(output)

# --- Texto formatado para o efeito de escrita ---
texto = """
<div style="background-color: #FFFFFF; color: #333333; padding: 15px; 
            border-left: 5px solid #FFA500; font-family: Arial, sans-serif; 
            text-align: justify; font-size: 16px; line-height: 1.6;">
    <p>As decis√µes dos algoritmos podem ser dif√≠ceis de interpretar. Por isso, nesta sec√ß√£o aplicamos t√©cnicas complementares de interpretabilidade (<i>Explainable Artificial Intelligence</i> ‚Äì XAI), uma √°rea da intelig√™ncia artificial que procura tornar os algoritmos mais transparentes, explicando de forma clara como tomam decis√µes.</p> 
    <p>Como o K-means n√£o fornece, por si s√≥, mecanismos para explicar a forma√ß√£o dos agrupamentos, recorremos √†s seguintes abordagens para explorar <u>como e porqu√™</u> os edif√≠cios foram agrupados em dois <i>clusters</i>, utilizando t√©cnicas de explicabilidade para compreender as decis√µes:</p> 
    <p> üî∏ <b><u>LIME (<i>Local Interpretable Model-Agnostic Explanations</i>)</u></b>: interpreta os resultados a n√≠vel local, evidenciando o impacto individual de cada vari√°vel nas previs√µes, considerando uma amostra espec√≠fica nos dados de cada <i>cluster</i>. </p> 
    <p> üî∏ <b><u>√Årvore de decis√£o</u></b>: oferece uma vis√£o hier√°rquica e n√£o linear sobre a influ√™ncia das vari√°veis nos agrupamentos ou previs√µes.</p> 
    <p> üî∏ <b><u>Import√¢ncia das vari√°veis (via Floresta Aleat√≥ria)</u></b>: calculada atrav√©s de um modelo de Floresta Aleat√≥ria (Random Forest), esta an√°lise identifica quais vari√°veis mais contribu√≠ram para distinguir os grupos.</p> 
    <p> üî∏ Estas t√©cnicas permitem uma compreens√£o mais aprofundada dos padr√µes identificados pelo K-means e ser√£o integradas na an√°lise global do modelo. </p> 
</div>
"""

# --- Efeito de escrita car√°cter a car√°cter (mant√©m o HTML) ---
typed = ""
for char in texto:
    typed += char
    output.value = typed
    time.sleep(0.005) # Ajustar velocidade

# --- Garantir que o texto completo √© exibido no final ---
output.value = texto

HTML(value='<div></div>')

In [2]:
from IPython.display import Javascript, display
# hide-me
display(Javascript('window.cellVisibilityManager.hideCells();'))

# --- Importar as bibliotecas ---
ipython = get_ipython()
ipython.run_line_magic("run", "1.preparacao_bibliotecas.ipynb")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [8]:
# hide-me
display(Javascript('window.cellVisibilityManager.hideCells();'))

# --- Carregar os dados ---
input_pkl_path = "df_servicos_clusters.pkl"
with open(input_pkl_path, 'rb') as pkl_file:
    data = pickle.load(pkl_file)

df_servicos = data['df']  

# --- Mapeamento para nomes de vari√°veis mais leg√≠veis ---
label_map = {
    'numero_servicos_proximos': 'N√∫mero total de servi√ßos pr√≥ximos',
    'pop_64_mais': 'Popula√ß√£o com 65 anos ou +',
    'distancia_media_servicos': 'Dist√¢ncia m√©dia aos servi√ßos',
    'Centro Saude': 'Centro de sa√∫de',
    'Farmacias': 'Farm√°cias',
    'Hospitais': 'Hospitais',
    'Supermercados': 'Supermercados',
    'Bancos': 'Bancos',
    'Parques e jardins': 'Parques ou jardins',
    'CTT': 'CTT'
}

# --- Preparar os dados para os modelos ---
X = df_servicos[['pop_64_mais', 'numero_servicos_proximos', 'distancia_media_servicos',
                 'Centro Saude', 'Farmacias', 'Hospitais',
                 'Supermercados', 'Bancos', 'Parques e jardins', 'CTT']]
y = df_servicos['cluster_kmeans']  # Usar os clusters do K-means

# --- Treinar o modelo Floresta Aleat√≥ria ---
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X, y)

# --- Inicializar o explicador LIME com nomes de vari√°veis leg√≠veis ---
explainer = LimeTabularExplainer(
    X.values,
    feature_names=[label_map.get(col, col) for col in X.columns],
    class_names=[f"Cluster {i}" for i in sorted(y.unique())],
    mode="classification",
    discretize_continuous=True
)

# --- Treinar o modelo √Årvore de decis√£o ---
dt_model = DecisionTreeClassifier(max_depth=4, random_state=42)
dt_model.fit(X, y)

# --- Inicializar a aplica√ß√£o Dash ---
app = Dash(__name__, suppress_callback_exceptions=True)

# --- Definir a apresenta√ß√£o da aplica√ß√£o ---
app.layout = html.Div([
    html.H1("Modelo de avalia√ß√£o com intelig√™ncia artificial explic√°vel", style={
        'text-align': 'center',
        'color': 'white',
        'background-color': '#000',
        'border': '2px solid white',
        'padding': '10px',
        'font-weight': 'bold',
        'font-size': '32px'
    }),

    dcc.Tabs(id="tabs", value='tree-tab', children=[
        dcc.Tab(label='√Årvore de decis√£o', value='tree-tab',
                style={'backgroundColor': '#000', 'color': 'white', 'padding': '10px'},
                selected_style={'backgroundColor': '#000', 'color': 'white', 'padding': '10px', 'borderTop': '4px solid #ffcc00'}),
        dcc.Tab(label='LIME', value='lime-tab',
                style={'backgroundColor': '#000', 'color': 'white', 'padding': '10px'},
                selected_style={'backgroundColor': '#000', 'color': 'white', 'padding': '10px', 'borderTop': '4px solid #ffcc00'}),
        dcc.Tab(label='Import√¢ncia das vari√°veis', value='importance-tab',
                style={'backgroundColor': '#000', 'color': 'white', 'padding': '10px'},
                selected_style={'backgroundColor': '#000', 'color': 'white', 'padding': '10px', 'borderTop': '4px solid #ffcc00'})
    ]),

    html.Div(id='tabs-content')
])

# --- Fun√ß√£o para elaborar a √Årvore de Decis√£o em SVG ---
def gerar_arvore_svg():
    with NamedTemporaryFile(delete=False, suffix=".dot") as dot_file:
        export_graphviz(
            dt_model,
            out_file=dot_file.name,
            feature_names=[label_map.get(col, col) for col in X.columns],
            class_names=[f"Cluster {i}" for i in sorted(y.unique())],
            filled=True,
            rounded=True,
            special_characters=True,
            precision=0 
        )
        dot_file.close()

        svg_file = NamedTemporaryFile(delete=False, suffix=".svg")
        subprocess.run(["dot", "-Tsvg", dot_file.name, "-o", svg_file.name], check=True)

        with open(svg_file.name, "rb") as f:
            svg_content = f.read()

    return base64.b64encode(svg_content).decode('utf-8')

# --- Renderizar o conte√∫do conforme o separador selecionado ---
@app.callback(Output('tabs-content', 'children'), Input('tabs', 'value'))
def render_tab_content(tab):
    if tab == 'tree-tab':
        svg_base64 = gerar_arvore_svg()
        return html.Div([
            html.Div([
                html.Img(src=f"data:image/svg+xml;base64,{svg_base64}")
            ], style={'text-align': 'center', 'overflow-x': 'scroll'})
        ])
    elif tab == 'lime-tab':
        return html.Div([
            dcc.Dropdown(
                id='lime-cluster-selector',
                options=[{'label': f'Cluster {i}', 'value': i} for i in sorted(y.unique())],
                placeholder="Selecione um cluster",
                style={'backgroundColor': 'white', 'color': 'black'}
            ),
            html.Div(id='lime-output', style={'padding': '10px', 'border': '1px solid #ccc',
                                              'borderRadius': '5px', 'backgroundColor': 'white'})
        ])
    elif tab == 'importance-tab':
        importances = rf_model.feature_importances_
        features = [label_map.get(col, col) for col in X.columns]
        fig = px.bar(x=importances, y=features, orientation='h',
                     labels={'x': 'Import√¢ncia', 'y': 'Vari√°veis'})
        return html.Div([dcc.Graph(figure=fig)])

    return html.Div("Selecione uma aba para visualizar os resultados.")

# --- Apresentar a explica√ß√£o LIME para o cluster selecionado ---
@app.callback(
    Output('lime-output', 'children'),
    Input('lime-cluster-selector', 'value')
)
def update_lime_output(cluster_selected):
    if cluster_selected is not None:
        try:
            cluster_indices = y[y == cluster_selected].index.tolist()
            if len(cluster_indices) == 0:
                return "Nenhuma inst√¢ncia encontrada para o cluster selecionado."

            np.random.seed(42)
            idx = np.random.choice(cluster_indices)

            explanation = explainer.explain_instance(
                X.iloc[idx].values,
                lambda x: rf_model.predict_proba(pd.DataFrame(x, columns=X.columns)),
                num_features=len(X.columns),
                labels=[cluster_selected]
            )
            return html.Iframe(
                srcDoc=explanation.as_html(),
                style={'width': '100%', 'height': '600px', 'border': 'none'}
            )
        except Exception as e:
            return f"Erro ao gerar a explica√ß√£o com LIME: {e}"
    return "Selecione um cluster para visualizar a explica√ß√£o com LIME."

# --- Encontrar uma porta de rede livre para o painel interativo ---
def encontrar_porta_livre():
    while True:
        porta = random.randint(8000, 9000)
        with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
            if s.connect_ex(("localhost", porta)) != 0:
                return porta

porta = encontrar_porta_livre()

# --- Lan√ßar a aplica√ß√£o interativa quando o ficheiro for executado ---
if __name__ == '__main__':
    app.run(debug=False, port=porta)

# ---- Mensagem final---
print("\033[92m[INFO] An√°lise conclu√≠da. Voc√™ pode prosseguir.\033[0m")

<IPython.core.display.Javascript object>

[92m[INFO] An√°lise conclu√≠da. Voc√™ pode prosseguir.[0m


In [1]:
#
import ipywidgets as widgets
import time
from IPython.display import display

# --- Criar um aplicativo HTML para exibir o efeito de escrita ---
output2 = widgets.HTML(value="<div></div>")
display(output2)

# --- Texto formatado para o efeito de escrita ---
texto_restante = """
<p style="text-align: justify;">
<p><b>Explica√ß√£o:</b></p>
üîπ <strong><u>√Årvore de Decis√£o:</u></strong> revela que o <strong>n√∫mero de servi√ßos pr√≥ximos</strong> √© a vari√°vel com maior influ√™ncia na segmenta√ß√£o, surgindo de forma predominante nos primeiros n√≠veis da √°rvore. Esta vari√°vel √© essencial para distinguir os dois <i>clusters</i>. O <i><strong>Cluster 0</strong></i> representa edif√≠cios localizados em √°reas com <strong>menor oferta de servi√ßos nas proximidades</strong>, enquanto o <i><strong>Cluster 1</strong></i> agrupa √°reas com <strong>maior concentra√ß√£o e diversidade de servi√ßos urbanos</strong>.</p>
<p>A vari√°vel <strong>popula√ß√£o</strong> surge apenas em n√≠veis mais profundos, o que indica que o <strong>fator demogr√°fico</strong> tem um papel secund√°rio em compara√ß√£o com a acessibilidade aos servi√ßos. Outras vari√°veis, como <em>hospitais</em>, <em>bancos</em> e <em>centros de sa√∫de</em>, tamb√©m contribuem para a classifica√ß√£o, mas atuam de forma complementar, refinando a segmenta√ß√£o em casos espec√≠ficos.</p>
<p><strong><u>LIME (Local Interpretable Model-Agnostic Explanations)</u></strong>: permite perceber como o modelo tomou uma decis√£o em rela√ß√£o a um edif√≠cio espec√≠fico. Para isso, apresenta tr√™s gr√°ficos principais, cada um com uma fun√ß√£o distinta, facilitando a compreens√£o, mesmo para quem nunca utilizou esta t√©cnica:</p>
<ul>
  <li><strong>Gr√°fico de probabilidade de predi√ß√£o:</strong> mostra a probabilidade de o edif√≠cio pertencer a cada um dos <i>clusters</i>. Por exemplo, se o modelo indicar 100% de probabilidade para o <i><strong>Cluster 0</strong></i> e 0% para o <i><strong>Cluster 1</strong></i>, <strong>isto significa</strong> que o modelo tem total confian√ßa de que o edif√≠cio pertence ao <i><strong>Cluster 0</strong></i>.</li>

  <li><strong>Gr√°fico das vari√°veis mais relevantes (localizado no centro da figura):</strong> mostra as vari√°veis que mais influenciaram a decis√£o do modelo para aquele edif√≠cio. As barras <span style="color:orange;"><strong>laranja</strong></span> indicam uma influ√™ncia a favor do <i><strong>Cluster 1</strong></i>, enquanto as barras <span style="color:blue;"><strong>azuis</strong></span> indicam uma influ√™ncia a favor do <i><strong>Cluster 0</strong></i>. Quanto maior for a barra, <strong>maior √©</strong> o impacto dessa vari√°vel na decis√£o final. <strong>Nota:</strong> Mesmo que a maioria das barras seja laranja, o edif√≠cio pode ser classificado no <i><strong>Cluster 0</strong></i>. <strong>Isto</strong> acontece porque o LIME destaca as vari√°veis que mais poderiam mudar a decis√£o, e n√£o todas as que o modelo considerou.</li>

  <li><strong>Coluna ¬´valor¬ª (valores das vari√°veis):</strong> mostra o valor real de cada vari√°vel para o edif√≠cio analisado. Por exemplo, se a vari√°vel <em>"bancos"</em> tiver o valor <strong>9</strong>, significa que existem 9 bancos nas proximidades (1.5 km). O LIME indica como esse valor influenciou a classifica√ß√£o no respetivo <i>cluster</i>.</li>
</ul>
<p style="text-align: justify;">
üîπ <b><u>Import√¢ncia das vari√°veis:</u></b> destaca que as vari√°veis mais relevantes s√£o: o <i>n√∫mero de servi√ßos pr√≥ximos</i>, <strong>seguido</strong> por vari√°veis como supermercados, bancos, CTT e farm√°cias. Por outro lado, vari√°veis como a dist√¢ncia m√©dia aos servi√ßos, hospitais e parques ou jardins t√™m uma influ√™ncia menor. Assim, conclui-se que a presen√ßa e diversidade de servi√ßos de proximidade s√£o os principais crit√©rios na defini√ß√£o dos <i>clusters</i>.
</p>
<p style="text-align: justify;">
üîπ <b>Conclus√£o:</b> Tanto a <b>√Årvore de Decis√£o</b> como a <b>Floresta Aleat√≥ria</b> (<b><u>import√¢ncia das vari√°veis</u></b>) atribuem maior peso <strong>√† acessibilidade e √† diversidade de servi√ßos</strong> na defini√ß√£o dos <i>clusters</i>. A vari√°vel <b>popula√ß√£o com 65 anos ou mais</b> n√£o se destacou como um crit√©rio relevante, aparecendo apenas em n√≠veis mais baixos da √Årvore de Decis√£o. Isto sugere que a <b>presen√ßa e concentra√ß√£o de servi√ßos</b> <strong>foram os fatores</strong> mais determinantes na segmenta√ß√£o realizada pelo algoritmo <b>K-means</b>.
</p>
</div>
"""
texto_html = """
<div style="background-color: #FFFFFF; color: #333333; padding: 15px; 
            border-left: 5px solid #6A0DAD; font-family: Arial, sans-serif; 
            text-align: justify; font-size: 16px; line-height: 1.6;">
"""

# --- Efeito de escrita car√°cter a car√°cter (mant√©m o HTML) ---
for palavra in texto_restante.split():
    texto_html += palavra + " "
    output2.value = texto_html + "</div>"
    time.sleep(0.10)   # Ajustar velocidade

# --- Garantir que o texto completo √© exibido no final ---
output2.value = texto_html + "</div>"

HTML(value='<div></div>')

<div style="border: none; margin: 5px 0; border-top: 1px dashed #FFFFFF; border-bottom: 1px dashed #FFFFFF; height: 5px;"></div>

In [4]:
import os
import pandas as pd
from datetime import datetime
from IPython.display import display, clear_output, Javascript
import ipywidgets as widgets

# hide-me
display(Javascript('window.cellVisibilityManager.hideCells();'))

# --- Pasta espec√≠fica para guardar as respostas ---
pasta_respostas = ".../respostas"
os.makedirs(pasta_respostas, exist_ok=True)  

# --- Quest√£o de escolha m√∫ltipla ---
pergunta = widgets.RadioButtons(
    options=[
        "a) Bancos.",
        "b) N√∫mero total de servi√ßos pr√≥ximos.",
        "c) Farm√°cias."
    ],
    description='Resposta:',
    layout=widgets.Layout(width='600px'),
    style={'description_width': 'initial'},
    value=None
    )

# --- Bot√£o para gravar a resposta ---
botao_gravar = widgets.Button(description='Gravar resposta', button_style='info')
output = widgets.Output()

# --- Fun√ß√£o para gravar a resposta selecionada ---
def gravar_resposta(b):
    resposta = pergunta.value

    if not resposta:
        with output:
            clear_output()
            print("Por favor, selecione uma resposta antes de gravar.")
        return

    dados = {
        "Resposta": [resposta],
        "Data": [datetime.now().strftime("%Y-%m-%d %H:%M:%S")]
    }

    ficheiro = os.path.join(pasta_respostas, "respostas_LIME.xlsx")
    df = pd.DataFrame(dados)

    if not os.path.isfile(ficheiro):
        with output:
            clear_output()
            print(f"O ficheiro {ficheiro} n√£o existe. A criar o ficheiro...")
        df.to_excel(ficheiro, index=False, engine='openpyxl')
        with output:
            clear_output()
            print(f"Ficheiro criado com sucesso em: {ficheiro}")
    else:
        df_existente = pd.read_excel(ficheiro, engine='openpyxl')
        df_final = pd.concat([df_existente, df], ignore_index=True)
        df_final.to_excel(ficheiro, index=False, engine='openpyxl')
        with output:
            clear_output()
            print(f"Resposta adicionada ao ficheiro {ficheiro}")

    # Limpar a sele√ß√£o e mostrar mensagem de confirma√ß√£o
    with output:
        clear_output()
        print("Resposta gravada com sucesso! Obrigado.")
        pergunta.value = None

botao_gravar.on_click(gravar_resposta)

# --- Instru√ß√£o antes de apresentar a quest√£o ---
display(widgets.HTML("""
<b style="font-size: 18px;">Por favor, responda √† quest√£o:</b><br><br>
<b style="font-size: 16px;">3. Com base na explica√ß√£o dada pelo LIME, qual das seguintes vari√°veis teve maior impacto na classifica√ß√£o desta amostra no agrupamento (Cluster 1)?</b><br>
"""))

display(pergunta, botao_gravar, output)

<IPython.core.display.Javascript object>

HTML(value='\n<b style="font-size: 18px;">Por favor, responda √† quest√£o:</b><br><br>\n<b style="font-size: 16p‚Ä¶

RadioButtons(description='Resposta:', layout=Layout(width='600px'), options=('a) Bancos.', 'b) N√∫mero de servi‚Ä¶

Button(button_style='info', description='Gravar resposta', style=ButtonStyle())

Output()

<div style="border: none; margin: 5px 0; border-top: 1px dashed #FFFFFF; border-bottom: 1px dashed #FFFFFF; height: 5px;"></div>

Seguinte: [Acesso servi√ßos no contexto cidade 15 minutos](5.ipynb)

<div style="border: none; margin: 5px 0; border-top: 1px dashed #FFFFFF; border-bottom: 1px dashed #FFFFFF; height: 5px;"></div>