# üìö An√°lise de Rede de E-mails - Google Colab (Execu√ß√£o Autom√°tica)
Lista de Exerc√≠cios 2 - Ci√™ncia de Dados
Universidade Federal de Alagoas (UFAL)
Aluno: Kleber Jos√© Araujo Galv√£o Filho

## üîº Upload do Dataset
carregue a base de dados ".txt.gz"

In [None]:
from google.colab import files
uploaded = files.upload()

Saving email-Eu-core-temporal.txt.gz to email-Eu-core-temporal.txt.gz


In [None]:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
import gzip
import os
import numpy as np
import random
from statsmodels.tsa.seasonal import seasonal_decompose
from networkx.algorithms.community import louvain_partitions
from scipy import stats

In [None]:
import pandas as pd
import gzip
import os

def carregar_dados(caminho_arquivo_gz, caminho_saida_csv="email-Eu-core-temporal.csv"):
    """
    Descomprime o arquivo .gz, l√™ o arquivo de texto e converte para CSV.
    Args:
        caminho_arquivo_gz (str): Caminho para o arquivo .gz.
        caminho_saida_csv (str): Caminho onde o CSV ser√° salvo.
    Returns:
        pd.DataFrame: DataFrame com colunas 'origem', 'destino', 'timestamp'.
    """
    if os.path.exists(caminho_saida_csv):
        print(f"Carregando CSV existente: {caminho_saida_csv}")
        dados = pd.read_csv(caminho_saida_csv)
        return dados

    try:
        with gzip.open(caminho_arquivo_gz, 'rt') as arquivo:
            dados = pd.read_csv(arquivo, sep='\s+', names=['origem', 'destino', 'timestamp'], engine='python')
        dados.to_csv(caminho_saida_csv, index=False)
        print(f"Dados convertidos e salvos como: {caminho_saida_csv}")
        print(f"Dataset carregado com {len(dados)} arestas.")
        return dados
    except FileNotFoundError:
        print(f"Erro: Arquivo {caminho_arquivo_gz} n√£o encontrado.")
        raise
    except Exception as e:
        print(f"Erro ao processar o arquivo: {str(e)}")
        raise

In [None]:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
import os

def exercicio_2(dados, tipo_layout="spring"):
    """
    Visualiza a rede social direcionada com diferentes layouts.
    Args:
        dados (pd.DataFrame): DataFrame com as arestas da rede.
        tipo_layout (str): Tipo de layout ('spring', 'kamada', 'circular').
    """
    grafo = nx.DiGraph()
    arestas = dados[['origem', 'destino']].values
    grafo.add_edges_from(arestas)

    plt.figure(figsize=(10, 10))

    if tipo_layout == "spring":
        posicao = nx.spring_layout(grafo, k=0.15, iterations=20)
        nome_arquivo = os.path.join("figuras", "exercicio_02_rede_spring.png")
        titulo = "Rede de E-mails Direcionada (Spring Layout)"
    elif tipo_layout == "kamada":
        posicao = nx.kamada_kawai_layout(grafo)
        nome_arquivo = os.path.join("figuras", "exercicio_02_rede_kamada.png")
        titulo = "Rede de E-mails Direcionada (Kamada-Kawai Layout)"
    elif tipo_layout == "circular":
        posicao = nx.circular_layout(grafo)
        nome_arquivo = os.path.join("figuras", "exercicio_02_rede_circular.png")
        titulo = "Rede de E-mails Direcionada (Circular Layout)"
    else:
        print("Layout inv√°lido. Usando spring como padr√£o.")
        posicao = nx.spring_layout(grafo, k=0.15, iterations=20)
        nome_arquivo = os.path.join("figuras", "exercicio_02_rede_spring.png")
        titulo = "Rede de E-mails Direcionada (Spring Layout)"

    nx.draw(grafo, posicao, node_size=50, arrows=True, with_labels=False)
    plt.title(titulo)
    plt.savefig(nome_arquivo)
    plt.close()
    print(f"Visualiza√ß√£o da rede salva como '{nome_arquivo}'.")

In [None]:
import pandas as pd
import networkx as nx

def exercicio_3(dados):
    """
    Calcula a m√©dia dos menores caminhos na rede direcionada e analisa conectividade e efici√™ncia.
    Args:
        dados (pd.DataFrame): DataFrame com as arestas da rede.
    Returns:
        float: M√©dia dos menores caminhos (maior componente conexo ou grafo completo).
    """
    # Usa grafo direcionado para refletir a rede de e-mails
    grafo = nx.DiGraph()
    arestas = dados[['origem', 'destino']].values
    grafo.add_edges_from(arestas)

    # Verifica se o grafo √© fortemente conectado (para DiGraph)
    if nx.is_strongly_connected(grafo):
        media_caminhos = nx.average_shortest_path_length(grafo)
        print(f"M√©dia dos menores caminhos (grafo completo): {media_caminhos:.4f}")
    else:
        # Usa o maior componente fortemente conexo
        maior_componente = max(nx.strongly_connected_components(grafo), key=len)
        grafo_componente = grafo.subgraph(maior_componente).copy()
        media_caminhos = nx.average_shortest_path_length(grafo_componente)
        print(f"M√©dia dos menores caminhos (maior componente fortemente conexo): {media_caminhos:.4f}")

    # Interpreta√ß√£o detalhada
    print("\nAn√°lise da conectividade e efici√™ncia:")
    if media_caminhos < 6:
        print(f"A m√©dia de {media_caminhos:.4f} indica alta conectividade (caracter√≠stica de mundo pequeno).")
        print("E-mails tendem a alcan√ßar destinat√°rios com poucos intermedi√°rios, sugerindo comunica√ß√£o eficiente.")
    else:
        print(f"A m√©dia de {media_caminhos:.4f} sugere conectividade moderada a baixa.")
        print("A comunica√ß√£o pode ser menos eficiente, exigindo mais intermedi√°rios para e-mails entre n√≥s distantes.")
    print("Em redes sociais, m√©dias abaixo de 6 s√£o comuns, como no conceito de 'seis graus de separa√ß√£o'.")

    return media_caminhos

In [None]:
import pandas as pd
import networkx as nx

def exercicio_4(dados):
    """
    Calcula os top 5 n√≥s com base em diferentes m√©tricas de centralidade.
    Args:
        dados (pd.DataFrame): DataFrame com as arestas da rede.
        metrica (str): 'betweenness', 'degree', ou 'closeness'.
    Returns:
        list: Lista de tuplas (n√≥, valor) para os 5 principais n√≥s.
    """
    grafo = nx.DiGraph()
    arestas = dados[['origem', 'destino']].values
    grafo.add_edges_from(arestas)

    centralidade = nx.betweenness_centrality(grafo)
    nome_metrica = "centralidade de intermedia√ß√£o"

    top_5 = sorted(centralidade.items(), key=lambda x: x[1], reverse=True)[:5]
    print(f"Top 5 n√≥s por {nome_metrica}:")
    for no, valor in top_5:
        print(f"N√≥ {no}: {valor:.4f}")
        print("N√≥s com alta intermedia√ß√£o conectam grupos distintos.")

    print("\nInterpreta√ß√£o no contexto da institui√ß√£o de pesquisa:")
    print("A centralidade de intermedia√ß√£o mede a frequ√™ncia com que um n√≥ aparece nos menores caminhos entre outros n√≥s na rede de e-mails.")
    print("N√≥s com alta centralidade s√£o cruciais para o fluxo de informa√ß√µes, funcionando como pontes entre diferentes grupos ou departamentos.")
    print("\nPoss√≠veis pap√©is desses n√≥s incluem:")
    print("- **L√≠deres de pesquisa**: Conectam equipes interdisciplinares, promovendo colabora√ß√£o em projetos acad√™micos.")
    print("- **Administradores**: Coordenam comunica√ß√µes institucionais, como an√∫ncios ou decis√µes estrat√©gicas.")
    print("- **Sistemas centrais**: Servidores de e-mail ou newsletters que disseminam informa√ß√µes amplamente.")
    print("\nEstrutura da rede de comunica√ß√£o:")
    print("A presen√ßa de n√≥s com alta centralidade sugere uma rede integrada, onde a colabora√ß√£o entre departamentos √© facilitada.")
    print("No entanto, a rede √© centralizada, dependendo de poucos n√≥s cr√≠ticos. Isso implica:")
    print("- **Efici√™ncia**: Informa√ß√µes fluem rapidamente atrav√©s desses n√≥s, agilizando a troca de conhecimento.")
    print("- **Vulnerabilidade**: A sobrecarga ou aus√™ncia desses n√≥s pode fragmentar a comunica√ß√£o, isolando grupos e dificultando a colabora√ß√£o.")
    print("\nImplica√ß√µes:")
    print("Esses n√≥s s√£o pontos estrat√©gicos para a institui√ß√£o, mas tamb√©m pontos de risco. Estrat√©gias como descentralizar comunica√ß√µes ou criar redund√¢ncias podem mitigar depend√™ncias.")

    return top_5

In [None]:
import pandas as pd
import networkx as nx
from networkx.algorithms.community import louvain_partitions

def exercicio_5(dados):
    """
    Detecta comunidades usando o algoritmo de Louvain do NetworkX e encontra o n√≥ principal por maior grau de entrada.
    Args:
        dados (pd.DataFrame): DataFrame com as arestas da rede.
    Returns:
        dict: Dicion√°rio mapeando ID da comunidade para o n√≥ principal.
    """
    # Cria o grafo direcionado
    grafo = nx.DiGraph()
    arestas = dados[['origem', 'destino']].values
    grafo.add_edges_from(arestas)

    # Converte para grafo n√£o direcionado para detec√ß√£o de comunidades
    grafo_nao_direcionado = grafo.to_undirected()

    # Usa louvain_partitions para detectar comunidades
    particoes = louvain_partitions(grafo_nao_direcionado, seed=42)  # seed para reprodutibilidade

    # Seleciona a primeira parti√ß√£o (ou a com maior modularidade, se necess√°rio)
    particao = next(particoes)  # Pega a primeira parti√ß√£o

    # Organiza n√≥s por comunidade
    comunidades = {}
    for id_comunidade, comunidade in enumerate(particao):
        comunidades[id_comunidade] = list(comunidade)

    # Encontra o n√≥ principal por maior grau de entrada em cada comunidade
    nos_principais = {}
    for id_comunidade, nos in comunidades.items():
        graus = grafo.in_degree()
        nome_criterio = "maior grau de entrada"
        graus_comunidade = [(no, graus[no]) for no in nos if no in grafo.nodes()]
        if graus_comunidade:  # Verifica se a comunidade n√£o est√° vazia
            no_principal = max(graus_comunidade, key=lambda x: x[1])[0]
            nos_principais[id_comunidade] = no_principal
            print(f"Comunidade {id_comunidade}: N√≥ {no_principal} com {nome_criterio}")
        else:
            print(f"Comunidade {id_comunidade}: Nenhuma aresta de entrada encontrada")

    print(f"N√≥s selecionados por {nome_criterio} s√£o centrais em suas comunidades.")
    return nos_principais

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import os

def exercicio_6(dados, nos_principais):
    """
    Plota o n√∫mero de arestas de entrada ao longo de 803 dias para os n√≥s principais.
    Args:
        dados (pd.DataFrame): DataFrame com as arestas da rede.
        nos_principais (dict): N√≥s com maior grau de entrada por comunidade.
    """
    dados['dia'] = dados['timestamp'] // (24 * 3600)

    plt.figure(figsize=(12, 6))
    for id_comunidade, no in nos_principais.items():
        arestas_no = dados[dados['destino'] == no]
        contagem_diaria = arestas_no.groupby('dia').size()
        contagem_diaria = contagem_diaria.reindex(range(803), fill_value=0)
        plt.plot(contagem_diaria.index, contagem_diaria.values, label=f"N√≥ {no} (Comunidade {id_comunidade})")

    plt.xlabel("Dia")
    plt.ylabel("N√∫mero de E-mails Recebidos")
    plt.title("E-mails Recebidos ao Longo do Tempo")
    plt.legend()
    nome_arquivo = os.path.join("figuras", "exercicio_06_temporal.png")
    plt.savefig(nome_arquivo)
    plt.close()
    print(f"Visualiza√ß√£o temporal salva como '{nome_arquivo}'.")

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose
import numpy as np
import os
import random

def exercicio_7(dados, nos_principais):
    """
    Decomp√µe s√©ries temporais de dois n√≥s escolhidos aleatoriamente, compara tend√™ncia e sazonalidade,
    e retorna os n√≥s para uso posterior.
    Args:
        dados (pd.DataFrame): DataFrame com as arestas da rede (origem, destino, timestamp).
        nos_principais (dict): N√≥s com maior grau de entrada por comunidade.
    Returns:
        tuple: (no_a, no_b), IDs dos n√≥s selecionados.
    """
    # Seleciona dois n√≥s aleatoriamente
    random.seed(42)  # Para reprodutibilidade
    try:
        nos = random.sample(list(nos_principais.values()), k=2)
    except ValueError as e:
        print(f"Erro ao selecionar n√≥s: {str(e)}. Usando n√≥s padr√£o ou repetidos.")
        nos = list(nos_principais.values())[:2]
        if len(nos) < 2:
            nos = [nos[0], nos[0]] if nos else [0, 0]

    no_a, no_b = nos
    print(f"N√≥s selecionados: A={no_a}, B={no_b}")

    # Converte timestamps para dias
    dados['dia'] = dados['timestamp'] // (24 * 3600)
    max_dias = 803  # Per√≠odo total da rede (fixo para consist√™ncia)

    def obter_serie_temporal(no):
        """Obt√©m a s√©rie temporal de arestas de entrada para um n√≥."""
        arestas_no = dados[dados['destino'] == no]
        contagem_diaria = arestas_no.groupby('dia').size()
        return contagem_diaria.reindex(range(max_dias), fill_value=0)

    try:
        # Obt√©m s√©ries temporais
        serie_a = obter_serie_temporal(no_a)
        serie_b = obter_serie_temporal(no_b)

        # Decomposi√ß√£o: modelo aditivo, per√≠odo semanal
        modelo = "additive"
        periodo_sazonal = 7
        decomp_a = seasonal_decompose(serie_a, model=modelo, period=periodo_sazonal, extrapolate_trend='freq')
        decomp_b = seasonal_decompose(serie_b, model=modelo, period=periodo_sazonal, extrapolate_trend='freq')

        # Gera visualiza√ß√µes
        for no, decomp in [(no_a, decomp_a), (no_b, decomp_b)]:
            plt.figure(figsize=(12, 8))
            plt.subplot(411)
            plt.plot(decomp.observed, label='Observado')
            plt.legend(loc='best')
            plt.subplot(412)
            plt.plot(decomp.trend, label='Tend√™ncia')
            plt.legend(loc='best')
            plt.subplot(413)
            plt.plot(decomp.seasonal, label='Sazonalidade')
            plt.legend(loc='best')
            plt.subplot(414)
            plt.plot(decomp.resid, label='Ru√≠do')
            plt.legend(loc='best')
            nome_arquivo = os.path.join("figuras", f"exercicio_07_no_{no}.png")
            plt.suptitle(f"Decomposi√ß√£o da S√©rie Temporal - N√≥ {no} (Per√≠odo Semanal, Modelo Aditivo)")
            plt.tight_layout(rect=[0, 0, 1, 0.95])
            plt.savefig(nome_arquivo)
            plt.close()
            print(f"Gr√°fico salvo como '{nome_arquivo}'.")

        # Compara tend√™ncias e sazonalidades
        correlacao_tendencia = np.corrcoef(decomp_a.trend, decomp_b.trend)[0, 1]
        correlacao_sazonalidade = np.corrcoef(decomp_a.seasonal, decomp_b.seasonal)[0, 1]
        print(f"\nCorrela√ß√£o entre n√≥s A={no_a} e B={no_b}:")
        print(f"  Tend√™ncia: {correlacao_tendencia:.4f}")
        print(f"  Sazonalidade: {correlacao_sazonalidade:.4f}")

        # Conclus√µes interpretativas
        print("\nInterpreta√ß√£o no contexto da institui√ß√£o:")
        if abs(correlacao_tendencia) > 0.7:
            print(f"A alta correla√ß√£o de tend√™ncia ({correlacao_tendencia:.4f}) indica que A e B t√™m padr√µes de longo prazo semelhantes. Eles podem ser l√≠deres ou departamentos centrais com fluxos de e-mails sincronizados, como grupos de pesquisa colaborativos.")
        else:
            print(f"A baixa correla√ß√£o de tend√™ncia ({correlacao_tendencia:.4f}) sugere que A e B t√™m din√¢micas distintas. Eles podem representar √°reas diferentes, como administra√ß√£o e pesquisa, com demandas de comunica√ß√£o independentes.")

        if abs(correlacao_sazonalidade) > 0.7:
            print(f"A alta correla√ß√£o de sazonalidade ({correlacao_sazonalidade:.4f}) mostra que A e B seguem ciclos semanais similares, possivelmente devido a rotinas institucionais compartilhadas, como reuni√µes ou relat√≥rios.")
        else:
            print(f"A baixa correla√ß√£o de sazonalidade ({correlacao_sazonalidade:.4f}) indica ciclos distintos, talvez com um n√≥ ativo em dias √∫teis e outro com picos espor√°dicos, refletindo fun√ß√µes variadas.")

        print("Esses padr√µes sugerem estrat√©gias para otimizar a comunica√ß√£o, como sincronizar fluxos para n√≥s correlacionados ou diversificar canais para n√≥s independentes.")

    except ValueError as e:
        print(f"Erro na an√°lise temporal: {str(e)}. N√£o foi poss√≠vel completar a decomposi√ß√£o.")
        return None, None

    return no_a, no_b

In [None]:
import pandas as pd
import random

def exercicio_8(dados, no_a, no_b):
    """
    Cria n√≥ C e redireciona aleatoriamente 25% das arestas de A e B para C.
    Args:
        dados (pd.DataFrame): DataFrame com as arestas da rede.
        no_a (int): N√≥ A selecionado no Exerc√≠cio 7.
        no_b (int): N√≥ B selecionado no Exerc√≠cio 7.
    Returns:
        tuple: DataFrame modificado e ID do novo n√≥ C.
    """
    print(f"Usando n√≥s do Exerc√≠cio 7: A={no_a}, B={no_b}")

    # Cria o novo n√≥ C
    novo_no = max(dados['origem'].max(), dados['destino'].max()) + 1
    print(f"Criando novo n√≥ C: {novo_no}")

    # Cria uma c√≥pia do DataFrame para modifica√ß√µes
    dados_modificados = dados.copy()

    def redirecionar_arestas(no):
        """Redireciona aleatoriamente 25% das arestas destinadas ao n√≥ para novo_no."""
        arestas_no = dados_modificados[dados_modificados['destino'] == no]
        num_arestas = len(arestas_no)
        num_redirecionar = int(0.25 * num_arestas)
        if num_redirecionar == 0:
            print(f"Nenhuma aresta redirecionada para n√≥ {no} (menos de 4 arestas).")
            return

        # Seleciona aleatoriamente 25% das arestas
        indices = arestas_no.sample(n=num_redirecionar, random_state=42).index
        dados_modificados.loc[indices, 'destino'] = novo_no
        print(f"Redirecionadas {num_redirecionar} arestas do n√≥ {no} por amostragem aleat√≥ria.")

    # Redireciona arestas para A e B
    redirecionar_arestas(no_a)
    redirecionar_arestas(no_b)

    return dados_modificados, novo_no

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose
import numpy as np
import os

def exercicio_9(dados_modificados, no_a, no_b, novo_no):
    """
    Repete a decomposi√ß√£o das s√©ries temporais para os n√≥s A, B e C ap√≥s modifica√ß√£o, compara tend√™ncias e sazonalidades, e tira conclus√µes.
    Args:
        dados_modificados (pd.DataFrame): DataFrame com a rede modificada.
        no_a (int): N√≥ A do Exerc√≠cio 7.
        no_b (int): N√≥ B do Exerc√≠cio 7.
        novo_no (int): ID do novo n√≥ C do Exerc√≠cio 8.
    """
    nos = [no_a, no_b, novo_no]
    print(f"N√≥s analisados: A={no_a}, B={no_b}, C={novo_no}")

    # Converte timestamps para dias
    dados_modificados['dia'] = dados_modificados['timestamp'] // (24 * 3600)

    def obter_serie_temporal(no):
        """Obt√©m a s√©rie temporal de arestas de entrada para um n√≥."""
        arestas_no = dados_modificados[dados_modificados['destino'] == no]
        contagem_diaria = arestas_no.groupby('dia').size()
        return contagem_diaria.reindex(range(803), fill_value=0)

    try:
        # Configura√ß√£o fixa: modelo aditivo, per√≠odo 7 dias
        modelo = "additive"
        periodo = 7

        # Decomp√µe as s√©ries temporais para A, B e C
        series = {no: obter_serie_temporal(no) for no in nos}
        decomps = {
            no: seasonal_decompose(serie, model=modelo, period=periodo, extrapolate_trend='freq')
            for no, serie in series.items()
        }

        # Gera visualiza√ß√µes para cada n√≥
        for no in nos:
            decomp = decomps[no]
            plt.figure(figsize=(12, 8))
            plt.subplot(411)
            plt.plot(decomp.observed, label='Observado')
            plt.legend()
            plt.subplot(412)
            plt.plot(decomp.trend, label='Tend√™ncia')
            plt.legend()
            plt.subplot(413)
            plt.plot(decomp.seasonal, label='Sazonalidade')
            plt.legend()
            plt.subplot(414)
            plt.plot(decomp.resid, label='Ru√≠do')
            plt.legend()
            nome_arquivo = os.path.join("figuras", f"exercicio_09_no_{no}_modificado.png")
            plt.suptitle(f"Decomposi√ß√£o da S√©rie Temporal para N√≥ {no} (Modificado, Per√≠odo=7, Modelo=aditivo)")
            plt.savefig(nome_arquivo)
            plt.close()
            print(f"Decomposi√ß√£o salva como '{nome_arquivo}'.")

        # Compara tend√™ncias e sazonalidades (A vs. B, A vs. C, B vs. C)
        pares = [("A vs. B", no_a, no_b), ("A vs. C", no_a, novo_no), ("B vs. C", no_b, novo_no)]
        for nome_par, n1, n2 in pares:
            correlacao_tendencia = np.corrcoef(decomps[n1].trend, decomps[n2].trend)[0, 1]
            correlacao_sazonalidade = np.corrcoef(decomps[n1].seasonal, decomps[n2].seasonal)[0, 1]
            print(f"\nCorrela√ß√µes para {nome_par}:")
            print(f"  Tend√™ncia: {correlacao_tendencia:.4f}")
            print(f"  Sazonalidade: {correlacao_sazonalidade:.4f}")

        # Conclus√µes interpretativas
        print("\nInterpreta√ß√£o dos resultados ap√≥s redirecionamento:")
        # A vs. B
        correlacao_tendencia_ab = np.corrcoef(decomps[no_a].trend, decomps[no_b].trend)[0, 1]
        correlacao_sazonalidade_ab = np.corrcoef(decomps[no_a].seasonal, decomps[no_b].seasonal)[0, 1]
        if abs(correlacao_tendencia_ab) > 0.7:
            print(f"A alta correla√ß√£o da tend√™ncia entre A e B ({correlacao_tendencia_ab:.4f}) sugere que o redirecionamento para C n√£o alterou significativamente seus padr√µes de longo prazo. Eles continuam desempenhando pap√©is complementares.")
        else:
            print(f"A baixa correla√ß√£o da tend√™ncia entre A e B ({correlacao_tendencia_ab:.4f}) indica que o redirecionamento pode ter diferenciado ainda mais suas din√¢micas de longo prazo, talvez reduzindo interdepend√™ncias.")

        if abs(correlacao_sazonalidade_ab) > 0.7:
            print(f"A alta correla√ß√£o da sazonalidade entre A e B ({correlacao_sazonalidade_ab:.4f}) implica que os ciclos semanais permanecem sincronizados, apesar do redirecionamento para C.")
        else:
            print(f"A baixa correla√ß√£o da sazonalidade entre A e B ({correlacao_sazonalidade_ab:.4f}) sugere que o redirecionamento alterou os ciclos temporais, possivelmente redistribuindo picos de e-mails.")

        # Impacto em C
        correlacao_tendencia_ac = np.corrcoef(decomps[no_a].trend, decomps[novo_no].trend)[0, 1]
        correlacao_tendencia_bc = np.corrcoef(decomps[no_b].trend, decomps[novo_no].trend)[0, 1]
        correlacao_sazonalidade_ac = np.corrcoef(decomps[no_a].seasonal, decomps[novo_no].seasonal)[0, 1]
        correlacao_sazonalidade_bc = np.corrcoef(decomps[no_b].seasonal, decomps[novo_no].seasonal)[0, 1]

        if abs(correlacao_tendencia_ac) > 0.7 or abs(correlacao_tendencia_bc) > 0.7:
            print(f"A tend√™ncia de C √© semelhante √† de A ({correlacao_tendencia_ac:.4f}) ou B ({correlacao_tendencia_bc:.4f}), indicando que C assumiu parte do papel de longo prazo de um dos n√≥s originais.")
        else:
            print(f"A tend√™ncia de C √© distinta de A ({correlacao_tendencia_ac:.4f}) e B ({correlacao_tendencia_bc:.4f}), sugerindo que C opera de forma independente em longo prazo.")

        if abs(correlacao_sazonalidade_ac) > 0.7 or abs(correlacao_sazonalidade_bc) > 0.7:
            print(f"A sazonalidade de C √© semelhante √† de A ({correlacao_sazonalidade_ac:.4f}) ou B ({correlacao_sazonalidade_bc:.4f}), mostrando que C herdou ciclos semanais de pelo menos um dos n√≥s.")
        else:
            print(f"A sazonalidade de C √© distinta de A ({correlacao_sazonalidade_ac:.4f}) e B ({correlacao_sazonalidade_bc:.4f}), indicando que C tem padr√µes c√≠clicos pr√≥prios.")

        print("O redirecionamento para C pode ter redistribu√≠do a carga de comunica√ß√£o, afetando estrat√©gias institucionais, como balanceamento de servidores ou fluxos de e-mails.")

    except ValueError as e:
        print(f"Erro na decomposi√ß√£o: {str(e)}. N√£o foi poss√≠vel completar a an√°lise.")

In [None]:
import pandas as pd
from scipy import stats

def exercicio_10(dados, dados_modificados, no_a, no_b, novo_no, teste="t_test"):
    """
    Analisa mudan√ßas no fluxo de e-mails para A, B e C com testes estat√≠sticos.
    Args:
        dados (pd.DataFrame): DataFrame original.
        dados_modificados (pd.DataFrame): DataFrame com a rede modificada.
        no_a (int): N√≥ A do Exerc√≠cio 7.
        no_b (int): N√≥ B do Exerc√≠cio 7.
        novo_no (int): ID do novo n√≥ C do Exerc√≠cio 8.
        teste (str): 't_test' ou 'mann_whitney'.
    """
    print(f"Analisando n√≥s: A={no_a}, B={no_b}, C={novo_no}")

    # Calcula grau de entrada total
    grau_entrada_antes = dados.groupby('destino').size()
    grau_entrada_depois = dados_modificados.groupby('destino').size()

    def obter_grau_entrada(no):
        return grau_entrada_antes.get(no, 0), grau_entrada_depois.get(no, 0)

    grau_a_antes, grau_a_depois = obter_grau_entrada(no_a)
    grau_b_antes, grau_b_depois = obter_grau_entrada(no_b)
    grau_c_antes, grau_c_depois = obter_grau_entrada(novo_no)

    print(f"N√≥ A grau de entrada: Antes={grau_a_antes}, Depois={grau_a_depois}")
    print(f"N√≥ B grau de entrada: Antes={grau_b_antes}, Depois={grau_b_depois}")
    print(f"N√≥ C grau de entrada: Antes={grau_c_antes}, Depois={grau_c_depois}")

    # Verifica redu√ß√£o em A e B, aumento em C
    reduziu_a = grau_a_depois < grau_a_antes
    reduziu_b = grau_b_depois < grau_b_antes
    aumentou_c = grau_c_depois > grau_c_antes
    if reduziu_a and reduziu_b:
        print("O fluxo de e-mails para A e B diminuiu ap√≥s introdu√ß√£o do n√≥ C.")
        if aumentou_c:
            print("O n√≥ C absorveu parte do fluxo, como esperado.")
        else:
            print("O n√≥ C n√£o registrou aumento correspondente, sugerindo poss√≠veis discrep√¢ncias.")
    else:
        print("O fluxo de e-mails para A e/ou B n√£o diminuiu consistentemente.")

    # S√©ries temporais di√°rias
    dados['dia'] = dados['timestamp'] // (24 * 3600)
    dados_modificados['dia'] = dados_modificados['timestamp'] // (24 * 3600)

    def obter_grau_entrada_diario(no, df):
        arestas_no = df[df['destino'] == no]
        return arestas_no.groupby('dia').size().reindex(range(803), fill_value=0)

    # Gera s√©ries para A, B e C
    nos = [(no_a, "A"), (no_b, "B"), (novo_no, "C")]
    series = {
        nome: {
            "antes": obter_grau_entrada_diario(no, dados),
            "depois": obter_grau_entrada_diario(no, dados_modificados)
        }
        for no, nome in nos
    }

    # Testes de hip√≥teses
    alfa = 0.05
    for no, nome in nos:
        serie_antes = series[nome]["antes"]
        serie_depois = series[nome]["depois"]
        try:
            if teste == "t_test":
                estatistica, valor_p = stats.ttest_rel(serie_antes, serie_depois)
                nome_teste = "teste t pareado"
            elif teste == "mann_whitney":
                estatistica, valor_p = stats.mannwhitneyu(serie_antes, serie_depois, alternative='two-sided')
                nome_teste = "teste de Mann-Whitney U"
            else:
                print("Teste inv√°lido. Usando t_test.")
                estatistica, valor_p = stats.ttest_rel(serie_antes, serie_depois)
                nome_teste = "teste t pareado"

            print(f"N√≥ {nome} ({no}) {nome_teste}: estat√≠stica={estatistica:.4f}, p-valor={valor_p:.4f}")
            if valor_p < alfa:
                print(f"Mudan√ßa significativa no fluxo de e-mails do n√≥ {nome} (p < {alfa}).")
            else:
                print(f"Sem mudan√ßa significativa no fluxo de e-mails do n√≥ {nome} (p >= {alfa}).")

        except ValueError as e:
            print(f"Erro no teste para n√≥ {nome}: {str(e)}. Pulando an√°lise estat√≠stica.")

    # Conclus√µes institucionais
    print("\nConclus√µes para a institui√ß√£o:")
    if reduziu_a and reduziu_b and aumentou_c:
        print("O redirecionamento para o n√≥ C foi eficaz em reduzir a carga de e-mails em A e B, transferindo parte do fluxo para C. Isso pode aliviar servidores ou administradores sobrecarregados, melhorando a efici√™ncia da comunica√ß√£o.")
        if series["A"]["depois"].mean() < series["A"]["antes"].mean() and series["B"]["depois"].mean() < series["B"]["antes"].mean():
            print("Testes confirmam redu√ß√£o significativa no fluxo di√°rio, sugerindo que C assumiu responsabilidades de comunica√ß√£o.")
        else:
            print("Embora o fluxo total tenha diminu√≠do, os padr√µes di√°rios n√£o mudaram significativamente, indicando que a redu√ß√£o pode ser distribu√≠da irregularmente.")
    else:
        print("O redirecionamento n√£o reduziu consistentemente o fluxo para A e B, ou C n√£o absorveu o fluxo esperado. Isso pode indicar que a interven√ß√£o n√£o foi suficiente para balancear a comunica√ß√£o.")
        print("Recomenda-se revisar a propor√ß√£o de redirecionamento (25%) ou considerar outros n√≥s para redistribui√ß√£o.")

    print("Esses resultados podem orientar ajustes na infraestrutura de e-mails, como adicionar mais n√≥s ou otimizar fluxos para evitar gargalos.")

## üöÄ Execu√ß√£o Autom√°tica dos Exerc√≠cios

In [None]:
# Cria a pasta 'figuras' se n√£o existir
os.makedirs("figuras", exist_ok=True)

# Exerc√≠cio 1 - Carregamento
print("Exerc√≠cio 1: Carregando dados...")
dados = carregar_dados("email-Eu-core-temporal.txt.gz")

# Exerc√≠cio 2 - Visualiza√ß√£o
print("\nExerc√≠cio 2: Visualizando rede...")
exercicio_2(dados)

# Exerc√≠cio 3 - An√°lise global
print("\nExerc√≠cio 3: Analisando m√©dia dos menores caminhos...")
exercicio_3(dados)

# Exerc√≠cio 4 - An√°lise estrutural
print("\nExerc√≠cio 4: Calculando centralidade de intermedia√ß√£o...")
exercicio_4(dados)

# Exerc√≠cio 5 - Comunidades
print("\nExerc√≠cio 5: Detectando comunidades...")
nos_principais = exercicio_5(dados)

# Exerc√≠cio 6 - An√°lise temporal
print("\nExerc√≠cio 6: Visualizando comportamento temporal...")
exercicio_6(dados, nos_principais)

# Exerc√≠cio 7 - S√©ries temporais
print("\nExerc√≠cio 7: Decompondo s√©ries temporais...")
no_a, no_b = exercicio_7(dados, nos_principais)

# Exerc√≠cio 8 - Modifica√ß√£o da rede
print("\nExerc√≠cio 8: Modificando a rede...")
dados_modificados, novo_no = exercicio_8(dados, no_a, no_b)

# Exerc√≠cio 9 - An√°lise da rede modificada
print("\nExerc√≠cio 9: Decompondo s√©ries ap√≥s modifica√ß√£o...")
exercicio_9(dados_modificados, no_a, no_b, novo_no)

# Exerc√≠cio 10 - Teste de hip√≥teses
print("\nExerc√≠cio 10: Analisando impacto estat√≠stico da mudan√ßa...")
exercicio_10(dados, dados_modificados, no_a, no_b, novo_no, teste="t_test")

Exerc√≠cio 1: Carregando dados...
Dados convertidos e salvos como: email-Eu-core-temporal.csv
Dataset carregado com 332334 arestas.

Exerc√≠cio 2: Visualizando rede...
Visualiza√ß√£o da rede salva como 'figuras/exercicio_02_rede_spring.png'.

Exerc√≠cio 3: Analisando m√©dia dos menores caminhos...
M√©dia dos menores caminhos (maior componente fortemente conexo): 2.5475

An√°lise da conectividade e efici√™ncia:
A m√©dia de 2.5475 indica alta conectividade (caracter√≠stica de mundo pequeno).
E-mails tendem a alcan√ßar destinat√°rios com poucos intermedi√°rios, sugerindo comunica√ß√£o eficiente.
Em redes sociais, m√©dias abaixo de 6 s√£o comuns, como no conceito de 'seis graus de separa√ß√£o'.

Exerc√≠cio 4: Calculando centralidade de intermedia√ß√£o...
Top 5 n√≥s por centralidade de intermedia√ß√£o:
N√≥ 90: 0.0749
N√≥s com alta intermedia√ß√£o conectam grupos distintos.
N√≥ 951: 0.0389
N√≥s com alta intermedia√ß√£o conectam grupos distintos.
N√≥ 2: 0.0280
N√≥s com alta intermedia√ß√£o co