# 📊 Probabilidade e Estatística Aplicada à Avaliação de Desempenho

Este notebook foi construído a partir de exemplos práticos em Python, utilizando dados reais e simulados.

Software necessário: [pandas, seaborn, numpy, matpotlib, scipy, scikit-learn, kaggle]

```bash
pip3 install [DEPENDÊNCIA] # para instalar dependências
```

Importando as bibliotecas...

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import statistics
import matplotlib.pyplot as plt
from scipy.stats import poisson, norm, geom


**Agenda:**
- [Definições e Conceitos](#1-definições-e-conceitos)
- [Tipos de Estatísticas](#2-tipos-de-estatísticas)
- [Medidas Estatísticas](#3-medidas-estatísticas)
- [Visualizações: Histograma e Boxplot](#4-visualizações)
- [Variável Aleatórias e Funções de Probabilidade](#5-variáveis-aleatórias-e-funções-de-probabilidade)
- [Distribuições de Probabilidade](#6-distribuições-de-probabilidade)
- [Processo Estocástico](#6-processo-estocástico)
- [Aplicações em Redes de Computadores](#7-aplicações-em-redes-de-computadores)

## 1. Definições e Conceitos

* Estatística
	* É uma ciência baseada na Teoria da Probabilidade, cujo o objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir dos dados.
	* O objetivo é transformar dados brutos em conhecimento
* População
	* É uma coleção completa de todos os elementos a serem estudados e que possuem características gerais comuns. 
	* Observação: A população deve ser bem definida. 
* Amostra
	* É um subconjunto de membros selecionados de uma população.
* Variável
	* Qualquer característica de interesse associada aos elementos de uma população.
* Espaço Amostral
	* O conjunto de todos os possíveis resultados de um experimento.
* Evento
	* O resultado de um experimento (um subconjunto do espaço amostral)
* Probabilidade
	* Uma medida que tem valor entre 0 e 1 para cada evento possível. 
	* É vista como uma quantificação para frequência de ocorrência de um evento

In [None]:
# Exemplo com dataset real: pinguins (altura, peso, espécie)
df = sns.load_dataset('penguins').dropna()
df.head()

## 2. Tipos de Estatísticas

### Estatística Descritiva

* Fornece um **resumo dos dados** de forma numérica ou gráfica. 
* Exemplo
	* O gerente de um restaurante *fast-food* registrou os tempos de espera dos clientes no horário de almoço durante uma semana e sumarizou os dados

In [None]:
espera = [3,5,7,4,6,8,10,2,5,6,7,4,8,9,3,4,6,7,5] # tempos de espera em minutos

print(f"Tempo médio de espera: {statistics.mean(espera):.2f}")
print(f"Mediana: {statistics.median(espera)}")
print(f"Moda: {statistics.mode(espera)}")

### Estatística Inferencial

* Usa uma amostra aleatória dos dados coletados de uma população para descrever e fazer inferências sobre a população. 
* As estatísticas inferenciais são valiosas quando não é conveniente ou possível examinar cada membro de uma população inteira. 
* Exemplo: 
	* não seria prático medir o diâmetro de todos os pregos fabricados em uma fábrica ...
	* mas é possível medir o diâmetro de uma **amostra representativa** de pregos e usar essas informações para fazer generalizações sobre os diâmetros dos pregos produzidos.

### Estatística Computacional

* A estatística computacional é a interface entre estatística e ciência da computação. 
* Como nas estatísticas tradicionais, o objetivo é transformar dados brutos em conhecimento, mas o foco está em métodos estatísticos intensivos usando **algoritmos eficientes em computadores**.
* Normalmente com tamanhos de amostra muito grandes e conjuntos de dados não homogêneos.

## 3. Medidas Estatísticas

* Medidas de Posição
	* Moda, Média, Mediana, Percentis, Quartis. 
	* Moda, Média, Mediana:
		* Apontam um **valor central** e são usadas para representar todo o conjunto
		* São chamadas de medidas de Tendência Central
* Medidas de Dispersão
	* Amplitude, Distância Interquartil, Variância, Desvio Padrão, Coeficiente de Variação

### Medidas de Posição

#### Moda

* Valor que aparece com mais frequência em um conjunto de dados
* Exemplo: qual é a moda dos pesos dos pinguins

In [None]:
peso = df['body_mass_g']
print(f"Moda: {statistics.mode(peso)}")
peso.head()

#### Média aritmétrica simpes

* Fórmula

$$ \overline{x} = \dfrac{x_1 + x_2 + \dots + x_n}{n} = \dfrac{1}{n} \sum_{i=1}^{n} x_i $$

* Exemplo: média aritmétrica do tamanho dos pinguins

In [None]:
nadadeiras = df['flipper_length_mm']
print(f"Comprimento médio da nadadeira (em mm): {statistics.mean(nadadeiras):.2f}")
nadadeiras.head()

#### Mediana

* Valor que ocupa a posição central de um conjunto de N dados **ordenados**
    * Posição da mediana: $(n+1)/2$
* Se houver uma quantidade **ímpar**, a mediana será o **valor central** do conjunto
* Se a quantidade de valores for um número **par**, a mediana será a média aritmética dos dois números centrais
* Exemplos:

$$ A=\{10, 12, 13, 14, 14, 15, 15, 18, 19, 20\} \rightarrow M_d(A) = \dfrac{15+15}{2} = 14.5 $$

$$ B=\{10, 12, 13, 14, 14, 15, 18, 19, 20\} \rightarrow M_d(B) = 14 $$

In [None]:
print(f"Mediana: {statistics.median(nadadeiras)}")

<img src="./figuras/mediana.png" width="60%" alt="Mediana">

Utilizando a biblioteca **numpy**

In [None]:
print(f"Média: {np.mean(nadadeiras):.2f}")
print(f"Desvio Padrão: {np.std(nadadeiras):.2f}")
print(f"Variância: {np.var(nadadeiras):.2f}")

Medidas de Posição não dizem tudo sobre os dados

<img src="./figuras/tabela-medidas-posicao.png" width="70%" alt="Tabela">

### Outras Medidas de Posição

#### Percentil, Quartil, Decil

* O 1º percentil determina os 1% menores valores
* O 98º percentil determina os 98% menores valores
* O 10º percentil é o primeiro **decil**
* O 25º percentil é o primeiro **quartil**
* O 50º percentil é a **mediana** e segundo **quartil**
* O 75º percentil é o terceiro **quartil** 
* O 90º percentil é o nono **decil**

<img src="./figuras/percentil-quartil-decil.png" width="70%" alt="Percentil, Quartil, Decil">

#### Exemplo:

* Estudantes obtiveram as seguintes notas: $X=\{79, 80, 81, 81, 85, 86, 87, 88, 89, 90, 94\}$ 
* Abaixo de qual nota temos os **piores** 25%?
* Acima de qual nota temos os **melhores** 25%?
* Qual nota define os **top 10%**?


In [None]:
dados = np.array([79, 80, 81, 81, 85, 86, 87, 88, 89, 90, 94])

# Calcular o 75º percentil
percentis = np.percentile(dados, [25, 75, 90])
print(f"Os piores 25% são aqueles com notas abaixo de: {percentis[0]}")
print(f"Os melhores 25% são aqueles com notas acima de: {percentis[1]}")
print(f"Os top 10% são aqueles com notas acima de: {percentis[2]}")

### Medidas de Disperção

* Amplitude
    * Indica a diferença entre o **maior** e o **menor** valor observado.
* Distância Interquartil
    * A diferença entre o terceiro e o primeiro quartis: $DI(X) = Q3(X) - Q1(X)$
* Variância e desvio padrão
    * Medem a disperção dos dados **em relação à média**
    * Fórmula da variância: $\sigma^2 = \frac{\sum_{i=1}^{n} (y_{i}-\bar{y})^2}{n-1}$
    * Desvio padrão: $\sigma$
* Coeficiente de variação
    * Mostra a variabilidade da amostra **em relação à média**, interpretado como um **percentual**
    * Fórmula do coeficiente de variação: $C_v = \dfrac{\sigma}{\mu} * 100$

Um pouco mais de informação...

<img src="./figuras/tabela-medidas-posicao2.png" width="80%" alt="Tabela2">

## 4. Visualizações

### Boxplot

Gráfico que resume a distribuição de um conjunto de dados numéricos, mostrando o mínimo, o primeiro quartil (Q1), a mediana (Q2), o terceiro quartil (Q3) e o máximo, incluindo a identificação de valores discrepantes ou *outliers*.

In [None]:
# Gerar dados simulados (ex.: notas de uma turma)
np.random.seed(42)  # para reprodutibilidade
dados = np.random.normal(loc=70, scale=10, size=100)  # média=70, desvio=10, 100 alunos

# Criar boxplot
fig, ax = plt.subplots(figsize=(8, 5))
box = ax.boxplot(dados, vert=False, patch_artist=True,
                 boxprops=dict(facecolor="lightblue"),
                 medianprops=dict(color="red", linewidth=2),
                 showmeans=True, 
                 meanprops=dict(marker='o', markerfacecolor='green', markersize=8))

# ax.set_title("Boxplot com Anotações")
ax.set_xlabel("Notas")

# Calcular estatísticas principais
q1 = np.percentile(dados, 25)
q2 = np.median(dados)
q3 = np.percentile(dados, 75)
min_val = np.min(dados[dados > (q1 - 1.5*(q3-q1))])  # sem outliers
max_val = np.max(dados[dados < (q3 + 1.5*(q3-q1))])  # sem outliers
outliers = dados[(dados < min_val) | (dados > max_val)]

# Adicionar setas e textos
ax.annotate("Mínimo",
            xy=(min_val, 1.05), xytext=(min_val, 1.2),
            arrowprops=dict(facecolor='black', shrink=0.05),
            ha="center")

ax.annotate("Q1 (1º quartil)",
            xy=(q1, 1), xytext=(q1-10, 1.3),
            arrowprops=dict(facecolor='black', shrink=0.05),
            ha="center")

ax.annotate("Mediana (Q2)",
            xy=(q2, 1), xytext=(q2, 1.4),
            arrowprops=dict(facecolor='red', shrink=0.2),
            ha="center", color="red")

ax.annotate("Q3 (3º quartil)",
            xy=(q3, 1), xytext=(q3+10, 1.3),
            arrowprops=dict(facecolor='black', shrink=0.05),
            ha="center")

ax.annotate("Máximo",
            xy=(max_val, 1.05), xytext=(max_val, 1.2),
            arrowprops=dict(facecolor='black', shrink=0.01),
            ha="center")

ax.annotate("Outlier",
            xy=(outliers[0], 1), xytext=(outliers[0], 0.8),
            arrowprops=dict(facecolor='black', shrink=0.15),
            ha="center")

ax.annotate("Média"
            , xy=(np.mean(dados), 1), xytext=(np.mean(dados)+10, 0.8),
            arrowprops=dict(facecolor='green', shrink=0.15),
            ha="center", color="green")

plt.show()

# Explicação do boxplot:
print("Explicação do Boxplot:")
print("- Cada caixa exibe a distribuição das notas de uma turma.")
print("- O tamanho da caixa representa o intervalo entre o 1º quartil (Q1) e o 3º quartil (Q3).")
print("- A linha dentro da caixa mostra a mediana (Q2).")
print("- O ponto verde indica a média dos dados.")
print("- Os 'bigodes' se estendem até os valores mínimos e máximos que não são considerados outliers.")
print("- Os pontos fora dos bigodes (se existerem) indicam outliers (valores atípicos).")


In [None]:
# Gerar dados simulados para 3 turmas
np.random.seed(42)  # reprodutibilidade
turma_A = np.random.normal(loc=70, scale=10, size=100)  # média 70
turma_B = np.random.normal(loc=65, scale=12, size=100)  # média 65
turma_C = np.random.normal(loc=75, scale=8, size=100)   # média 75

# Criar lista com os dados
dados = [turma_A, turma_B, turma_C]

# Gerar o boxplot
plt.boxplot(dados, patch_artist=True, tick_labels=["Turma A", "Turma B", "Turma C"],
            boxprops=dict(facecolor="lightblue"),
            medianprops=dict(color="red", linewidth=2))

# Adicionar título e rótulos
plt.title("Comparação de Notas entre Turmas")
plt.ylabel("Turmas")
plt.xlabel("Notas")

# Mostrar gráfico
plt.show()

# Explicação
print("""
Comparação das notas entre as turmas

- Turma A
  • A maioria das notas ficou entre 63 e 74.
  • A mediana (linha vermelha) está em torno de 70.
  • Há um aluno com nota muito fora do padrão, bem baixo (44) do limite inferior.

- Turma B
  • As notas variaram bastante, desde 42 até quase 95.
  • A mediana está um pouco abaixo da Turma A (≈66).
  • Isso mostra que alguns alunos foram muito bem, mas outros tiveram notas bem baixas, aumentando a diferença dentro da turma.

- Turma C
  • Foi a turma com melhor desempenho geral.
  • A mediana ficou em 75, mais alta que as outras turmas.
  • A maior parte dos alunos tirou notas entre 70 e 82, ou seja, próximos uns dos outros.
  • Também aparecem dois valores fora do padrão: um aluno com nota bem baixa (49) e outro com uma nota muito alta (106).

- Resumo geral
  • A Turma C foi a que se saiu melhor no conjunto.
  • A Turma B foi a mais desigual, com alunos indo muito bem e outros indo mal.
  • A Turma A ficou no meio do caminho: desempenho estável, mas sem alcançar a Turma C.
""")


### Histograma

Um gráfico de barras que mostra a contagem de dados, onde cada barra vertical é um compartimento (**“bin”**)  que representa uma faixa de valores e a altura da barra conta a frequência dos dados no **bin**.

In [None]:
sns.histplot(x=df["body_mass_g"], kde=True, bins=20)
plt.show()

Adicionando algumas medidas...

In [None]:
percentis = np.percentile(df["body_mass_g"], [25, 75, 90])
media = df['body_mass_g'].mean()
mediana = df['body_mass_g'].median()

sns.histplot(x=df["body_mass_g"], kde=True, bins=20)

# Adicionar linhas verticais para os valores
plt.axvline(percentis[2], color='red', linestyle='dashed', linewidth=1, label=f'90º Percentil ({percentis[2]:.2f})')
plt.axvline(percentis[1], color='green', linestyle='dashed', linewidth=1, label=f'3º Quartil ({percentis[1]:.2f})')
plt.axvline(percentis[0], color='orange', linestyle='dashed', linewidth=1, label=f'1º Quartil ({percentis[0]:.2f})')
plt.axvline(mediana, color='blue', linestyle='dashed', linewidth=1, label=f'Mediana ({mediana:.2f})')
plt.axvline(media, color='gray', linestyle='dashed', linewidth=1, label=f'Média ({media:.2f})')

# Adicionar rótulos para cada linha
plt.text(percentis[2] + 0.5, plt.ylim()[1]*0.96, f'{percentis[2]:.2f}', color='red', fontsize=9)
plt.text(percentis[1] + 0.5, plt.ylim()[1]*0.96, f'{percentis[1]:.2f}', color='green', fontsize=9)
plt.text(percentis[0] + 0.5, plt.ylim()[1]*0.96, f'{percentis[0]:.2f}', color='orange', fontsize=9)
plt.text(mediana + 0.5, plt.ylim()[1]*0.96, f'{mediana:.2f}', color='blue', fontsize=9)
plt.text(media + 0.5, plt.ylim()[1]*0.92, f'{media:.2f}', color='gray', fontsize=9)

# Adicionar títulos e rótulos aos eixos
plt.title('Histograma com Percentil e Quartis')
plt.xlabel('Valores')
plt.ylabel('Frequência')
plt.legend(loc=(0.55, 0.6)) # Mostra as legendas das linhas verticais
plt.grid(axis='y', alpha=0.75)
plt.show()

Exemplo interativo

In [None]:
# pip3 install ipywidgets
from ipywidgets import interact, IntSlider, FloatSlider

# Gerando dados de exemplo (distribuição normal)
np.random.seed(42)
dados = np.random.randn(1000)

# Função para plotar o histograma
def plot_hist(bins=10):
    plt.figure(figsize=(6, 4))
    plt.hist(dados, density=True, alpha=0.6, bins=bins, color='skyblue', edgecolor='black')
    plt.title(f"Histograma Interativo (bins = {bins})")
    plt.xlabel("Valores")
    plt.ylabel("Frequência")
    plt.show()

# Widget interativo para controlar o número de bins
interact(plot_hist, bins=IntSlider(min=5, max=50, step=1, value=10))


Outro exemplo interativo...

In [None]:
# Função para plotar histograma + curva da Normal
def plot_hist(mu=170, sigma=10, bins=20):
    # Gerando dados simulados
    np.random.seed(42)
    dados = np.random.normal(loc=mu, scale=sigma, size=1000)

    # Criando histograma com densidade
    plt.figure(figsize=(8,5))
    plt.hist(dados, bins=bins, density=True, alpha=0.6, 
             color='skyblue', edgecolor='black', label="Histograma (densidade)")

    # Curva teórica da normal
    x = np.linspace(mu - 4*sigma, mu + 4*sigma, 200)
    pdf = norm.pdf(x, loc=mu, scale=sigma)
    plt.plot(x, pdf, 'r-', lw=2, label="Distribuição Normal (teórica)")

    plt.title(f"Histograma de Densidade (μ={mu}, σ={sigma}, bins={bins})")
    plt.xlabel("Valores")
    plt.ylabel("Densidade de probabilidade")
    plt.legend()
    plt.grid(True, linestyle="--", alpha=0.6)
    plt.show()

# Widgets interativos
interact(plot_hist, 
         mu=FloatSlider(min=150, max=190, step=1, value=170, description="Média (μ)"),
         sigma=FloatSlider(min=5, max=20, step=1, value=10, description="Desvio (σ)"),
         bins=IntSlider(min=5, max=50, step=1, value=20, description="Bins"))


Gráfico com várias curvas normais, todas com a mesma média e variando o desvio padrão
* Todas as curvas estão centralizadas em 170 (mesma média).
* Quando o σ é pequeno (ex.: 5), a curva é mais estreita e alta.
* Quando o σ é maior (ex.: 20), a curva fica mais larga e baixa, espalhando os valores.

In [None]:
# Parâmetros
mu = 170                 # média fixa
sigmas = [5, 10, 15, 20] # diferentes desvios padrões
x = np.linspace(130, 210, 400)

# Plotando as curvas
plt.figure(figsize=(8,5))

for sigma in sigmas:
    pdf = norm.pdf(x, loc=mu, scale=sigma)
    plt.plot(x, pdf, lw=2, label=f"σ={sigma}")

plt.title("Distribuições Normais com a mesma média (μ=170) e diferentes σ")
plt.xlabel("Valores")
plt.ylabel("Densidade de Probabilidade")
plt.legend()
plt.grid(True, linestyle="--", alpha=0.6)
plt.show()


## 5. Variáveis Aleatórias e Funções de Probabilidade

* Uma VA é uma variável cujos valores dependem dos resultados de um experimento aleatório
    * Lembrando: **experimento aleatório = evento**
* Uma VA mapeia um evento em um número
* Variáveis podem ser **discretas** ou **contínuas**

### Variável Aleatória Discreta

* É uma variável cujos valores são contáveis
* Exemplos de Variáveis Aleatórias Discretas:
    * $H=\{0,1,2,3,4,5\}$, quantas “caras” em 5 lançamentos de uma moeda
    * $X$ = estado do servidor: 1 se ativo, 0 se inativo
    * $Y$ = número de pacotes IP por intervalo de tempo
    * $D$ = valor do lançamento de um dado
    * $I = {0,1}$, Zero se o lançamento do dado for par,  1 se for ímpar
    * $Z = {0,1}$, Zero se o lançamento do dado <=3,  1 se for >3

### Variável Aleatória Contínua

* É uma variável cujos dados podem assumir infinitos valores
* Exemplos de Variáveis Aleatórias Contínuas:
    * $X$ = Tempo entre pacotes
    * $Y$ = Jitter de pacotes
    * $Z$ = Tempo de resposta do servidor
    * $H$ = Altura de pessoas 

### Exemplo de Variável Aleatória

* Um dado é jogado repetidamente até que um 6 seja obtido
  * Espaço amostral: $\{1,2,3,4,5,6\}$
  * Evento: "o valor do dado é 6"
* Problema
  * Analisar a probabilidade do evento "$X=6$" quando fazemos 1, 2, 3, ... N lançamentos
* Racionalidade
  * Seja $X$ a VA que representa **o número de vezes que jogamos o dado até obter um 6**
  * Para conseguir um 6 no primeiro arremesso temos que $P(X=1) = 1/6$
  * Para conseguir um 6 no segundo arremesso temos que
    * Não obter um 6 no primeiro arremese **E** obter um 6 no segundo
    * $P(X=2) = (5/6)(1/6) ≈ 0.138$
* Em geral, para conseguir um 6 em $x$ lançamentos é

$$ P(X=x) = (\dfrac{5}{6})^{x-1} (\dfrac{1}{6})^1 $$

In [None]:
# Definindo a função de probabilidade P(X=x)
def prob(x):
    return (5/6)**(x-1) * (1/6)

# Valores de x (número de lançamentos até sair 6)
x = np.arange(1, 11)  # até 15 lançamentos

# Calculando as probabilidades
p = [prob(i) for i in x]

# Exibindo valores
for i, val in zip(x, p):
    print(f"P(X={i}) = {val:.5f}")


### PDF (Probability Density / Mass Function)

* É a função de probabilidade de uma variável aleatória.
* Para variáveis discretas (como o lançamento de um dado), usamos PMF (Probability Mass Function).
* Indica a probabilidade de o evento assumir um valor específico.

In [None]:
# Parâmetros
p = 1/6
N = 20
x = np.arange(1, N+1)
pdf = geom.pmf(x, p)

# Plot PDF
plt.figure(figsize=(8,5))
plt.stem(x, pdf, basefmt=" ")
plt.title("Função de Probabilidade (PDF) - Distribuição Geométrica")
plt.xlabel("Número de lançamentos até sair 6 (X)")
plt.ylabel("P(X = x)")
plt.grid(True, linestyle="--", alpha=0.6)

# Valores a destacar
destacar = [1, 2, 5]

for d in destacar:
    plt.annotate(f"P(X={d})={pdf[d-1]:.3f}", 
                 xy=(d, pdf[d-1]), 
                 xytext=(d+1, pdf[d-1]),
                 arrowprops=dict(facecolor='red', arrowstyle="->"),
                 fontsize=10, color="red")

plt.show()


### CDF (Cumulative Distribution Function)

* É a função de distribuição acumulada.
* Mostra a probabilidade de a variável assumir um valor menor ou igual a x.
* É obtida pela soma (no caso discreto) ou integral (no caso contínuo) da PDF.
* Exemplo: $P(X ≤ 3) = P(X=1) + P(X=2) + P(X=3)$ → probabilidade de sair o primeiro 6 até o 3º lançamento.

In [None]:
# CDF
cdf = geom.cdf(x, p)

# Plot CDF
plt.figure(figsize=(8,5))
plt.step(x, cdf, where="post")
plt.title("Função de Distribuição Acumulada (CDF) - Distribuição Geométrica")
plt.xlabel("Número de lançamentos até sair 6 (X)")
plt.ylabel("P(X ≤ x)")
plt.ylim(0, 1.05)
plt.grid(True, linestyle="--", alpha=0.6)

# Valores a destacar
destacar = [3, 5, 10]

for d in destacar:
    plt.annotate(f"P(X≤{d})={cdf[d-1]:.3f}", 
                 xy=(d, cdf[d-1]), 
                 xytext=(d+1, cdf[d-1]-0.1),
                 arrowprops=dict(facecolor='blue', arrowstyle="->"),
                 fontsize=10, color="blue")

plt.show()


## 6. Distribuições de Probabilidade

### Distribuição de Poisson: 

Modela a probabilidade de ocorrência de um número de eventos discretos (neste caso, conexões em um servidor) em um intervalo de tempo, assumindo uma taxa média de λ = 4 conexões por hora. O gráfico de barras mostra as probabilidades para valores de 0 a 9 conexões.

In [None]:
# Distribuição de Poisson: conexões em servidor (λ=4 por hora)
x = range(0,10)
pmf = poisson.pmf(x, mu=4)
plt.bar(x, pmf)
plt.title('Distribuição de Poisson (λ=4)')
plt.show()

### Distribuição Normal: 

Representa a variação contínua de uma característica (exemplo: alturas), com média μ = 170 cm e desvio padrão σ = 10 cm. O gráfico resultante exibe a função densidade de probabilidade, no formato de uma curva em sino.

In [None]:
# Função para plotar a distribuição normal com parâmetros interativos
def plot_normal(mu=170, sigma=10):
    x = np.linspace(140, 200, 200)
    pdf = norm.pdf(x, loc=mu, scale=sigma)
    
    plt.figure(figsize=(8,5))
    plt.plot(x, pdf, color="blue", lw=2)
    plt.title(f"Distribuição Normal (μ={mu}, σ={sigma})")
    plt.xlabel("Altura (cm)")
    plt.ylabel("Densidade de Probabilidade")
    plt.grid(True, linestyle="--", alpha=0.6)
    plt.show()

# Widgets interativos: média e desvio padrão
interact(plot_normal, 
         mu=FloatSlider(min=150, max=190, step=1, value=170, description="Média (μ)"),
         sigma=FloatSlider(min=5, max=20, step=1, value=10, description="Desvio (σ)"))


In [None]:
# Distribuição Normal: alturas (simulação)
x = np.linspace(140, 200, 100)
pdf = norm.pdf(x, loc=170, scale=10)
plt.plot(x, pdf)
plt.title('Distribuição Normal (μ=170, σ=10)')
plt.show()

## 6. Processo Estocástico

### Estocástico vs Determinístico

* Processo Determinístico
    * Qualquer ponto do processo pode ser determinado a partir das condições iniciais
    * Comportamento é previsível
    * Oposto de **randômico**
    * Exemplos
    * Posição de um carro em velocidade constante no tempo T
    * O saldo de um investimento com taxa pré-fixada.
    * A relação entre o raio de um círculo e sua área

* Processo Estocástico
    * Estocástico = **aleatório**
    * Descreve o comportamento de uma coleção de eventos randômicos
    * As condições iniciais não são suficientes para determinar o estado no tempo $T$
    * Flutuações aleatórias tornam impossível a previsibilidade
    * Podemos apenas dizer sobre o comportamento **provável** 
    * Informações são obtidas através de uma série de observações

* Exemplo: código em Python que simula a evolução do tamanho de uma fila em um banco ao longo do tempo, utilizando um processo estocástico
    * A fila começa com 5 pessoas
    * A cada passo de tempo, o tamanho da fila varia de acordo com uma escolha aleatória entre $-2, -1, 0, 1, 2$ (representando saídas ou entradas de clientes)
    * O tamanho nunca fica negativo, pois é aplicado $max(0, ...)$
    * O resultado é um gráfico de linha mostrando como a fila cresce ou diminui de forma aleatória no decorrer do tempo

👉 Esse tipo de simulação ajuda a visualizar fenômenos aleatórios em processos de chegada e atendimento, comuns em teoria de filas e análise de desempenho.

In [None]:
import random

fila = [5]
for i in range(1,50):
    fila.append(max(0, fila[-1] + random.choice([-2,-1,0,1,2])))

plt.plot(fila)
plt.title("Simulação de Fila em Banco (Processo Estocástico)")
plt.xlabel("Tempo")
plt.ylabel("Tamanho da fila")
plt.show()

Outra versão que roda várias simulações da fila e mostra todas no mesmo gráfico para comparar diferentes cenários.

* O que muda em relação ao anterior:
    * Uma função *simular_fila* foi criada para facilitar a repetição
    * São executadas 5 simulações independentes, cada uma representando um cenário possível
    * O gráfico final mostra todas as curvas, permitindo comparar a evolução da fila em diferentes situações

In [None]:
# Função para simular a evolução da fila
def simular_fila(tamanho_inicial=5, passos=50):
    fila = [tamanho_inicial]
    for i in range(1, passos):
        fila.append(max(0, fila[-1] + random.choice([-2, -1, 0, 1, 2])))
    return fila

# Rodar várias simulações
num_simulacoes = 5
for i in range(num_simulacoes):
    fila = simular_fila()
    plt.plot(fila, label=f"Simulação {i+1}")

# Personalizar gráfico
plt.title("Simulação de Fila em Banco (Processos Estocásticos)")
plt.xlabel("Tempo")
plt.ylabel("Tamanho da Fila")
plt.legend()
plt.show()


Outra versão com múltiplas simulações e o resultado da média destacado.

* O que foi adicionado:
    * As simulações são armazenadas em uma lista simulacoes
    * A função **np.mean(..., axis=0)** foi usada para calcular a média em cada instante de tempo
    * Foi utilizada uma linha preta mais grossa para a média, destacando a tendência geral da fila

In [None]:
# Função para simular a evolução da fila
def simular_fila(tamanho_inicial=5, passos=50):
    fila = [tamanho_inicial]
    for i in range(1, passos):
        fila.append(max(0, fila[-1] + random.choice([-2, -1, 0, 1, 2])))
    return fila

# Rodar várias simulações
num_simulacoes = 10
simulacoes = []

for i in range(num_simulacoes):
    fila = simular_fila()
    simulacoes.append(fila)
    plt.plot(fila, alpha=0.6, label=f"Simulação {i+1}")

# Calcular a média em cada instante de tempo
media = np.mean(simulacoes, axis=0)

# Adicionar linha da média em destaque
plt.plot(media, color="black", linewidth=3, label="Média das Simulações")

# Personalizar gráfico
plt.title("Simulação de Fila em Banco (Processos Estocásticos)")
plt.xlabel("Tempo")
plt.ylabel("Tamanho da Fila")
plt.legend()
plt.show()


## 7. Aplicações em Redes de Computadores

O código em Python a seguir gera e visualiza uma simulação do jitter em pacotes de rede.

O jitter representa a variação do atraso entre pacotes sucessivos em uma transmissão.

Ele é simulado aqui por meio de uma distribuição exponencial com parâmetro scale=0.5, gerando 200 valores aleatórios.

O histograma é construído com a biblioteca Seaborn (sns.histplot), mostrando a frequência dos valores de jitter.

A curva de densidade (KDE) é sobreposta ao histograma, facilitando a interpretação da distribuição.

O gráfico final exibe como esses atrasos variam, o que é importante para avaliar a qualidade de serviços de rede em tempo real, como voz e vídeo.

In [None]:
# Exemplo de jitter simulado entre pacotes
jitter = np.random.exponential(scale=0.5, size=200)
sns.histplot(jitter, bins=20, kde=True)
plt.title("Distribuição de Jitter de Pacotes")
plt.show()

Aqui está uma versão que compara dois cenários de jitter em redes.

* O que esse código mostra:
    * Rede estável → jitter menor, concentrado próximo de zero
    * Rede congestionada → jitter maior, mais disperso
    * O gráfico sobrepõe as distribuições, facilitando a comparação entre os cenários

In [None]:
# Simular jitter em dois cenários
np.random.seed(42)
jitter_estavel = np.random.exponential(scale=0.3, size=200)     # rede mais estável
jitter_congestionada = np.random.exponential(scale=1.0, size=200)  # rede congestionada

# Plotar comparativo
plt.figure(figsize=(8,5))
sns.histplot(jitter_estavel, bins=20, kde=True, color="blue", label="Rede Estável", alpha=0.6)
sns.histplot(jitter_congestionada, bins=20, kde=True, color="red", label="Rede Congestionada", alpha=0.6)

# Personalizar gráfico
plt.title("Comparação da Distribuição de Jitter (Rede Estável vs Congestionada)")
plt.xlabel("Jitter (s)")
plt.ylabel("Frequência")
plt.legend()
plt.show()
