# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas


# Distribuições de Frequência e Probabilidade

Este notebook apresenta conceitos fundamentais sobre distribuições de frequência e probabilidade, aplicados a dados discretos e contínuos.

Vamos seguir as seguintes etapas:
1. Distribuições de Frequência
2. Distribuições Discretas  
2.1. Bernoulli  
2.2. Binomial  
2.3. Poisson  
3. Distribuições Contínuas  
3.1. Normal  
3.2. Exponencial  
3.3. Uniforme
4. Função de Distribuição Acumulada (CDF)

## Importação das bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats as st

np.random.seed(42) # fixa a aleatoriedade para que os resultados sejam sempre os mesmos


## 1. Distribuições de Frequência

As distribuições de frequência organizam e resumem dados mostrando quantas vezes cada valor aparece.

Vamos criar um conjunto de notas de alunos e calcular:

- Frequência Absoluta (*`fi`*): número de ocorrências;
- Frequência Relativa (*`fri`*): proporção em relação ao total;
- Frequência Acumulada (*`Fi`*): soma progressiva das frequências;
- Frequência Relativa Acumulada (*`Fri`*): soma progressiva das proporções.


In [None]:
# Exemplo: notas obtidas por 30 alunos
notas = [5, 6, 7, 8, 8, 8, 9, 5, 6, 7, 7, 7, 9, 10, 6, 8, 9, 10, 5, 6, 6, 7, 8, 9, 5, 6, 7, 7, 8, 9]
df = pd.DataFrame({'nota': notas})
df.head()

Frequência Absoluta (*`fi`*)

In [None]:
# Quantos alunos tiraram tal nota?
freq_abs = df['nota'].value_counts().sort_index()
freq_abs

# .value_counts() -> Conta quantas vezes cada valor distinto aparece nessa coluna (gera uma tabela de frequência absoluta)
# .sort_index() -> Ordena o resultado pelo índice — ou seja, pelas notas (valores), não pela frequência

In [None]:
# Gráfico de barras - Frequência Absoluta
freq_abs.plot(kind='bar', title='Frequência Absoluta das Notas', xlabel='Nota', ylabel='Frequência', color='orange')

Frequência Relativa (*`fri`*)

In [None]:
# Qual a porcentagem de alunos que obtiveram aquela nota?
freq_rel = df['nota'].value_counts(normalize=True).sort_index()
freq_rel

# .value_counts(normalize=True) -> Faz o mesmo que .value_counts(), mas divide cada contagem pelo total de elementos

In [None]:
# Gráfico de barras - Frequência Relativa
freq_rel.plot(kind='bar', title='Frequência Relativa das Notas', xlabel='Nota', ylabel='Proporção', color='orange')

Frequência Acumulada (*`Fi`*)

In [None]:
# Quantos alunos tiraram até aquela nota?
freq_acum = freq_abs.cumsum()
freq_acum

In [None]:
# Gráfico de linha - Frequência Acumulada
freq_acum.plot(kind='line', marker='o', title='Frequência Acumulada', xlabel='Nota', ylabel='Frequência', color='orange', grid=True)

Frequência Relativa Acumulada (*`Fri`*)

In [None]:
# Qual a porcentagem de alunos que obtiveram até aquela nota?
freq_rel_acum = freq_rel.cumsum()
display(freq_rel)
display(freq_rel_acum)

In [None]:
# Gráfico de linha - Frequência Relativa Acumulada
freq_rel_acum.plot(kind='line', marker='o', title='Frequência Relativa Acumulada', xlabel='Nota', ylabel='Proporção Acumulada', color='orange', grid=True)

In [None]:
# Tabela final com todas as colunas
freq_table = pd.DataFrame({
    'Frequência Absoluta': freq_abs,
    'Frequência Relativa': freq_rel.round(4),
    'Frequência Acumulada': freq_acum,
    'Frequência Relativa Acumulada': freq_rel_acum.round(4)
})
freq_table

## 2. Distribuições de Probabilidade (Discretas)

Uma distribuição Discreta lista todos os valores possíveis de uma variável e suas probabilidades.

A maneira formal de representar essa distribuição é por meio da Função de Massa de Probabilidade (PMF), que atribui uma probabilidade a cada valor discreto da variável.

 <br>

**Função de Massa de Probabilidade (PMF)**

A PMF descreve a probabilidade de uma variável aleatória discreta assumir um determinado valor.

Para uma variável aleatória $X$, a PMF é definida como:

$$
P(X = x) = f(x)
$$

onde:

- $x$ representa um valor possível da variável $X$;
- $f(x) \geq 0 $ para todo $x$;
- $\sum_x f(x) = 1$, ou seja, a soma de todas as probabilidades é igual a $1$.

<br>

A PMF se aplica apenas a variáveis discretas que assumem valores contáveis. Ela atribui uma probabilidade exata a cada valor, o que a diferencia das distribuições contínuas (que usam PDF e lidam com intervalos).

<br>

Vamos estudar as seguintes distribuições discretas:
* Bernoulli;
* Binomial;
* Poisson.



### 2.1. Distribuição de Bernoulli

A Distribuição de Bernoulli modela um evento com dois possíveis resultados (sucesso ou fracasso).

Esta distribuição é adequada para eventos binários como:

- Aprovado (1) ou Reprovado (0);
- Cara (1) ou Coroa (0);
- Presença (1) ou Ausência (0).

<br>

Definição:

Seja $X$ uma variável aleatória com distribuição de Bernoulli, então:

$$
P(X = 1) = p \quad \text{e} \quad P(X = 0) = 1 - p
$$

onde:

- $p$ é a probabilidade de sucesso ($0 \leq p \leq 1$);
- $1 - p$ é a probabilidade de fracasso.

<br>

A Distribuição de Bernoulli possui:

- Valor esperado (média):

  $$
  \mathbb{E}[X] = p
  $$

- Variância:

  $$
  \text{Var}(X) = p(1 - p)
  $$

<br>

A PMF da Bernoulli é dada por:

$$
P(X = x) = p^x (1 - p)^{1 - x}, \quad \text{para } x \in \{0, 1\}
$$



In [None]:
# O aluno foi aprovado (nota ≥ 7) ou reprovado (nota < 7)?
df['aprovado'] = (df['nota'] >= 7).astype(int)
p = df['aprovado'].mean()
print(f"Probabilidade de sucesso (p): {p:.2f}")

In [None]:
# Podemos simular vários alunos seguindo essa probabilidade
n = 1000
sim_bern = np.random.binomial(1, p, n) # Simula n eventos de Bernoulli com probabilidade p
pd.Series(sim_bern).value_counts(normalize=True)

In [None]:
x = [0, 1] # Valores da variável: 0 = Reprovado, 1 = Aprovado
probs = [1 - p, p] # Probabilidades para os valores [0 = fracasso, 1 = sucesso]

# Gráfico da distribuição de Bernoulli
plt.figure(figsize=(6,4))
plt.bar(x, probs, color='orange', alpha=0.9, width=0.4)
plt.xticks(x, ['0 = Reprovado', '1 = Aprovado'])
plt.ylim(0, 1)
plt.title(f'Distribuição de Bernoulli — p = {p:.2f}')
plt.ylabel('Probabilidade')
plt.grid(axis='y', alpha=0.3)
plt.show()

Interpretação do gráfico

- Cada "lançamento" representa um aluno (sucesso = aprovado, fracasso = reprovado);

- A média dos 0's e 1's se aproxima de `p` (a probabilidade de aprovação).

### 2.2. Distribuição Binomial

A Distribuição Binomial modela o número de sucessos em $n$ tentativas independentes, cada uma com probabilidade $p$ de sucesso. Ela é uma generalização da distribuição de Bernoulli, que considera apenas uma única tentativa.  

Na Binomial, estamos interessados em quantos sucessos ocorrem em um conjunto de $n$ experimentos repetidos sob as mesmas condições. Ou seja, ela é usada quando repetimos o mesmo experimento várias vezes, de forma **independente** e com a **mesma probabilidade de sucesso em cada uma das tentativas.

Exemplos de aplicações incluem:

- Número de alunos aprovados em uma turma com 10 alunos;
- Número de caras ao lançar uma moeda várias vezes;
- Número de peças com defeito em um lote de produção.

<br>

Definição:

Seja $X$ uma variável aleatória com Distribuição Binomial, então:

$$
X \sim \text{Bin}(n, p)
$$

onde:

- $n$ = número de tentativas;
- $p$ = probabilidade de sucesso em cada tentativa.

<br>

A Distribuição Binomial possui:

- Valor esperado (média):

  $$
  \mathbb{E}[X] = np
  $$

- Variância:

  $$
  \text{Var}(X) = np(1 - p)
  $$

<br>

A PMF da Binomial é:

$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad \text{para } k = 0, 1, \ldots, n
$$  

O termo $\binom{n}{k}$ é chamado de coeficiente binomial: $\binom{n}{k} = \frac{n!}{k!(n - k)!}$

Esse valor indica quantas formas diferentes existem de obter exatamente $k$ sucessos em $n$ tentativas.

In [None]:
# Em uma turma de 10 alunos, quantos serão aprovados?
n_alunos = 10
p = df['aprovado'].mean() # Estima a probabilidade de aprovação com base na média

sim_binom = np.random.binomial(n=n_alunos, p=p, size=1000) # Simula a distribuição binomial: número de aprovados em 1000 turmas com n_alunos

pd.Series(sim_binom).value_counts(normalize=True).sort_index().plot(kind='bar', color='orange')
plt.title('Distribuição Binomial — Aprovados em uma turma de 10 alunos')
plt.xlabel('Número de alunos aprovados')
plt.ylabel('Probabilidade')
plt.grid(True, alpha=0.3)
plt.show()

Interpretação do gráfico

- O eixo X mostra quantos alunos (de um total de 10) foram aprovados.

- O formato se aproxima de uma curva simétrica, com maior probabilidade perto do valor esperado `n * p`.

- "Se montarmos várias turmas de 10 alunos com a mesma taxa de aprovação, normalmente teremos 6 ou 7 alunos aprovados por turma. Turmas com todos aprovados (10) ou todos reprovados (0) são raras."

### 2.3. Distribuição de Poisson

A Distribuição de Poisson modela o número de vezes que um evento ocorre dentro de um intervalo fixo de tempo, espaço, área ou volume, quando esses eventos:

- Acontecem de forma independente;
- Ocorrem a uma taxa média constante;
- São raros em relação ao número total de oportunidades.

É amplamente usada para modelar contagens de eventos raros ou aleatórios que ocorrem continuamente ao longo do tempo ou do espaço.

Exemplos de aplicações:

- Número de chamadas recebidas por um call center em 1 hora;
- Número de acidentes em um cruzamento por dia;
- Número de clientes que chegam em uma loja por minuto.

<br>

Definição:

Seja $X$ uma variável aleatória com distribuição de Poisson, então:

$$
X \sim \text{Poisson}(\lambda)
$$

onde:

- $\lambda > 0$ é a taxa média de ocorrência dos eventos;
- $X$ representa o número de eventos que ocorrem em um intervalo fixo.

<br>

A distribuição de Poisson tem a média igual à variância.

- Valor esperado (média):

  $$
  \mathbb{E}[X] = \lambda
  $$

- Variância:

  $$
  \text{Var}(X) = \lambda
  $$

<br>

A PMF da Poisson é dada por:

$$
P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad \text{para } k = 0, 1, 2, \ldots
$$

In [None]:
# "Quantos alunos tiram exatamente 10 em uma turma?"

λ = (df['nota'] == 10).sum() / len(df) * 10  # Média esperada de notas 10 por turma de 10 alunos
print(f"Média esperada de notas 10 por turma: {λ:.2f}\n")

sim_poisson = np.random.poisson(lam=λ, size=1000) # Simula 1000 contagens de eventos com média λ (distribuição de Poisson)

pd.Series(sim_poisson).value_counts(normalize=True).sort_index().plot(kind='bar', color='orange')
plt.title('Distribuição de Poisson — Alunos com nota 10 por turma')
plt.xlabel('Número de alunos com nota 10')
plt.ylabel('Probabilidade')
plt.grid(True, alpha=0.3)
plt.show()


Interpretação do gráfico

- Mostra a probabilidade de 0, 1, 2, ... alunos tirarem 10 numa turma de mesmo tamanho.

- Útil para eventos raros e independentes (como tirar nota máxima).

## 3. Distribuições de Probabilidade (Contínuas)

Uma distribuição Contínua representa variáveis que podem assumir qualquer valor em um intervalo. Nestes casos, não falamos em probabilidade de valores exatos, mas sim de intervalos, calculados por meio da Função Densidade de Probabilidade (PDF).

<br>

Função Densidade de Probabilidade (PDF)**

A PDF descreve o comportamento de variáveis aleatórias contínuas.  
Diferente da PMF, que atribui uma probabilidade a valores exatos, a PDF não fornece diretamente probabilidades pontuais. Isso porque, em variáveis contínuas, a probabilidade de assumir um valor exato é sempre zero:

$$
P(X = x) = 0
$$

Em vez disso, a PDF permite calcular a probabilidade de que a variável esteja dentro de um intervalo.

Por exemplo, para uma variável contínua $X$ com PDF $f(x)$, a probabilidade de $X$ cair entre dois valores $a$ e $b$ é dada por:

$$
P(a \leq X \leq b) = \int_a^b f(x) \, dx
$$

Ou seja, a probabilidade é a área sob a curva da PDF entre os pontos $a$ e $b$.

Para que uma função seja válida como PDF, ela deve satisfazer duas condições:

- $f(x) \geq 0$ para todo $x$;
- A área total sob a curva deve ser igual a 1:

$$
\int_{-\infty}^{\infty} f(x) \, dx = 1
$$

### 3.1. Distribuição Normal

A Distribuição Normal (ou distribuição Gaussiana) é usada para modelar fenômenos naturais e comportamentos de variáveis contínuas que tendem a se concentrar em torno da média.

A curva é simétrica em torno da média ($\mu$) e tem formato de sino.

Propriedades da Normal:

- Simétrica em torno da média ($\mu = 0$);
- A maior parte dos valores está próxima da média;
- As caudas da curva se estendem ao infinito, mas a densidade tende a zero;
- **68%** dos valores estão entre $-1\sigma$ e $+1\sigma$;
- **95%** entre $-2\sigma$ e $+2\sigma$;
- **99.7%** entre $-3\sigma$ e $+3\sigma$.

Exemplos de fenômenos que seguem a Distribuição Normal:

- Alturas de pessoas;
- Peso corporal;
- Tempo de reação.

<br>

Definição:

Se $X$ é uma variável com Distribuição Normal, escrevemos:

$$
X \sim \mathcal{N}(\mu, \sigma^2)
$$

<br>

A Distribuição Normal possui:

- Valor esperado (média):

  $$
  \mathbb{E}[X] = \mu
  $$

- Variância:

  $$
  \text{Var}(X) = \sigma^2
  $$

<br>

A PDF da Normal é dada por:

$$
f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \cdot e^{ -\frac{(x - \mu)^2}{2\sigma^2} }
$$


In [None]:
# Geração de um dataset fictício com alturas de 450 jogadores da NBA (seguindo uma distribuição normal)
alturas_m = np.random.normal(loc=2.00, scale=0.10, size=450)  # Alturas simuladas com média de 2,00 m e desvio padrão de 0,10 m
alturas_m = np.clip(alturas_m, 1.75, 2.25)  # Limita os valores entre 1,75 m e 2,25 m para evitar extremos irreais
df_nba = pd.DataFrame({'altura_m': alturas_m}) # Cria o dataframe
#df_nba.head()

In [None]:
# Histograma + curva teórica da Normal
plt.figure(figsize=(6,4))
plt.hist(df_nba['altura_m'], bins=20, density=True, color='orange', label='PDF empírica') # Dados observados

# Curva teórica da Normal
x = np.linspace(1.75, 2.25, 200) # Cria 200 pontos igualmente espaçados entre 1,75m e 2,25m / Serve como eixo contínuo para calcular e plotar a curva teórica da distribuição normal sobre o histograma
media = df_nba['altura_m'].mean() # Média
desvio = df_nba['altura_m'].std() # Desvio padrão
y = (1 / (desvio * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - media) / desvio)**2) # PDF teórica

# De forma mais simples podemos usar o Scipy para calcular a PDF f(x)
#y = st.norm.pdf(x, loc=media, scale=desvio) # PDF teórica (scipy)

plt.plot(x, y, color='black', lw=2, label='Curva teórica da Normal')
plt.title('Distribuição Normal — Altura de Jogadores da NBA')
plt.xlabel('Altura (m)')
plt.ylabel('Densidade de probabilidade')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

## 3.2. Distribuição Exponencial

A Distribuição Exponencial modela o tempo até a ocorrência de um evento,  como o tempo de espera em filas ou o tempo entre falhas.

Esta distribuição assume que os eventos ocorrem de forma contínua, independente e a uma taxa constante.

Definição:

Seja $X$ uma variável aleatória contínua que segue uma distribuição exponencial com parâmetro $\lambda > 0$, então:

$$
X \sim \text{Exp}(\lambda)
$$

onde:

- $\lambda$ é a taxa média de ocorrência dos eventos (por unidade de tempo);
- $X$ representa o tempo até o próximo evento.

<br>

A distribuição exponencial possui as seguintes propriedades:

- Valor esperado (média):

  $$
  \mathbb{E}[X] = \frac{1}{\lambda}
  $$

- Variância:

  $$
  \text{Var}(X) = \frac{1}{\lambda^2}
  $$


<br>

A PDF da Exponencial é dada por:

$$
f(x) = \lambda e^{-\lambda x}, \quad \text{para } x \geq 0
$$

- $f(x)$ indica a densidade de probabilidade para o tempo $x$;
- A PDF decresce exponencialmente — ou seja, quanto maior o tempo, menor a chance de ele ocorrer.

<br>

O gráfico da PDF da distribuição exponencial é assimétrico e decrescente, com valor máximo em $x = 0$ e decaimento exponencial à medida que $x$ aumenta.

- Quando $\lambda$ é alto: a curva decai rapidamente (eventos ocorrem rapidamente);
- Quando $\lambda$ é baixo: a curva decai lentamente (eventos mais espaçados).

A área sob a curva entre dois valores representa a probabilidade do evento ocorrer naquele intervalo de tempo.



In [None]:
# Simula o tempo (em minutos) até a chegada de 450 clientes em uma loja (seguindo uma distribuição exponencial)
tempos_espera = np.random.exponential(scale=2.0, size=450)  # média = 2 minutos
tempos_espera = np.clip(tempos_espera, 0, 10)  # remove valores extremos para visualização
df_exp = pd.DataFrame({'tempo_min': tempos_espera})

In [None]:
# Histograma (PDF empírica)
plt.figure(figsize=(6,4))
plt.hist(df_exp['tempo_min'], bins=20, density=True, color='orange', label='PDF empírica')

# Curva teórica da distribuição exponencial
x = np.linspace(0, 10, 200)
λ = 1 / 2.0  # lambda = 1 / média
y = λ * np.exp(-λ * x)

# De forma mais simples podemos usar o Scipy para calcular a PDF f(x)
#y = st.expon.pdf(x, loc=0, scale=1/λ) # PDF com SciPy

plt.plot(x, y, color='black', lw=2, label='Curva Exponencial teórica')
plt.title('Distribuição Exponencial — Tempo até chegada de clientes')
plt.xlabel('Tempo de espera (minutos)')
plt.ylabel('Densidade de probabilidade')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### 3.3. Distribuição Uniforme

A Distribuição Uniforme é usada para modelar situações onde todos os valores dentro de um intervalo são igualmente prováveis.

Exemplos de fenômenos que podem ser modelados com uma distribuição uniforme:

- Geração de números aleatórios entre dois valores;
- Sorteio de horários dentro de um período fixo.

<br>

Definição:

Seja $X$ uma variável aleatória contínua com distribuição uniforme no intervalo $[a, b]$, então:

$$
X \sim \text{Uniform}(a, b)
$$

onde:

- $a$ é o valor mínimo;
- $b$ é o valor máximo;
- A densidade de probabilidade é constante em todo o intervalo.

<br>

A distribuição uniforme possui as seguintes propriedades:

- Valor esperado (média):

  $$
  \mathbb{E}[X] = \frac{a + b}{2}
  $$

- Variância:

  $$
  \text{Var}(X) = \frac{(b - a)^2}{12}
  $$

<br>

A PDF da distribuição uniforme é dada por:

$$
f(x) =
\begin{cases}
\dfrac{1}{b - a}, & \text{se } a \leq x \leq b \\
0, & \text{caso contrário}
\end{cases}
$$

- A densidade é constante no intervalo $[a, b]$;
- A área total sob a curva ainda é igual a 1.

<br>

O gráfico da PDF da distribuição uniforme contínua é um retângulo:

- A altura da curva é constante e igual a $1 / (b - a)$;
- A área sob a curva entre dois valores representa a probabilidade de cair nesse intervalo.

In [None]:
# Simula horários de chegada entre 8h e 10h (seguindo uma distribuição uniforme)
chegadas = np.random.uniform(low=8.0, high=10.0, size=450)
df_uni = pd.DataFrame({'hora_chegada': chegadas})

In [None]:
# Histograma (PDF empírica)
plt.figure(figsize=(6,4))
plt.hist(df_uni['hora_chegada'], bins=20, density=True, color='orange', label='PDF empírica')

# Curva teórica Uniforme
a, b = 8.0, 10.0
x = np.linspace(a, b, 200)
y = np.ones_like(x) * (1 / (b - a))  # Densidade constante

# De forma mais simples podemos usar o Scipy para calcular a PDF f(x)
#y = st.uniform.pdf(x, loc=a, scale=(b - a))

plt.plot(x, y, color='black', lw=2, label='Curva Uniforme teórica')
plt.title('Distribuição Uniforme — Horário de Chegada de Clientes')
plt.xlabel('Hora do dia')
plt.ylabel('Densidade de probabilidade')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

Interpretação do gráfico:

- Os dados simulados seguem uma distribuição uniforme no intervalo $[8,\ 10]$, como indicado pela correspondência entre a PDF empírica e a teórica, ou seja, todos os valores nesse intervalo possuem igual probabilidade de ocorrer;
- A linha preta está posicionada em $f(x) = 0{,}5$, indicando a PDF teórica da distribuição uniforme;
- As barras do histograma mostram a densidade observada nos dados simulados;
- Há variações naturais entre as barras, pois os dados são gerados aleatoriamente. No entanto, essas flutuações estão em torno do valor esperado $(0{,}5)$.


## 4. Função de Distribuição Acumulada (CDF)

A Função de Distribuição Acumulada (CDF) representa a probabilidade acumulada até um determinado valor.

Serve para responder a:  
> "Qual a chance de a variável ser menor ou igual a certo valor $x$?"

Exemplo:

Considere uma variável aleatória representando a nota de um aluno.  
A CDF responde perguntas como:
- Qual a chance de um aluno tirar nota até 7?
- Ou: qual a proporção de dados abaixo de um certo valor?

A CDF é definida para qualquer tipo de distribuição seja **discreta** ou **contínua**.


### Discretas:

Para variáveis como Bernoulli, Binomial ou Poisson, a CDF é a soma das probabilidades até um determinado valor:

$$
F(x) = \sum_{k=0}^{x} P(X = k)
$$

### Contínuas:

Para variáveis como Normal, Exponencial ou Uniforme, a CDF representa a probabilidade acumulada até $x$:

$$
F(x) = P(X \leq x)
$$

Ou seja, a CDF indica a área sob a curva da PDF até o ponto $x$.

### Propriedades da CDF:

- Sempre crescente (nunca diminui);
- Os valores de $F(x)$ estão no intervalo $[0,\ 1]$;
- Útil para:
  - Calcular probabilidades em intervalos:  
    $P(a \leq X \leq b) = F(b) - F(a)$
  - Determinar quantis, percentis e mediana.

In [None]:
# CDF da Bernoulli
x_vals = np.linspace(-0.5, 1.5, 100)
cdf_vals = st.bernoulli.cdf(x_vals, p)

plt.figure(figsize=(6, 4))
plt.step(x_vals, cdf_vals, where='mid', color='orange', label='CDF')
plt.xticks([0, 1], ['0 = Reprovado', '1 = Aprovado'])
plt.ylim(0, 1.05)
plt.title('CDF — Distribuição de Bernoulli')
plt.xlabel('Resultado')
plt.ylabel('F(x)')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()


Interpretação do gráfico

- F(0) ≈ 0.34  
  Cerca de 34% dos alunos foram reprovados (resultado 0).

- F(1) = 1.00  
  Todos os alunos estão entre 0 e 1, ou seja, 100% têm resultado menor ou igual a 1.

A curva tem dois degraus:

- Antes de x = 0, F(x) = 0;
- No ponto x = 0, a CDF salta para a probabilidade de reprovação (P(X = 0));  
- No ponto x = 1, a CDF atinge 1, acumulando toda a probabilidade.

In [None]:
# CDF da Binomial
x_vals = np.arange(0, n_alunos + 1)
cdf_vals = st.binom.cdf(x_vals, n=n_alunos, p=p)

plt.figure(figsize=(6, 4))
plt.step(x_vals, cdf_vals, where='post', color='orange', label='CDF')
plt.title('CDF — Distribuição Binomial')
plt.xlabel('Número de alunos aprovados')
plt.ylabel('F(x)')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()


Interpretação do gráfico

Cada degrau da curva representa a chance acumulada de até k alunos serem aprovados:

- F(4) ≈ 0.08  
  Apenas 8% das turmas têm até 4 alunos aprovados.

- F(6) ≈ 0.45  
  Cerca de 45% das turmas têm no máximo 6 aprovações.

- F(8) ≈ 0.88  
  Aproximadamente 88% das turmas têm até 8 alunos aprovados.

- F(10) = 1.00  
  Toda a distribuição está contida até o valor máximo possível de 10 alunos aprovados.

A curva é composta por degraus que crescem gradualmente, refletindo a soma das probabilidades P(X = k) para cada valor de k.


In [None]:
# CDF da Poisson
x_vals = np.arange(0, sim_poisson.max() + 1)
cdf_vals = st.poisson.cdf(x_vals, mu=λ)

plt.figure(figsize=(6, 4))
plt.step(x_vals, cdf_vals, where='post', color='orange', label='CDF')
plt.title('CDF — Distribuição de Poisson')
plt.xlabel('Alunos com nota 10')
plt.ylabel('F(x)')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()


Interpretação do gráfico

Cada ponto da curva indica a probabilidade acumulada de que uma turma tenha até certo número de alunos com nota 10:

- F(0) ≈ 0,60  
  Cerca de 60% das turmas não têm nenhum aluno com nota 10.

- F(1) ≈ 0,91  
  Aproximadamente 91% das turmas têm no máximo 1 aluno com nota 10.<br>
.  
.  
.  
- F(4) = 1,00  
  100% das turmas têm até 4 alunos com nota 10.

Conclusão:

Notas 10 são raras. A grande maioria das turmas tem entre 0 e 2 alunos com nota máxima. Eventos com 3 ou mais são pouco prováveis.

In [None]:
# CDF da Normal
x = np.linspace(1.75, 2.25, 200)
media = df_nba['altura_m'].mean()
desvio = df_nba['altura_m'].std()
cdf_vals = st.norm.cdf(x, loc=media, scale=desvio)

plt.figure(figsize=(6, 4))
plt.plot(x, cdf_vals, color='orange', label='CDF')
plt.title('CDF — Distribuição Normal')
plt.xlabel('Altura (m)')
plt.ylabel('F(x)')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()


Interpretação do gráfico

Cada ponto da curva representa a probabilidade acumulada de um jogador ter altura menor ou igual a determinado valor:

- F(1,85 m) ≈ 0,10  
  Apenas 10% dos jogadores têm até 1,85m de altura.

- F(2,00 m) ≈ 0,50  
  50% dos jogadores têm até 2,00m de altura.  
  
- F(2,15 m) ≈ 0,90  
  90% dos jogadores têm altura até 2,15m.

Conclusão:

A curva mostra o padrão esperado de uma distribuição normal:  
- Crescimento lento nas extremidades (valores raros);  
- Crescimento rápido próximo da média (valores mais comuns);  
- A CDF tende para 1 à medida que a altura aumenta.

In [None]:
# CDF da Exponencial
x = np.linspace(0, 10, 200)
λ = 1 / 2.0  # média = 2 minutos
cdf_vals = st.expon.cdf(x, loc=0, scale=1/λ)

plt.figure(figsize=(6, 4))
plt.plot(x, cdf_vals, color='orange', label='CDF')
plt.title('CDF — Distribuição Exponencial')
plt.xlabel('Tempo de espera (min)')
plt.ylabel('F(x)')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()


Interpretação do gráfico

Cada ponto da curva mostra a probabilidade acumulada de um cliente chegar em até certo tempo:

- F(1 min) ≈ 0,40  
  Cerca de 40% dos clientes chegam até o primeiro minuto.

- F(3 min) ≈ 0,78  
  Aproximadamente 78% chegam até os 3 minutos de espera.

- F(5 min) ≈ 0,92  
  Há 92% de chance de o cliente ter chegado até o 5º minuto.

- F(10 min) ≈ 1,00  
  Praticamente todos os clientes já chegaram até o décimo minuto.

Curva típica da exponencial:
- Cresce rápido no início (maior parte dos eventos acontece cedo);
- Vai se achatando depois (eventos tardios são mais raros).

In [None]:
# CDF da Uniforme
a, b = 8.0, 10.0
x = np.linspace(a - 0.5, b + 0.5, 200)
cdf_vals = st.uniform.cdf(x, loc=a, scale=(b - a))

plt.figure(figsize=(6, 4))
plt.plot(x, cdf_vals, color='orange', label='CDF')
plt.title('CDF — Distribuição Uniforme')
plt.xlabel('Hora do dia')
plt.ylabel('F(x)')
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()


Interpretação do gráfico

A leitura da curva é direta e proporcional:

- F(8.0) = 0  
  Ninguém chegou antes das 8h.

- F(8.5) = 0.25  
  25% dos clientes chegam até 8h30.

- F(9.0) = 0.50  
  Metade dos clientes chega até 9h.

- F(9.5) = 0.75  
  75% dos clientes chegam até 9h30.

- F(10.0) = 1.00  
  Todos os clientes já chegaram até as 10h.

A inclinação constante indica que a chance de chegada é a mesma ao longo de todo o intervalo [8, 10].

## Conclusões

- Distribuições de Frequência mostram o que foi observado nos dados reais.

- Distribuições de Probabilidade descrevem o que esperamos observar.

  - A Função de Massa de Probabilidade (PMF) é usada para variáveis discretas;
  - A Função de Densidade de Probabilidade (PDF) para varíaveis contínuas;  
  - A Função de Distribuição Acumulada (CDF) mostra a acumulação da probabilidade.  

Esses conceitos serão a base para testes de hipóteses e inferência estatística.


## Exercícios

### Exercício 1 — Presença em aula

Um professor registrou a presença de um aluno em 30 aulas.  
O resultado foi 1 para presença e 0 para ausência.

In [None]:
import numpy as np
presencas = np.random.choice([0, 1], size=30, p=[0.2, 0.8])
presencas

Perguntas:
1. A variável é discreta ou contínua?  
2. Qual distribuição melhor descreve o fenômeno?  
3. Calcule e interprete:
   - Probabilidade de presença (p)
   - PMF e CDF da distribuição  
4. Plote a distribuição e comente o formato.


In [None]:
# Responda aqui (programaticamente)

### Exercício 2 — Número de peças defeituosas

In [None]:
defeitos = np.random.poisson(lam=2, size=50)
defeitos

Perguntas:
1. A variável é discreta ou contínua?  
2. Essa situação é compatível com qual distribuição? Justifique.  
3. Estime o parâmetro λ (lambda).  
4. Calcule e plote:
   - PMF da Poisson;
   - CDF acumulada até 5 defeitos.
5. Interprete a probabilidade de observar até 3 defeitos em uma hora.

In [None]:
# Responda aqui (programaticamente)

### Exercício 3 — Alturas de jogadores

In [None]:
alturas = np.random.normal(loc=1.98, scale=0.08, size=300)
alturas

Perguntas:
1. O tipo de variável é discreto ou contínuo?  
2. Que distribuição melhor descreve este conjunto? Por quê?  
3. Estime a média (μ) e o desvio padrão (σ).  
4. Plote o histograma (PDF empírica) e sobreponha a PDF teórica.  
5. Use a CDF para responder:
   - Qual a probabilidade de um jogador ter menos de 1,90m?
   - E entre 1,90m e 2,05m?


In [None]:
# Responda aqui (programaticamente)

### Exercício 4 — Tempo até atendimento

In [None]:
tempos = np.random.exponential(scale=3, size=200)
tempos

Perguntas:
1. A variável é discreta ou contínua?  
2. Identifique qual distribuição se aplica.  
3. Estime o parâmetro λ.  
4. Plote a PDF e CDF.  
5. Calcule:
   - Probabilidade de o atendimento durar menos que 2 minutos;
   - Probabilidade de durar entre 2 e 5 minutos.


In [None]:
# Responda aqui (programaticamente)

### Exercício 5 — Horário de chegada ao estacionamento

In [None]:
chegadas = np.random.uniform(low=7.0, high=9.0, size=100)
chegadas

Perguntas:
1. Que tipo de variável é essa?  
2. Qual distribuição é mais adequada?  
3. Plote o histograma (PDF empírica) e a PDF teórica.  
4. Calcule:
   - Probabilidade de um carro chegar até 8h;
   - Probabilidade entre 7h30 e 8h30.


In [None]:
# Responda aqui (programaticamente)

### Exercício 6 — Aprovados em turmas

In [None]:
aprovados = np.random.binomial(n=10, p=0.7, size=100)
aprovados

Perguntas:
1. Que tipo de variável é essa?  
2. Qual distribuição descreve melhor o cenário?  
3. Plote a PMF e a CDF.  
4. Qual a probabilidade de exatamente 8 alunos serem aprovados?  
5. E de no máximo 6 alunos serem aprovados?

In [None]:
# Responda aqui (programaticamente)

### Exercício 7 — Atrasos em voos

Você recebeu um dataset de dados do Bureau of Transportation Statistics (BTS) sobre desempenho de companhias aéreas nos EUA (mês de julho de 2025). Fonte: https://www.transtats.bts.gov/OT_Delay/

O objetivo é analisar o comportamento dos atrasos e propor qual das distribuições estudadas (Bernoulli, Binomial, Poisson, Normal, Exponencial, Uniforme) melhor representa cada variável observada.

Cada linha representa voos de uma companhia aérea para um determinado aeroporto, e as colunas descrevem métricas de desempenho relacionadas a atrasos, cancelamentos e causas dos atrasos. A tabela a seguir apresenta a descrição de cada coluna de dados no dataset.

| Coluna | Descrição |
|-------------|------------------------------|
| `year` | Formato de ano (YYYY). |
| `month` | Formato de mês (1–12). |
| `carrier` | Código de identificação da companhia aérea. |
| `carrier_name` | Nome da companhia aérea. |
| `airport` | Código alfanumérico do aeroporto. |
| `airport_name` | Nome completo e localização do aeroporto. |
| `arr_flights` | Total de voos de chegada. |
| `arr_del15` | Indicador de atraso na chegada (≥15 minutos). |
| `carrier_ct` | Contagem de atrasos por companhia aérea. |
| `weather_ct` | Contagem de atrasos por condições meteorológicas. |
| `nas_ct` | Contagem de atrasos pelo Sistema Nacional de Aviação (NAS). |
| `security_ct` | Contagem de atrasos por incidentes de segurança. |
| `late_aircraft_ct` | Contagem de atrasos por aeronave anterior atrasada. |
| `arr_cancelled` | Número de voos cancelados. |
| `arr_diverted` | Número de voos desviados. |
| `arr_delay` | Atraso de chegada (minutos) (valores negativos indicam chegada antecipada). |
| `carrier_delay` | Tempo total de atraso por companhia aérea (minutos). |
| `weather_delay` | Tempo total de atraso por condições meteorológicas (minutos). |
| `nas_delay` | Tempo total de atraso pelo Sistema Nacional de Aviação (minutos). |
| `security_delay` | Tempo total de atraso por incidentes de segurança (minutos). |
| `late_aircraft_delay` | Tempo total de atraso por aeronave anterior atrasada (minutos). |

<br>

Lembrete:
- Bernoulli: evento com dois resultados possíveis (atrasado ou não).
- Binomial: número de sucessos (atrasos) em um conjunto de voos.
- Poisson: contagem de eventos em um intervalo fixo.
- Normal: valores concentrados ao redor de uma média.
- Exponencial: muitos valores pequenos e poucos grandes.
- Uniforme: todos os valores igualmente prováveis.

<br>
O exercício é dividido em três partes:

#### Parte 1 — Modelagem dos atrasos totais (`arr_delay`)

**Como se distribuem os totais de atraso entre os diferentes aeroportos?**

Esses valores representam o total de minutos de atraso de todos os voos que chegaram a cada aeroporto.

Tarefas:
- Visualize a distribuição (histograma);
- Observe se há assimetria;
- Determine se é discreta ou contínua;
- Escolha entre Normal, Exponencial ou Uniforme qual distribuição melhor representa os atrasos totais.

Perguntas: (ao responder as perguntas, justifique indicando qual distribuição tem esse comportamento)
- A maioria dos atrasos é pequena, e poucos são muito grandes?
- Os atrasos se concentram em torno de uma média (sem assimetria)?
- Todos os valores parecem igualmente prováveis?

<br>

#### Parte 2 — Número de voos atrasados (`arr_del15`)

**Qual distribuição melhor descreve o número de voos atrasados?**

Cada linha contém a contagem de voos atrasados (≥15 min) por aeroporto.

Tarefas:
- Visualize um histograma da variável `arr_del15`.
- Verifique se os dados são contagens (inteiros positivos).

Perguntas: (ao responder as perguntas, justifique indicando qual distribuição tem esse comportamento)
- Essa variável representa o número de eventos ocorrendo em um intervalo fixo (ex: dia ou aeroporto)?
- Se você considerar o total de voos (`arr_flights`) como o número de tentativas, e `arr_del15` como o número de sucessos (atrasos), isso se aproxima de qual distribuição?

<br>

#### Parte 3 — Proporção de voos atrasados (`arr_del15 / arr_flights`)

**Como se distribui a proporção de voos atrasados entre os aeroportos?**

Tarefas:
- Calcule `delay_ratio = arr_del15 / arr_flights`;
- Visualize a distribuição (histograma);
- Compare visualmente com o comportamento esperado de uma Uniforme (todos igualmente prováveis) ou Normal (valores concentrados).

Perguntas: (ao responder as perguntas, justifique indicando qual distribuição tem esse comportamento)
- Há concentração de valores médios (ex: 0.2–0.3)?
- Os valores parecem distribuídos de forma aleatória entre 0 e 1?

In [None]:
# Responda aqui (programaticamente)