# Motivação
Ao longo dos meus estudos em estatística inferencial, me deparei com uma tremenda dificuldade que precisava ser solucionada antes de me aventurar em tópicos mais avançados. Percebi que havia chegado um momento em que os passos deixaram de fazer sentido, os teoremas e resultados me geravam confusão e isso me bloqueava de aprender ferramentas que dependiam desses conhecimentos. Acontece que estatística é uma área que compartilha de muitas palavras que são usadas no cotidiano de forma ambígua (às vezes até errada) e isso pode comprometer o sólido entendimento do que está sendo construido. Além disso, sempre senti falta de certa formalidade matemática na grande parte dos livros didáticos, pois ainda que em certas ocasiões seja densa e confusa, por vezes pode ajudar a sedimentar os conhecimentos e abrir caminho para compreender os tópicos de forma conectada e não como um emaranhado de ferramentas e resultados desconexos que exigem muita memorização sem real entendimento da sua aplicação e como ela se relaciona com os demais. Esse *notebook* busca estabalecer, além de convenções e definições, um *framework* sobre como sistematizar todo processo de como pensar numa variável aleatória. O uso desse *framework* será estressado em todos os *notebooks* que virão e acredito que será muito útil (como está sendo para mim ao compartilhá-lo aqui) no aprendizado de tópicos mais avançados sobre aprendizado estatístico.

# Definições e convenções
Como mencionei acima, a terminologia emprestada das palavras e expressões usadas em estatística no dia-a-dia pode ser uma barreira no aprendizado. Sendo assim, irei definir o significado das termos mais importantes e buscar conectá-los de modo lógico, fazendo com que a leitura de textos e compreensão de problemas seja a mais unívoca possivel.

### **Experimento** $(\mathcal{E})$
É o cerne da estatística inferencial. Espaço amostral, probabilidade, variável aleatória, densidade de probabilidade, momentos e afins são termos intrinsicamente associados a um experimento (aleatório). Todas essas quantidades só existem no contexto de um experimento por trás. Sendo assim, definirei-o da seguinte forma:

> _"Processo, ou sequência de processos, realizado que produz resultados. Em geral, é bom que esteja descrito usando verbos de ação para evidenciar o que está sendo observado._"

### **Espaço amostral** $(\Omega)$
> _"Conjunto que contém todos os resultados possíveis e mutuamente exclusivos que podem ocorrer em um experimento."_

Um experimento produz como resultados o que chamamos de realizações<sup>(*)</sup>. Por exemplo, ao considerar o lançamento de um  um dado e observar a face voltada para cima, os resultados possíveis são $\{1,2,3,4,5,6\}$. 

> <sup>(*)</sup> Realização é elemento específico do espaço amostral - um resultado específico do experimento.

### **Evento** $(A)$
> _"Qualquer subconjunto do espaço amostral $A\subseteq \Omega$."_

Contudo, nem todo subconjunto do espaço amostral precisa ser um evento relevante no contexto do experimento. Na prática, é o experimento que define quais eventos são relevantes, pois ele que determina o que está sendo observado.

No exemplo do lançamento de um dado, $\Omega = \{1,2,3,4,5,6\}$. Perceba que $\{\emptyset\}$ é um subconjunto de $\Omega$, mas não tem utilidade, pois esse evento é impossível na prática.

### **Função de probabilidade $(P)$**
> "_A função de probabilidade é uma função $ P $ que associa cada evento $ A \subseteq \Omega $ (subconjunto do espaço amostral) a um número real no intervalo $[0, 1]$, ou seja, $ P: 2^\Omega \to [0, 1] $."_

Para ser considerada uma função de probabilidade, ela deve satisfazer os **axiomas de Kolmogorov**:

1. **Não negatividade**: Para qualquer evento $ A \subseteq \Omega $, $ P(A) \geq 0 $.  
   *(A probabilidade de qualquer evento é sempre não negativa.)*<br>
   *(Aqui estou considerando que $\Omega$ é uma sigma-algebra)*

3. **Probabilidade do evento certo**: A probabilidade do espaço amostral completo é 1, ou seja, $ P(\Omega) = 1 $.  
   *(O evento certo tem probabilidade igual a 1.)*

4. **Aditividade para eventos disjuntos**: Para quaisquer dois eventos mutuamente exclusivos $ A $ e $ B $, ou seja, $ A \cap B = \emptyset $, temos:  
   $$
   P(A \cup B) = P(A) + P(B).
   $$  
  
   *(Se dois eventos não podem ocorrer simultaneamente, a probabilidade de sua união é a soma das probabilidades individuais.)*

### **Variável aleatória** $(X)$
> _"Função que associa cada **realização** (ponto) do espaço amostral $(\Omega)$ a um número real, representando uma característica ou medida associada ao resultado do experimento."_

Formalmente, $X:\Omega \to \mathbb{R}$

A escolha da variável aleatória é completamente arbitrária.

### **Função de Probabilidade Induzida $(P_X)$**
> _"Função de probabilidade definida no **conjunto imagem** de uma variável aleatória a partir da probabilidade originalmente definida no espaço amostral $\Omega$."_

Dada uma variável aleatória $ X: \Omega \to \mathbb{R} $, e uma função de probabilidade $ P $ definida no espaço amostral $ \Omega $, a probabilidade induzida é a probabilidade $ P_X $ definida sobre os valores que $ X $ pode assumir (no conjunto imagem $ \text{Im}(X) $), tal que

$$
P_X(B) = P(X^{-1}(B)), \quad \text{para todo } B \subseteq \mathbb{R},
$$

$$
X^{-1}(B) = \{\omega \in \Omega \mid X(\omega) \in B \}.
$$


onde $ X^{-1}(B) $ é o **pré-imagem** de $ B $ sob $ X $, ou seja:

>A probabilidade induzida permite transferir a probabilidade definida no espaço amostral $ \Omega $ para os valores associados à variável aleatória $ X $.<br>Isso é útil porque frequentemente estamos interessados em estudar a distribuição dos valores da variável aleatória (em $ \mathbb{R} $) em vez dos eventos no espaço amostral original $ \Omega $.

### Esclarecimentos importantes:
1. **Elementos do espaço amostral**: Se quisermos ser mais específicos sobre elementos pontuais $ \omega \in \Omega $, dizemos que para um espaço amostral discreto, a função de probabilidade $ P $ pode ser definida diretamente como uma função que associa **pontos do espaço amostral** a valores em $[0, 1]$:  
   $$
   P(\{\omega\}) \in [0, 1] \quad \text{com} \quad \sum_{\omega \in \Omega} P(\{\omega\}) = 1.
   $$

2. **Probabilidade de eventos (não pontuais)**: Para eventos $ A \subseteq \Omega $ em um espaço discreto, temos:  
   $$
   P(A) = \sum_{\omega \in A} P(\{\omega\}),
   $$  
   ou seja, a probabilidade de um evento é a soma das probabilidades dos elementos individuais contidos nesse evento.

### *Framework*
Podemos resumir todo as definições acima num único esquema abaixo. As setas definem o diagrama abaixo como um esquema causal

<div style="text-align: center;">
    <img src="../1-images/definitions.png" style="max-width: 50%; height: auto;">
</div>

> _O esquema acima busca estabelecer uma certa ordem de como devemos ler qualquer problema envolvendo variáveis aleatórias e como alguns termos se relacionam._