Nota do Autor: Este notebook sofrerá atualizações constantes até atingir sua versão **final**. Desta forma, se encontrar algum conteúdo incompleto peço que seja paciente e, caso encontre algum conteúdo equivocado, peço respeitosamente que me notifique e oriente sobre este. Obrigado.

# Modelagem Estatística

Neste notebook, exploraremos alguns conceitos e técnicas de modelagem estatística.

## Tópico 1: Introdução à Modelagem Estatística

Nesta seção, discutiremos os fundamentos da modelagem estatística e sua importância na análise de dados. Abordaremos conceitos como população, amostra, variáveis, medidas de tendência central e dispersão, além de explorar diferentes tipos de distribuições estatísticas.

### O que é Modelagem Estatística?
Antes de mais nada, é importante que saibamos, afinal, o que é a modelagem estatística, pois bem, de modo resumido temos que:<br> **"A modelagem estatística é uma abordagem que utiliza métodos estatísticos para analisar e descrever dados, além de criar modelos para fazer previsões ou inferências."**<br>
<br>E agora, antes de nos aprofundarmos, vamos ver alguns conceitos.

### Conceitos Importantes
Exploraremos aqui alguns conceitos importantes, dos quais considero o conhecimento essencial.

#### Variável Aleatória


A Variável Aleatória é a característica numérica de um determinado experimento (função que associa um número real a cada elemento do espaço amostral). Ou seja, trata-se das medidas que estão sendo estudadas.

#### Espaço Amostral


O Espaço Amostral é o conjunto de todos os resultados possíveis de um experimento aleatório.

#### População

A população é o conjunto de todos os elementos ou indivíduos de interesse que possuem uma caracteríistica comum.<br>

Por exemplo, se você está interessado em estudar a altura média de todas as mulheres adultas em um país, a população seria composta por todas as mulheres adultas nesse país.

OBS.: Em muitos casos, a população é muito grande ou inacessível para ser estudada em sua totalidade. Portanto, é comum trabalharmos com uma amostra.

#### Amostra

Uma amostra é um subconjunto selecionado da população. É uma representação dos elementos da população que são escolhidos para estudo. A amostra deve ser selecionada de forma que seja representativa da população, para que as conclusões obtidas a partir da análise da amostra possam ser generalizadas para a população como um todo.<br>

Em comparação ao exemplo acima, se para a população temos todas as mulheres adultas em um país, a fim de conseguirmos aferir algo, podemos selecionar 1000 mulheres, coletar a altura destas e realizar análises estatísticas para obter estimativas da altura média da população de mulheres adultas com base nos dados da **amostra**.

Essas 1000 mulheres representariam a amostra.

OBS.: Uma amostra deve ser cuidadosamente organizada, visto que para uma população muito grande, a representatividade da amostra é crucial! Temos que evitar vieses e garantir que ela seja verdadeiramente representativa da população de interesse, logo, saiba que uma amostra não é selecionada "de qualquer jeito". Aprenderemos melhor sobre os **métodos de amostragem** quando começarmos exercícios práticos.

### Distribuição Amostral

Uma distribuição amostral é uma distribuição que descreve as estatísticas calculadas a partir de **várias amostras** retiradas de **uma mesma população**. Em outras palavras, é a distribuição dos valores de uma determinada medida estatística, como a média, desvio padrão, proporção, entre outras, quando calculada repetidamente em diferentes amostras retiradas da população.

A ideia da distribuição amostral é que, ao realizar múltiplas amostragens da mesma população, podemos obter uma variedade de valores para a estatística de interesse. Esses valores, quando organizados em uma distribuição, fornecem informações sobre a variabilidade e comportamento da estatística em questão.

A distribuição amostral **é fundamental em inferência estatística, pois permite fazer inferências sobre a população com base nas informações obtidas a partir das amostras.** Por exemplo, ao calcular a média de diferentes amostras e observar a distribuição amostral das médias, podemos fazer inferências sobre a média populacional e estimar sua incerteza.

Uma das principais teorias relacionadas à distribuição amostral é o **Teorema Central do Limite (TCL).** Esse teorema estabelece que, sob certas condições, quando o tamanho das amostras é suficientemente grande, a distribuição das médias amostrais segue uma distribuição normal, independentemente da forma da distribuição da população original. Esse resultado é muito útil, pois permite a aplicação de métodos estatísticos baseados na distribuição normal mesmo quando a distribuição da população não é conhecida.

Para realizar uma Distribuição Amostral, é comum gerar várias amostras aleatórias da população e calcular a estatística de interesse em cada amostra. A distribuição dessas estatísticas é então analisada para obter informações sobre a variabilidade e o comportamento da estatística em questão.

Em resumo: A distribuição amostral nos permite entender a variabilidade das estatísticas calculadas a partir de diferentes amostras e fornece a base para fazer inferências sobre a população com base nessas estatísticas amostrais.

#### Média Aritmética 

Bem, você já deve ter ouvido falar da média aritmética, tanto na forma simples quanto na ponderada.

A média aritmética de um conjunto de valores é obtida somando-se todos os elementos desse conjunto e dividindo o resultado pelo número de elementos. Matematicamente, podemos representar isso da seguinte forma: 

$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$

Onde:
- $\bar{x}$ representa a média aritmética
- $n$ é o número de elementos
- $x_i$ são os valores individuais.

Por exemplo, se considerarmos os 5 dias de uma semana e a quantidade de horas que uma pessoa lê em cada dia, podemos calcular a média das horas lidas na semana utilizando essa fórmula. Basta somar as horas de cada dia e dividir por 5, que é o número de dias na semana.

Essa medida de média é amplamente utilizada em diferentes contextos, como calcular a média de notas de um estudante, a média de valores financeiros ou a média de temperaturas em diferentes dias.

Além da média aritmética simples, existe também a média aritmética ponderada, que atribui pesos diferentes aos elementos do conjunto antes de calcular a média. Isso é útil quando certos elementos têm maior importância ou relevância do que outros na média final.

Em resumo: **A média aritmética é uma medida comum para representar um valor médio em um conjunto de dados e pode ser calculada usando a fórmula mencionada acima.**


#### Variância Amostral

A Variância Amostral é uma medida estatística que indica a dispersão dos valores em uma amostra em relação à média amostral. Ela é calculada pela média dos quadrados das diferenças entre cada valor e a média amostral.

Matematicamente, podemos representar a Variância Amostral da seguinte forma:

$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $

Onde:
-  $ s^2 $ representa a Variância Amostral<br>
- $ n $ é o tamanho da amostra<br>
- $ x_i $ são os valores individuais da amostra<br>
- $ \bar{x} $ é a média amostral

Por exemplo, se tivermos uma amostra de 10 valores, podemos calcular a Variância Amostral utilizando essa fórmula. Subtraímos cada valor pela média amostral, elevamos ao quadrado, somamos todos os resultados e dividimos por $( n-1 )$.

A Variância Amostral é uma medida importante para avaliar a dispersão dos dados em relação à média amostral. Quanto maior o valor da Variância Amostral, maior a dispersão dos dados. Por outro lado, se a Variância Amostral for igual a zero, significa que todos os valores da amostra são iguais.

É importante ressaltar que a Variância Amostral utiliza $( n-1 )$ no denominador em vez de $( n )$. Essa correção é conhecida como "correção de Bessel" e é usada para fornecer uma estimativa menos tendenciosa da variabilidade da população com base em uma amostra.

Em resumo: **A Variância Amostral é uma medida estatística que indica a dispersão dos valores em uma amostra em relação à média amostral. Ela é calculada usando a fórmula mencionada acima, levando em consideração a correção de Bessel.**


#### Desvio Padrão Amostral

O Desvio Padrão Amostral é uma medida estatística que indica a dispersão dos valores em uma amostra em relação à média amostral. Ele é calculado como a raiz quadrada da Variância Amostral.

Matematicamente, podemos representar o Desvio Padrão Amostral da seguinte forma:

$ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} $

Onde:
- $ s $ representa o Desvio Padrão Amostral,
- $ n $ é o tamanho da amostra, 
- $ x_i $ são os valores individuais da amostra 
- $ \bar{x} $ é a média amostral.

O Desvio Padrão Amostral é uma medida importante para avaliar a dispersão dos dados em relação à média amostral. Ele indica a variabilidade dos valores dentro da amostra. Quanto maior o valor do Desvio Padrão Amostral, maior a dispersão dos dados em relação à média. Por outro lado, se o Desvio Padrão Amostral for igual a zero, significa que todos os valores da amostra são iguais.

Assim como a Variância Amostral, o Desvio Padrão Amostral também utiliza a "correção de Bessel" para fornecer uma estimativa menos tendenciosa da variabilidade da população com base em uma amostra.

Em resumo: **O Desvio Padrão Amostral é uma medida estatística que indica a dispersão dos valores em uma amostra em relação à média amostral. Ele é calculado como a raiz quadrada da Variância Amostral e fornece informações sobre a variabilidade dos dados na amostra.**


#### Praticando: Distribuição amostral da média $\bar{x}$

Imagine uma urna com quatro bolas numeradas de 1 a 4 e x como uma variável aleatória que registra o sorteio de uma dessas bolas.<br>

Imaginemos agora, a retirada de forma independente e com reposição, de duas bolas x1 e x2.<br>

Quais são os possíveis valores obtidos para a média ($\bar{x}$) e qual a probabilidade de ocorrerem?

Veja abaixo:

In [None]:
# O código abaixo possui a finalidade de detalhar ao máximo o exemplo acima, talvez os comentários aparentem óbvios, mas como um estudante iniciante
# tento manter meus códigos o mais básico e compreensível sempre que for possível.

import numpy as np
import matplotlib.pyplot as plt

# Possíveis valores das bolas (1 ou 2 ou 3 ou 4)
bolas = np.array([1, 2, 3, 4])

# Número de combinações possíveis (16)
num_combinacoes = len(bolas) ** 2

# Todas as combinações possíveis de duas bolas com reposição
combinacoes = np.array(np.meshgrid(bolas, bolas)).T.reshape(-1, 2)
# Calculemos a média para cada combinação
medias = np.mean(combinacoes, axis=1)

# Calculemos as frequências dos valores da média
valores, frequencias = np.unique(medias, return_counts=True)

# Calculemos as probabilidades
probabilidades = frequencias / len(medias)

# Imprimindo as combinações, resultados, médias e probabilidades
contador_medias = 0
for x1 in bolas:
    for x2 in bolas:
        print(f"Para X1 = [{x1}] e X2 = [{x2}] a média é {medias[contador_medias]}")
        contador_medias += 1
print('===========================================')
print("Possíveis valores para a média (x-barra):")
for valor, probabilidade in zip(valores, probabilidades):
    print(f"Média x = {valor}: Probabilidade = {probabilidade:.4f}")

# Por fim, temos o plot do gráfico
plt.bar(valores, probabilidades)
plt.xlabel('Média x')
plt.ylabel('Probabilidade')
plt.title('Distribuição da Média x')
plt.show()

## Tópico 2: Análise de Variância (ANOVA)

A análise de variância é uma técnica estatística utilizada para comparar médias entre grupos. Nesta seção, abordaremos os conceitos básicos da ANOVA, incluindo a decomposição da variabilidade, o teste de hipóteses e a interpretação dos resultados.

### ANOVA de um fator

Apresentaremos um exemplo prático de ANOVA de um fator, usando um conjunto de dados fictício. Demonstraremos como realizar a análise, interpretar os resultados e realizar testes de comparação entre médias.


### ANOVA de dois fatores

Daremos continuidade à nossa análise, desta vez utilizando a ANOVA de dois fatores de um modo bem compreensível.

## Tópico 3: Análise de Regressão
Análise de regressão é um método estatístico que permite examinar a relação entre duas ou mais variáveis. Deste modo, identifica quais têm maior impacto diante de um tema de interesse.

Este método permite classificar matematicamente por meio de diferentes perguntas, como: 
- Quais fatores são mais importantes? 
- Quais fatores podem ser ignorados? 
- Como esses fatores interagem uns com os outros?
- Quão seguro você se sente de todos esses fatores?

Existem diferentes tipos de Análises de Regressão e agora, nós entraremos em detalhes sobre cada um deles.


### Regressão Linear


A regressão linear é uma técnica amplamente utilizada na modelagem estatística para investigar a relação entre uma variável dependente e uma ou mais variáveis independentes. Nesta seção, exploraremos os conceitos básicos da regressão linear, incluindo a interpretação dos coeficientes, a avaliação da qualidade do modelo e a realização de previsões.

#### Exemplo: Regressão Linear Simples

Aqui, apresentaremos um exemplo prático de regressão linear simples, usando um conjunto de dados fictício. Vamos realizar as etapas de preparação dos dados, ajuste do modelo, avaliação de desempenho e interpretação dos resultados.

### Regressão Linear Múltipla

#### Exemplo: Regressão Linear Múltipla

Aqui, apresentaremos um exemplo prático de regressão linear múltipla, usando um conjunto de dados fictício. Vamos realizar as etapas de preparação dos dados, ajuste do modelo, avaliação de desempenho e interpretação dos resultados.

### Regressão Não-Linear

#### Exemplo: Regressão Não-Linear

Aqui, apresentaremos um exemplo prático de regressão linear múltipla, usando um conjunto de dados fictício. Vamos realizar as etapas de preparação dos dados, ajuste do modelo, avaliação de desempenho e interpretação dos resultados.