# Estatistica aplicada

## Principais regras da análise de dados

1. Conheça o contexto.
2. Inspecione os dados antes de começar o trabalho de análise.
3. Valide suas suposições.
4. Verifique se os resultados fazem sentido.
5. Use gráficos e tabelas para apresentar os resultados.
6. Faça com que o seu processo de análise possa ser reproduzido.
7. Não há mais nada sofisticado do que a simplicidade.

## Variáveis categóricas

### Dicas para analisar dados categóricos 
- Em uma tabela de frequência, observe categorias que aparecem com  baixa frequência. Se  o  valor  for  muito  baixo  em  comparação  com  as outras  categorias  os  dados  da  categoria  de baixa frequência podem ser removidos.
- Verifique se há independência entre as variáveis. 
- Em uma tabela de contingência, quando a  distribuição  de  uma  variável  é  a  mesma  para  todas  as  categorias  da  outra,  dizemos  que  as variáveis são independentes. 
- Analise as distribuições condicionais. Uma distribuição condicional mostra a distribuição de uma variável apenas para aqueles casos que satisfazem uma condição em outra.
- A  análise  de  valores  percentuais  pode  ser  mais  efetiva  do  que  a  análise  de  valores absolutos, principalmente na hora de entregar os resultados.Descreva a associação entre as variáveis por meio de coeficientes adequados.
-  Uma das medidas mais usuais é o qui-quadrado.

### Estratégias de Tratamento de Variáveis Categóricas

OneHotEncoder
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

OrdinalEncoder
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html



### One Hot-Encoding

A Codificação One-Hot, também conhecida como One-Hot Encoding,  é uma técnica de pré-processamento de dados utilizada para converter variáveis categóricas em um formato que pode ser fornecido aos algoritmos de aprendizado de máquina.

Na codificação One-Hot, cada categoria única de uma variável categórica é transformada em uma nova coluna binária; essa coluna assume o valor 1 onde a categoria está presente e 0 onde não está.

Por exemplo, se tivermos uma variável categórica "Cor" com três categorias "Vermelho", "Azul" e "Verde", a codificação One-Hot criaria três novas colunas, uma para cada cor. Um registro com a cor "Vermelho" teria 1 na coluna "Vermelho" e 0 nas colunas "Azul" e "Verde".

Esta abordagem é amplamente utilizada porque transforma dados categóricos em um formato numérico sem introduzir uma ordem arbitrária entre as categorias, o que poderia influenciar erroneamente o modelo de aprendizado de máquina.

A codificação One-Hot facilita a modelagem de relações não lineares entre a variável categórica e a variável alvo.

No entanto, um dos principais desafios dessa técnica é o aumento da dimensionalidade do conjunto de dados, especialmente quando lidamos com variáveis categóricas que possuem muitas categorias únicas.

Isso pode levar ao chamado "curse of dimensionality" (maldição da dimensionalidade), que pode degradar o desempenho do modelo devido ao aumento da complexidade e à necessidade de mais dados para treinar efetivamente o modelo.

Para mitigar esse problema, técnicas como PCA (Análise de Componentes Principais) ou seleção de características podem ser aplicadas posteriormente para reduzir a dimensionalidade.

### Ordinal Label Encoding 

O Ordinal Label Encoding é uma técnica de processamento de dados utilizada para converter variáveis categóricas em uma forma numérica, preservando a ordem natural que as categorias possam ter.

Diferentemente da codificação One-Hot, que cria uma nova coluna para cada categoria, a codificação ordinal atribui a cada categoria um valor inteiro único baseado em sua ordem ou classificação.

Por exemplo, em uma variável categórica "Tamanho" com as categorias "Pequeno", "Médio" e "Grande", estas poderiam ser codificadas como 0, 1 e 2, respectivamente.

Essa abordagem é particularmente útil para variáveis categóricas onde a ordem das categorias tem significado e é importante para a análise ou modelagem, como em níveis de educação, faixas de renda ou classificações de satisfação.

No entanto, ao usar a codificação ordinal, é importante considerar que a diferença numérica entre as categorias codificadas pode não representar uma distância real ou uma diferença de magnitude entre as categorias na vida real.

Por exemplo, a diferença entre "Pequeno" e "Médio" pode não ser a mesma que entre "Médio" e "Grande", embora numericamente ambas as diferenças sejam de uma unidade.

Isso pode levar a interpretações errôneas por parte dos modelos de aprendizado de máquina, especialmente aqueles que assumem uma relação linear entre as variáveis.

Portanto, a escolha de usar codificação ordinal deve ser feita com cautela e com um entendimento claro da natureza das variáveis categóricas envolvidas, garantindo que a técnica escolhida seja a mais adequada para capturar as relações subjacentes no conjunto de dados.


## Variáveis Quantitativas

Variáveis quantitativas são aquelas que representam quantidades numéricas e podem ser medidas em uma escala. Elas se dividem em dois tipos principais: discretas e contínuas.

Uma **variável quantitativa discreta** é aquela que assume valores específicos e distintos dentro de um intervalo e não pode assumir todos os valores possíveis entre dois números quaisquer.

Uma **variável quantitativa contínua**, por outro lado, pode assumir qualquer valor dentro de um intervalo. Esses valores podem representar medidas e, portanto, podem ser expressos em frações ou decimais.

### Medidas de Tendência Central

As medidas de tendência central são estatísticas que resumem um conjunto de dados, apontando para o valor central em torno do qual os dados se distribuem.
A **média** é a soma de todos os valores numéricos dividida pelo número de valores. É o que comumente entendemos por "médio" no uso cotidiano. A **mediana** é o valor que divide um conjunto de dados ordenados em duas metades iguais. A **moda** é o valor ou valores que aparecem com maior frequência em um conjunto de dados. Um conjunto de dados pode ter uma moda (unimodal), duas modas (bimodal) ou várias modas (multimodal). 

A escolha entre média, mediana e moda depende da natureza dos dados e do que você deseja comunicar:

- Use a média para dados normalmente distribuídos sem outliers.
- Prefira a mediana para dados com outliers ou distribuições assimétricas.
- A moda pode ser usada com dados qualitativos ou quantitativos quando se está interessado na frequência dos valores.

### Medidas de Dispersão

As medidas de dispersão são estatísticas que descrevem o quanto os valores em um conjunto de dados estão espalhados ou dispersos em relação a uma medida de tendência central.
Elas são essenciais para entender a variabilidade dos dados, o que, por sua vez, ajuda a compreender a confiabilidade das medidas de tendência central.

O **Intervalo (Amplitude)**  indica a diferença entre o maior e o menor valor em um conjunto de dados.

A **variância** é a média dos quadrados das diferenças entre cada valor e a média do conjunto de dados. Ela dá uma ideia de quão dispersos estão os valores em relação à média. 
O **desvio padrão** é a raiz quadrada da variância. Ele é uma das medidas de dispersão mais utilizadas porque está na mesma unidade de medida dos dados originais, tornando-o mais intuitivo para interpretação.

O **intervalo interquartil** é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1) em um conjunto de dados. Ele mede a extensão da "metade do meio" dos dados e é menos sensível a outliers do que o intervalo e a variância.

### Medidas de Posição Relativa - Quartis e Percentis

As medidas de posição relativa, como quartis e percentis, são estatísticas que descrevem como os valores de um conjunto de dados se distribuem em relação a toda a população de dados. 

Os **quartis** dividem um conjunto de dados ordenado em quatro partes iguais, cada uma contendo aproximadamente 25% dos dados. Eles são particularmente úteis para entender a distribuição dos dados e identificar outliers.


- Primeiro Quartil (Q1): Também conhecido como quartil inferior, representa o valor abaixo do qual estão 25% dos dados. É o mesmo que o percentil 25.
- Segundo Quartil (Q2): É a mediana do conjunto de dados, dividindo o conjunto ao meio. Portanto, 50% dos dados estão abaixo do Q2. Ele é equivalente ao percentil 50.
- Terceiro Quartil (Q3): Também conhecido como quartil superior, é o valor abaixo do qual se encontram 75% dos dados. Corresponde ao percentil 75.

Os **percentis** são similares aos quartis, mas dividem o conjunto de dados em 100 partes iguais. Cada percentil representa a posição abaixo da qual uma certa percentagem dos dados cai.
