# EDA com Python 
 #### Creditos: Bruno Melo da Silva

Em alguma fase de seu trabalho, o pesquisador depara-se com o
 problema de analisar e entender um conjunto de dados relevante
 ao seu particular objeto de estudos.  Ele necessitará trabalhar os
 dados para transformá-los em informações, para compará-los
 com outros resultados, ou ainda para julgar sua adequação a
 alguma teoria.  
   BUSSAB & MORETTIN  

EDA (Exploratory Data Analysis) é a Análise Exploratória de Dados, uma etapa crucial
 em projetos de dados.  
 É o processo de investigar e resumir um conjunto de dados
 para entender suas características principais, identificar padrões, detectar
 anomalias, testar hipóteses e verificar pressupostos com a ajuda de estatísticas
 descritivas e visualizações.  
 

 ## Objetivos do EDA:
 - Compreender os Dados
 - Identificar Padrões
 - Detectar de Anomalias
 - Preparar para Modelagem

Ferramentas e Técnicas:
 - Estatística Descritiva
 - Visualização de Dados (gráficos)
 - Manipulação de Dados

 A EDA é uma etapa fundamental na estatística e na ciência de dados, dedicada à
 investigação inicial dos dados para resumir suas principais características,
 frequentemente utilizando métodos visuais. Seu objetivo é compreender a estrutura
 dos dados, identificar padrões, detectar anomalias e testar hipóteses preliminares,
 sem pressupor modelos estatísticos específicos

A EDA serve como base para análises estatísticas mais aprofundadas, permitindo
 que pesquisadores e profissionais obtenham insights valiosos sobre os dados antes
 de aplicar modelos inferenciais ou preditivos. Ela facilita a compreensão das relações
 entre variáveis e auxilia na preparação dos dados para análises subsequentes.

Exemplo  
 Vamos realizar um exemplo básico manualmente para que você compreenda
 melhor como fazer a chamada EDA (Exploratory Data Analysis).  
 Suponha que temos
 as notas de um grupo de 10 alunos em um teste (em uma escala de 0 a 10):

In [43]:
notas = [6, 8, 5, 7, 9, 5, 6, 10, 8, 7]

 Primeiramente, vamos organizar esse conjunto de dados do menor para o maior:

In [44]:
notas.sort()
print(notas)

[5, 5, 6, 6, 7, 7, 8, 8, 9, 10]


 Até aqui, apenas organizamos os dados em ordem crescente.  
 Essa simples
 organização já nos permite identificar o Limite Inferior (LI), o Limite Superior (LS),
 traçar a mediana e começar a entender o comportamento dos dados.

In [45]:
LI = min(notas)
LS = max(notas)
print(LI)
print(LS)

5
10


Agora, avançaremos para a estatística descritiva, começando pelas medidas de
 posição.  
 Essas medidas são úteis porque muitas vezes queremos traduzir perguntas
 complexas em respostas simples, e é exatamente isso que elas fazem.  
 As principais medidas de posição são: Média, Mediana e Moda.

A média representa um “número central” dos dados. Por que as aspas? Porque a
 média é um valor que, em teoria, deveria representar o conjunto de dados, mas,
 dependendo do contexto, pode distorcer a realidade.  
 Por exemplo, imagine que o Confiança, time da cidade de Aracaju (conhecida como a
 Suíça Brasileira), jogou dois jogos e a média de gols marcados foi 3.  
 Pausa para reflexão...  
 Embora esse número seja expressivo, ao analisarmos os dados com mais cuidado,
 percebemos que no primeiro jogo, contra o time pequeno chamado Sergipe, o
 Confiança aplicou uma goleada de 6 a 0. Já no segundo jogo, um clássico da Série C
 contra o Itabaiana, o resultado foi um empate de 0 a 0

### Média  
 Percebeu a ironia? A média sozinha não conta toda a história. Vamos pensar em
 outro exemplo: a média salarial de uma empresa. Suponha que ela seja 5.000.  
 Você, que está participando de um processo seletivo, pensa: "Quero trabalhar nessa
 empresa, pois começarei ganhando 5.000."
 Mas, se você fez o curso com o Bruno, já sabe que essa conclusão pode não ser
 verdadeira.  A média pode ser influenciada por salários muito altos ou muito baixos,
 e a maioria dos funcionários pode ganhar bem menos do que os 5.000.

Você deve estar pensando: “Eu sei tudo sobre a média.”  
Mas calma aí, vamos dar um
 sustinho nesse coração curioso. A fórmula da média é escrita assim:

### Fórmula da Média

A média aritmética é calculada como:

$$
\bar{x} = {\frac{\sum_{i=1}^{n} x_i}{n}}
$$

Agora complicou, né? Mas calma! Se você aprendeu que a média é calculada  
 somando todas as observações e dividindo pela quantidade de elementos, você está no caminho certo.  
 Essa fórmula nada mais é do que a forma matemática de representar exatamente isso.  
 Então, voltando ao nosso conjunto de dados das notas (espero que você se lembre dele!), vamos calcular a média:  

In [46]:
soma = sum(notas) #Somatório = 5 + 5 + 6 + 6 + 7 + 7 + 8 + 8 + 9 + 10 = 71
quantidade = len(notas) #Quantidade = 10

media = soma / quantidade  #Logo, 71 dividido por 10 = 7,1
print(media) #7,1

7.1


 ### Mediana
 A mediana é uma medida de tendência central utilizada para representar o valor central de um conjunto de dados organizados em ordem crescente ou decrescente.  
 Diferentemente da média, a mediana não é influenciada por valores extremos (muito altos ou muito baixos).

 Você lembra que a primeira coisa que fizemos foi organizar os dados em ordem
 crescente? Pois bem, o cálculo da mediana depende da quantidade de observações
 no conjunto de dados. Como assim?  
 Supondo que a quantidade de observações é ímpar, a mediana será o número
 central.  
  Vamos a um exemplo com este conjunto de dados:

In [47]:
import statistics
from numpy import median
exemplos = [1,2,3,4,5]

def calc_median(data): 
    data.sort()
    mid = len(data) //2
    return (data[mid] + data[~mid]) / 2.0

mediana_s = statistics.median(exemplos) #exemplo com o módulo statistics
mediana_np = median(exemplos) #exemplo usando o numpy
mediana_def = calc_median(exemplos) #método testado pelo link https://stackoverflow.com/a/48369590



 Aqui, o número central é 3, que está exatamente no meio do conjunto.   
 Esse é o valor da mediana.

 Percebeu que o central está destacado, ele é literalmente o número que está no
 meio do seu dataset, mas quando é par temos um problema porque teremos dois
 números no meio e como ajustar isso? Vamos utilizar o nosso exemplo de notas

In [48]:
print(notas)

[5, 5, 6, 6, 7, 7, 8, 8, 9, 10]


Contando da esquerda para direita o meu quinto número é o 7, da direita para
 esquerda também, mas como tratar isso? A estatística diz que devemos somar os
 dois números e dividir por 2, nesse caso será o próprio 7.

 ### Moda
 A moda é a medida de tendência central que representa o valor que ocorre com
 maior frequência em um conjunto de dados. Em outras palavras, é o valor mais
 comum ou repetido no conjunto.  

  A moda tem um conceito parecido com a ideia de uma roupa que está “na moda”.
 Olhe para a arara de roupas e perceba que há um modelo que aparece mais vezes.
 Esse modelo é a moda! O mesmo acontece com o seu conjunto de dados: a moda é
 o valor que mais se repete.  

  Agora, pense em um levantamento demográfico onde descobrimos que a média de
 filhos por mãe é 2. Isso significa que, em média, cada mulher tem dois filhos. Mas, ao
 analisarmos a moda, percebemos que o número 1 é o que mais se repete.
 Interessante, não?

In [56]:
quantidadeFilhos = [1,1,2,1,3,2,4,1,2,1,3,1,4,2,3,1,2,2,3,1]
mediaFilhos = sum(quantidadeFilhos) / len(quantidadeFilhos) #media de filhos
moda = statistics.mode(quantidadeFilhos) #moda
print(mediaFilhos) #saída: 2
print(moda) #saída: 1

2.0
1


  Essa análise nos mostra que, apesar da média indicar 2 filhos, é mais provável que
 uma pessoa tenha apenas 1 filho. É aí que está a sagacidade da interpretação dos
 dados: a média nem sempre conta toda a história, enquanto a moda pode revelar o
 comportamento mais comum.  
  Agora, vamos voltar ao nosso dataset e observar algumas curiosidades sobre a
 moda:

In [59]:
print(notas) #[5, 5, 6, 6, 7, 7, 8, 8, 9, 10]

[5, 5, 6, 6, 7, 7, 8, 8, 9, 10]


Ao analisarmos os dados, percebemos que não há uma única moda. Os números 5,
 6, 7 e 8 se repetem na mesma frequência (duas vezes cada). Isso significa que o
 conjunto é multimodal, ou seja, possui várias modas e não uma única.  
  Para sua melhor interpretação a moda pode ser:
 - Unimodal: O conjunto tem apenas uma moda.
 Exemplo: {1, 2, 2, 3, 4} → Moda: 2
 - Bimodal: O conjunto tem duas modas.
 Exemplo: {1, 2, 2, 3, 3, 4} → Modas: 2 e 3
 - Multimodal: O conjunto tem mais de duas modas.
 Exemplo: {1, 1, 2, 2, 3, 3, 4} → Modas: 1, 2 e 3
 - Sem moda: Quando nenhum valor se repete.
 Exemplo: {1, 2, 3, 4, 5} → Sem moda