# Estatistica Prática para Cientista de Dados: 50 conceitos essenciais

## Capítulo 1: Análise Exploratória de Dados

### Estimativas de Localização (tendência central)
É comum as variáveis apresentarem valores distintos, para que possamos ter um valor central onde os dados se concentram utilizamos as estimativas de localização, as mais utilizadas são: média aritmética, média aparada, média ponderada, mediana e mediana ponderada. Abaixo realizo o cálculo da média aritmética e a média aparada para que possamos compreender o impacto dos valores extremos.

### Média aritmética
É a média mais simples. Calcula-se a soma dos valores e divide pelo total de valores. Apesar de ser simples, é uma medida sensível a outliers inferiores e superiores, o que pode distorcer o resultado final, por isso foram desenvolvidas outras medidas como alternativa a média para que possamos ser o mais próximo do valor central possível.

Outliers altos podem elevar o resultado da média, enquanto que outliers baixos podem decair o resultado da média, é preciso portanto haver uma espécie de "equilíbrio" entre os valores. Abaixo calculo a média aritmética de uma lista com dois outliers.

In [3]:
numeros = [12, 15, 14, 13, 16, 18, 20, 22, 19, 17, 14, 13, 15, 16, 200, 21, 23, 24, 22, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, -50]

In [4]:
soma  = 0
media = 0

In [6]:
for n in numeros:
    soma += n
media = soma / len(numeros)
print(round(media, 2))

19.97


### Média aparada
A média aparada remove os valores extremos que estejam afetando a média. É uma medida boa, contudo é preciso estar atento a perda de informação, aconselha-se criar uma cópia dos dados anteriores antes de rmeover os valores. Após a remoção dos outliers podemos calcular a média aritmética normalmente, claro que o tamanho da amostra será alterado e deve ser levado em consideração. Outra etapa importante para o cálculo da média aparada é a ordenação dos valores da lista, isso porque ela irá remover os valores das pontas, tantos os inferiores quanto os superiores.

### Explicando o exemplo
No exemplo abaixo é aparado dois valores extremos de forma manual, contudo a média aparada não lida com valores discretos e fixos, ela lida com percentual de remoção. No caso do nosso exemplo o percentual de remoção é de 6,66%, ou seja, 3,33% de cada ponta. No caso de não sabermos a quantidade exata de outliers devemos levar em consideração a análise realizada para aplicar o percentual correto de aparação, afinal perderemos informação, é preciso agir com cautela. 

In [7]:
copia_numeros = numeros.copy()

In [9]:
copia_numeros.sort()
print(copia_numeros)

[-50, 9, 10, 11, 12, 12, 13, 13, 13, 14, 14, 14, 15, 15, 15, 16, 16, 16, 17, 17, 18, 18, 19, 20, 21, 22, 22, 23, 24, 200]


Podemos verificar que os valores extremos são -50 e 200. Esses valores estão alterando o resultado final da média, vamos removê-los.

In [10]:
copia_numeros.remove(-50)
copia_numeros.remove(200)
print(copia_numeros)

[9, 10, 11, 12, 12, 13, 13, 13, 14, 14, 14, 15, 15, 15, 16, 16, 16, 17, 17, 18, 18, 19, 20, 21, 22, 22, 23, 24]


Vamos verificar se houve alteração no tamanho da lista, realizar essa verificação é importante.

In [12]:
print(f'Tamanho da lista original: {len(numeros)}') # tamanho da lista original
print(f'Tamanho da lista copiada: {len(copia_numeros)}') # tamanho da lista copiada

Tamanho da lista original: 30
Tamanho da lista copiada: 28


Agora vamos calcular a média normalmente

In [44]:
soma = 0
media = 0

In [45]:
for numero in copia_numeros:
    soma += numero
media = soma / len(copia_numeros)
print(round(media,2))

16.04


### Aplicando percentual de 6,66% na aparação dos valores da lista numeros
Ao final podemos verificar que o resultado foi o mesmo, mas como dito anteriormente, o valor de aparação foi dado de forma manual. Existe alguns percentuais padrões de acordo com a análise, que devem ser levados em consideração. Abaixo eu coloco uma pequena tabela com esses valores.

In [57]:
n = 0
k = 0

In [58]:
n = len(numeros)
k = int(0.0666 * n)

In [60]:
dados_ordenados = sorted(numeros)
aparados = dados_ordenados[k: n - k]

In [62]:
soma = 0
media = 0

In [63]:
for valor in aparados:
    soma += valor
media = soma / len(aparados)
print(round(media, 2))

16.04


### Tabela com alguns percentuais de uso padrão para aparação, de acordo com a aplicação
Os valores foram fornecidos e explicados pelo ChatGPT

| Aplicação | Percentual |
|-----------|------------|
| Estatísica Descritiva | 2,5% a 5% |
| Dados assimétricos | 10% a 20% |
| Estudos muito sensíveis a extremos | 20% a 25% |

### Executando o mesmo exemplo acima utilizando R puro sem funções internas ou bibliotecas externas

Para utilizar o R em um Kernel Python3:

1. instalar o pacote rpy2
2. iniciar o comando %load_ext rpy2.ipython
3. sempre que criar um código R é preciso iniciar a célula com %%R

In [64]:
!pip install rpy2

Collecting rpy2
  Downloading rpy2-3.6.4-py3-none-any.whl.metadata (5.4 kB)
Collecting rpy2-rinterface>=3.6.3 (from rpy2)
  Downloading rpy2_rinterface-3.6.3-cp313-cp313-win_amd64.whl.metadata (1.9 kB)
Collecting rpy2-robjects>=3.6.3 (from rpy2)
  Downloading rpy2_robjects-3.6.3-py3-none-any.whl.metadata (3.3 kB)
Collecting tzlocal (from rpy2-robjects>=3.6.3->rpy2)
  Downloading tzlocal-5.3.1-py3-none-any.whl.metadata (7.6 kB)
Downloading rpy2-3.6.4-py3-none-any.whl (9.9 kB)
Downloading rpy2_rinterface-3.6.3-cp313-cp313-win_amd64.whl (174 kB)
Downloading rpy2_robjects-3.6.3-py3-none-any.whl (125 kB)
Downloading tzlocal-5.3.1-py3-none-any.whl (18 kB)
Installing collected packages: tzlocal, rpy2-rinterface, rpy2-robjects, rpy2

   ---------- ----------------------------- 1/4 [rpy2-rinterface]
   -------------------- ------------------- 2/4 [rpy2-robjects]
   -------------------- ------------------- 2/4 [rpy2-robjects]
   ---------------------------------------- 4/4 [rpy2]

Successfully i

In [66]:
import os
os.environ["RPY2_CFFI_MODE"] = "ABI"
%load_ext rpy2.ipython

The rpy2.ipython extension is already loaded. To reload it, use:
  %reload_ext rpy2.ipython


In [67]:
%%R
dados <- c(12, 15, 14, 13, 16, 18, 20, 22, 19, 17, 14, 13, 15, 16, 200, 21, 23, 24, 22, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, -50)
soma <- 0
media <- 0
for (dado in dados){
    soma <- soma + dado
}
media <- soma/length(dados)
print(media)

[1] 19.96667


In [87]:
%%R
tamanho <- length(dados)
aparacao <-as.integer( 0.0666 * tamanho)
ordenados <- sort(dados)

In [85]:
%%R
tamanho_aparacao <- as.integer(tamanho - aparacao)
dados_aparados <- ordenados[(aparacao + 1):(tamanho_aparacao)]

soma_ap <- 0
media_ap <- 0

for(d in dados_aparados){
    soma_ap <- soma_ap + d
}
media_ap <- soma_ap/length(dados_aparados)
print(media_ap)

[1] 16.03571


### Análise dos resultados

**Texto corrigido pelo ChatGPT:**

Tanto em R quanto em Python, obtive o mesmo resultado para a média aritmética (19,97) e para a média aparada (16,03).

A escolha de qual média utilizar na análise exploratória depende do contexto e das características dos dados. Existem casos em que valores extremos, ainda que fora do padrão, são relevantes e devem ser mantidos; em outros, sua presença pode distorcer significativamente as estimativas e comprometer a interpretação dos resultados.

Por isso, recomendo calcular ambas as médias quando houver suspeita de outliers. Se optar por manter a média aritmética, é importante mencionar a existência dos valores extremos e mostrá-los visualmente, por exemplo, por meio de um boxplot.

O que não é recomendável é apresentar a média como uma medida absoluta e representativa do conjunto de dados sem considerar outras estatísticas descritivas e a possível influência dos outliers.

**Texto original:**

Ambas linguagens R e Python deram o mesmo resultado para a média aritmética: 19.97 e média aparada: 16.03. Fica a pergunta: Qual média utilizar para continudade da análise exploratória? A resposta é: Depende da análise e dos dados, afinal há valores extremos que ainda sendo extremos é importante mantê-los, como há outros que sua permanência pode alterar significativamente os resultados posteriores. Aconselho realizar as duas médias se for o caso, e na escolha de manter a média aritmética faça referência aos outliers e os mostre visualmente pelo Boxplot. O que não recomendo é dar o média como valor absoluto e representativo dos dados, é preciso considerar outras medidas.

## Média Ponderada

## Mediana

## Mediana Ponderada