# Estatistica Prática para Cientista de Dados: 50 conceitos essenciais

## Capítulo 1: Análise Exploratória de Dados

### Estimativas de Localização (tendência central)
É comum as variáveis apresentarem valores distintos, para que possamos ter um valor central onde os dados se concentram utilizamos as estimativas de localização, as mais utilizadas são: média aritmética, média aparada, média ponderada, mediana e mediana ponderada. Abaixo realizo o cálculo da média aritmética e a média aparada para que possamos compreender o impacto dos valores extremos.

### Média aritmética
É a média mais simples. Calcula-se a soma dos valores e divide pelo total de valores. Apesar de ser simples, é uma medida sensível a outliers inferiores e superiores, o que pode distorcer o resultado final, por isso foram desenvolvidas outras medidas como alternativa a média para que possamos ser o mais próximo do valor central possível.

Outliers altos podem elevar o resultado da média, enquanto que outliers baixos podem decair o resultado da média, é preciso portanto haver uma espécie de "equilíbrio" entre os valores. Abaixo calculo a média aritmética de uma lista com dois outliers.

In [1]:
numeros = [12, 15, 14, 13, 16, 18, 20, 22, 19, 17, 14, 13, 15, 16, 200, 21, 23, 24, 22, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, -50]

In [2]:
soma  = 0
media = 0

In [3]:
for n in numeros:
    soma += n
media = soma / len(numeros)
print(round(media, 2))

19.97


### Média aparada
A média aparada remove os valores extremos que estejam afetando a média. É uma medida boa, contudo é preciso estar atento a perda de informação, aconselha-se criar uma cópia dos dados anteriores antes de rmeover os valores. Após a remoção dos outliers podemos calcular a média aritmética normalmente, claro que o tamanho da amostra será alterado e deve ser levado em consideração. Outra etapa importante para o cálculo da média aparada é a ordenação dos valores da lista, isso porque ela irá remover os valores das pontas, tantos os inferiores quanto os superiores.

### Explicando o exemplo
No exemplo abaixo é aparado dois valores extremos de forma manual, contudo a média aparada não lida com valores discretos e fixos, ela lida com percentual de remoção. No caso do nosso exemplo o percentual de remoção é de 6,66%, ou seja, 3,33% de cada ponta. No caso de não sabermos a quantidade exata de outliers devemos levar em consideração a análise realizada para aplicar o percentual correto de aparação, afinal perderemos informação, é preciso agir com cautela. 

In [4]:
copia_numeros = numeros.copy()

In [5]:
copia_numeros.sort()
print(copia_numeros)

[-50, 9, 10, 11, 12, 12, 13, 13, 13, 14, 14, 14, 15, 15, 15, 16, 16, 16, 17, 17, 18, 18, 19, 20, 21, 22, 22, 23, 24, 200]


Podemos verificar que os valores extremos são -50 e 200. Esses valores estão alterando o resultado final da média, vamos removê-los.

In [6]:
copia_numeros.remove(-50)
copia_numeros.remove(200)
print(copia_numeros)

[9, 10, 11, 12, 12, 13, 13, 13, 14, 14, 14, 15, 15, 15, 16, 16, 16, 17, 17, 18, 18, 19, 20, 21, 22, 22, 23, 24]


Vamos verificar se houve alteração no tamanho da lista, realizar essa verificação é importante.

In [7]:
print(f'Tamanho da lista original: {len(numeros)}') # tamanho da lista original
print(f'Tamanho da lista copiada: {len(copia_numeros)}') # tamanho da lista copiada

Tamanho da lista original: 30
Tamanho da lista copiada: 28


Agora vamos calcular a média normalmente

In [8]:
soma = 0
media = 0

In [9]:
for numero in copia_numeros:
    soma += numero
media = soma / len(copia_numeros)
print(round(media,2))

16.04


### Aplicando percentual de 6,66% na aparação dos valores da lista numeros
Ao final podemos verificar que o resultado foi o mesmo, mas como dito anteriormente, o valor de aparação foi dado de forma manual. Existe alguns percentuais padrões de acordo com a análise, que devem ser levados em consideração. Abaixo eu coloco uma pequena tabela com esses valores.

In [10]:
n = 0
k = 0

In [11]:
n = len(numeros)
k = int(0.0666 * n)

In [12]:
dados_ordenados = sorted(numeros)
aparados = dados_ordenados[k: n - k]

In [13]:
soma = 0
media = 0

In [14]:
for valor in aparados:
    soma += valor
media = soma / len(aparados)
print(round(media, 2))

16.04


### Tabela com alguns percentuais de uso padrão para aparação, de acordo com a aplicação
Os valores foram fornecidos e explicados pelo ChatGPT

| Aplicação | Percentual |
|-----------|------------|
| Estatísica Descritiva | 2,5% a 5% |
| Dados assimétricos | 10% a 20% |
| Estudos muito sensíveis a extremos | 20% a 25% |

### Executando o mesmo exemplo acima utilizando R puro sem funções internas ou bibliotecas externas

Para utilizar o R em um Kernel Python3:

1. instalar o pacote rpy2
2. iniciar o comando %load_ext rpy2.ipython
3. sempre que criar um código R é preciso iniciar a célula com %%R

In [15]:
!pip install rpy2



In [16]:
import os
os.environ["RPY2_CFFI_MODE"] = "ABI"
%load_ext rpy2.ipython

In [17]:
%%R
dados <- c(12, 15, 14, 13, 16, 18, 20, 22, 19, 17, 14, 13, 15, 16, 200, 21, 23, 24, 22, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, -50)
soma <- 0
media <- 0
for (dado in dados){
    soma <- soma + dado
}
media <- soma/length(dados)
print(media)

[1] 19.96667


In [18]:
%%R
tamanho <- length(dados)
aparacao <-as.integer( 0.0666 * tamanho)
ordenados <- sort(dados)

In [19]:
%%R
tamanho_aparacao <- as.integer(tamanho - aparacao)
dados_aparados <- ordenados[(aparacao + 1):(tamanho_aparacao)]

soma_ap <- 0
media_ap <- 0

for(d in dados_aparados){
    soma_ap <- soma_ap + d
}
media_ap <- soma_ap/length(dados_aparados)
print(media_ap)

[1] 16.03571


### Análise dos resultados

**Texto corrigido pelo ChatGPT:**

Tanto em R quanto em Python, obtive o mesmo resultado para a média aritmética (19,97) e para a média aparada (16,03).

A escolha de qual média utilizar na análise exploratória depende do contexto e das características dos dados. Existem casos em que valores extremos, ainda que fora do padrão, são relevantes e devem ser mantidos; em outros, sua presença pode distorcer significativamente as estimativas e comprometer a interpretação dos resultados.

Por isso, recomendo calcular ambas as médias quando houver suspeita de outliers. Se optar por manter a média aritmética, é importante mencionar a existência dos valores extremos e mostrá-los visualmente, por exemplo, por meio de um boxplot.

O que não é recomendável é apresentar a média como uma medida absoluta e representativa do conjunto de dados sem considerar outras estatísticas descritivas e a possível influência dos outliers.

**Texto original:**

Ambas linguagens R e Python deram o mesmo resultado para a média aritmética: 19.97 e média aparada: 16.03. Fica a pergunta: Qual média utilizar para continudade da análise exploratória? A resposta é: Depende da análise e dos dados, afinal há valores extremos que ainda sendo extremos é importante mantê-los, como há outros que sua permanência pode alterar significativamente os resultados posteriores. Aconselho realizar as duas médias se for o caso, e na escolha de manter a média aritmética faça referência aos outliers e os mostre visualmente pelo Boxplot. O que não recomendo é dar o média como valor absoluto e representativo dos dados, é preciso considerar outras medidas.

## Média Ponderada

A média ponderada é  uma medida estatística que considera a relevância dos valores no cálculo da média, essa relevância é dada pelo pesos atribuídos a cada valor. Diferente da média aritmética, é a soma dos pesos que divide o resultado da soma ponderada (a soma dos produtos entre valor e peso). Abaixo eu calculo a soma ponderada em Python e em R, novamente as duas linguagens obtiveram os mesmo resultado.

### Abrindo arquivo csv em Python e transferindo os valores para duas listas

In [20]:
valores = []
pesos = []

with open('peso_fixos.csv', 'r') as arquivo:
    linhas = arquivo.readlines()

    for linha in linhas[1:]:
        valor, peso = linha.strip().split(",")
        valores.append(float(valor))
        pesos.append(float(peso))

### Calculando a média ponderada em Python

In [21]:
soma_ponderada = 0
soma_pesos = 0
media_ponderada = 0

for v in valores:
    for p in pesos:
        soma_ponderada += v * p
        soma_pesos += p
media_ponderada = soma_ponderada/soma_pesos
print(round(media_ponderada,2))

16.33


### Abrindo arquivo csv em R e transferindo para duas listas

In [22]:
%%R
valores_pesos <- read.csv('peso_fixos.csv',header = TRUE, sep=",")

valores_r <- valores_pesos$valor
pesos_r <- valores_pesos$peso

### Calculando média ponderada em R

In [23]:
%%R
soma_pd <- 0
soma_ps <- 0
media_pd <- 0

for (vl in valores_r){
    for (ps in pesos_r){
        soma_pd <- soma_pd + (vl *ps)
        soma_ps <- soma_ps + ps
    }
}

media_pd <- soma_pd/soma_ps
print(media_pd)

[1] 16.33333


## Mediana

A mediana é uma das medidas das estimativas de localização, sendo muito utilizada em comparação com a média por ser robusta a outliers. Mesmo que eu tenha valores extremos o resultado da mediana não é atingido porque se trata do valor central que divide o conjunto de dados entre maiores que a mediana e menores que a mediana. O cálculo da mediana lida bem com conjunto de dados ímpares, sendo a mediana o valor central, mas também com conjuntos pares, sendo a mediana a média entre os dois valores centrais. Abaixo eu calculo a mediana em Python e em R, o mais interessante de ter feito a mediana em R é a descoberta de que a indexação em R começa em 1 e isso alterou um pouco a forma de acessar os valores centrais.

### Calculando mediana em Python

In [26]:
numeros_ordenados = sorted(numeros)

In [72]:
def mediana(numeros):
    t = len(numeros)
    meio = t // 2
    mediana = 0
    if t % 2 == 0:
        mediana = (numeros[meio - 1] + numeros[meio])/2
    else:
        mediana = numeros[meio]
    return mediana
print(mediana(numeros_ordenados))

15.5


### Calculando mediana em R

In [77]:
%%R -i numeros_ordenados
mediana <- function(numeros){
    numeros <- as.numeric(numeros_ordenados)
    t <- length(numeros)
    meio <- t / 2
    med <- 0
    if(t %% 2 == 0){
        med <- (numeros[meio] + numeros[meio + 1])/2
    }else{
        meio <- ceiling(meio)
        med <- numeros[meio]
    }
    return(med)
}
mediana(numeros_ordenados)

[1] 15.5


## Mediana Ponderada

Usarei um trecho do livro em que o autor explica mediana ponderada e posteriormente explico como analisar o seu resultado, vamos ao trecho:

"_Em vez de um número central, a mediana ponderada é um valor cuja a soma dos pesos é igual para as metades superior e inferior da lista classificada_"

### Calculando mediana ponderada em Python

In [129]:
dic_valores = {10: 1, 12: 2, 15: 3, 18: 2, 20: 2}

In [132]:
sum_v = 0
w = 0
for v in dic_valores.values():
    sum_v += v
    w = sum_v // 2
print(f'Peso acumulado: {sum_v}')
print(f'Peso acumulado divido por dois: {w}')

Peso acumulado: 10
Peso acumulado divido por dois: 5


In [133]:
acumula_pesos = 0
mediana_ponderada = 0
for val, ps in dic_valores.items():
    acumula_pesos += ps
    if acumula_pesos >= w:
        mediana_ponderada = val
        break
print(f'Mediana ponderada: {mediana_ponderada}')

Mediana ponderada: 15


### Compreendendo o resultado

A mediana ponderada é 15 porque se olharmos o nosso conjunto de dados veremos que o peso acumulado é 10 e sua divião por 2 é 5, precisamos então encontrar nos dados o exato momento em que o valor 5 é atingido, se formos ver, até o 12 esse valor não é atingido porque a soma dos pesos da 4, logo quando chegamos ao 15 temos o resultado 5 atingido, sendo a soma dos pesos igual a 6, por isso o resultado é 15.

Em caso de haver dois valores que atinjam a divisão do peso acumulado, podemos considerar o valor que o atinge primeiro, nesse caso supondo que 12 e 15 alcançasse 5, o resultado seria 12, porque é o primeiro valor que atinge a divisão do peso acumulado.

### Calculando mediana ponderada em R

## Análise da base de dados State sobre taxa de homícidio dada a população e o estado