# Análise Exploratória de Dados
## Hugo Tremonte de Carvalho
## `hugo@dme.ufrj.br`

In [None]:
empresa <- read.table("empresa.csv", dec = ",", sep = ";", h = T)

## Calculando medidas resumo em cenários artificiais

In [None]:
x = c(3, 4, 5, 6, 7)
y = c(1, 3, 5, 7, 9)
z = c(5, 5, 5, 5, 5)
w = c(3, 5, 5, 7)
v = c(3, 5, 5, 6, 6)

### Estatísticas de ordem

In [None]:
sort(x)
sort(y)
sort(z)
sort(w)
sort(v)

In [None]:
sort(y)[2]

### Medidas de centralidade

Média

$$\overline{x} = \frac{1}{n}\sum_{i = 1}^n x_i$$

In [None]:
mean(x)
mean(y)
mean(z)
mean(w)
mean(v)

Mediana

$$md(x) = \begin{cases} x_{\left(\frac{n + 1}{2}\right)}, &\text{ se $n$ é ímpar} \\ \frac{ x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)} }{2}, &\text{ se $n$ é par}
\end{cases}$$

In [None]:
median(x)
median(y)
median(z)
median(w)
median(v)

R não tem função embutida para calcular a moda!!!! Porque será? 🤔

### Medidas de dispersão

Desvio absoluto médio

$$dm(x) = \frac{1}{n}\sum_{i = 1}^n |x_i - \overline{x}|$$

In [None]:
mean(abs(x - mean(x)))
mean(abs(y - mean(y)))
mean(abs(z - mean(z)))
mean(abs(w - mean(w)))
mean(abs(v - mean(v)))

Desvio quadrático médio (variância)

$$var(x) = \frac{1}{n}\sum_{i = 1}^n (x_i - \overline{x})^2 ~~ \text{ OU } ~~ \frac{1}{n-1}\sum_{i = 1}^n (x_i - \overline{x})^2$$

Dividindo por $n$

In [None]:
mean((x - mean(x))**2)
mean((y - mean(y))**2)
mean((z - mean(z))**2)
mean((w - mean(w))**2)
mean((v - mean(v))**2)

Dividindo por $n - 1$

In [None]:
var(x)
var(y)
var(z)
var(w)
var(v)

In [None]:
sum((x - mean(x))**2)/(length(x) - 1)
sum((y - mean(y))**2)/(length(y) - 1)
sum((z - mean(z))**2)/(length(z) - 1)
sum((w - mean(w))**2)/(length(w) - 1)
sum((v - mean(v))**2)/(length(v) - 1)

Desvio padrão

$$dp(x) = \sqrt{var(x)} = \sqrt{\frac{1}{n}\sum_{i = 1}^n (x_i - \overline{x})^2} ~~ \text{ OU } ~~ \sqrt{\frac{1}{n-1}\sum_{i = 1}^n (x_i - \overline{x})^2}$$

Dividindo por $n$

In [None]:
sqrt(mean((x - mean(x))**2))
sqrt(mean((y - mean(y))**2))
sqrt(mean((z - mean(z))**2))
sqrt(mean((w - mean(w))**2))
sqrt(mean((v - mean(v))**2))

Dividindo por $n - 1$

In [None]:
sd(x)
sd(y)
sd(z)
sd(w)
sd(v)

In [None]:
sqrt(sum((x - mean(x))**2)/(length(x) - 1))
sqrt(sum((y - mean(y))**2)/(length(x) - 1))
sqrt(sum((z - mean(z))**2)/(length(x) - 1))
sqrt(sum((w - mean(w))**2)/(length(x) - 1))
sqrt(sum((v - mean(v))**2)/(length(x) - 1))

Coeficiente de variação ou desvio padrão relativo

$$cv(x) = \frac{dp(x)}{\overline{x}}$$

In [None]:
sd(x)/mean(x)
sd(y)/mean(y)
sd(z)/mean(z)
sd(w)/mean(w)
sd(v)/mean(v)

## Calculando medidas resumo em um cenário "real"

In [None]:
mean(empresa$IdadeAnos)

In [None]:
sd(empresa$IdadeAnos)

In [None]:
median(empresa$IdadeAnos)

In [None]:
table(empresa$IdadeAnos) # Várias modas


20 23 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 46 48 
 1  1  1  2  1  1  1  2  2  2  2  2  2  2  2  1  1  2  2  1  2  1  1  1 

In [None]:
mean(empresa$Salario)

In [None]:
median(empresa$Salario)

In [None]:
mean(empresa$Filhos)

In [None]:
mean(empresa$Filhos, na.rm = TRUE)

In [None]:
median(empresa$Filhos)

In [None]:
median(empresa$Filhos, na.rm = TRUE)

In [None]:
table(empresa$Filhos)


0 1 2 3 5 
4 5 7 3 1 

## Algo curioso...

In [None]:
 a = c(1, 2, 3, 4, 5)
 b = c(1, 2, 3, 4, 200)

In [None]:
mean(a)
mean(b)

In [None]:
median(a)
median(b)

In [None]:
sd(a)
sd(b)

In [None]:
# desvio absoluto médio

mean(abs(a - mean(a)))
mean(abs(b - mean(b)))

In [None]:
# coeficiente de variação
sd(a)/mean(a)
sd(b)/mean(b)