<a href="https://colab.research.google.com/github/DevCorrea86/Estatistica-Pratica/blob/main/part01_analise_exploratoria_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Capitulo 1 - Análise Exploratória de Dados

## Elementos de Dados Estruturados

**Contínuos** - Dados que podem assumir qualquer valor em um intervalo

**Discretos** - Dados que podem assumir apenas valores inteiros, como contagens.

**Categóricos** - Dados que podem assumir apenas um conjunto específico de valores representando um conjunto de possíveis categorias.

**Binários** - Um caso especial de dados categóricos com apenas duas categorias de valores (0/1, True/False)

**Ordinais** - Dados categórico que tem uma ordem explícita.

## Dados Retangulares

**Quadro de dados** - Os dados retangulares são as estruturas básicas de dados para modelos estatísticos e aprendizado de máquina.

**Características** - Um conjunto na tabela costuma ser chamada de caracteristicas.

**Registros** - Uma linha na tabela costuma ser chamada de registro.

## Estimativas de Localização

**Média** - Soma de todos valores dividido pelo número de valores

**Média ponderada** - A soma de todos os valores, multilicada por um peso e dividida pela soma dos pesos.

**Mediana** - O valor que ocupa a posição central dos dados.

**Mediana ponderada** - Valor cuja posição está no centro da soma dos pesos, estando na metade da soma antes e metade depois desse dado.

**Média aparada** - A média de todos os valores depois da excluso de um número fixo de valores extremos.

**Robusto** - Não sensível a valores extremos

**Outlier** - Valor de dados que é muito diferente da maioria dos dados.

In [1]:
import numpy as np # biblioteca cáculos numéricos
import random as rd 
import matplotlib.pyplot as plt

from random import randint # geração de numeros pseudo_aleatórios

Criar um array com 5000 elementos do tipo `int`, para mostrar melhor os conceitos abordados. Atribuir a lista a variável `numeros`.

In [2]:
# criando uma lista com 5000 números aleatórios
rd.seed(1986)

numeros = []
n = 0
while n < 5000:
    numeros.append(round(randint(1, 750)*rd.random()))
    n += 1

# transformar em array NumPy
numeros = np.array(numeros)
print(numeros)

[161  41  35 ... 251 578 137]


## Média

Estimativa de localização mais básica. Definida como a soma de todos os valores, dividida pelo número de valores.

> Média = $\textbf{x}_m = \frac{∑_{i}^{n} x_i}{n}$

In [3]:
# média 

media1 = sum(numeros)/len(numeros)
print(media1)

media2 = numeros.mean() # or np.mean(numeros)
print(media2)

186.5878
186.5878


## Média aparada

Calcula excluindo um númerofixado de valores selecionados em cada ponta, tirando a média dos valores restantes.

> Média aparada = $\textbf{x}_m = \frac{Σ_{i=p+1}^{n-p}x_i}{n - 2p}$

In [8]:
# aparar a amostra 10% cada ponta
numeros_sort = sorted(numeros)
numeros_aparados_10 = np.array(numeros_sort[500:4501]) # 500 elementos cada ponta

# média aparada 10%
media_aparada = numeros_aparados_10.mean()
print(media_aparada)

165.26118470382406


> Uma média aparada elimina influência de extremos, como por exemplo Carnaval, onde os a nota por cada quesito é a média aparada de cinco notas, onde há o descarte da menor e da maior.

> Menciono também a **média ponderada**, onde é atribuido um peso $w_i$ para cada valor dado de $x_i$ dividindo pela somatória de todos os pesos.</br>
Média ponderada = $\textbf{x}_w$ = $\frac{Σ_{i=1}^{n}w_ix_i}{Σ_{i}^{n}w_i}$

## Mediana e Estimativas Robustas

**Mediana** - número central numa lista de números ordenados (classificados), usa apenas os dados centrais para encontrar uma `média`. Ideal quando se quer desconsiderar os outliers.

**Outliers** - qualquer valor que seja muito distante dos outros valores em um conjunto de dados. Ser um outlier não torna um valor de dado inválido ou errado.

In [9]:
!wget -q 'https://raw.githubusercontent.com/gedeck/practical-statistics-for-data-scientists/master/data/state.csv' -O states.csv

Tabela mostra as primeiras linhas do conjunto de dados contendo população e as taxas de homicídio por 100 mil hab em cada estado.

In [18]:
import pandas as pd

state = pd.read_csv('states.csv')
state.rename(columns={'State': 'Estado', 'Population': 'População',\
                      'Murder.Rate': 'Taxa de Homicídio'},\
             inplace=True)
state.iloc[:,:-1].head(5)

Unnamed: 0,Estado,População,Taxa de Homicídio
0,Alabama,4779736,5.7
1,Alaska,710231,5.6
2,Arizona,6392017,4.7
3,Arkansas,2915918,5.6
4,California,37253956,4.4


In [19]:
# Média 
media = state['População'].mean()
media

6162876.3