<a href="https://colab.research.google.com/github/amadords/Projetos-Publicos/blob/master/Estat%C3%ADstica_1_(Amostragem).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Amostragem
---


[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)

![img](https://image.freepik.com/fotos-gratis/uma-mulher-avalia-a-poluicao-do-solo-com-toxinas_151013-13960.jpg)

As grandes áreas da estatística são:
1. Estatística descritiva
2. Probabilidade
3. Inferência estatística.


A amostragem é composta de técnicas para selecionar dentro de uma determinada população, um subconjunto que representa bem as características da população e assim, nos permitir chegar a conclusões que reflitam a verdade do grande grupo (população)

Isso é útil, uma vez que trabalhar dentro da população pode ser muito custoso computacionalmente, financeiramente, ou até mesmo impossível de ser feito.

A amostragem é bastante utilizada em pesquisas e estudos e faz parte da workflow de um Cientista de Dados e de um Estatístico.

Ao falar de amostragem, temos basicamente os seguintes conceitos:
- **População (N):** Coleção de todos os envolvidos. Exemplos pode ser as pessoas de uma cidade, estado ou país, ou o sangue presente no corpo de um determinado indivíduo.
- **Amostra(n):** Subconjunto da população alvo. Exemplo intuitivo é a amostra de sangue retirar para que seja feito um exame.
- **Variação:** Amostras diferentes podem apresentar resultados diferentes.
- **Margem de erro:** É a estimativa do erro amostral (aleatório em uma pesquisa), que por sua vez é o quanto a amostra pode variar das características da população. 
  - Exemplo, se em uma pesquisa, 70% da amostra responde que gosta daquele produto. Se a margem de erro é de 5%, significa que, na verdade, entre 65 a 75% realmente gostaram daquele produto.
- **Nível de Confiança:** Relacionado à margem de erro, nos dá a probabilidade de, sendo uma pesquisa aplicada em outros grupos de pessoas dentro do mesmo perfil, ter o mesmo resultado. O comum é utilizar a margem de 95%. Isso significa que a cada 100 vezes que o teste é aplicado, 95 vezes daria o mesmo resultado dentro da margem de erro.

As principais amostras utilizadas são as seguintes:

1. Aleatória Simples
2. Estratificada 
3. Sistemática


# 1. Amostragem Simples

- Aleatoriamente, retira-se de dentro da população um número X de elementos.
- É importante que dentro da população alvo, no processo de amostragem, todos tenham a mesma chance de serem selecionados para fazer parte da amostra.

- Com reposição/ Sem reposição:
 - Com reposição, quando uma amostra é retirada, ela retorna para o *bag de seleção* e volta a ter as mesmas chances de serem retiradas que as demais.
  - Sem reposição, quando uma amostra é retirada, ela não retorna ao *bag*, logo não pode ser selecionada novamente, aumentando as chances das demais serem selecionadas.

Em um teste *antidoping*, por exemplo, é utilizada a amostragem aleatória simples com reposição, uma vez que, se o atleta fez o teste e é sem reposição, ele estaria livre para se dopar, uma vez que não poderia ser selecionado para fazer o teste.


**Importando as bibliotecas necessárias**

In [None]:
import pandas as pd
import numpy as np

**Carregando a base de dados**

In [None]:
base = pd.read_csv('iris.csv')
base

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


**Tamanho da base de dados**

- 150 linhas 
- 5 colunas

In [None]:
base.shape

(150, 5)

**Fazendo a amostragem**

- `np.random.seed(12)`: manterá sempre o mesmo resultado em execução.

- `a = [0, 1]`: são os valores que serão usados para separar os dados.

- `size = 150`: é o tamanho da base de dados.

- `replace = True`: nos dá uma amostragem com reposição.

- `p = [0.7, 0.3])`: divida a base em 70 zeros e 30% uns.


In [None]:
np.random.seed(12)
# 150 amostras, de 0 a 1, com reposição, probabilidades equivalentes
amostra = np.random.choice(a = [0, 1], size = 150, replace = True,
                           p = [0.7, 0.3])
amostra

array([0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1])

Veja que a amostra terá ao todo, 150 dados.

In [None]:
len(amostra)

150

A amostra 1 terá 40 dados.

In [None]:
len(amostra[amostra == 1])

40

A amostra 0 terá 110 dados.

In [None]:
len(amostra[amostra == 0])

110

In [None]:
base_final = base.loc[amostra == 0]
base_final.shape

(110, 5)

**Resultado da amostra 0**

In [None]:
base_final

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
...,...,...,...,...,...
144,6.7,3.3,5.7,2.5,Iris-virginica
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica


In [None]:
base_final2 = base.loc[amostra == 1]
base_final2.shape

(40, 5)

**Resultado da amostra 1**

In [None]:
base_final2

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
1,4.9,3.0,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
20,5.4,3.4,1.7,0.2,Iris-setosa
27,5.2,3.5,1.5,0.2,Iris-setosa
29,4.7,3.2,1.6,0.2,Iris-setosa


Perceba que os valores não estão em ambas as amostras. Os valores que estão em 0 não estão em 1 e os que estão em 1 não estão em 0.

# 2. Amostragem Estratificada

Nesse caso, a população é dividida em subgrupos (ou estratos) e é feita uma amostragem simples dentro de cada estrato.



**Importando as bibliotecas necessárias**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from math import ceil

**Carregando a base de dados e visualizando a contagem**

In [None]:
iris = pd.read_csv('iris.csv')
iris['class'].value_counts()

Iris-virginica     50
Iris-setosa        50
Iris-versicolor    50
Name: class, dtype: int64

**Realizando a amostragem**

- `iris.iloc[:, 0:4]`: busca todas as linhas e colunas de 0 a 3 (4 é exclusivo, não entra). Assim os atributos previsores, ou seja, os dados sobre pétala e sépala da planta. O valor alvo fica de fora.
- `iris.iloc[:, 4]`: busca somente a classe, que é a espécie da planta (setosa, virginica ou versicolor)
- `test_size`: selecionamos 50% da base de dados, que serão copiados para as variáveis X e Y. Essa função retorna 4 valores,
porém, vamos usar somente os 50% da base de dados e por isso colocamos "_" para os outros valores. Ou seja, não serão utilizados.
- `stratify`: Retorna a amostra baseada na classe.

In [None]:
X, _, y, _ = train_test_split(iris.iloc[:, 0:4], iris.iloc[:, 4],
                              test_size = 0.5, stratify = iris.iloc[:,4])

In [None]:
len(X.value_counts())

74

In [None]:
y.value_counts()

Iris-virginica     25
Iris-setosa        25
Iris-versicolor    25
Name: class, dtype: int64

**Carregando nova base de dados**

In [None]:
infert = pd.read_csv('infert.csv')
infert.head()

Unnamed: 0.1,Unnamed: 0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
0,1,0-5yrs,26,6,1,1,2,1,3
1,2,0-5yrs,42,1,1,1,0,2,1
2,3,0-5yrs,39,6,2,1,0,3,4
3,4,0-5yrs,34,4,2,1,0,4,2
4,5,6-11yrs,35,3,1,1,1,5,32


**Contagem de valor da feature `'education'`.

In [None]:
infert['education'].value_counts()

6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

**Fazendo a amostragem**

- Será feita com 40% do tamanho dos dados.
- Para isso é passado o `test_size = 0.6`. 
- Poderia ser passado `train_size = 0.4` que daria o mesmo resultado.




In [None]:
X1, _, y1, _ = train_test_split(infert.iloc[:, 2:9], infert.iloc[:, 1],
                                test_size = 0.6, stratify = infert.iloc[:, 1])
y1.value_counts()

6-11yrs    48
12+ yrs    46
0-5yrs      5
Name: education, dtype: int64

# 3. Amostragem Sistemática

O conjunto de dados é ordenado e um intervalo é definido para que as amostras sejam retiradas.

Exemplo, se em uma base de dados escolhemos o intervalo = 10 e o conjunto tem 100 dados. Partindo do dado 1 serão retirados o 1, 11, 21, 31, 41, 51, 61, 71, 81 e 91.

**Importando as bibliotecas necessárias**

In [None]:
import numpy as np
import pandas as pd
from math import ceil

**Definindo o tamanho da população e o número de amostras que queremos**

In [None]:
populacao = 150
amostra = 15

**Criando valor randômico para inicializar a amostra**
* Inicia em 1
* Vai até k + 1

`ceil` é uma função para arredondar o número.

In [None]:
k = ceil(populacao / amostra)

print(k)

10


In [None]:
r = np.random.randint(low = 1, high = k + 1, size = 1)
print(r)

[1]


**Criando função para fazer a amostragem**

* O acumulador inicia em r[0].
* Cada número será acrescido à lista criada.


In [None]:
acumulador = r[0]
sorteados = []
for i in range(amostra):
    sorteados.append(acumulador)
    acumulador += k
print(sorteados)

[1, 11, 21, 31, 41, 51, 61, 71, 81, 91, 101, 111, 121, 131, 141]


**Quantidade de sorteados**

In [None]:
len(sorteados)

15

**Fazendo a amostragem na base de dados**

In [None]:
base = pd.read_csv('iris.csv')
base_final = base.loc[sorteados]
base_final

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
1,4.9,3.0,1.4,0.2,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
21,5.1,3.7,1.5,0.4,Iris-setosa
31,5.4,3.4,1.5,0.4,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
51,6.4,3.2,4.5,1.5,Iris-versicolor
61,5.9,3.0,4.2,1.5,Iris-versicolor
71,6.1,2.8,4.0,1.3,Iris-versicolor
81,5.5,2.4,3.7,1.0,Iris-versicolor
91,6.1,3.0,4.6,1.4,Iris-versicolor


# Obrigado!

Obrigado por ter disponibilizado um pouco do seu tempo e atenção aqui. Espero que, de alguma forma, tenha sido útil para seu crescimento. Se houver qualquer dúvida ou sugestão, não hesite em entrar em contato no [LinkedIn](https://www.linkedin.com/in/daniel-sousa-amador) e verificar meus outros projetos no [GitHub](https://github.com/amadords).


[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)

<center><img width="90%" src="https://raw.githubusercontent.com/danielamador12/Portfolio/master/github.png"></center>