***
# Estatística 
***

In [89]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from math import ceil

### Ciência que usa de teorias em experimentos e observações para o estudo destes

- ``Descritiva:`` Organizar, demonstrar e resumir dados

- ``Probabilidade:`` Analisar situações sujeitas ao acaso

- ``Inferência:`` Obter respostas sobre um fenômeno com dados representativos

### Observação e experimento

- ``Observação:`` Estudo em que os elementos analisados não sao afetados (pesquisa)

- ``Experimentos:`` Condições ou tratamentos são impostas a grupos, para avaliar o resultado. 

OBS: ``Grupo de controle - Placebo → `` Serve para comparar, analisar e tirar uma conclusão de causa e efeito

### Tipos de Variáveis 
- Quantitativa - Numéricas
    - Continuas: Valores Reais, podem assumir qualquer intervalo 
    - Discretas: Números Fixos, inteiro e num intervalo.
<br>
<br>
- Qualitativas - Categóricas 
    - Nominais: Categorias sem hierarquia EX: RJ, RS, CE
    - Ordinais: Categorias com hierarquia EX: Alto, médio, baixo

A ``Estatística``, precisa da interpretação, escolha e avaliação de quem esta fazendo a pesquisa

# Amostra
- Parte de uma ``população``, selecionada usando alguma técnica que de chances iguais a todos os elementos da ``população`` de serem selecionados.

## Conceitos
- População: Alvo do estudo

- **Amostra**: Subconjunto da População

- Censo: Pesquisa com toda a população. (muito caro fazer)


Se uma ``amostra`` foi feita corretamente, então ela deve representar as mesmas características da ``população`` onde foi retirada.

Se ela não representa a ``população``, dizemos que ela é ``enviesada``

## Enviesamento

Voce subestima ou superestima o parâmetro da população

- Causas:
    - Pesquisa de pessoas próximas ou de fácil acesso
    - Pesquisas pela internet.
    - Sem uso de mecanismo de seleção aleatória.

## Custo da Amostra:

- Margem de erro e nível de confiança
- Variação: Amostrar diferentes podem apresentar resultados diferentes
- Podemos "medir" a variação esperada

**Por que usar a Amostra?**
- Custo/ beneficio
- Separação da população para teste/treino/validação
- Experimentos diferentes

## Principais tipos de amostras:

### **Amostras Aleatórias Simples**

- Um determinado numero de elementos é retirado da população de forma Aleatória.

- Todos os elementos da população alvo do processo de amostragem, ``devem ter as mesmas chances de serem selecionados`` para fazer parte da amostra

- As amostras podem ser ``COM reposição`` e ``SEM reposição``

In [90]:
base = pd.read_csv("../assets/iris.csv")
display(base)
print("Essa base de dados possui, 150 linhas e 5 colunas")

amostra = np.random.choice(a = [0,1], size =150, replace = True, p =[0.5,0.5])
# size = tamanho da amostra
# Replace = True →  sem reposição
# p = probabilidade
print(amostra)

print("Vendo quantos registros com o Numero 1 foram retornados")
print(len(amostra[amostra == 1]))
print("\nVendo quantos registros com o Numero 0 foram retornados")
len(amostra[amostra == 0])

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Essa base de dados possui, 150 linhas e 5 colunas
[0 1 1 1 1 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 0 1 1 0 1 0 0 0 1 1 1 0 1 1 1 1
 0 1 0 1 1 1 1 1 0 0 1 1 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 1 1 0 1 0 0 1
 0 0 1 1 0 0 1 0 1 0 1 1 1 0 0 0 1 1 0 0 1 1 1 1 0 1 1 0 1 0 1 0 0 0 1 1 1
 1 1 0 0 1 1 1 0 0 0 0 1 0 1 0 0 1 1 0 1 1 0 0 1 1 1 1 1 0 0 1 0 1 1 1 1 1
 0 1]
Vendo quantos registros com o Numero 1 foram retornados
78

Vendo quantos registros com o Numero 0 foram retornados


72

In [91]:
print("Querendo os mesmos resultados de amostra.")
np.random.seed(2345)

print("\nVendo quantos registros com o Numero 1 foram retornados")
print(len(amostra[amostra == 1]))

print("\nVendo quantos registros com o Numero 0 foram retornados")
len(amostra[amostra == 0])

Querendo os mesmos resultados de amostra.

Vendo quantos registros com o Numero 1 foram retornados
78

Vendo quantos registros com o Numero 0 foram retornados


72

### **Amostra Estratificada**:
- As vezes as populações estão divididas nos chamados ``estratos``

- Estratos: Características em comum dos elementos de uma população


In [92]:
iris = pd.read_csv("../assets/iris.csv")
display(iris)

print("Contar quantas Setosas,Versicolor e Virginica")
qnt_variedades = iris['variety'].value_counts()
print(qnt_variedades)


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Contar quantas Setosas,Versicolor e Virginica
Setosa        50
Versicolor    50
Virginica     50
Name: variety, dtype: int64


In [93]:
print("\nAgora vamos buscar uma amostra de cada um dos tipos de variedade")
x, _, y,_ = train_test_split(iris.iloc[:,0:4], iris.iloc[:,4], test_size =0.5, stratify=iris.iloc[:,4])
#test_size → Indica em quantos % vamos dividir a base de dados 
# stratify → os dados são divididos de maneira estratificada
display(x, _, y,_)

print("\nQuantidade de cada amostra:")
y.value_counts()


Agora vamos buscar uma amostra de cada um dos tipos de variedade


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
104,6.5,3.0,5.8,2.2
57,4.9,2.4,3.3,1.0
149,5.9,3.0,5.1,1.8
95,5.7,3.0,4.2,1.2
35,5.0,3.2,1.2,0.2
...,...,...,...,...
26,5.0,3.4,1.6,0.4
60,5.0,2.0,3.5,1.0
42,4.4,3.2,1.3,0.2
69,5.6,2.5,3.9,1.1


101     Virginica
105     Virginica
3          Setosa
83     Versicolor
82     Versicolor
          ...    
56     Versicolor
139     Virginica
118     Virginica
112     Virginica
81     Versicolor
Name: variety, Length: 75, dtype: object

104     Virginica
57     Versicolor
149     Virginica
95     Versicolor
35         Setosa
          ...    
26         Setosa
60     Versicolor
42         Setosa
69     Versicolor
141     Virginica
Name: variety, Length: 75, dtype: object

101     Virginica
105     Virginica
3          Setosa
83     Versicolor
82     Versicolor
          ...    
56     Versicolor
139     Virginica
118     Virginica
112     Virginica
81     Versicolor
Name: variety, Length: 75, dtype: object


Quantidade de cada amostra:


Virginica     25
Versicolor    25
Setosa        25
Name: variety, dtype: int64

In [94]:
infert = pd.read_csv('../assets/infert.csv')
display(infert)

print('Pegando as amostras da coluna Education')
infert['education'].value_counts()

Unnamed: 0.1,Unnamed: 0,education,age,parity,induced,case,spontaneous,stratum,pooled.stratum
0,1,0-5yrs,26,6,1,1,2,1,3
1,2,0-5yrs,42,1,1,1,0,2,1
2,3,0-5yrs,39,6,2,1,0,3,4
3,4,0-5yrs,34,4,2,1,0,4,2
4,5,6-11yrs,35,3,1,1,1,5,32
...,...,...,...,...,...,...,...,...,...
243,244,12+ yrs,31,1,0,0,1,79,45
244,245,12+ yrs,34,1,0,0,0,80,47
245,246,12+ yrs,35,2,2,0,0,81,54
246,247,12+ yrs,29,1,0,0,1,82,43


Pegando as amostras da coluna Education


6-11yrs    120
12+ yrs    116
0-5yrs      12
Name: education, dtype: int64

**Vamos pegar uma base de dados com quantidades iguais.**

In [95]:
total = 248

base6_11anos = (120/total) * 100
print(f"{de6_11anos:.2f} %")

base_12anos = (116/total) *100
print(f"{base_12anos:.2f} %")

base_5anos = (12/total * 100)
print(f"{base_5anos:.2f} %")

48.39 %
46.77 %
4.84 %


In [96]:
x1,_,y1,_ = train_test_split(infert.iloc[:,2:9], infert.iloc[:,1], test_size=0.6,stratify=infert.iloc[:,1])
display(x1,_,y1,_)
print("\nQuantidade de registros (dados)")
y1.value_counts()

Unnamed: 0,age,parity,induced,case,spontaneous,stratum,pooled.stratum
164,23,1,0,0,1,83,40
230,32,1,1,0,0,66,46
102,44,1,0,0,0,20,17
224,27,2,1,0,0,60,50
48,26,2,2,1,0,49,49
...,...,...,...,...,...,...,...
75,31,1,0,1,1,76,45
110,34,3,0,0,0,28,31
159,25,1,0,0,0,78,41
84,42,1,0,0,0,2,1


148    12+ yrs
212    12+ yrs
182    6-11yrs
67     12+ yrs
33     6-11yrs
        ...   
61     12+ yrs
18     6-11yrs
135    12+ yrs
232    12+ yrs
23     6-11yrs
Name: education, Length: 149, dtype: object

164    12+ yrs
230    12+ yrs
102    6-11yrs
224    12+ yrs
48     12+ yrs
        ...   
75     12+ yrs
110    6-11yrs
159    12+ yrs
84      0-5yrs
25     6-11yrs
Name: education, Length: 99, dtype: object

148    12+ yrs
212    12+ yrs
182    6-11yrs
67     12+ yrs
33     6-11yrs
        ...   
61     12+ yrs
18     6-11yrs
135    12+ yrs
232    12+ yrs
23     6-11yrs
Name: education, Length: 149, dtype: object


Quantidade de registros (dados)


6-11yrs    48
12+ yrs    46
0-5yrs      5
Name: education, dtype: int64

### **Amostra Sistemática**
- Neste tipo de Amostragem, é escolhido um elemento aleatório e a partir dai, a cada N elementos um novo membro é escolhido.

In [100]:
populacao = 150
amostra = 14

k = populacao/amostra
print(k)
print("Arredondando...")
k = ceil(populacao/amostra)
print(k)

r = np.random.randint(low = 1,high = k+1, size =1)
#Low e High → Limite inferior e Superior
# size → Quantidade de numeros 
print('\nEle retorna como vetor',r)

acumulador = r[0] #Pegando apenas o valor do vetor.
print("Acumulador =",acumulador)

sorteados = []
for i in range(amostra):
    # print(acumulador)
    sorteados.append(acumulador)
    acumulador = acumulador + k
print(sorteados)

base_iris = pd.read_csv("../assets/iris.csv")
display(base_iris)

print("Base final com as amostras com os indices do acumulador")
base_final = base.loc[sorteados]
display(base_final)




10.714285714285714
Arredondando...
11

Ele retorna como vetor [1]
Acumulador = 1
[1, 12, 23, 34, 45, 56, 67, 78, 89, 100, 111, 122, 133, 144]


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Base final com as amostras com os indices do acumulador


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
1,4.9,3.0,1.4,0.2,Setosa
12,4.8,3.0,1.4,0.1,Setosa
23,5.1,3.3,1.7,0.5,Setosa
34,4.9,3.1,1.5,0.2,Setosa
45,4.8,3.0,1.4,0.3,Setosa
56,6.3,3.3,4.7,1.6,Versicolor
67,5.8,2.7,4.1,1.0,Versicolor
78,6.0,2.9,4.5,1.5,Versicolor
89,5.5,2.5,4.0,1.3,Versicolor
100,6.3,3.3,6.0,2.5,Virginica
