### importando bibliotecas 

In [None]:
import pandas as pd
import random
import numpy as np
from sklearn.model_selection import StratifiedShuffleSplit

### importando banco de dados 

In [None]:
dataset = pd.read_csv('credit_data.csv')

### conferindo o tamanho do banco de dados

In [None]:
dataset.shape

(2000, 5)

### amostragem selecionando 1000 registros aleatoriamente - test

In [None]:
df_amostra_alecSimples = dataset.sample(n = 1000)
df_amostra_alecSimples.shape

(1000, 5)

# Amostragem - aleatoria simples 

### Função de amostragem simples 
Com a opção de "random_state" onde empede que ocorra mudança na     amostra de dados  

In [None]:
def amostragem_simples(dataset,amostras):
    return dataset.sample(n = amostras,random_state=1)

In [None]:
 amostragem_simples(dataset,1000)

Unnamed: 0,i#clientid,income,age,loan,c#default
674,675,34158.633968,29.421142,2911.408067,0
1699,1700,25789.742025,45.316211,4442.331780,0
1282,1283,59589.064289,20.609764,4191.715856,0
1315,1316,49908.291867,29.550940,2903.036128,0
1210,1211,69132.462579,33.471182,7621.410219,0
...,...,...,...,...,...
103,104,57296.160823,25.708482,10601.082783,1
9,10,25075.872771,39.776378,1409.230371,0
1929,1930,27514.088473,36.278684,192.144611,0
543,544,55476.656980,52.089203,4733.505830,0


# Amostragem sistemática

Divide o numero da <<população>> pela <<amostra>>. Onde iremos selecionar aleatoriamente um numero, dentro do intervalo do resultado dessa divisão.
    
    

Os proximos números,serão selecionados baseado no resultado da divisão ocorrida no inicio. 

### Função de amostragem sistematica


In [None]:
def amostragem_sistematica(dataset,amostra):
    intervalo = len(dataset) // amostra
    random.seed(1)
    primeiro = random.randint(0,intervalo)
    indices = np.arange(primeiro,len(dataset),step = intervalo)
    # Passando os índices para um novo date frame onde iremos
    # selecionar 
    amostragem_sistemática = dataset.iloc[indices]
    return amostragem_sistemática

In [None]:
amostra_sistematica = amostragem_sistematica(dataset,1000)

In [None]:
amostra_sistematica.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
2,3,57317.170063,63.108049,8020.953296,0
4,5,66952.688845,18.584336,8770.099235,1
6,7,48430.359613,26.809132,5722.581981,0
8,9,40654.892537,55.496853,4755.82528,0


# Amostragem por grupos

Defina o tamanho do grupo, e escolha um aleatoriamente  entre eles 

### Função de amostragem por grupos


In [None]:
def amostragem_sistematica(dataset,divisao_grupo):
    # quantidade de elementos dentro do grupo
    inter = len(dataset) // divisao_grupo

    grupos = []
    id_grupo = 0
    i = 0
    for _ in dataset.iterrows():
      # adicioando os id dentro da lista   
      grupos.append(id_grupo)
      i +=1
      # separando os id do grupo 
      if i > inter:
       i = 0
       id_grupo += 1
     
    # adicionando a coluna grupos na tabela
    dataset['grupos'] = grupos
    # mantendo o mesmo padrão de dados 
    random.seed(1)
    grupo_selecionado = random.randint(0,divisao_grupo)
    return dataset[dataset['grupos'] == grupo_selecionado]

In [None]:
amostra_agrupamento = amostragem_sistematica(dataset,10)

In [None]:
amostra_agrupamento.head()

Unnamed: 0,i#clientid,income,age,loan,c#default,grupos
402,403,58079.156901,18.663027,11540.045812,1,2
403,404,62192.467069,46.050789,1863.891003,0,2
404,405,62553.668411,63.924976,4641.704785,0,2
405,406,68147.957318,22.984394,12307.562323,1,2
406,407,27619.661407,47.540506,2774.832781,0,2


# Amostragem por estratificada

A inteção e retornar proporcionalmente a mesma quantidade com dados distintos  

In [None]:

def amostragem_estratificada(dataset,percentual,campo):

# Indicando o percentual da amostra que iremos dividir na base de dados

    split = StratifiedShuffleSplit(test_size=percentual,random_state=1)
    
# Passando a base de dados que queremos a divisão,e o 
# campo da tabela que ocorre essa divisão

    for __, y in split.split(dataset, dataset[campo]):
        df_y = dataset.iloc[y]    
    return df_y           

In [None]:
amostragem_estratificada = amostragem_estratificada(dataset,0.5,'c#default')




In [None]:
amostragem_estratificada.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
1374,1375,35916.704154,53.540443,6401.189486,0
253,254,25259.401631,39.739766,4341.008082,0
1149,1150,56317.08282,24.653482,8045.440953,1
1453,1454,28630.009508,27.29153,4406.995056,1
1929,1930,27514.088473,36.278684,192.144611,0


## Comparativo da média  utilizando os    atributos
  ####    - Age  -             -  Income   -                           - Loan  -

In [None]:

dataset['age'].mean(),dataset['income'].mean(),dataset['loan'].mean()

(40.80755937840458, 45331.60001779331, 4444.369694688262)

In [None]:
df_amostra_alecSimples['age'].mean() ,df_amostra_alecSimples['income'].mean(),df_amostra_alecSimples['loan'].mean() 


(40.91944773497947, 45237.61991843345, 4393.960421379734)

In [None]:
amostra_sistematica['age'].mean() , amostra_sistematica['income'].mean() , amostra_sistematica['loan'].mean() 

(40.91117381141754, 45691.498750669496, 4506.787976426329)

In [None]:
amostra_agrupamento['age'].mean(), amostra_agrupamento['income'].mean(), amostra_agrupamento['loan'].mean() 

(40.439136696499844, 45978.72890811182, 4675.000381870198)

In [None]:
amostragem_estratificada['age'].mean(), amostragem_estratificada['income'].mean(), amostragem_estratificada['loan'].mean() 

(40.53363707173919, 45101.36675026739, 4423.744651094196)