# üß† Exemplos de An√°lise Preditiva em Python
### Tipos de Amostragem:
- Aleat√≥ria Simples
- Estratificada
- Sistem√°tica
- Por Conglomerado

Cada exemplo abaixo cont√©m uma explica√ß√£o e um c√≥digo correspondente.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

## 1Ô∏è‚É£ Amostragem Aleat√≥ria Simples
Cada elemento da popula√ß√£o tem **a mesma probabilidade de ser escolhido**.

In [2]:
dados = pd.DataFrame({
    'idade': np.random.randint(18, 70, 1000),
    'salario': np.random.randint(1500, 10000, 1000)
})

amostra_simples = dados.sample(frac=0.1, random_state=42)
print(amostra_simples.head())

     idade  salario
521     54     8778
737     24     7315
740     41     1640
660     48     6433
411     67     2783


## 2Ô∏è‚É£ Amostragem Estratificada
A popula√ß√£o √© dividida em **estratos (grupos homog√™neos)** e a amostragem √© proporcional em cada grupo.

In [3]:
dados['genero'] = np.random.choice(['Masculino', 'Feminino'], 1000)

train, test = train_test_split(dados, test_size=0.2, stratify=dados['genero'], random_state=42)

print('Propor√ß√µes no treino:')
print(train['genero'].value_counts(normalize=True))
print('Propor√ß√µes no teste:')
print(test['genero'].value_counts(normalize=True))

Propor√ß√µes no treino:
genero
Masculino    0.52375
Feminino     0.47625
Name: proportion, dtype: float64
Propor√ß√µes no teste:
genero
Masculino    0.525
Feminino     0.475
Name: proportion, dtype: float64


## 3Ô∏è‚É£ Amostragem Sistem√°tica
Seleciona um elemento inicial aleat√≥rio e, a partir dele, **escolhe-se cada k-√©simo elemento**.

In [4]:
k = 10
inicio = np.random.randint(0, k)
amostra_sistematica = dados.iloc[inicio::k]

print(amostra_sistematica.head())
print(f'Tamanho da amostra sistem√°tica: {len(amostra_sistematica)}')

    idade  salario     genero
8      60     1980  Masculino
18     28     5305   Feminino
28     50     7895  Masculino
38     20     2510   Feminino
48     20     1727  Masculino
Tamanho da amostra sistem√°tica: 100


## 4Ô∏è‚É£ Amostragem por Conglomerado
A popula√ß√£o √© dividida em **grupos heterog√™neos (conglomerados)** e alguns grupos inteiros s√£o sorteados.

In [5]:
dados['filial'] = np.random.choice(['Sul', 'Sudeste', 'Centro-Oeste', 'Norte', 'Nordeste'], 1000)

filiais_sorteadas = np.random.choice(dados['filial'].unique(), 2, replace=False)
amostra_conglomerado = dados[dados['filial'].isin(filiais_sorteadas)]

print(f'Filiais escolhidas: {filiais_sorteadas}')
print(amostra_conglomerado.head())
print(f'Tamanho da amostra por conglomerado: {len(amostra_conglomerado)}')

Filiais escolhidas: ['Sul' 'Nordeste']
    idade  salario     genero    filial
0      28     9814   Feminino       Sul
1      49     5064  Masculino  Nordeste
8      60     1980  Masculino  Nordeste
9      32     2211  Masculino       Sul
11     56     4232  Masculino  Nordeste
Tamanho da amostra por conglomerado: 398


### üí¨ Observa√ß√£o Final
Esses tipos de amostragem s√£o usados antes do **treinamento de modelos preditivos**, garantindo representatividade e evitando vieses.