# Geração de dataset

### **O que é um Dataset e por que criá-lo?**  

Um **dataset** (ou conjunto de dados) é uma coleção organizada de informações estruturadas que representam um determinado fenômeno ou contexto. Ele pode conter dados numéricos, textuais, categóricos ou até multimídia, armazenados em formatos como **CSV, JSON, SQL, entre outros**.  

Criar um dataset é essencial para diversas aplicações, como **ciência de dados, aprendizado de máquina, estatísticas e análises empresariais**, pois permite que informações sejam armazenadas, manipuladas e analisadas para extrair insights valiosos.  

---

## **Por que criar um Dataset?**  

1. **Tomada de Decisão Baseada em Dados**  
   - Empresas e pesquisadores utilizam datasets para fundamentar decisões estratégicas.  
   - Um dataset bem construído ajuda a identificar padrões e tendências que podem ser usados para otimizar processos.  

2. **Treinamento de Modelos de Machine Learning**  
   - Modelos de IA precisam de dados para aprender e fazer previsões.  
   - Sem um dataset de qualidade, o modelo pode gerar resultados imprecisos ou enviesados.  

3. **Validação de Hipóteses e Estudos Estatísticos**  
   - Pesquisadores usam datasets para testar hipóteses e comprovar teorias com base em dados reais.  
   - Um dataset confiável garante resultados estatisticamente válidos.  

4. **Automação e Otimização de Processos**  
   - Em setores como logística, saúde e finanças, datasets ajudam a criar soluções automatizadas para previsões e recomendações.  
   - Exemplos incluem previsões de demanda, diagnósticos médicos assistidos por IA e sistemas de recomendação em streaming e e-commerce.  

5. **Armazenamento e Organização de Informações**  
   - Criar um dataset facilita a organização de grandes volumes de informações.  
   - Ele permite acesso rápido e estruturado para análises futuras.  

---

## **Estrutura de um Dataset**  

Geralmente, um dataset é composto por:  

- **Colunas (Atributos):** características dos dados (exemplo: idade, peso, altura, preço de um produto).  
- **Linhas (Observações):** cada entrada representa uma instância única dentro do conjunto de dados.  
- **Tipos de Dados:** numéricos (inteiros ou decimais), categóricos (sim/não, classes), textuais, etc.  

### **Exemplo de Dataset (Tabela Simples)**  

| ID  | Nome    | Idade | Salário (R$) | Cargo       |  
|----|--------|------|-------------|------------|  
| 1  | João   | 28   | 4.500       | Analista   |  
| 2  | Maria  | 32   | 6.000       | Gerente    |  
| 3  | Pedro  | 25   | 3.200       | Assistente |  

Esse dataset poderia ser utilizado para analisar padrões salariais em uma empresa, estudar perfis de funcionários ou prever aumentos salariais com base em experiência.  

---

## **Como Criar um Dataset?**  

Para criar um dataset de qualidade, siga algumas diretrizes:  

✅ **Defina o objetivo**: O que você quer analisar ou prever?  
✅ **Colete dados confiáveis**: Utilize fontes seguras e bem documentadas.  
✅ **Estruture corretamente**: Escolha o formato adequado (CSV, JSON, SQL).  
✅ **Realize limpeza e pré-processamento**: Remova valores ausentes e inconsistências.  
✅ **Documente o dataset**: Explique os atributos para facilitar o entendimento.  

---

Criar um dataset bem estruturado e confiável é um passo fundamental para obter resultados precisos e relevantes em qualquer análise de dados.

In [None]:
import numpy as np
import pandas as pd

# Definir número de linhas
num_linhas = 2_000_000

# Gerar valores aleatórios seguindo distribuição normal
idades = np.random.normal(loc=35, scale=10, size=num_linhas).astype(int)  # Idade inteira
alturas = np.random.normal(loc=1.70, scale=0.1, size=num_linhas).round(2)  # Altura com 2 casas decimais
numeros = np.random.normal(loc=5000, scale=1500, size=num_linhas).round(0)  # Números com 2 casas decimais

# Criar DataFrame
df = pd.DataFrame({'Idade': idades, 'Altura': alturas, 'NumeroAleatorio': numeros})

# Salvar em CSV
df.to_csv("dados_aleatorios.csv", index=False, sep=';')

print("Arquivo 'dados_aleatorios.csv' criado com sucesso!")


Arquivo 'dados_aleatorios.csv' criado com sucesso!


## Gera dataset com pontos fora da curva

In [None]:
import numpy as np
import pandas as pd

# Definir número de linhas e percentual de outliers
num_linhas = 2_000_000
percentual_outliers = 0.01  # 1%

# Número de outliers
num_outliers = int(num_linhas * percentual_outliers)
num_normais = num_linhas - num_outliers

# Função para gerar valores com outliers
def gerar_dados(media, desvio, num_normais, num_outliers):
    # 99% dos valores seguem a distribuição normal
    valores_normais = np.random.normal(loc=media, scale=desvio, size=num_normais)

    # 1% dos valores são outliers (acima ou abaixo de 3 desvios padrão)
    outliers_superiores = np.random.normal(loc=media + 3 * desvio, scale=desvio, size=num_outliers // 2)
    outliers_inferiores = np.random.normal(loc=media - 3 * desvio, scale=desvio, size=num_outliers // 2)

    # Concatenar e embaralhar os valores
    valores = np.concatenate((valores_normais, outliers_superiores, outliers_inferiores))
    np.random.shuffle(valores)

    return valores

# Gerar dados com outliers
idades = gerar_dados(media=35, desvio=10, num_normais=num_normais, num_outliers=num_outliers).astype(int)
alturas = gerar_dados(media=1.70, desvio=0.1, num_normais=num_normais, num_outliers=num_outliers).round(2)
numeros = gerar_dados(media=5000, desvio=1500, num_normais=num_normais, num_outliers=num_outliers).round(2)

# Criar DataFrame
df = pd.DataFrame({'Idade': idades, 'Altura': alturas, 'Numero Aleatorio': numeros})

# Salvar em CSV
df.to_csv("dados_aleatorios_com_outliers.csv", index=False, sep=';')

print("Arquivo 'dados_aleatorios_com_outliers.csv' criado com sucesso!")


Arquivo 'dados_aleatorios_com_outliers.csv' criado com sucesso!


---

# Indice de confiabilidade

## **Explicação**  

O **intervalo de confiança (IC)** é um conceito estatístico que representa uma **faixa de valores onde a média verdadeira de uma população provavelmente se encontra**, com um determinado **nível de confiança**. Ele é amplamente utilizado para inferir sobre populações com base em amostras.

---



### **1. O Que é um Intervalo de Confiança?**
Quando realizamos uma pesquisa, geralmente trabalhamos com **amostras**, pois medir toda a população pode ser inviável.  
O **intervalo de confiança** fornece um **intervalo estimado** dentro do qual **esperamos que a verdadeira média da população esteja**.  

Por exemplo, se dissermos que a **média de idade de uma população** tem um **intervalo de confiança de 95% entre 32 e 38 anos**, isso significa que **se repetirmos o estudo várias vezes**, em **95% das vezes** o intervalo conterá a média real da população.

### **Importante:**
- **O intervalo de confiança NÃO afirma que a média está dentro dele com certeza absoluta**.
- **O intervalo muda se pegarmos outra amostra**, mas manterá a mesma interpretação estatística.

---

## **2. Fórmula do Intervalo de Confiança**
Para calcular um intervalo de confiança para a **média de uma população**, usamos a seguinte fórmula:

$IC = \bar{x} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$

Onde:
- $ \bar{x} $ = **média da amostra**  
- $ Z_{\alpha/2} $ = **valor crítico da distribuição normal** (depende do nível de confiança)  
- $ \sigma $ = **desvio padrão da amostra (ou populacional, se conhecido)**  
- $ n $ = **tamanho da amostra**  
- $ \frac{\sigma}{\sqrt{n}} $ = **erro padrão da média**  

### **Componentes da Fórmula**
1. **$ \bar{x} $** → A média calculada a partir da amostra.
2. **$ \frac{\sigma}{\sqrt{n}} $** → O erro padrão, que mede a incerteza na média da amostra.
3. **$ Z_{\alpha/2} $** → O fator de confiança, que depende do nível de confiança escolhido.

---

## **3. Como Escolher o Nível de Confiança?**
O **nível de confiança** representa a probabilidade de que o intervalo contenha a verdadeira média populacional.

### **Valores Comuns de Confiança**
| **Nível de Confiança** | **Valor Crítico $( Z_{\alpha/2} $)** |
|------------------------|--------------------------------|
| 90%                   | 1.645                          |
| 95%                   | 1.960                          |
| 98%                   | 2.326                          |
| 99%                   | 2.576                          |

### **Interpretação**
- **99% de confiança** → Maior certeza, mas intervalo mais amplo.  
- **95% de confiança** → O mais comum em pesquisas científicas.  
- **90% de confiança** → Intervalo menor, mas menor certeza.  

Se queremos **maior precisão**, usamos um **nível menor**. Se queremos **mais certeza**, usamos **níveis mais altos**.

---

## **4. O Que Afeta o Intervalo de Confiança?**
O **tamanho do intervalo** depende de três fatores principais:

1. **Tamanho da amostra ($ n $)**  
   - **Quanto maior a amostra**, menor o intervalo → **mais preciso**.  
   - **Quanto menor a amostra**, maior o intervalo → **menos preciso**.  

2. **Desvio padrão ($ \sigma $)**  
   - **Se os dados são muito dispersos**, o IC será maior.  
   - **Se os dados são mais homogêneos**, o IC será menor.  

3. **Nível de confiança ($ 1 - \alpha $)**  
   - **Maior confiança → Intervalo maior**.  
   - **Menor confiança → Intervalo menor**.  

### **Resumo dos Efeitos**
| **Fator**                 | **Aumenta o IC** | **Diminui o IC** |
|--------------------------|----------------|----------------|
| **Aumentar a amostra**   | ❌            | ✅            |
| **Maior desvio padrão**  | ✅            | ❌            |
| **Maior nível de confiança** | ✅            | ❌            |

---

## **5. Exemplo Prático**
Suponha que queremos estimar a **idade média** de alunos em uma universidade.  
Selecionamos uma **amostra de 100 alunos**, e encontramos:

- **Média da amostra ($ \bar{x} $)** = 25 anos  
- **Desvio padrão ($ \sigma $)** = 4 anos  
- **Tamanho da amostra ($ n $)** = 100  

Queremos calcular um **intervalo de confiança de 95%**.

1. **Erro padrão da média:**
   $   \frac{\sigma}{\sqrt{n}} = \frac{4}{\sqrt{100}} = \frac{4}{10} = 0.4 $

2. **Valor crítico para 95% ($ Z_{\alpha/2} $)**:
   $
   Z = 1.960
   $

3. **Cálculo da margem de erro:**
   $ 1.960 \times 0.4 = 0.784 $

4. **Intervalo de Confiança:**
   $  25 \pm 0.784 $
   $   [24.216, 25.784] $

Isso significa que **temos 95% de certeza de que a verdadeira média da idade dos alunos está entre 24,22 e 25,78 anos**.

---

## **6. Intervalo de Confiança e Amostras Pequenas**
Se a **amostra for pequena** ($ n < 30 $) e a distribuição não for normal, usamos a **distribuição t de Student** em vez da distribuição normal.

A fórmula muda para:

$ IC = \bar{x} \pm t_{\alpha/2} \times \frac{s}{\sqrt{n}} $

Onde:
- $ t_{\alpha/2} $ → Valor crítico da distribuição t, baseado nos graus de liberdade $ (n - 1) $.
- $ s $ → Desvio padrão da amostra.

O **intervalo será maior**, pois há mais incerteza com amostras pequenas.

---

## **7. Aplicações do Intervalo de Confiança**
O IC é usado em diversas áreas:
- **Pesquisa médica** → Para estimar a eficácia de tratamentos.
- **Economia** → Para prever médias salariais.
- **Ciências sociais** → Para analisar populações com base em amostras.
- **Machine Learning** → Para avaliar modelos preditivos.

---

## **8. Conclusão**
✔ O **Intervalo de Confiança** fornece uma faixa de valores onde a **média populacional verdadeira** provavelmente está.  
✔ **Depende do tamanho da amostra, variabilidade dos dados e nível de confiança.**  
✔ **Níveis de confiança mais altos tornam o intervalo maior.**  
✔ **Amostras pequenas exigem a distribuição t de Student.**  

Se precisar de mais precisão:
✅ **Aumente a amostra**  
✅ **Aceite um nível de confiança menor (ex: 95%)**  


## Gerar dataset com confiabilidade

In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm

# Importar os dados do questionário
df = pd.read_csv('/content/dados_aleatorios.csv', sep=';')

# Extrair a coluna de idade como amostra
amostra = df['Idade'].dropna().astype(int)  # Removendo valores nulos e garantindo tipo inteiro

# Estatísticas da amostra
media_amostra = np.mean(amostra)
desvio_amostra = np.std(amostra, ddof=1)  # ddof=1 para amostra

# Definir nível de confiança (99%)
z_score = norm.ppf(0.995)  # Valor crítico para 99% (~2.576)
erro_maximo = 2  # Erro aceitável (ajuste conforme necessário)

# Calcular tamanho da amostra necessária
n_necessario = (z_score * desvio_amostra / erro_maximo) ** 2
n_necessario = int(np.ceil(n_necessario))  # Arredondar para cima

print(f"Tamanho mínimo necessário da amostra: {n_necessario}")

# Gerar novos dados baseados na amostra original
idades_finais = np.random.normal(loc=media_amostra, scale=desvio_amostra, size=n_necessario).astype(int)

# Criar DataFrame final
df_final = pd.DataFrame({'Idade': idades_finais})

# Salvar CSV
df_final.to_csv("dataset_confiavel.csv", index=False, sep=';')

print("Dataset confiável gerado e salvo como 'dataset_confiavel.csv'.")


Tamanho mínimo necessário da amostra: 166
Dataset confiável gerado e salvo como 'dataset_confiavel.csv'.


### Exemplo Questionario

In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm

# Importar os dados do questionário
df = pd.read_csv('https://raw.githubusercontent.com/luiscarlosjunior/aulas-graduacao/refs/heads/master/data-science/analise-dados/datasets/csv/questionario.csv', sep=';')

# Extrair a coluna de idade como amostra
amostra = df['idade'].dropna().astype(int)  # Removendo valores nulos e garantindo tipo inteiro

# Estatísticas da amostra
media_amostra = np.mean(amostra)
desvio_amostra = np.std(amostra, ddof=1)  # ddof=1 para amostra

# Definir nível de confiança (99%)
z_score = norm.ppf(0.995)  # Valor crítico para 99% (~2.576)
erro_maximo = 2  # Erro aceitável (ajuste conforme necessário)

# Calcular tamanho da amostra necessária
n_necessario = (z_score * desvio_amostra / erro_maximo) ** 2
n_necessario = int(np.ceil(n_necessario))  # Arredondar para cima

print(f"Tamanho mínimo necessário da amostra: {n_necessario}")

# Gerar novos dados baseados na amostra original
idades_finais = np.random.normal(loc=media_amostra, scale=desvio_amostra, size=n_necessario).astype(int)

# Criar DataFrame final
df_final = pd.DataFrame({'Idade': idades_finais})

# Salvar CSV
df_final.to_csv("dataset_confiavel.csv", index=False, sep=';')

print("Dataset confiável gerado e salvo como 'dataset_confiavel.csv'.")


Tamanho mínimo necessário da amostra: 45
Dataset confiável gerado e salvo como 'dataset_confiavel.csv'.


#### Explicação do resultado

O resultado de **45** como o tamanho mínimo necessário da amostra, apesar de sua amostra original ter **74 valores**, ocorre porque o cálculo do tamanho da amostra está baseado no **intervalo de confiança**, na **variabilidade dos dados** e no **erro máximo permitido**. Vamos analisar o que isso significa.  

---

#### **Por que o tamanho mínimo da amostra pode ser menor que o total de dados disponíveis?**
A fórmula usada para estimar o tamanho da amostra foi:

$n = \left( \frac{Z_{\alpha/2} \times \sigma}{E} \right)^2$

Onde:
- $ Z_{\alpha/2} = 2.576 $ (valor crítico para 99% de confiança)
- $ \sigma $ = desvio padrão da amostra
- $ E = 2 $ (erro máximo aceitável)

O resultado **45** significa que **para garantir um intervalo de confiança de 99% com erro máximo de 2 unidades, apenas 45 amostras são estatisticamente necessárias**.

Se a variabilidade (desvio padrão) dos dados não for muito alta, então **menos amostras são suficientes para representar a população**. Ou seja, sua amostra inicial de **74** pode conter **redundância estatística**, o que explica porque apenas **45 já são suficientes**.

---

#### **Cenários possíveis**
1. **Se a variabilidade da amostra fosse maior**  
   → **Maior desvio padrão** → **Precisaria de mais dados para confiabilidade**
   
2. **Se reduzíssemos o erro máximo permitido (E)**  
   → **Exigir um erro de 1 ao invés de 2** aumentaria **n** para melhorar a precisão.
   
3. **Se tivéssemos escolhido um nível de confiança menor (ex: 95%)**  
   → O valor crítico $ Z_{\alpha/2} $ seria **1.96**, diminuindo **n**.

---

#### **O que fazer com esse resultado?**
- **Se quiser usar todos os 74 valores**, não há problema! Isso pode até melhorar a robustez dos dados.  
- **Se quiser um dataset confiável mínimo**, os **45 valores aleatórios gerados** já são suficientes.  
- **Se precisar de mais precisão**, diminua o erro $ E $ para aumentar o tamanho necessário da amostra.

Resumindo: **o número 45 é um limite mínimo estatístico, mas você pode continuar usando a amostra maior sem problemas!**

# Exemplo Tabela de distribuição de frequência com dataset criado

In [None]:
import numpy as np
import pandas as pd

df = pd.read_csv('/content/dados_aleatorios_com_outliers.csv', sep=';')

df_filtrado = df[df['Idade'] > 0]

# Nome da coluna a ser analisada
coluna = 'Idade'

# Definir automaticamente os intervalos usando numpy
num_classes = 10  # Número de classes (ajuste conforme necessário)
bins = np.histogram_bin_edges(df_filtrado[coluna], bins=num_classes)

# Criar rótulos automaticamente
labels = [f"{int(bins[i])}-{int(bins[i+1])}" for i in range(len(bins)-1)]

# Criar a tabela de frequência agrupada
df['Classe'] = pd.cut(df_filtrado[coluna], bins=bins, labels=labels, right=False)

# Calcular as colunas da distribuição de frequência
tabela_freq = df['Classe'].value_counts().sort_index().reset_index()
tabela_freq.columns = ['Classe', 'f']  # f = Frequência Absoluta
tabela_freq['F'] = tabela_freq['f'].cumsum()  # Frequência Acumulada
tabela_freq['fr'] = tabela_freq['f'] / tabela_freq['f'].sum()  # Frequência Relativa
tabela_freq['fp (%)'] = tabela_freq['fr'] * 100  # Frequência Percentual

# Adicionar a linha de totais
totais = {
    'Classe': 'Total',
    'f': tabela_freq['f'].sum(),
    'F': '',  # Não faz sentido somar a frequência acumulada
    'fr': tabela_freq['fr'].sum(),
    'fp (%)': tabela_freq['fp (%)'].sum()
}

# Adiciona os totais à tabela
tabela_freq = pd.concat([tabela_freq, pd.DataFrame([totais])], ignore_index=True)

# Exibir a tabela
print(tabela_freq)


   Classe        f        F        fr      fp (%)
0    1-10    19564    19564  0.009802    0.980223
1   10-20   145982   165546  0.073142    7.314193
2   20-30   524052   689598  0.262568   26.256781
3   30-40   753847  1443445  0.377703   37.770289
4   40-50   411122  1854567  0.205986   20.598605
5   50-59   121985  1976552  0.061119    6.111862
6   59-69    15777  1992329  0.007905    0.790481
7   69-79     2880  1995209  0.001443    0.144298
8   79-89      613  1995822  0.000307    0.030713
9   89-99       51  1995873  0.000026    0.002555
10  Total  1995873           1.000000  100.000000
