<a href="https://colab.research.google.com/github/marcoswell/Data-Science/blob/main/simulando_gastos_domesticos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Simulação de Notas

## Projeto de Extensão – Introdução à Estatística

Este código faz parte de um projeto de extensão voltado para o ensino de Estatística a estudantes de escolas públicas do Distrito Federal.

Por meio do conjunto de dados simulados, os alunos serão introduzidos a conceitos fundamentais como:

- Medidas de tendência central (média, mediana e moda)
- Medidas de dispersão (amplitude, variância e desvio padrão)
- Visualização de dados com gráficos (histogramas, colunas, pizza, etc.)

O objetivo é proporcionar uma experiência prática e acessível, utilizando o **Excel** como ferramenta principal para análise e interpretação dos dados.

In [1]:
import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt

In [2]:
# tamanho do Data-Frame
x_tamanho = 200


# região das famílias
regioes = ['Norte', 'Nordeste', 'Centro-Oeste', 'Sudeste', 'Sul']

# Atribuindo salário de maneira aleatória
salarios = np.random.randint(1518, 10000, size=x_tamanho)

# Define faixas de gasto (em percentual do salário)
limites_percentuais = {
    'Alimentação': (15, 25),
    'Habitação': (15, 45),
    'Transporte': (5, 20),
    'Saúde': (5, 15),
    'Lazer': (5, 10)
}


In [3]:
# Criando um Data-Frame
df = pd.DataFrame({'Região': np.random.choice(regioes, size = x_tamanho),
                  'Salário Mensal(R$)': salarios
})

In [4]:
df.head()

Unnamed: 0,Região,Salário Mensal(R$)
0,Nordeste,6551
1,Centro-Oeste,7437
2,Nordeste,8746
3,Sul,7908
4,Nordeste,8608


In [5]:

# Função para gerar valores respeitando os limites e o salário
def gerar_despesas(salario):
    despesas = {}
    total = 0
    for categoria, (min_pct, max_pct) in limites_percentuais.items():
        pct = np.random.uniform(min_pct, max_pct) / 100
        valor = pct * salario
        despesas[categoria] = valor
        total += valor

    # Se a soma exceder o salário, escala proporcionalmente
    if total > salario:
        fator = salario / total
        for categoria in despesas:
            despesas[categoria] *= fator
    return despesas

# Aplica a função linha a linha
despesas_lista = df['Salário Mensal(R$)'].apply(gerar_despesas)

# Converte lista de dicionários em DataFrame e junta com df
df_despesas = pd.DataFrame(despesas_lista.tolist())
df = pd.concat([df, df_despesas], axis=1)

# Arredondando os valores
df = np.round(df, 2)

In [6]:
df.head()

Unnamed: 0,Região,Salário Mensal(R$),Alimentação,Habitação,Transporte,Saúde,Lazer
0,Nordeste,6551,1306.98,2002.08,741.58,704.29,603.04
1,Centro-Oeste,7437,1606.05,1462.61,746.73,932.58,629.48
2,Nordeste,8746,1946.77,2680.97,1348.39,1185.1,794.94
3,Sul,7908,1649.02,3275.32,1320.56,952.8,710.3
4,Nordeste,8608,1392.49,1328.05,1672.04,928.7,735.11


In [7]:
# salvando o df
df.to_csv('gastos_domesticos.csv', index=False)