<h2><center>Expansão dos Dados</center></h2>

<h5>Grupo: TechMovee</h5>
<h5>Objetivo: Implementar uma estratégia de expansão de dados para aumentar o volume de informações disponíveis para o treinamento de modelos preditivos, superando a limitação inicial de apenas 33 registros coletados. A expansão será realizada de forma a manter a coesão dos dados reais, permitindo que os padrões sejam reconhecidos eficazmente pelos algoritmos, melhorando assim a precisão e a confiabilidade dos modelos desenvolvidos.</h5>
<h5>Autor: Melissa Martins de Araujo - 2°G - n°14</h5>

<h4>Importações</h4>

In [2]:
import numpy as np
import pandas as pd

<h4>Função para expansão dos dados</h4>

In [3]:
num_samples = 150  # Definindo o número de amostras que serão geradas para cada resposta.

# Criando uma função para gerar dados sintéticos
def generando_dados_sinteticos(n_samples, response):
    # Definindo um dicionário com perguntas e respostas simuladas para gerar dados de pesquisa
    dados_sinteticos = {
        'Qual é a idade do(s) seu(s) filho(s)?': np.random.choice(
            ['6 - 10 anos', '11 - 14 anos', '15 - 18 anos'], n_samples, p=[0.25, 0.25, 0.5]),
        
        'Qual é a distância entre sua casa e a escola?': np.random.choice(
            ['Menos de 1 km', '1 - 4 km', '5 - 9 km', 'Mais de 10 km'], n_samples, p=[0.25, 0.25, 0.25, 0.25]),
        
        'Quanto tempo você leva, em média, para levar seu(s) filho(s) à escola?': np.random.choice(
            ['Menos de 10 minutos', '10 - 20 minutos', '21 - 30 minutos', 'Mais de 30 minutos'], n_samples, p=[0.15, 0.25, 0.25, 0.35]),
        
        'Você possui carro próprio?': np.random.choice(['Sim', 'Não'], n_samples, p=[0.65, 0.35]),
        
        'Já fez uso do serviço de um transporte escolar para o(s) seu(s) filho(s)?': np.random.choice(
            ['Já e ainda uso', 'Já, mas não uso mais', 'Nunca usei'], n_samples, p=[0.45, 0.25, 0.30]),
        
        'Você já teve problemas com transporte escolar?': np.random.choice(['Sim', 'Não'], n_samples, p=[0.25, 0.75]),
        
        'Você estaria disposto a mudar o transporte do seu(s) filho(s) para uma van escolar que oferecesse mais segurança e eficiência?': np.random.choice(['Sim', 'Não'], n_samples, p=[0.70, 0.30]),
        
        'Você tem ou já teve dificuldade para encontrar transporte escolar para o seu(s) filho(s)?': np.random.choice(['Sim', 'Não'], n_samples, p=[0.60, 0.40]),
        
        'Você já teve problemas com horário e comunicação com o transportador?': np.random.choice(
            ['Sim', 'Não', 'As vezes'], n_samples, p=[0.20, 0.55, 0.25]),
        
        'Você preferiria um serviço de transporte escolar que avise automaticamente sobre atrasos e mudanças de rota?': [response] * n_samples
    }
    return pd.DataFrame(dados_sinteticos)  # Retornando um DataFrame com os dados gerados



<h4>Combinando os dados</h4>

In [4]:
# Gerando dados sintéticos para as respostas "Sim" e "Não"
dados_sinteticos_sim = generando_dados_sinteticos(num_samples, 'Sim')
dados_sinteticos_nao = generando_dados_sinteticos(num_samples, 'Não')

# Combinando os conjuntos de dados
dados_sinteticos_expandidos = pd.concat([dados_sinteticos_sim, dados_sinteticos_nao], ignore_index=True)

# Exibindo as primeiras linhas do dataset e contando as ocorrências de cada resposta para a pergunta final
dados_sinteticos_expandidos.head(), dados_sinteticos_expandidos['Você preferiria um serviço de transporte escolar que avise automaticamente sobre atrasos e mudanças de rota?'].value_counts()

(  Qual é a idade do(s) seu(s) filho(s)?  \
 0                           6 - 10 anos   
 1                           6 - 10 anos   
 2                           6 - 10 anos   
 3                           6 - 10 anos   
 4                          15 - 18 anos   
 
   Qual é a distância entre sua casa e a escola?  \
 0                                 Menos de 1 km   
 1                                 Menos de 1 km   
 2                                 Menos de 1 km   
 3                                 Menos de 1 km   
 4                                      5 - 9 km   
 
   Quanto tempo você leva, em média, para levar seu(s) filho(s) à escola?  \
 0                                    21 - 30 minutos                       
 1                                    21 - 30 minutos                       
 2                                 Mais de 30 minutos                       
 3                                    10 - 20 minutos                       
 4                                 

<h4>Salvando nova base</h4>

In [7]:
# Salvando o conjunto de dados expandido em um arquivo Excel
base_expandida = 'pesquisa_responsaveis_expandida.xlsx'
dados_sinteticos_expandidos.to_excel(base_expandida, index=False)

base_expandida  # Exibindo o nome do arquivo salvo

'pesquisa_responsaveis_expandida.xlsx'