# Projeto: Corrida Segura - Grupo Machine Learning

# Criação de DataSets Sinteticos. 

Para o correto entendimento do que segue, recomenda-se que o leitor percorra os links a seguir listados (em especial o primeiro):


*   https://drive.google.com/file/d/1BXtPDDqO9lrOwm_7tj6wpxAyaFIQXrzQ/view?usp=sharing


*   https://research.ibm.com/blog/what-is-synthetic-data


*   https://datagen.tech/guides/synthetic-data/synthetic-data/


*  https://www.turing.com/kb/synthetic-data-generation-techniques


*   https://towardsdatascience.com/synthetic-data-generation-a-must-have-skill-for-new-data-scientists-915896c0c1ae


*   https://www.youtube.com/watch?v=wJuCnYkrYLA


*   https://www.v7labs.com/blog/synthetic-data-guide


*   https://www.media.mit.edu/projects/domain-randomization-synthetic-data-auav/overview/

*   https://news.mit.edu/2022/synthetic-data-ai-improvements-1103












# Teoria e Justificativa
Os muitos métodos para a criação de dados sintéticos são intrincados e envolvem técnicas complexas que se propõem a simular, com certa precisão, os fenômenos do mundo real. Seu principal intuito é gerar um conjunto de dados diversificado para o treinamento de modelos de machine learning. justificam essa abordagem, as dificuldades em coletar dados reais de larga escala e a necessidade de mitigar vieses e desequilíbrios que possam afetar a eficácia do modelo em condições de produção. Nesse sentido, a criação de dados sintéticos se torna uma estratégia valiosa para reduzir a dependência de dados reais, o que pode ser especialmente relevante em domínios em que os dados são escassos ou sensíveis, como em medicina, finanças e cibersegurança.
Levando em consideração as informações acima mencionadas, pode-se citar alguns dos métodos mais empregados:


*   Redes Neurais Generativas (GANs): consistem em modelos que geram amostras sintéticas a partir de um conjunto de dados de treinamento, utilizando uma rede neural para gerar exemplos similares aos do conjunto de dados original.
*   Simulação: consiste em criar um modelo que simula um ambiente ou processo, permitindo a geração de dados sintéticos que representam o comportamento do sistema em diferentes condições.


*   Aprendizado por reforço: esta técnica consiste em gerar dados sintéticos a partir de agentes virtuais que aprendem a realizar tarefas em um ambiente simulado, gerando assim exemplos de comportamento em diferentes cenários. Pode ser entendida e explorada num contexto muito proximo ao da técnica anterior.
*   Síntese baseada em contexto: técnica de geração de dados sintéticos que se baseia na ideia de que um exemplo sintético deve ser gerado não apenas com base nas características do conjunto de dados original, mas também levando em consideração o contexto em que o exemplo será utilizado.

É com base nesta derradeira abordagem que nos basearemos para a elaboração do conjunto de dados sintéticos aqui contido. Possui, como principal vantagem, o fato de poder ser utilizada para gerar dados sintéticos mais diversificados e relevantes para a tarefa em questão, o que pode melhorar a eficácia do modelo final. No entanto, essa técnica também apresenta incertezas qualitativas e quantitativas assosciadas, como a necessidade de coletar informações relevantes sobre o contexto em que os exemplos serão utilizados. Tendo em vista essa dificuldade contextual, utilizou-se como base o dataset "New York City Taxi Trip Duration", disponível no link; https://www.kaggle.com/competitions/nyc-taxi-trip-duration/rules.





------------//------------

# Google_Maps_Api

O dataset New York City Taxi Trip Duration, a partir de agora referido como df_nyc, não possui valores absolutos em relação as distâncias percorridas em cada corrida registrada; continha, entretando, as coordenadas geográficas dos pontos iniciais e finais de cada viagem. Dessa maneira, fez-se necessário integrar a api do google maps ao modelo aqui proposto.

Segue abaixo o link de um vídeo tutorial que pode ser extremamente útil aos que desejarem entender mais sobre como solicitar uma api_key_google e utiliza-lá.



*   https://www.youtube.com/watch?v=6bPxrkSPoK4





"pip install -U googlemaps" é um comando instalação que utiliza o gerenciador de pacotes pip para instalar ou atualizar a biblioteca Google Maps na versão mais recente. Esta biblioteca, por sua vez, oferece uma série de funcionalidades relacionadas ao uso de mapas e localização geográfica. No ambiente de desenvolvimento Google Colaboratory o sinal de exclamação "!" é utilizado para indicar que um comando a ser executado não é um comando Python, mas sim um comando de terminal do sistema operacional do ambiente em que o Colaboratory está sendo executado.



In [None]:
!pip install -U googlemaps

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Após instalar, importamos a biblioteca googlemaps em nosso script. Além dela importamos também a biblioteca datetime. Ambas as documentações seguem nos links abaixo.
 

*   https://docs.python.org/3/library/datetime.html


*   https://googlemaps.github.io/google-maps-services-python/docs/






In [None]:
import googlemaps
from datetime import datetime

In [None]:
api_key = "minha_api_key"

Outras bibliotecas são necessárias na construção da abordagem proposta. Suas respectivas documentações e alguns links úteis estão abaixo referenciadas.


*   https://pandas.pydata.org/docs/
*   https://numpy.org/doc/ 

*   https://docs.scipy.org/doc/scipy/
 
 *Outros Links úteis*


*   https://harve.com.br/blog/programacao-python-blog/numpy-python-o-que-e-vantagens-e-tutorial-inicial/
*   https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1


*   https://www.youtube.com/watch?v=jmX4FOUEfgU










In [None]:
import pandas as pd
import numpy as np
from scipy import stats

A função apresentada em seguir recebe como parâmetros um DataFrame com informações de viagens (latitude e longitude de origem e destino) e uma chave API do Google Maps. A função utiliza a biblioteca Google Maps para calcular a distância entre a origem e o destino de cada viagem do DataFrame, armazenando o resultado em uma nova coluna chamada "distancia".
O cálculo da distância é feito atraves do loop FOR que itera sobre cada linha do DataFrame. Em cada iteração, a função utiliza a API do Google Maps para obter o melhor trajeto entre a origem e o destino da viagem, armazenando esse valor na coluna "distancia". Ao final, a função retorna o DataFrame com a coluna "distancia" preenchida com as distâncias calculadas para cada viagem.

In [None]:
def calcular_distancia_viagens(df, api_key):
    
    gmaps = googlemaps.Client(key=api_key)   # inicializa o Google Maps com a chave API

    
    df["distancia"] = 0 # cria uma nova coluna no DataFrame para armazenar a distância

    # calculo da distância usando a API
    for i, row in df.iterrows():
        origem = (row["pickup_latitude"], row["pickup_longitude"])
        destino = (row["dropoff_latitude"], row["dropoff_longitude"])
        distancia = gmaps.distance_matrix(origem, destino)["rows"][0]["elements"][0]["distance"]["value"]
        df.at[i, "distancia"] = distancia

    return df

A utilização do código acima tendo por input os dados do nyc_dataset_trip resulta em valores proximos do ideal, haja vista o contexto urbano (trajetos não lineares) da aplicação proposta. Após esse cálculo defini-se o data-set df_nyc através do . Note que o termo "df" é utilizado como padrão em dataframe do tipo pandas.

# Definindo o DataSet Base

In [None]:
df_nyc = pd.read_csv('/content/data_distance_api_maps.csv')

"pd.read_csv" é uma função da biblioteca Pandas da lingaguem Python que permite ler e carregar dados a partir de um arquivo CSV (Comma-Separated Values) em um DataFrame do Pandas.
CSV é um formato de arquivo que armazena dados em formato de tabela, em que cada linha representa um registro e cada coluna representa um campo.

A função .columns, no que concerne, retorna um objeto do tipo Index contendo os rótulos das colunas de um DataFrame.

In [None]:
df_nyc.columns

Index(['id', 'vendor_id', 'pickup_datetime', 'dropoff_datetime',
       'passenger_count', 'pickup_longitude', 'pickup_latitude',
       'dropoff_longitude', 'dropoff_latitude', 'store_and_fwd_flag',
       'trip_duration', 'distancia'],
      dtype='object')

A função ".head()" é uma função do Pandas que é utilizada para exibir as primeiras linhas de um DataFrame. Por padrão, ela exibe as cinco primeiras linhas do DataFrame, mas é possível passar um parâmetro n para especificar o número de linhas a serem exibidas. 
Um exemplo do uso desse parâmetro segue:

In [None]:
# import pandas as pd

# df = pd.read_csv("dados.csv")

# primeiras_linhas = df.head(n=15)

In [None]:
df_nyc.head()

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration,distancia
0,id2875421,2.0,2016-03-14 17:24:55,2016-03-14 17:32:30,1.0,-73.982155,40.767937,-73.96463,40.765602,N,455.0,2005
1,id2377394,1.0,2016-06-12 00:43:35,2016-06-12 00:54:38,1.0,-73.980415,40.738564,-73.999481,40.731152,N,663.0,2515
2,id3858529,2.0,2016-01-19 11:35:24,2016-01-19 12:10:48,1.0,-73.979027,40.763939,-74.005333,40.710087,N,2124.0,9740
3,id3504673,2.0,2016-04-06 19:32:31,2016-04-06 19:39:40,1.0,-74.01004,40.719971,-74.012268,40.706718,N,429.0,1779
4,id2181028,2.0,2016-03-26 13:30:55,2016-03-26 13:38:10,1.0,-73.973053,40.793209,-73.972923,40.78252,N,435.0,1607


Abaixo fora criada a  função "calculate_fare_amount" que calcula a tarifa aproximada de uma viagem de táxi com base na distância percorrida e na duração da viagem. A tarifa é calculada adicionando uma taxa base de 5,0 u.m (unidade monetária) à distância percorrida multiplicada por um fator de 0,15 u.m  à duração da viagem multiplicada por um fator de 0,4 u.m por hora. O resultado final é a tarifa total da viagem.

In [None]:
def calculate_fare_amount(distancia, trip_duration):                               #Função aproximada para a tarifa.
    fare_amount = 5 + (distancia * 0.15) + (trip_duration * 0.4 *1/60)
    return fare_amount

A função "df_nyc['fare_amount']" adiciona uma nova coluna chamada "fare_amount" ao DataFrame "df_nyc". O valor da coluna é calculado para cada linha do DataFrame usando a função "calculate_fare_amount", que recebe como argumentos a distância percorrida e a duração da viagem de cada linha.

In [None]:
df_nyc['fare_amount'] = df_nyc.apply(lambda row: calculate_fare_amount(row['distancia'], row['trip_duration']), axis=1)

A função "apply" é usada para aplicar a função "calculate_fare_amount" a cada linha do DataFrame "df_nyc". O parâmetro lambda, por sua vez, é uma ferramenta do Python para criar funções anônimas. Em outras palavras, o termo lambda é usado para criar funções simples em linha, sem a necessidade de declarar a função de forma explícita.
O parâmetro lambda é definido usando a palavra-chave "lambda", seguida pelos parâmetros de entrada da função, seguidos por dois pontos e a expressão que define o comportamento da função, que nesse caso é obtido pela função calculate_fare_amount.
Ou seja, nas linhas acima instanciamos a função calculate_fare_amount e adicionamos seu resultado aplicado a uma nova coluna do dataframe base.

# Análise e Processamento do Dataset Base
Nesta etapa, realizaremos a análise e processamento dos dados de viagens de táxi em Nova York com objetivo de prepara-los no contexto de geração dos dados sintéticos.

In [None]:
df_nyc['pickup_datetime'] = pd.to_datetime(df_nyc['pickup_datetime'])  #Separa os dados da coluna pickup_datetime em data e hora e gera novas respectivas colunas.
df_nyc['day_of_week'] = df_nyc['pickup_datetime'].dt.dayofweek
df_nyc['hour'] = df_nyc['pickup_datetime'].dt.hour
df_nyc.to_csv('nyc_taxi_trip_duration_datetime_updated.csv', index=False)



1.   A primeira linha de código pd.to_datetime(df_nyc['pickup_datetime']) converte os valores da coluna pickup_datetime para um formato de data e hora, permitindo a manipulação desses dados.

2.   A segunda linha de código df_nyc['pickup_datetime'].dt.dayofweek extrai o dia da semana correspondente a cada valor da coluna pickup_datetime e armazena o resultado em uma nova coluna chamada day_of_week.

3.   A terceira linha, df_nyc['pickup_datetime'].dt.hour, extrai a hora correspondente a cada valor da coluna pickup_datetime e armazena o resultado em uma nova coluna chamada hour.

4.   A quarta linha salva o dataframe atualizado em um arquivo csv com o nome nyc_taxi_trip_duration_datetime_updated.csv, sem incluir o índice do dataframe no arquivo de saída.





O script abaixo realiza o cálculo de algumas estatísticas descritivas a partir do conjunto df_nyc.

In [None]:
distancia_mean, distancia_std = df_nyc['distancia'].mean(), df_nyc['distancia'].std()
valor_mean, valor_std = df_nyc['fare_amount'].mean(), df_nyc['fare_amount'].std()
dia_da_semana_counts = df_nyc['day_of_week'].value_counts(normalize=True)
hora_counts = df_nyc['hour'].value_counts(normalize=True)



1.   A primeira linha calcula a média e o desvio padrão da variável distancia e os armazena nas variáveis distancia_mean e distancia_std, consecutivamente.

2.   A segunda linha, por sua vez, o mesmo para a variável fare_amount, armazenando a média e o desvio padrão nas variáveis valor_mean e valor_std, respectivamente.


3.   A terceira linha utiliza o método value_counts() para calcular a contagem das ocorrências de cada valor na coluna day_of_week. O parâmetro normalize=True normaliza as contagens para que elas representem a proporção de cada valor em relação ao total de valores. 

4.   A quarta linha utiliza o mesmo método value_counts() para calcular a contagem das ocorrências de cada valor na coluna hour. Assim como na linha anterior, o parâmetro normalize=True é utilizado para normalizar as contagens.





# Randômico e Determinístico?!?!

*No coração do código,
o aleatório é gerado,
números surgem no vazio,
em um mundo programado.*

*No vácuo do destino,
Há um mar de incertezas,
Mas a Mente em seu ofício,
Classifica leis e regras com firmeza.*

In [None]:
distancias = np.random.normal(loc=distancia_mean, scale=distancia_std, size=10000)  # Gera os valores aleatórios para as variáveis do dataset sintético
valor = np.random.normal(loc=valor_mean, scale=valor_std, size=10000)
dia_da_semana = np.random.choice(dia_da_semana_counts.index, size=10000, p=dia_da_semana_counts.values)
hora = np.random.choice(hora_counts.index, size=10000, p=hora_counts.values)

O código acima é um dos motores principais para se gerar um conjunto de dados sintéticos que sigam as mesmas distribuições estatísticas do conjunto de dados base. Não atoa é referenciado como o *Coração* do script.


1.   A primeira linha usa a função np.random.normal do módulo numpy para gerar 10.000 valores aleatórios para a variável distancias, que segue uma distribuição normal com média distancia_mean e desvio padrão distancia_std.

2.   A segunda linha gera 10.000 valores aleatórios para a variável valor, também seguindo uma distribuição normal, com média valor_mean e desvio padrão valor_std.


3.   Na terceira linha, a função np.random.choice é usada para gerar 10.000 valores para a variável dia_da_semana. Os valores possíveis são os índices do objeto dia_da_semana_counts.index, e a probabilidade de escolha de cada valor é dada pela lista de probabilidades dia_da_semana_counts.values. Isso garante que a amostra gerada tenha a mesma distribuição de frequências da variável original.

4.   a quarta linha usa a mesma função np.random.choice para gerar 10.000 valores para a variável hora, usando o objeto hora_counts para definir as probabilidades de escolha de cada valor.



**Caso necessário, para o melhor entendimento do conceito das distribuições estatísticas, seguem alguns links úteis:

https://alkimia.tripod.com/estatistica/distribuicao_probabilidade.htm

https://www.ibm.com/docs/pt-br/cognos-analytics/11.2.0?topic=terms-statistical-distribution

https://sosestatistica.com.br/qual-distribuicao-devo-usar/









In [None]:
espera_media = df_nyc.groupby(['day_of_week', 'hour']).agg({'distancia': 'mean'}).reset_index() # Calcula o tempo médio de espera por uma nova corrida para cada dia da semana e hora do dia
espera_media['espera_media'] = espera_media['distancia'] / 0.17
espera_media = espera_media.drop('distancia', axis=1)


O código acima realiza o cálculo da espera média para uma nova corrida em cada dia da semana e hora do dia, com base na distância média percorrida em corridas anteriores.
O primeiro passo é agrupar os dados do dataframe df_nyc por dia da semana e hora do dia, usando o método groupby(). Em seguida, aplica-se o método agg() para calcular a média da coluna distancia em cada grupo formado. O resultado é um novo dataframe chamado espera_media contendo as colunas 'day_of_week', 'hour' e 'distancia'.
Para obter a espera média em minutos, divide-se a distância média por 0.17, que é a velocidade média estimada de um táxi em Nova York. O valor 0.17 é baseado na suposição de que a velocidade média de um táxi em Nova York é de 20 milhas por hora (32,19 km/h). Portanto, a distância média de 0,17 milhas (ou 0,274 km) percorrida por minuto é obtida ao dividir a velocidade média pela duração média de uma corrida.
Ainda que a suposição acima possa soar excessivamente empírica, utiliza-se para essa determinação o artigo "Nova York: 40 km/hora em toda a cidade!", que pode ser encontrado no link https://www.mobilize.org.br/noticias/7151/nova-york-40-kmhora-em-toda-a-cidade.html.

In [None]:
valor_media = df_nyc.groupby('distancia').agg({'fare_amount': 'mean'}).reset_index()  # Calcula a média de valor de corrida para cada distância


O código acima utiliza o método groupby() do Pandas para agrupar os dados do dataframe df_nyc pela coluna 'distancia'. Em seguida, a média dos valores de corrida para cada distância é calculada usando o método agg() com o parâmetro 'mean'.

Para melhor entendimento do método groupby(), acesse a documentação: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html

In [None]:
df_nyc.head()

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration,distancia,fare_amount,day_of_week,hour
0,id2875421,2.0,2016-03-14 17:24:55,2016-03-14 17:32:30,1.0,-73.982155,40.767937,-73.96463,40.765602,N,455.0,2005,308.783333,0.0,17.0
1,id2377394,1.0,2016-06-12 00:43:35,2016-06-12 00:54:38,1.0,-73.980415,40.738564,-73.999481,40.731152,N,663.0,2515,386.67,6.0,0.0
2,id3858529,2.0,2016-01-19 11:35:24,2016-01-19 12:10:48,1.0,-73.979027,40.763939,-74.005333,40.710087,N,2124.0,9740,1480.16,1.0,11.0
3,id3504673,2.0,2016-04-06 19:32:31,2016-04-06 19:39:40,1.0,-74.01004,40.719971,-74.012268,40.706718,N,429.0,1779,274.71,2.0,19.0
4,id2181028,2.0,2016-03-26 13:30:55,2016-03-26 13:38:10,1.0,-73.973053,40.793209,-73.972923,40.78252,N,435.0,1607,248.95,5.0,13.0


# Custo de Oportunidade - Psicométria do Fator de Decisão

Segundo Rafaela Bragança ( 2016, Avaliação psicométrica de um instrumento para mensuração de autoeficácia, p. 003 ) "A Psicometria é uma área da Psicologia que se caracteriza por expor fenômenos psicológicos ou construtos através de números, que são mensurados por meio da aplicação de
conhecimentos estatísticos e matemáticos a esse âmbito. Um construto relevante dentro
da Psicometria, a autoeficácia se caracteriza como a crença do ser humano quanto á sua
capacidade de realizar com sucesso determinada tarefa."                
O uso do fator Custo de Oportunidade é justificado por ser uma medida subjetiva que considera as opções que foram deixadas de lado. No projeto em questão, o Custo de Oportunidade é usado para determinar se a corrida é aceita ou não. Uma feature de comportamento booleano "aceita corrida"/"não aceita" é fundamental para um software de automação das seleções de corrida.

In [None]:
custo_oportunidade = []
for i in range(10000):
    media_valor = valor_media.loc[valor_media['distancia'] == distancias[i], 'fare_amount'].values
    if len(media_valor) == 0:
        media_valor = valor.mean()             # Calcula o custo de oportunidade de cada viagem
    else:
        media_valor = media_valor[0]
    espera = espera_media.loc[(espera_media['day_of_week'] == dia_da_semana[i]) & (espera_media['hour'] == hora[i]), 'espera_media'].values
    if len(espera) == 0:
        espera = espera_media['espera_media'].mean()
    else:
        espera = espera[0]
    custo_oportunidade.append(media_valor * espera)
    

O código acima tem como objetivo calcular o custo de oportunidade de cada viagem no dataset sintético gerado anteriormente. Para cada uma das 10.000 viagens sintéticas. 
Primeiro, é obtida a distância da viagem a partir do dataset gerado.
A partir da distância, é buscada no dataset "valor_media" a média de 
valor de corrida para essa distância específica. Se não houver um valor específico para essa distância, é utilizado o valor médio geral.
Em seguida, é buscada no dataset "espera_media" a média de tempo de espera por uma nova corrida para o dia da semana e hora específicos da viagem. Se não houver um valor específico para esse dia e hora, é utilizado o valor médio geral.
O custo de oportunidade é então calculado multiplicando a média de valor de corrida pela média de tempo de espera.
O custo de oportunidade é adicionado a uma lista chamada "custo_oportunidade".

# Criaçao do dataset sintetico.
*Seguindo os tijolos amarelos,
cada passo foi dado com afinco,
e agora, perto do fim da jornada,
é possível vislumbrar o longínquo produto.*

In [None]:
df_sintetico = pd.DataFrame({
    'distancia': distancias,
    'valor': valor,
    'dia_da_semana': dia_da_semana,
    'hora': hora,
    'custo_oportunidade': custo_oportunidade 
})  

O código acima cria um DataFrame chamado "df_sintetico" com cinco colunas: "distancia", "valor", "dia_da_semana", "hora" e "custo_oportunidade". As colunas são preenchidas com os arrays gerados anteriormente: "distancias", "valor", "dia_da_semana", "hora" e "custo_oportunidade". Esse DataFrame é criado para consolidar todos os dados sintéticos gerados e ser utilizado em análises posteriores.

In [None]:
df_sintetico.head()

Unnamed: 0,distancia,valor,dia_da_semana,hora,custo_oportunidade
0,9.63343,234.911353,2.0,6.0,28869.731218
1,-251.431724,178.516224,4.0,19.0,19707.095177
2,-377.606184,39.574248,1.0,21.0,24294.760411
3,-536.806868,225.694308,3.0,21.0,23014.312388
4,-2241.577792,251.389228,0.0,0.0,32242.731764


#Normalização dos dados contidos no dataset sintetico.

Normalização de dados é o processo formal e passo a passo que examina os atributos de uma entidade, com o objetivo de evitar anomalias observadas na inclusão, exclusão e alteração de registros.
Tal procedimento em um conjunto sintético é importante para garantir que os valores das variáveis estejam na mesma escala, evitando distorções nos resultados finais das análises. Além disso, a normalização pode ajudar a reduzir a redundância de informações e melhorar a eficiência computacional.

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df_sintetico[['custo_oportunidade', 'valor']] = scaler.fit_transform(df_sintetico[['custo_oportunidade', 'valor']])

Função que define a coluna aceita_viagem com base na teoria da decisão racional. A função chamada aceita_viagem_racional recebe como entrada as variáveis distancia, valor, dia_da_semana, hora e custo_oportunidade.Tem como objetivo determinar se uma viagem será aceita ou não pelo motorista.

In [None]:
def aceita_viagem_racional(distancia, valor, dia_da_semana, hora, custo_oportunidade):
    custo_real = valor - custo_oportunidade
    aceita = (custo_real > 0)
    return aceita.astype(int)

A primeira linha da função calcula o custo real da viagem, subtraindo o custo de oportunidade do valor da corrida. Em seguida, na segunda linha, é definida a variável aceita que recebe o valor booleano True se o custo real for maior do que zero, ou False caso contrário.
Ao final, na terceira linha, a função retorna a variável aceita como um inteiro, sendo 1 caso seja True e 0 caso seja False, utilizando o método astype(int) para converter o tipo da variável.

In [None]:
df_sintetico['aceita_viagem'] = aceita_viagem_racional(df_sintetico['distancia'], df_sintetico['valor'], df_sintetico['dia_da_semana'], df_sintetico['hora'], df_sintetico['custo_oportunidade'])


O algoritmo acima classifica cada linha do DataFrame como uma viagem aceita (1) ou não aceita (0)

In [None]:
df_sintetico.to_csv('data_synthetic_psicometric_decision.csv', index=False)

In [None]:
counts = df_sintetico['aceita_viagem'].value_counts()
print(counts)

1    9828
0     172
Name: aceita_viagem, dtype: int64


Note que, das 10000 viagens artificiais, 172 não seriam aceitas! Para determinar a precisão, em relação ao mundo real, pode-se utilizar outras técnicas como as GANs, que são arquiteturas de redes gerativas adversárias. Tais metodologias serão abordadas ao longo do continuado processo de desenvolvimento do modelo de dados sintéticos e do modelo de automação em si.

In [None]:
df_sintetico.head()

Unnamed: 0,distancia,valor,dia_da_semana,hora,custo_oportunidade,aceita_viagem
0,9.63343,0.610546,2.0,6.0,0.162787,1
1,-251.431724,0.572776,4.0,19.0,0.049081,1
2,-377.606184,0.479722,1.0,21.0,0.106013,1
3,-536.806868,0.604373,3.0,21.0,0.090123,1
4,-2241.577792,0.621582,0.0,0.0,0.204645,1


*Abaixo, dataset sintético*

[data_synthetic_psicometric_decision.csv](https://drive.google.com/file/d/1xDHeVbTeglgjV5WMJyhXLXyMOgPAojBQ/view?usp=sharing)

# Referências

https://bdm.unb.br/bitstream/10483/16710/1/2016_RafaelaBallianaDeVasconcelos_tcc.pdf

http://olivalab.mit.edu/

https://www.kaggle.com/code/tilii7/create-synthetic-data-with-similar-properties/script

https://www.kaggle.com/code/alincijov/stocks-generate-synthetic-data-timegan

https://www.kaggle.com/general/343024

https://www.media.mit.edu/posts/the-human-psychome/

https://www.media.mit.edu/groups/viral-communications/overview/