<a href="https://colab.research.google.com/github/VieiraEduardo/RandomForest_Uber/blob/main/RandomForestUber.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pipeline de Ci√™ncia de Dados ##

√â importante definir todas as fases de cria√ß√£o de cria√ß√£o de um projeto que envolve Ci√™ncias de Dados, para detectar o problema de neg√≥cio e o objetivo desejado de forma eficiente.

1.Problema de Neg√≥cio

Prever o cancelamento das viagens que √© a classifica√ß√£o de status da reserva.

2.Coleta e armasentamento de dados

Dados adquiridos do Kaggle

3.Pr√© Processamento e limpeza dos dados

4.Analise Explorat√≥ria dos Dados

5.Modelagem

6.Avalia√ß√£o de Modelo

7.Interpreta√ß√£o e comunica√ß√£o dos resultados

In [None]:
# Bibliotecas a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import plotly.express as px
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import OneHotEncoder


In [None]:
!pip install ydata-profiling

In [None]:
# Carregar e ler dataset
df = pd.read_csv('/content/ncr_ride_bookings.csv', index_col='Customer ID')


In [None]:
# Verificar informa√ß√µes do dataset
df.info()

## 3. Pr√© Processamento e Limpeza dos dados

In [None]:
# 2. Assegurar que as colunas 'Date' e 'Time' s√£o do tipo string para evitar erros.
df['Date'] = df['Date'].astype(str)
df['Time'] = df['Time'].astype(str)

# 3. Combinar as colunas 'Date' e 'Time' em uma √∫nica coluna 'DateTime'.
df['DateTime'] = df['Date'] + ' ' + df['Time']

# 4. Converter a nova coluna 'DateTime' para o tipo datetime.
df['DateTime'] = pd.to_datetime(df['DateTime'])

# 5. (Opcional) Criar novas colunas para an√°lise, como o dia da semana.
df['DayOfWeek'] = df['DateTime'].dt.day_name()
df['Hour'] = df['DateTime'].dt.hour

#Excluir coluna Date e coluna Time
df.drop(['Date', 'Time'], axis=1, inplace=True)

In [None]:
df.shape

In [None]:
# Alinhar cabe√ßalho do df
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_').str.replace('(', '').str.replace(')', '')



In [None]:
# Remover primeira linha n√£o mais necess√°ria
df.drop(df.index[0], inplace=True)

In [None]:
# Verificar linhas do dataset de forma aleatoria
df.sample(1)


In [None]:
# verificar as colunas que contem dados nulos
df.isnull().sum()

##Observa√ß√£o

√â perceptivel que mais da metade das colunas tem valores nulos/sem informa√ß√£o, isso para um modelo preditivo pode enviesar o modelo se n√£o bem tratado. √â necess√°rio entender se aqueles valores realmente tem ou n√£o informa√ß√£o √∫teis, ou se n√£o foram devidadamente preenchidos na hora da aquisi√ß√£o do Banco de Dados.
Para melhor visualiza√ß√£o e compreens√£o, colocar os valores null em porcetagem que d√° um no√ß√£o melhor se d√° para trabalhar com determinada coluna.


In [None]:
# Verificar quantos por % de dados nulos tem em cada coluna do Dataframe
(df.isnull().sum()/df.shape[0])*100

##Observa√ß√£o

Colunas com mais de 50% dos dados ausentes, ap√≥s interpreta√ß√£o com o modelo de neg√≥cio, podem ser consideradas a se serem excluidas. Colunas com baixa porcentagem, seja at√© 10% ou 20% podemos realizar algumas tecnicas de imputa√ß√£o para tentar preencher esses valores ausentes.

As colunas Driver Ratings e Customer Rating haviam 38% de dados ausentes, onde optei por fazer uma imputa√ß√£o pela mediana que √© uma estrat√©gia robusta aos valores da coluna e n√£o distorce a distribui√ß√£o dos dados, preservando e retendo o m√°ximo de informa√ß√£o.


In [None]:
# substituir dados nan da coluna Driver Rating pela Mediana
df['driver_ratings'].fillna(df['driver_ratings'].median(), inplace=True)

In [None]:
# substituir dados nan da coluna Customer Rating pela Mediana
df['customer_rating'].fillna(df['customer_rating'].median(), inplace=True)

## Oberserva√ß√£o

Existem 4 colunas com mais de 80% com dados nulos. Cancelled Rides by Customer e reason for cancelling by customer	(93%) e Reason for cancelled rides by driver  e Driver Cancellation Reason (82%).

Ideal fazer uma imputa√ß√£o de dados onde optei pela seguinte estrat√©gia:

##Para Cancelled Rides by Customer e Cancelled Rides by Driver:

Substituir os valores nulos por 0.

Onde j√° existe o valor 1, eu os mantenho-o.

O resulto obtido ser√° uma vari√°vel bin√°ria (0 ou 1) que indica se o cancelamento partiu do motorista ou do cliente. Isso √© perfeito para um modelo de classifica√ß√£o.

##Para Reason for cancelling by Customer e Driver Cancellation Reason:

Substituir os valores nulos por uma categoria como "N√£o se Aplica" ou "Corrida Conclu√≠da".

Aos motivos de cancelamento existentes, como "Vehicle Breakdown". eu os mantenho-o.

O resultado obtido ser√° uma vari√°vel categ√≥rica que informa o motivo do cancelamento, o que pode ser um recurso valioso para o modelo entender o comportamento de clientes e motoristas.

Ao fazer isso, eu n√£o apenas preservo os dados, mas tamb√©m crio vari√°veis poderosas com informa√ß√£o robusta que ser√£o a base do modelo.

In [None]:
# Substituir os valores nulos da coluna Cancelled Rides by Costumer e Cancelled Rides bu Driver
df['cancelled_rides_by_customer'].fillna(0, inplace=True)
df['cancelled_rides_by_driver'].fillna(0, inplace=True)

In [None]:
# Substituir os valores nulos da coluna Cancelling by Customer e Driver Cancellation Reason por uma categoria N√£o se Aplica ou Corrida concluida
df['reason_for_cancelling_by_customer'].fillna(' N√£o Se Aplica', inplace=True)
df['driver_cancellation_reason'].fillna('N√£o Se Aplica', inplace=True)

In [None]:
# Substituir dados das colunas avg_vtat, avg_ctat, booking value, Ride Distance pela mediana
df['avg_vtat'].fillna(df['avg_vtat'].median(), inplace=True)
df['avg_ctat'].fillna(df['avg_ctat'].median(), inplace=True)
df['booking_value'].fillna(df['booking_value'].median(), inplace=True)
df['ride_distance'].fillna(df['ride_distance'].median(), inplace=True)

In [None]:
# Substituir os valores NAN da coluna imcomplete rides por 0
df['incomplete_rides'].fillna(0, inplace=True)

#Substituir os valores NAN da coluna Imcomplete rides reason por n√£o se aplica
df['incomplete_rides_reason'].fillna('N√£o Se Aplica', inplace=True)

In [None]:
# Substituir valores NAN da coluna Payment Method por Desconhecido
df['payment_method'].fillna('Desconhecido', inplace=True)

In [None]:
df.isnull().sum()

In [None]:
# Traduzir o nome de todas as colunas
df.columns = df.columns.str.replace('booking_id', 'id_reserva')
df.columns = df.columns.str.replace('booking_status', 'status_reserva')
df.columns = df.columns.str.replace('vehicle_type', 'tipo_veiculo')
df.columns = df.columns.str.replace('pickup_location', 'local_embarque')
df.columns = df.columns.str.replace('drop_location', 'local_desembarque')
df.columns = df.columns.str.replace('avg_vtat', 'tempo_medio_viagem')
df.columns = df.columns.str.replace('avg_ctat', 'tempo_medio_cancelamento')
df.columns = df.columns.str.replace('cancelled_rides_by_customer', 'cancelamentos_cliente')
df.columns = df.columns.str.replace('reason_for_cancelling_by_customer', 'motivo_cancelamento_cliente')
df.columns = df.columns.str.replace('cancelled_rides_by_driver', 'cancelamentos_motorista')
df.columns = df.columns.str.replace('driver_cancellation_reason', 'motivo_cancelamento_motorista')
df.columns = df.columns.str.replace('incomplete_rides', 'viagens_incompletas')
df.columns = df.columns.str.replace('incomplete_rides_reason', 'motivo_viagens_incompletas')
df.columns = df.columns.str.replace('booking_value', 'valor_reserva')
df.columns = df.columns.str.replace('ride_distance', 'distancia_viagem')
df.columns = df.columns.str.replace('driver_ratings', 'avaliacao_motorista')
df.columns = df.columns.str.replace('customer_rating', 'avaliacao_cliente')
df.columns = df.columns.str.replace('payment_method', 'metodo_pagamento')
df.columns = df.columns.str.replace('datetime', 'data_hora')
df.columns = df.columns.str.replace('dayofweek', 'dia_semana')
df.columns = df.columns.str.replace('hour', 'hora')



In [None]:
df.info()

In [None]:
# 1. Calcular a distribui√ß√£o e o percentual da vari√°vel-alvo
status_counts = df['status_reserva'].value_counts()
status_percentages = df['status_reserva'].value_counts(normalize=True) * 100

print("--- Distribui√ß√£o Num√©rica do Booking Status ---")
print(pd.DataFrame({'Contagem': status_counts, 'Percentual': status_percentages.round(2).astype(str) + '%'}))

# 3. Visualizar a distribui√ß√£o (Gr√°fico de Barras)
plt.figure(figsize=(10, 6))
sns.barplot(x=status_counts.index, y=status_counts.values, palette="viridis")
plt.title('Distribui√ß√£o da Vari√°vel-Alvo (Booking Status)')
plt.xlabel('Status da Reserva')
plt.ylabel('Contagem')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

In [None]:
# Verificar se h√° valores duplicados
df.duplicated().sum()

In [None]:
# Ver as informa√ß√µes da motivo de cancelamento do motorista
df['motivo_cancelamento_motorista'].unique()



## 4. An√°lise Explorat√≥ria dos Dados


In [None]:
# Analisar a vari√°vel motivo cancelamento do motorista
df['motivo_cancelamento_motorista'].value_counts()

In [None]:
# Ver as informa√ß√µes da coluna motivo cancelamento do cliente
df['motivo_cancelamento_cliente'].unique()

In [None]:
# Verificar informa√ß√µes coluna viagens incompletas reason
df['viagens_incompletas_reason'].unique()

In [None]:
# Criar gr√°fico lado a lado
fig, axes = plt.subplots(1,2, figsize=(18, 8))

# Distribui√ß√£o geral dos do status da reserva
sns.countplot(ax=axes[0], x='status_reserva', data=df)
axes[0].set_title('1. status da reserva(vis√£o geral)',fontsize=16)
axes[0].set_xlabel('status da reserva', fontsize=16)
axes[0].set_ylabel('contagem', fontsize=16)

# Adicionar r√≥tulos de contagem em cada barra
for p in axes[0].patches:
    axes[0].annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                     ha='center', va='center', fontsize=11, color='black', xytext=(0, 5),
                     textcoords='offset points')

# Gr√°fico 2: Motivos das Corridas Incompletas
# Filtrar o DataFrame para incluir apenas corridas com status 'Incomplete'
df_incomplete = df[df['status_reserva'] == 'Incomplete']

# Obter a contagem dos motivos para o gr√°fico de pizza
motive_counts = df_incomplete['viagens_incompletas_reason'].value_counts()
labels = motive_counts.index
sizes = motive_counts.values

# Criar o gr√°fico de pizza
axes[1].pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90, colors=sns.color_palette('pastel'))
axes[1].set_title('2. Motivos de Corridas Incompletas (An√°lise Detalhada)', fontsize=16)
axes[1].axis('equal')  # Garante que o c√≠rculo seja perfeito
axes[1].legend(title="Motivos", loc="center left", bbox_to_anchor=(1, 0, 0.5, 1))

plt.tight_layout()
plt.show()

##Insight

üöÄA plataforma tem um problema de conclus√£o de corridas, e a causa principal √© a falta de motoristas dispon√≠veis ou falhas nos ve√≠culos. Esse insight √© acion√°vel, pois podemos direcionar as equipes de opera√ß√µes e tecnologia a focar em estrat√©gias para atrair mais motoristas ou melhorar a manuten√ß√£o da frota, em vez de investir em outras √°reas.

In [None]:
# Criar os gr√°ficos de box plot lado a lado para compara√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(18, 8))

# Gr√°fico para a satisfa√ß√£o do cliente
sns.boxplot(ax=axes[0], data=df, x='metodo_pagamento', y='avaliacao_cliente')
axes[0].set_title('Distribui√ß√£o das Avalia√ß√µes de Clientes por M√©todo de Pagamento', fontsize=16)
axes[0].set_xlabel('M√©todo de Pagamento', fontsize=12)
axes[0].set_ylabel('Avalia√ß√£o do Cliente', fontsize=12)

# Gr√°fico para a satisfa√ß√£o do motorista
sns.boxplot( ax=axes[1], data=df, x='metodo_pagamento', y='avaliacao_motorista')
axes[1].set_title('Distribui√ß√£o das Avalia√ß√µes de Motoristas por M√©todo de Pagamento', fontsize=16)
axes[1].set_xlabel('M√©todo de Pagamento', fontsize=12)
axes[1].set_ylabel('Avalia√ß√£o do Motorista', fontsize=12)

plt.tight_layout()
plt.show()


In [None]:
# Criar var√≠√°vel com as colunas n√∫mericas para criar gr√°fico de correla√ß√£o
cols = ['tempo_medio_viagem','tempo_medio_cancelamento','valor_reserva','distancia_viagem','avaliacao_motorista','avaliacao_cliente']

#Criar gr√°fico de correla√ß√£o
sns.heatmap(df[cols].corr(), annot=True, cmap='coolwarm' )
plt.title('Correla√ß√£o entre as vari√°veis')
plt.show()

In [None]:
# Agrupar os dados e calcular as falhas por localiza√ß√£o
location_counts = df['local_embarque'].value_counts()
top_locations = location_counts.index[:10]

# Filtrar o DataFrame para incluir apenas as 10 localiza√ß√µes mais comuns
df_top_locations = df[df['local_embarque'].isin(top_locations)]

# Calcular a porcentagem de " motorista n√£o encontrados " para cada localiza√ß√£o
location_failure_rate = df_top_locations.groupby('local_embarque')['status_reserva'].apply(
    lambda x: (x == 'No Driver Found').mean() * 100
).reset_index(name='failure_rate')

# Criar gr√°fico de barras na horizontal
plt.figure(figsize=(10, 6))
sns.barplot(data=location_failure_rate.sort_values(by='failure_rate', ascending=False),
            y='local_embarque', x='failure_rate', palette='viridis')
plt.title('Taxa de Falha de Encontrar Motorista por Localiza√ß√£o(TOP10)', fontsize=16)
plt.xlabel('Taxa de Falhas (%)', fontsize=12)
plt.ylabel('Localiza√ß√£o', fontsize=12)

In [None]:
# Vou ontinuar usando o DataFrame df_top_locations da solu√ß√£o anterior lembrando que contem as 10 localiza√ß√µes mais comuns

# Limpar a coluna de avalia√ß√£o do cliente
df_top_locations['avaliacao_cliente'].fillna(df_top_locations['avaliacao_cliente'].median(), inplace=True)

# Gerar o box plot
plt.figure(figsize=(12, 8))
sns.boxplot(data=df_top_locations, x='local_embarque', y='avaliacao_cliente', palette='pastel')

plt.title('Distribui√ß√£o de Avalia√ß√µes de Clientes por Localiza√ß√£o (Top 10)', fontsize=16)
plt.xlabel('Local de Partida', fontsize=12)
plt.ylabel('Avalia√ß√£o do Cliente', fontsize=12)
plt.xticks(rotation=45, ha='right') # Rotaciona os r√≥tulos do eixo x para melhor visualiza√ß√£o
plt.tight_layout()
plt.show()

In [None]:
# gerar de relatorio de perfil com yprofiling
from ydata_profiling import ProfileReport

profile = ProfileReport(df, title="Dados Uber")
profile.to_notebook_iframe()

## 5. Modelagem

Escolha do modelo preditivo que no caso se tratar√° de um modelo de classifica√ß√£o simples. O modelo escolhido foi a √°rvore de decis√£o para termos um primeiro parametro de como os resultados se comportam

In [None]:
df.info()


In [None]:
from imblearn.over_sampling import SMOTE

# Vari√°veis que PRECISAM SER REMOVIDAS para evitar o vazamento de dados.
LEAKAGE_VARS = ['cancelamentos_cliente', 'cancelamentos_motorista', 'viagens_incompletas']

# 1. Definir a lista de features que s√£o CAUSAS, e n√£o RESULTADOS
numerical_features_limpas = [
    'tempo_medio_viagem', 'tempo_medio_cancelamento', 'valor_reserva', 'distancia_viagem',
    'avaliacao_motorista', 'avaliacao_cliente', 'hora' # 'hora' √© uma causa leg√≠tima
]

# 2. Definir as colunas categ√≥ricas (as mesmas que voc√™ usou)
categorical_features = ['tipo_veiculo', 'metodo_pagamento', 'local_embarque', 'local_desembarque']

# 3. Aplicar One-Hot Encoding
# Assumindo que 'df' √© o seu DataFrame limpo (sem nulos, com colunas renomeadas)
df_encoded = pd.get_dummies(df, columns=categorical_features, drop_first=True)

# 4. Construir a lista final de features (combinando num√©ricas limpas e as categ√≥ricas)
features_limpas = numerical_features_limpas + [
    col for col in df_encoded.columns
    if col.startswith(tuple(categorical_features)) and col not in LEAKAGE_VARS
]

X = df_encoded[features_limpas]
y = df_encoded['status_reserva']

# 5. Dividir e aplicar o SMOTE (o resto do seu c√≥digo pode ser reaproveitado)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

# O treinamento do Random Forest deve ser refeito aqui, usando X_train_smote e y_train_smote
# ... (Treinar Random Forest Otimizado)

In [None]:
# Remover colunas que vazam informa√ß√£o diretamente
columns_to_drop_for_leakage = [
    'motivo_cancelamento_cliente',
    'motivo_cancelamento_motorista',
    'viagens_incompletas_reason'
]

df_cleaned = df.drop(columns=columns_to_drop_for_leakage)

print(f"Colunas removidas: {columns_to_drop_for_leakage}")
print("Primeiras linhas do DataFrame ap√≥s remo√ß√£o:")
display(df_cleaned.head())

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 1. Criar e treinar o modelo de Regress√£o Log√≠stica
# Usamos 'solver='liblinear'' por ser bom para conjuntos de dados menores (embora o seu seja grande, funciona bem)
# e para lidar com regulariza√ß√£o L1 e L2.
logreg_model = LogisticRegression(solver='liblinear', random_state=42)

# Treinar o modelo usando os dados de treino balanceados pelo SMOTE
print("Iniciando treinamento do modelo de Regress√£o Log√≠stica com dados balanceados...")
logreg_model.fit(X_train_smote, y_train_smote)
print("Treinamento conclu√≠do.")

# 2. Fazer previs√µes no conjunto de TESTE (dados originais, N√ÉO balanceados)
y_pred_logreg = logreg_model.predict(X_test)

# 3. Avaliar o modelo
print("\n--- Relat√≥rio do Modelo de Regress√£o Log√≠stica ---")
print("Acur√°cia Geral do Modelo:", accuracy_score(y_test, y_pred_logreg))
print("\nRelat√≥rio de Classifica√ß√£o:\n", classification_report(y_test, y_pred_logreg))

# Opcional: Matriz de Confus√£o
# print("\nMatriz de Confus√£o:\n", confusion_matrix(y_test, y_pred_logreg))

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, classification_report

# 1. Definir o grid de hiperpar√¢metros para o Random Forest
# Usamos um grid menor para otimizar o tempo, mas voc√™ pode expandir se quiser mais precis√£o
param_grid = {
    'n_estimators': [50, 100],  # N√∫mero de √°rvores
    'max_depth': [10, 20, None], # Profundidade m√°xima das √°rvores
    'min_samples_split': [5, 10]
}

# 2. Criar e treinar o GridSearchCV com o Random Forest
# O scoring 'recall_macro' √© essencial para otimizar o desempenho em todas as classes minorit√°rias
rf_model = RandomForestClassifier(random_state=42)
grid_search_rf = GridSearchCV(
    estimator=rf_model,
    param_grid=param_grid,
    cv=2,  # Valida√ß√£o cruzada com 3 folds
    scoring='recall_macro',
    n_jobs=-1,
    verbose=2
)

# Treinar o Grid Search (AGORA COM OS DADOS BALANCEADOS)
print("\nIniciando treinamento com dados balanceados...")
grid_search_rf.fit(X_train_smote, y_train_smote)


# 3. Avaliar o modelo com os melhores par√¢metros
best_rf_model = grid_search_rf.best_estimator_

# Fazer previs√µes no conjunto de TESTE (dados originais, N√ÉO balanceados)
y_pred = best_rf_model.predict(X_test)

# 4. Imprimir os resultados
print("\n--- RESULTADOS DA OTIMIZA√á√ÉO ---")
print("Melhores Hiperpar√¢metros:", grid_search_rf.best_params_)
print("Melhor Recall de Valida√ß√£o Cruzada (Macro Avg):", grid_search_rf.best_score_)

print("\n--- Relat√≥rio Final do Modelo Random Forest Otimizado ---")
print("Acur√°cia Geral do Modelo:", accuracy_score(y_test, y_pred))
print("\nRelat√≥rio de Classifica√ß√£o:\n", classification_report(y_test, y_pred))

In [None]:


# O 'best_rf_model' √© o modelo Random Forest otimizado do passo anterior
# As 'features_limpas' s√£o a lista de vari√°veis corrigida.

# Extrair a import√¢ncia das vari√°veis
importances = best_rf_model.feature_importances_

# Criar uma Series do Pandas para organizar e nomear
feature_importances = pd.Series(importances, index=features_limpas).sort_values(ascending=False)

# Visualizar as TOP 10 Vari√°veis mais importantes
plt.figure(figsize=(14, 8))
# Usamos .head(10) para focar nas mais relevantes
sns.barplot(x=feature_importances.head(10).values, y=feature_importances.head(10).index, palette="mako")
plt.title('Import√¢ncia das Vari√°veis no Modelo Random Forest Limpo')
plt.xlabel('Pontua√ß√£o de Import√¢ncia')
plt.ylabel('Vari√°veis')
plt.tight_layout()
plt.show()

# Imprimir a lista final para an√°lise
print("\n--- TOP 10 Vari√°veis Mais Importantes ---")
print(feature_importances.head(10))

In [None]:

importances = best_rf_model.feature_importances_

feature_importances = pd.Series(importances, index=features_limpas).sort_values(ascending=False)

# 3. Visualizar as TOP 10 Vari√°veis mais importantes
plt.figure(figsize=(14, 8))
# Usamos .head(10) para focar nas mais relevantes
sns.barplot(x=feature_importances.head(10).values, y=feature_importances.head(10).index, palette="mako")
plt.title('TOP 10 Fatores de Decis√£o no Modelo Random Forest Limpo')
plt.xlabel('Pontua√ß√£o de Import√¢ncia')
plt.ylabel('Vari√°veis')
plt.tight_layout()
plt.show()

# 4. Imprimir a lista final para an√°lise
print("\n--- TOP 10 VARI√ÅVEIS MAIS IMPORTANTES ---")
print(feature_importances.head(10))

## Conclus√£o do modelo de forma detalhada

1.

Respondendo √† Pergunta de Neg√≥cio
Pergunta: Quais fatores influenciam a chance de uma corrida ser cancelada por um motorista ou cliente?

Resposta Baseada no Modelo Otimizado (Random Forest):

O modelo identificou que a dura√ß√£o potencial da viagem e a experi√™ncia do cliente s√£o os principais determinantes do status final de uma reserva, influenciando diretamente a probabilidade de um cancelamento ou n√£o.

A vari√°vel mais crucial (com uma import√¢ncia de 32,46%) √© o tempo_medio_viagem. Isso demonstra que, no momento da reserva, o fator decisivo para a conclus√£o da corrida √© o qu√£o longo o trajeto √© esperado. Corridas mais longas, que prendem o motorista por mais tempo, ou corridas mais curtas em √°reas de pico, representam um risco maior de rejei√ß√£o ou cancelamento.

O segundo fator mais importante √© a qualidade do cliente, medida pela avaliacao_cliente (7,87%), indicando que a percep√ß√£o de risco ou do hist√≥rico do passageiro √© um forte preditor de cancelamento.

2.

Extraindo Insights Acion√°veis para a Empresa
Os resultados do modelo de Machine Learning traduzem-se diretamente em quatro pilares de a√ß√£o para o neg√≥cio:

A√ß√£o 1: Foco na Dura√ß√£o e Dist√¢ncia da Viagem (Otimiza√ß√£o da Rota)
Insight: As vari√°veis tempo_medio_viagem (32.46%) e distancia_viagem (8.94%) s√£o, juntas, respons√°veis por mais de 41% da decis√£o do modelo.

A√ß√£o Acion√°vel: A empresa deve criar um incentivo din√¢mico para motoristas aceitarem corridas com alto tempo_medio_viagem. Isso pode ser um b√¥nus por aceita√ß√£o ou uma garantia de que a pr√≥xima corrida ser√° pr√≥xima ao ponto de desembarque final.

A√ß√£o 2: Gerenciamento Ativo da Qualidade do Cliente (Risco)
Insight: A avaliacao_cliente (7.87%) √© mais importante do que o tempo_medio_cancelamento e o valor_reserva.

A√ß√£o Acion√°vel: O modelo deve ser integrado a um sistema de prioriza√ß√£o: clientes com avalia√ß√µes abaixo de, por exemplo, 4.5 devem ter suas solicita√ß√µes de reserva enviadas com um pequeno b√¥nus adicional para o motorista, reduzindo a chance de rejei√ß√£o inicial.

A√ß√£o 3: Auditoria do Tempo de Espera e Avalia√ß√£o do Motorista
Insight: O tempo_medio_cancelamento (6.79%) e a avaliacao_motorista (6.50%) s√£o fatores humanos cruciais.

A√ß√£o Acion√°vel: Implementar um alerta para a equipe de opera√ß√µes quando o tempo_medio_cancelamento ultrapassar um certo limite (por exemplo, 5 minutos), pois isso √© um sinal de alto risco de cancelamento subsequente. Paralelamente, planos de melhoria de qualidade devem ser focados em motoristas com avalia√ß√µes abaixo de 4.5.

A√ß√£o 4: Simplifica√ß√£o e Transpar√™ncia de Pagamento
Insight: O metodo_pagamento_Desconhecido (8.51%) √© o terceiro fator mais importante.

A√ß√£o Acion√°vel: A alta import√¢ncia de m√©todos desconhecidos sugere que a falta de clareza sobre como a corrida ser√° paga gera incerteza para o motorista ou cliente, aumentando o risco de cancelamento. A empresa deve simplificar e garantir a m√°xima transpar√™ncia sobre o m√©todo de pagamento no momento da reserva.

3.

Conclus√£o Final do Projeto
O projeto √© um exemplo de ciclo completo da Ci√™ncia de Dados:

Limpeza de Dados: Tratou nulos e fez o One-Hot Encoding.

Detec√ß√£o de Falhas: Corrigiu o grave Data Leakage que inflacionava a acur√°cia.

Otimiza√ß√£o: Usou o SMOTE para balancear classes e o Random Forest para robustez.

Entrega de Valor: O modelo final, agora limpo e interpret√°vel, prov√™ um mapa claro de onde a empresa deve concentrar seus recursos (focando em Tempo de Viagem e Qualidade do Cliente), maximizando a chance de uma corrida ser conclu√≠da.

Conclus√£o Final do Projeto: Otimiza√ß√£o de Classifica√ß√£o de Reservas
O projeto iniciou-se com a Regress√£o Log√≠stica como baseline (acur√°cia de 81%) e revelou que as classes minorit√°rias, como No Driver Found, eram mal previstas. O principal avan√ßo foi a transi√ß√£o metodol√≥gica para um modelo de ponta, corrigindo falhas graves no processo.

Primeiro, foi fundamental a corre√ß√£o de Vazamento de Dados (Data Leakage), garantindo que o modelo fizesse uma previs√£o real e n√£o uma consulta. Em seguida, a t√©cnica de SMOTE foi aplicada para balancear as classes minorit√°rias no conjunto de treino. Esta base otimizada foi utilizada para treinar um modelo Random Forest, um m√©todo de Ensemble Learning, que teve sua performance maximizada via GridSearchCV (ajuste de hiperpar√¢metros).

O resultado final foi um modelo com 94% de acur√°cia, que elevou drasticamente o Recall para classes cr√≠ticas (ex: No Driver Found de 30% para 100%). A an√°lise de Feature Importance concluiu que a dura√ß√£o da viagem √© o principal fator preditor, fornecendo o insight acion√°vel definitivo para o neg√≥cio. O projeto valida a efic√°cia de modelos complexos e a import√¢ncia de t√©cnicas avan√ßadas para a gera√ß√£o de valor.