In [1]:
import numpy as np
import warnings 
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Carregar o arquivo CSV
df = pd.read_csv('/mnt/c/wo_pessoal/uber_assessment/data_final/train_df_cleaned_full.csv', low_memory=False)

path_results = "/mnt/c/wo_pessoal/uber_assessment/PowerPoint/Graphs/"

In [4]:
# Criar subplots para os gráficos: pickup_hour, is_rush_hour, is_weekend, e is_holiday
uber_colors = {
    'primary': '#FFFFFF',   # Branco
    'secondary': '#7F7F7F', # Cinza secundário
    'highlight': '#FFF200', # Amarelo de destaque (se necessário)
}

# Criar subplots para os gráficos: pickup_hour, is_rush_hour, is_weekend, e is_holiday
fig, axs = plt.subplots(2, 2, figsize=(12, 10))

# 1. Gráfico de pickup_hour (no canto superior esquerdo)
df['pickup_hour'].value_counts().sort_index().plot(kind='bar', color=[uber_colors['primary']], edgecolor='white', ax=axs[0, 0])
axs[0, 0].set_title('Pickups by Hour of the Day', fontsize=14, color='white')
axs[0, 0].set_xlabel('')  # Remover o texto do eixo X
axs[0, 0].set_ylabel('')  # Remover o rótulo Y
axs[0, 0].tick_params(colors='white')
axs[0, 0].yaxis.set_visible(False)  # Remover o eixo Y

# 2. Gráfico de is_rush_hour (no canto superior direito)
df['is_rush_hour'].value_counts().plot(kind='bar', color=[uber_colors['primary'], uber_colors['secondary']], edgecolor='white', ax=axs[0, 1])
axs[0, 1].set_title('Pickups During Rush Hour vs Non-Rush Hour', fontsize=14, color='white')
axs[0, 1].set_xlabel('')  # Remover o texto do eixo X
axs[0, 1].set_ylabel('')  # Remover o rótulo Y
axs[0, 1].tick_params(colors='white')
axs[0, 1].yaxis.set_visible(False)  # Remover o eixo Y

# 3. Gráfico de is_weekend (no canto inferior esquerdo) - título embaixo
df['is_weekend'].value_counts().plot(kind='bar', color=[uber_colors['primary'], uber_colors['secondary']], edgecolor='white', ax=axs[1, 0])
axs[1, 0].set_xlabel('Pickups on Weekdays vs Weekends', fontsize=14, color='white')  # Colocar o título no eixo X
axs[1, 0].set_ylabel('')  # Remover o rótulo Y
axs[1, 0].set_title('')  # Remover o título do topo
axs[1, 0].tick_params(colors='white')
axs[1, 0].yaxis.set_visible(False)  # Remover o eixo Y

# 4. Gráfico de is_holiday (no canto inferior direito) - título embaixo
df['is_holiday'].value_counts().plot(kind='bar', color=[uber_colors['primary'], uber_colors['secondary']], edgecolor='white', ax=axs[1, 1])
axs[1, 1].set_xlabel('Pickups on Holidays vs Non-Holidays', fontsize=14, color='white')  # Colocar o título no eixo X
axs[1, 1].set_ylabel('')  # Remover o rótulo Y
axs[1, 1].set_title('')  # Remover o título do topo
axs[1, 1].tick_params(colors='white')
axs[1, 1].yaxis.set_visible(False)  # Remover o eixo Y

# Ajustes no layout e cores
plt.tight_layout()
fig.patch.set_facecolor('black')  # Definir fundo preto

# Salvar o gráfico com resolução maior (definir DPI alto)
plt.savefig(path_results + 'combined_pickup_graphs_high_res.png', transparent=True, dpi=300)  # Definir DPI para 300 (alta resolução)
plt.close()

# Retornar o caminho do arquivo gerado
output_file = path_results + 'combined_pickup_graphs_high_res.png'
output_file

'/mnt/c/wo_pessoal/uber_assessment/PowerPoint/Graphs/combined_pickup_graphs_high_res.png'

In [5]:
# Exemplo de importância das features usando RandomForest
from sklearn.ensemble import RandomForestRegressor

# Definir as features e o alvo (X e y)
X = df[['is_weekend', 'is_rush_hour', 'is_holiday', 'pickup_hour']]
y = df['trip_duration']

# Treinar o modelo
model = RandomForestRegressor()
model.fit(X, y)

# Obter a importância das features e ordenar por importância
feature_importances = model.feature_importances_
features = X.columns

# Criar um dataframe para facilitar a ordenação e plotagem
importance_df = pd.DataFrame({
    'Feature': features,
    'Importance': feature_importances
}).sort_values(by='Importance', ascending=False)

# Plotar a importância das features ordenada
plt.figure(figsize=(8, 6))
plt.barh(importance_df['Feature'], importance_df['Importance'], color=uber_colors['primary'])
plt.title('Feature Importance', fontsize=14, color='white')
plt.xlabel('Importance', fontsize=12, color='white')
plt.ylabel('Features', fontsize=12, color='white')
plt.xticks(color='white')
plt.yticks(color='white')
plt.gca().invert_yaxis()  # Para manter a maior importância no topo
plt.tight_layout()

# Salvar o gráfico com resolução maior (definir DPI alto)
plt.savefig(path_results + 'feature_importance_ordered_high_res.png', transparent=True, dpi=300)  # Definir DPI para 300
plt.close()

# Retornar o caminho do arquivo gerado
output_file = path_results + 'feature_importance_ordered_high_res.png'
output_file


'/mnt/c/wo_pessoal/uber_assessment/PowerPoint/Graphs/feature_importance_ordered_high_res.png'