In [1]:
import matplotlib.pyplot as plt
import pandas as pd

# Carregar o arquivo CSV
df = pd.read_csv('/mnt/c/wo_pessoal/uber_assessment/data_final/train_df_cleaned_full.csv', low_memory=False)

path_results = "/mnt/c/wo_pessoal/uber_assessment/PowerPoint/Graphs/"

In [2]:
# Adicionar cores da paleta da Uber
uber_colors = {
    'primary': '#FFFFFF',   # Branco
    'secondary': '#7F7F7F', # Cinza secundário
    'highlight': '#55E6C1', # Verde
}

# Função auxiliar para converter segundos em formato "minutos:segundos" e adicionar 'min'
def format_duration_in_min_sec(seconds):
    minutes = int(seconds // 60)  # Parte inteira de minutos
    sec = int(seconds % 60)  # Parte dos segundos
    return f'{minutes:02}:{sec:02} min'

# 1. Gráfico para is_weekend - com alta resolução e média de trip_duration em "minutos:segundos"
plt.figure(figsize=(8, 6))
value_counts_weekend = df['is_weekend'].value_counts()
mean_trip_duration_by_weekend = df.groupby('is_weekend')['trip_duration'].mean()

bars_weekend = value_counts_weekend.plot(kind='bar', color=[uber_colors['primary'], uber_colors['secondary']], edgecolor='white')

# Adicionando a média de duração das viagens no topo das barras em formato "minutos:segundos"
for i, (index, value) in enumerate(value_counts_weekend.items()):
    mean_duration_min_sec = format_duration_in_min_sec(mean_trip_duration_by_weekend.loc[index])
    bars_weekend.text(i, value + 0.05 * value, mean_duration_min_sec, ha='center', color='white', fontsize=12)

# Título e formatação
plt.title('Number of Pickups on Weekdays vs Weekends', fontsize=14, color='white', pad=20)
plt.xlabel('Is Weekend (0 = Weekday, 1 = Weekend)', fontsize=12, color='white')
plt.ylabel('Count', fontsize=12, color='white')
plt.xticks(color='white')
plt.yticks(color='white')
plt.grid(False)
plt.tight_layout()
plt.savefig(path_results + 'is_weekend_plot_high_res_with_avg_duration_min_sec.png', transparent=True, dpi=300)
plt.close()

# 2. Gráfico para is_holiday - com alta resolução e média de trip_duration em "minutos:segundos"
plt.figure(figsize=(8, 6))
value_counts_holiday = df['is_holiday'].value_counts()
mean_trip_duration_by_holiday = df.groupby('is_holiday')['trip_duration'].mean()

bars_holiday = value_counts_holiday.plot(kind='bar', color=[uber_colors['primary'], uber_colors['secondary']], edgecolor='white')

# Adicionando a média de duração das viagens no topo das barras em formato "minutos:segundos"
for i, (index, value) in enumerate(value_counts_holiday.items()):
    mean_duration_min_sec = format_duration_in_min_sec(mean_trip_duration_by_holiday.loc[index])
    bars_holiday.text(i, value + 0.05 * value, mean_duration_min_sec, ha='center', color='white', fontsize=12)

# Título e formatação
plt.title('Number of Pickups on Holidays vs Non-Holidays', fontsize=14, color='white', pad=20)
plt.xlabel('Is Holiday (0 = No, 1 = Yes)', fontsize=12, color='white')
plt.ylabel('Count', fontsize=12, color='white')
plt.xticks(color='white')
plt.yticks(color='white')
plt.grid(False)
plt.tight_layout()
plt.savefig(path_results + 'is_holiday_plot_high_res_with_avg_duration_min_sec.png', transparent=True, dpi=300)
plt.close()

# 3. Gráfico para is_rush_hour - com alta resolução e média de trip_duration em "minutos:segundos"
plt.figure(figsize=(8, 6))
value_counts_rush = df['is_rush_hour'].value_counts()
mean_trip_duration_by_rush_hour = df.groupby('is_rush_hour')['trip_duration'].mean()

bars_rush = value_counts_rush.plot(kind='bar', color=[uber_colors['primary'], uber_colors['secondary']], edgecolor='white')

# Adicionando a média de duração das viagens no topo das barras em formato "minutos:segundos"
for i, (index, value) in enumerate(value_counts_rush.items()):
    mean_duration_min_sec = format_duration_in_min_sec(mean_trip_duration_by_rush_hour.loc[index])
    bars_rush.text(i, value + 0.05 * value, mean_duration_min_sec, ha='center', color='white', fontsize=12)

# Título e formatação
plt.title('Number of Pickups During Rush Hour vs Non-Rush Hour', fontsize=14, color='white', pad=20)
plt.xlabel('Is Rush Hour (0 = No, 1 = Yes)', fontsize=12, color='white')
plt.ylabel('Count', fontsize=12, color='white')
plt.xticks(color='white')
plt.yticks(color='white')
plt.grid(False)
plt.tight_layout()
plt.savefig(path_results + 'is_rush_hour_plot_high_res_with_avg_duration_min_sec.png', transparent=True, dpi=300)
plt.close()

# 4. Gráfico para pickup_hour - com média de trip_duration em "minutos:segundos" e alta resolução
fig, ax1 = plt.subplots(figsize=(8, 6))

# Gráfico de barras para o número de pickups por hora
ax1.bar(df['pickup_hour'].value_counts().sort_index().index, 
        df['pickup_hour'].value_counts().sort_index().values, 
        color=uber_colors['primary'], edgecolor='white')

# Configurações do eixo Y da esquerda (para o número de pickups)
ax1.set_xlabel('Hour of the Day (0-23)', fontsize=12, color='white')
ax1.set_ylabel('Number of Pickups', fontsize=12, color='white')
ax1.tick_params(axis='x', colors='white')
ax1.tick_params(axis='y', colors='white')
ax1.set_xticks(range(24))
ax1.set_xticklabels(range(24), color='white')
ax1.set_yticklabels(ax1.get_yticks(), color='white')

# Eixo Y à direita para a média de trip_duration
ax2 = ax1.twinx()
avg_trip_duration_by_hour = df.groupby('pickup_hour')['trip_duration'].mean()
avg_trip_duration_by_hour_min_sec = avg_trip_duration_by_hour / 60  # Converter para minutos e segundos
ax2.plot(avg_trip_duration_by_hour.index, avg_trip_duration_by_hour_min_sec.values, color=uber_colors['highlight'], linewidth=2, marker='o')

# Configurações do eixo Y da direita (para a média de trip_duration)
ax2.set_ylabel('Average Trip Duration (minutes:seconds)', fontsize=12, color=uber_colors['highlight'])
ax2.tick_params(axis='y', colors=uber_colors['highlight'])
ax2.set_yticklabels(ax2.get_yticks(), color=uber_colors['highlight'])

# Títulos e formatação
plt.title('Number of Pickups and Average Trip Duration by Hour of the Day', fontsize=14, color='white')

# Ajustes e salvar o gráfico
fig.tight_layout()
fig.patch.set_facecolor('black')
plt.savefig(path_results + 'pickup_hour_with_avg_trip_duration_min_sec.png', transparent=True, dpi=300)
plt.close()

# Retornar o nome dos arquivos gerados
output_files = [
    'is_weekend_plot_high_res_with_avg_duration_min_sec.png',
    'is_holiday_plot_high_res_with_avg_duration_min_sec.png',
    'is_rush_hour_plot_high_res_with_avg_duration_min_sec.png',
    'pickup_hour_with_avg_trip_duration_min_sec.png'
]

output_files


  ax1.set_yticklabels(ax1.get_yticks(), color='white')
  ax2.set_yticklabels(ax2.get_yticks(), color=uber_colors['highlight'])


['is_weekend_plot_high_res_with_avg_duration_min_sec.png',
 'is_holiday_plot_high_res_with_avg_duration_min_sec.png',
 'is_rush_hour_plot_high_res_with_avg_duration_min_sec.png',
 'pickup_hour_with_avg_trip_duration_min_sec.png']

In [3]:
# Exemplo de importância das features usando RandomForest
from sklearn.ensemble import RandomForestRegressor

# Definir as features e o alvo (X e y)
X = df[['is_weekend', 'is_rush_hour', 'is_holiday', 'pickup_hour']]
y = df['trip_duration']

# Treinar o modelo
model = RandomForestRegressor()
model.fit(X, y)

# Obter a importância das features e ordenar por importância
feature_importances = model.feature_importances_
features = X.columns

# Criar um dataframe para facilitar a ordenação e plotagem
importance_df = pd.DataFrame({
    'Feature': features,
    'Importance': feature_importances
}).sort_values(by='Importance', ascending=False)

# Plotar a importância das features ordenada
plt.figure(figsize=(8, 6))
plt.barh(importance_df['Feature'], importance_df['Importance'], color=uber_colors['primary'])
plt.title('Feature Importance', fontsize=14, color='white')
plt.xlabel('Importance', fontsize=12, color='white')
plt.ylabel('Features', fontsize=12, color='white')
plt.xticks(color='white')
plt.yticks(color='white')
plt.gca().invert_yaxis()  # Para manter a maior importância no topo
plt.tight_layout()

# Salvar o gráfico com resolução maior (definir DPI alto)
plt.savefig(path_results + 'feature_importance_ordered_high_res.png', transparent=True, dpi=300)  # Definir DPI para 300
plt.close()

# Retornar o caminho do arquivo gerado
output_file = path_results + 'feature_importance_ordered_high_res.png'
output_file

'/mnt/c/wo_pessoal/uber_assessment/PowerPoint/Graphs/feature_importance_ordered_high_res.png'