# Curry Company Analytics

## Importação e Limpeza de Dados

### Importando dados

In [2]:
# 1. Caminho do arquivo
file_path = 'C:/Users/danie/Documents/Repos/FTC-Analisando_Dados_com_Python/data/train.csv'

# 2. Lendo o arquivo CSV
try:
  df = pd.read_csv(file_path)
  print("Arquivo carregado com sucesso!")
except FileNotFoundError:
  print(f"Erro: O arquivo não foi encontrado no caminho: {file_path}")
  print("Verifique se o nome do arquivo ou a pasta estão corretos.")

Arquivo carregado com sucesso!


In [3]:
df.shape

(45593, 20)

### Limpeza e Tratamento de Dados

In [4]:
# Copiando o Dataframe
df1 = df.copy()

# Convertendo a coluna 'Delivery_person_Age' para número inteiro
linhas_selecionadas = df1['Delivery_person_Age'] != "NaN "
df1 = df1.loc[linhas_selecionadas, :].copy()
df1['Delivery_person_Age'] = df1['Delivery_person_Age'].astype(int)

# Convertendo a coluna 'Delivery_person_Ratings' para número decimal
df1['Delivery_person_Ratings'] = df1['Delivery_person_Ratings'].astype(float)

# Convertendo a coluna 'Order_Date' para data
df1['Order_Date'] = pd.to_datetime(df1['Order_Date'], format='%d-%m-%Y')

# Eliminando 'NaN ' da coluna 'Weatherconditions'
linhas_selecionadas = df1['Weatherconditions'] != "conditions NaN"
df1 = df1.loc[linhas_selecionadas, :].copy()

# Convertendo a coluna 'multiple_deliveries' para número inteiro
linhas_selecionadas = df1['multiple_deliveries'] != "NaN "
df1 = df1.loc[linhas_selecionadas, :].copy()
df1['multiple_deliveries'] = df1['multiple_deliveries'].astype(int)

# Eliminando 'NaN ' da coluna 'City'
linhas_selecionadas = df1['City'] != "NaN "
df1 = df1.loc[linhas_selecionadas, :].copy()

# Eliminando 'NaN ' da coluna 'Festival'
linhas_selecionadas = df1['Festival'] != "NaN "
df1 = df1.loc[linhas_selecionadas, :].copy()

# Eliminando '(min) ' da coluna 'Time_taken(min)' e convertendo para inteiro
df1['Time_taken(min)'] = df1['Time_taken(min)'].str.extract(r'(\d+)').astype(int)

# Retirando espaços dos conteúdos presentes nas colunas
df1.loc[:, 'ID'] = df1.loc[:, 'ID'].str.strip()
df1.loc[:, 'Delivery_person_ID'] = df1.loc[:, 'Delivery_person_ID'].str.strip()
df1.loc[:, 'Road_traffic_density'] = df1.loc[:, 'Road_traffic_density'].str.strip()
df1.loc[:, 'Type_of_order'] = df1.loc[:, 'Type_of_order'].str.strip()
df1.loc[:, 'Type_of_vehicle'] = df1.loc[:, 'Type_of_vehicle'].str.strip()
df1.loc[:, 'Festival'] = df1.loc[:, 'Festival'].str.strip()
df1.loc[:, 'City'] = df1.loc[:, 'City'].str.strip()

# Criando a coluna com as semanas do ano
df1['Week_of_Year'] = df1['Order_Date'].dt.isocalendar().week

# Realizando reset do index
df1 = df1.reset_index(drop=True)

In [5]:
df1.head()

Unnamed: 0,ID,Delivery_person_ID,Delivery_person_Age,Delivery_person_Ratings,Restaurant_latitude,Restaurant_longitude,Delivery_location_latitude,Delivery_location_longitude,Order_Date,Time_Orderd,...,Weatherconditions,Road_traffic_density,Vehicle_condition,Type_of_order,Type_of_vehicle,multiple_deliveries,Festival,City,Time_taken(min),Week_of_Year
0,0x4607,INDORES13DEL02,37,4.9,22.745049,75.892471,22.765049,75.912471,2022-03-19,11:30:00,...,conditions Sunny,High,2,Snack,motorcycle,0,No,Urban,24,11
1,0xb379,BANGRES18DEL02,34,4.5,12.913041,77.683237,13.043041,77.813237,2022-03-25,19:45:00,...,conditions Stormy,Jam,2,Snack,scooter,1,No,Metropolitian,33,12
2,0x5d6d,BANGRES19DEL01,23,4.4,12.914264,77.6784,12.924264,77.6884,2022-03-19,08:30:00,...,conditions Sandstorms,Low,0,Drinks,motorcycle,1,No,Urban,26,11
3,0x7a6a,COIMBRES13DEL02,38,4.7,11.003669,76.976494,11.053669,77.026494,2022-04-05,18:00:00,...,conditions Sunny,Medium,0,Buffet,motorcycle,1,No,Metropolitian,21,14
4,0x70a2,CHENRES12DEL01,32,4.6,12.972793,80.249982,13.012793,80.289982,2022-03-26,13:30:00,...,conditions Cloudy,High,1,Snack,scooter,1,No,Metropolitian,30,12


In [6]:
df1.shape

(41419, 21)

## 1. Visão: Empresa

### Exercicios - 1ª Parte

#### 1. Quantidade de pedidos por dia.

In [None]:
cols = ['ID', 'Order_Date']
df_aux = df1.loc[:, cols].groupby('Order_Date').count().reset_index()

px.bar(df_aux, x='Order_Date', y='ID')

#### 2. Quantidade de pedidos por semana.

In [None]:
# Agrupando a quantidade de entregas por semana
cols = ['ID', 'Week_of_Year']
df_aux = df1.loc[:, cols].groupby('Week_of_Year').count().reset_index()

px.line(df_aux, x='Week_of_Year', y='ID')

#### 3. Distribuição dos pedidos por tipo de tráfego.

In [None]:
cols = ['ID', 'Road_traffic_density']

df_aux = df1.loc[:, cols].groupby('Road_traffic_density').count().reset_index()
df_aux['Perc_entregas'] = df_aux['ID'] / df_aux['ID'].sum()

px.pie(df_aux, values='Perc_entregas', names='Road_traffic_density')

#### 4. Comparação do volume de pedidos por cidade e tipo de tráfego.

In [None]:
cols = ['ID', 'City', 'Road_traffic_density']

df_aux = df1.loc[:, cols].groupby(['City', 'Road_traffic_density']).count().reset_index()

px.scatter(df_aux, x='City', y='Road_traffic_density', size='ID', color='City')

#### 5. A quantidade de pedidos por entregador por semana.

In [None]:
cols1 = ['ID', 'Week_of_Year']
cols2 = ['Delivery_person_ID', 'Week_of_Year']

df_aux1 = df1.loc[:, cols1].groupby('Week_of_Year').count().reset_index()
df_aux2 = df1.loc[:, cols2].groupby('Week_of_Year').nunique().reset_index()

df_aux = pd.merge(df_aux1, df_aux2, how='inner')
df_aux['Order_by_Deliver'] = df_aux['ID'] / df_aux['Delivery_person_ID']

px.line(df_aux, x='Week_of_Year', y='Order_by_Deliver')

#### 6. A localização central de cada cidade por tipo de tráfego.

In [None]:
cols = ['City', 'Road_traffic_density', 'Delivery_location_latitude', 'Delivery_location_longitude']

df_aux = df1.loc[:, cols].groupby(['City', 'Road_traffic_density']).median().reset_index()

mapa = folium.Map()

for index, location_info in df_aux.iterrows():
    folium.Marker([location_info['Delivery_location_latitude'],
                   location_info['Delivery_location_longitude']],
                  popup=location_info[['City', 'Road_traffic_density']]).add_to(mapa)

mapa

### Exercicios - 2ª Parte

#### 01. Desenhar um gráfico de pizza com a média de idade dos entregadores por cidade.

In [66]:
cols = ['Delivery_person_Age', 'City']

df_aux = df1.loc[:, cols].groupby('City').mean().reset_index()

px.bar(df_aux, x='City', y='Delivery_person_Age', color='City', color_discrete_sequence=["red", "blue", "green"])

#### 02. Desenhe um gráfico de linha, mostrando o número total de entregas diárias feitas por densidade de tráfego igual a “Lowˮ e “Jamˮ.

In [67]:
cols = ['ID', 'Road_traffic_density']
filtro = (df1['Road_traffic_density'] == 'Low') | (df1['Road_traffic_density'] == 'Jam')

df_aux = df1.loc[filtro, cols].groupby('Road_traffic_density').count().reset_index()

px.line(df_aux, x='Road_traffic_density', y='ID', title='Número de Entregas x Densidade')

#### 03. Desenhe um gráfico de barras, mostrando as avaliações médias das entregas por semana.

In [68]:
cols = ['Delivery_person_Ratings', 'Week_of_Year']

df_aux = df1.loc[:, cols].groupby('Week_of_Year').mean().reset_index()

cores = ["red", "blue", "purple", "green", "yellow", "orange", "lightgreen", "pink"]
fig = px.bar(df_aux,
       x='Week_of_Year',
       y='Delivery_person_Ratings',
       color='Week_of_Year',
       color_discrete_sequence=cores,
       title='Média das Avaliações por Semana'
)

fig.update_yaxes(range=[4.5, 4.7])
fig.show()

#### 4. Desenhe um gráfico de pizza, mostrando a média de avaliações das entregas feitas por condições climáticas?

In [69]:
cols = ['Delivery_person_Ratings', 'Weatherconditions']

df_aux = df1.loc[:, cols].groupby('Weatherconditions').mean().reset_index()

px.pie(df_aux, names='Weatherconditions', values='Delivery_person_Ratings')

## 2. Visão: Entregadores

### Exercicios - 1ª Parte

#### 1. A menor e maior idade dos entregadores.

In [70]:
menor_idade = df1.loc[:, 'Delivery_person_Age'].min()
maior_idade = df1.loc[:, 'Delivery_person_Age'].max()

print(f"A menor idade dos entregadores eh: {menor_idade} anos.")
print(f"A maior idade dos entregadores eh: {maior_idade} anos.")

A menor idade dos entregadores eh: 20 anos.
A maior idade dos entregadores eh: 39 anos.


#### 2. A pior e a melhor condição de veículos.

In [71]:
pior_cond_veic = df1.loc[:, 'Vehicle_condition'].min()
melhor_cond_veic = df1.loc[:, 'Vehicle_condition'].max()

print(f"A pior nota de condição dos veículos dos entregadores eh: {pior_cond_veic} anos.")
print(f"A melhor nota de condição dos veículos dos entregadores eh: {melhor_cond_veic} anos.")

A pior nota de condição dos veículos dos entregadores eh: 0 anos.
A melhor nota de condição dos veículos dos entregadores eh: 2 anos.


#### 3. A avaliação média por entregador.

In [72]:
cols = ['Delivery_person_Ratings', 'Delivery_person_ID']

df1.loc[:, cols].groupby('Delivery_person_ID').mean().reset_index()

Unnamed: 0,Delivery_person_ID,Delivery_person_Ratings
0,AGRRES010DEL01,4.761538
1,AGRRES010DEL02,4.671429
2,AGRRES010DEL03,4.575000
3,AGRRES01DEL01,4.522222
4,AGRRES01DEL02,4.700000
...,...,...
1315,VADRES19DEL02,4.632727
1316,VADRES19DEL03,4.670270
1317,VADRES20DEL01,4.620370
1318,VADRES20DEL02,4.591111


#### 4. A avaliação média e o desvio padrão por tipo de tráfego.

In [73]:
cols = ['Delivery_person_Ratings', 'Road_traffic_density']

media = df1.loc[:, cols].groupby('Road_traffic_density').mean().reset_index()

for i in range(len(media)):
    print(f"A avaliação média para a densidade do tráfego '{media.iloc[i, 0]}' eh: {media.iloc[i, 1]:.4f}")

A avaliação média para a densidade do tráfego 'High' eh: 4.6522
A avaliação média para a densidade do tráfego 'Jam' eh: 4.5940
A avaliação média para a densidade do tráfego 'Low' eh: 4.6450
A avaliação média para a densidade do tráfego 'Medium' eh: 4.6601


In [74]:
desvio_padrao = df1.loc[:, cols].groupby('Road_traffic_density').std().reset_index()

for i in range(len(desvio_padrao)):
    print(f"O desvio padrão para a densidade do tráfego '{desvio_padrao.iloc[i, 0]}' eh: {desvio_padrao.iloc[i, 1]:.4f}")

O desvio padrão para a densidade do tráfego 'High' eh: 0.2730
O desvio padrão para a densidade do tráfego 'Jam' eh: 0.3298
O desvio padrão para a densidade do tráfego 'Low' eh: 0.3381
O desvio padrão para a densidade do tráfego 'Medium' eh: 0.2742


#### 5. A avaliação média e o desvio padrão por condições climáticas.

In [75]:
cols = ['Delivery_person_Ratings', 'Weatherconditions']

# Novo DF com média e desvio padrão por condição climática
df_avg_std_rating_by_wet = df1.loc[:, cols].groupby('Weatherconditions').agg({'Delivery_person_Ratings': ['mean', 'std']})

# Renomeando colunas
df_avg_std_rating_by_wet.columns = ['Delivery_mean', 'Delivery_std']

# Resetando index
df_avg_std_rating_by_wet = df_avg_std_rating_by_wet.reset_index()

for i in range(len(df_avg_std_rating_by_wet)):
    print(f"A condição climática '{df_avg_std_rating_by_wet.iloc[i, 0][11:20]}' apresenta nota média de {df_avg_std_rating_by_wet.iloc[i, 1]:.3f} e desvio padrão de {df_avg_std_rating_by_wet.iloc[i, 2]:.4f}")

A condição climática 'Cloudy' apresenta nota média de 4.652 e desvio padrão de 0.2812
A condição climática 'Fog' apresenta nota média de 4.653 e desvio padrão de 0.2751
A condição climática 'Sandstorm' apresenta nota média de 4.612 e desvio padrão de 0.3109
A condição climática 'Stormy' apresenta nota média de 4.612 e desvio padrão de 0.3131
A condição climática 'Sunny' apresenta nota média de 4.655 e desvio padrão de 0.3967
A condição climática 'Windy' apresenta nota média de 4.616 e desvio padrão de 0.3046


#### 6. Os 10 entregadores mais rápidos por cidade.

In [76]:
cols = ['Delivery_person_ID', 'City', 'Time_taken(min)']
df_aux = df1.loc[:, cols].groupby(['City', 'Delivery_person_ID']).mean().sort_values(['City', 'Time_taken(min)'], ascending=True).reset_index()

df2 = df_aux.loc[df_aux['City'] == 'Metropolitian', :].head(10)
df3 = df_aux.loc[df_aux['City'] == 'Semi-Urban', :].head(10)
df4 = df_aux.loc[df_aux['City'] == 'Urban', :].head(10)

df_delivery_fast_by_city = pd.concat([df2, df3, df4]).reset_index(drop=True)
df_delivery_fast_by_city

Unnamed: 0,City,Delivery_person_ID,Time_taken(min)
0,Metropolitian,KNPRES03DEL02,15.75
1,Metropolitian,ALHRES02DEL02,17.8
2,Metropolitian,KNPRES01DEL01,19.125
3,Metropolitian,KOLRES01DEL03,19.125
4,Metropolitian,KOCRES02DEL02,19.25
5,Metropolitian,KOCRES08DEL03,19.8
6,Metropolitian,KOCRES16DEL03,20.0
7,Metropolitian,KOCRES02DEL03,20.375
8,Metropolitian,GOARES14DEL01,20.4
9,Metropolitian,DEHRES20DEL03,20.428571


#### 7. Os 10 entregadores mais lentos por cidade.

In [77]:
df_aux = df1.loc[:, cols].groupby(['City', 'Delivery_person_ID']).mean().sort_values(['City', 'Time_taken(min)'], ascending=False).reset_index()

df2 = df_aux.loc[df_aux['City'] == 'Metropolitian', :].head(10)
df3 = df_aux.loc[df_aux['City'] == 'Semi-Urban', :].head(10)
df4 = df_aux.loc[df_aux['City'] == 'Urban', :].head(10)

df_delivery_slow_by_city = pd.concat([df2, df3, df4]).reset_index(drop=True)
df_delivery_slow_by_city

Unnamed: 0,City,Delivery_person_ID,Time_taken(min)
0,Metropolitian,AGRRES02DEL01,39.428571
1,Metropolitian,AURGRES11DEL03,38.5
2,Metropolitian,KOLRES03DEL03,38.142857
3,Metropolitian,LUDHRES17DEL03,37.0
4,Metropolitian,ALHRES18DEL02,36.666667
5,Metropolitian,GOARES08DEL03,36.0
6,Metropolitian,ALHRES12DEL01,35.0
7,Metropolitian,AGRRES13DEL02,34.7
8,Metropolitian,KNPRES06DEL01,34.555556
9,Metropolitian,ALHRES010DEL01,34.5


## 3. Visão: Restaurantes

### Exercicios - 1ª Parte

#### 1. A quantidade de entregadores únicos.

In [7]:
ent_unicos = df1.loc[:, 'Delivery_person_ID'].nunique()

print(f"A quantidade única de entregadores eh: {ent_unicos}")

A quantidade única de entregadores eh: 1320


#### 2. A distância média dos restaurantes e dos locais de entrega.

In [8]:
cols = ['Delivery_location_latitude', 'Delivery_location_longitude',
                 'Restaurant_latitude', 'Restaurant_longitude']

#Realizando o cálculo da distância entre restaurante e local de entrega com apply
df1['Distance'] = df1.loc[:, cols].apply(
    lambda x: hs((x[cols[0]], x[cols[1]]), 
    (x[cols[2]], x[cols[3]])), 
    axis=1
)

In [9]:
media_dist = df1.loc[:, 'Distance'].mean()
print(f"A distância média entre o restaurante e o local de entrega é de {media_dist:.2f} km.")

A distância média entre o restaurante e o local de entrega é de 27.44 km.


#### 3. O tempo médio e o desvio padrão de entrega por cidade.

In [23]:
cols = ['Time_taken(min)', 'City']

# Novo DF com média e desvio padrão por cidade
df_aux = df1.loc[:, cols].groupby('City').agg({'Time_taken(min)': ['mean', 'std']})

# Renomeando colunas
df_aux.columns = ['Time_mean(min)', 'Time_std(min)']
df_aux = df_aux.reset_index()

df_aux

Unnamed: 0,City,Time_mean(min),Time_std(min)
0,Metropolitian,27.428083,9.133374
1,Semi-Urban,49.710526,2.724992
2,Urban,23.209379,8.858049


#### 4. O tempo médio e o desvio padrão de entrega por cidade e tipo de pedido.

In [None]:
cols = ['Time_taken(min)', 'City', 'Type_of_order']

# Novo DF com média e desvio padrão por cidade e tipo de pedido
df_aux = df1.loc[:, cols].groupby(['City', 'Type_of_order']).agg({'Time_taken(min)': ['mean', 'std']})

# Renomeando colunas
df_aux.columns = ['Time_mean(min)', 'Time_std(min)']
df_aux.reset_index()

Unnamed: 0,City,Type_of_order,Time_mean(min),Time_std(min)
0,Metropolitian,Buffet,27.299008,9.153107
1,Metropolitian,Drinks,27.322691,9.041655
2,Metropolitian,Meal,27.616383,9.214536
3,Metropolitian,Snack,27.468414,9.119676
4,Semi-Urban,Buffet,49.707317,2.731702
5,Semi-Urban,Drinks,49.625,2.459347
6,Semi-Urban,Meal,50.3,3.041665
7,Semi-Urban,Snack,49.408163,2.707385
8,Urban,Buffet,23.560652,9.056348
9,Urban,Drinks,23.311977,8.927314


#### 5. O tempo médio e o desvio padrão de entrega por cidade e tipo de tráfego.

In [None]:
cols = ['Time_taken(min)', 'City', 'Road_traffic_density']

# Novo DF com média e desvio padrão por cidade e tipo de tráfego
df_aux = df1.loc[:, cols].groupby(['City', 'Road_traffic_density']).agg({'Time_taken(min)': ['mean', 'std']})

# Renomeando colunas
df_aux.columns = ['Time_mean(min)', 'Time_std(min)']
df_aux.reset_index()

Unnamed: 0,City,Road_traffic_density,Time_mean(min),Time_std(min)
0,Metropolitian,High,28.140898,7.904645
1,Metropolitian,Jam,31.976991,9.476203
2,Metropolitian,Low,22.257675,6.794772
3,Metropolitian,Medium,27.729966,8.308064
4,Semi-Urban,High,50.125,2.629956
5,Semi-Urban,Jam,49.84127,2.717095
6,Semi-Urban,Medium,47.4,2.01108
7,Urban,High,24.305335,8.494842
8,Urban,Jam,27.993164,10.078271
9,Urban,Low,19.446809,6.319963


#### 6. O tempo médio de entrega durantes os Festivais.

In [24]:
cols = ['Time_taken(min)', 'Festival']

# Novo DF com média e desvio padrão por cidade
df_aux = df1.loc[:, cols].groupby('Festival').agg({'Time_taken(min)': ['mean', 'std']})

# Renomeando colunas
df_aux.columns = ['Time_mean(min)', 'Time_std(min)']
df_aux = df_aux.reset_index()

df_aux

Unnamed: 0,Festival,Time_mean(min),Time_std(min)
0,No,26.162741,9.001803
1,Yes,45.518607,4.005399
