# Perguntas de negócio

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../dataset/train.csv")

In [3]:
df.dtypes

ID                              object
Delivery_person_ID              object
Delivery_person_Age             object
Delivery_person_Ratings         object
Restaurant_latitude            float64
Restaurant_longitude           float64
Delivery_location_latitude     float64
Delivery_location_longitude    float64
Order_Date                      object
Time_Orderd                     object
Time_Order_picked               object
Weatherconditions               object
Road_traffic_density            object
Vehicle_condition                int64
Type_of_order                   object
Type_of_vehicle                 object
multiple_deliveries             object
Festival                        object
City                            object
Time_taken(min)                 object
dtype: object

## 0. Limpeza da base de dados

## 1. Qual o número total de entregadores cadastrados na base de dados?

In [4]:
aux = df["Delivery_person_ID"].shape
print("Entregadores cadastrados: {}".format(aux[0]))

Entregadores cadastrados: 45593


## 2. Qual o número total de entregadores únicos cadastrados na base de dados?

In [5]:
aux = df["Delivery_person_ID"].unique().shape
print("Entregadores cadastrados: {}".format(aux[0]))

Entregadores cadastrados: 1320


## 3. Qual a idade do entregador mais velho? E do mais novo?

In [6]:
# Buscando inconsistências no campo de idade dos entregadores
df['Delivery_person_Age'].unique()

array(['37', '34', '23', '38', '32', '22', '33', '35', '36', '21', '24',
       '29', '25', '31', '27', '26', '20', 'NaN ', '28', '39', '30', '15',
       '50'], dtype=object)

In [7]:
# Excluindo, temporariamente, usuários sem idade declarada
filtro = df['Delivery_person_Age'] != 'NaN '
dfaux = df.loc[filtro,:]

In [8]:
delivery_person_ages = dfaux['Delivery_person_Age'].unique()
print("O entregador mais velho tem {} anos, enquanto o mais novo tem {} anos.".format(delivery_person_ages.max(), delivery_person_ages.min()))

O entregador mais velho tem 50 anos, enquanto o mais novo tem 15 anos.


## 4. Qual o ID do entregador com a maior idade? E o ID do entregaor com a menor idade?

In [9]:
aux = df[['ID','Delivery_person_ID','Delivery_person_Age']].loc[df['Delivery_person_Age']==delivery_person_ages.max()]
qtd_mais_velhos = aux.shape[0]
aux

Unnamed: 0,ID,Delivery_person_ID,Delivery_person_Age
3586,0x46d,BANGRES05DEL01,50
4714,0x493,HYDRES17DEL01,50
5169,0x4f2,JAPRES08DEL01,50
5362,0x430,BANGRES19DEL01,50
5651,0xbef1,AGRRES13DEL02,50
6394,0x427,JAPRES06DEL02,50
7031,0x3eb,MYSRES15DEL02,50
7681,0xd42,VADRES09DEL01,50
9499,0x3f0,BANGRES010DEL01,50
9535,0x3ef,RANCHIRES13DEL01,50


In [11]:
aux = dfaux[['ID','Delivery_person_ID','Delivery_person_Age']].loc[dfaux['Delivery_person_Age']==delivery_person_ages.min()]
qtd_mais_novos = aux.shape[0]
aux

Unnamed: 0,ID,Delivery_person_ID,Delivery_person_Age
2387,0x564,JAPRES15DEL03,15
2905,0xcd0,INDORES010DEL03,15
2951,0x91a,SURRES17DEL03,15
5902,0x474,CHENRES15DEL03,15
9156,0x73f,BANGRES05DEL01,15
10900,0x1b49,MUMRES14DEL02,15
11125,0x40b,SURRES12DEL01,15
12093,0x523,INDORES03DEL02,15
15124,0x18b0,RANCHIRES02DEL01,15
15927,0x550,CHENRES08DEL02,15


In [12]:
print("Com os dados do dataframe não é possível definir o \
entregador mais velho dentre os {} entregadores com {} anos \
e nem o mais novo entre os {} entregadores com {} anos.".format(
    qtd_mais_velhos, delivery_person_ages.max(), qtd_mais_novos, delivery_person_ages.min()))

Com os dados do dataframe não é possível definir o entregador mais velho dentre os 53 entregadores com 50 anos e nem o mais novo entre os 38 entregadores com 15 anos.


## 5. Quais os nomes das condições climáticas?

In [13]:
filtro = df['Weatherconditions'] != 'conditions NaN'
dfaux = df.loc[filtro,:]

In [14]:
climas = dfaux['Weatherconditions'].unique()

print("As condições climáticas são:")
for c in climas:
    print(c)

As condições climáticas são:
conditions Sunny
conditions Stormy
conditions Sandstorms
conditions Cloudy
conditions Fog
conditions Windy


## 6. Quantas entregas foram realizadas sob condições climáticas de tempestade de areia? ( Sandstorms )

In [15]:
sandstorms = df['Weatherconditions'].loc[df['Weatherconditions']== 'conditions Sandstorms']
print("Foram feitas {} entregas em condição climática de tempestade de areia.".format( sandstorms.shape[0] ) )

Foram feitas 7495 entregas em condição climática de tempestade de areia.


## 7. Quais eram as condicões climáticas da data mais recente de entrega? 

In [16]:
from datetime import date
df['Order_Date'] = pd.to_datetime(df['Order_Date'], format='%d-%m-%Y')
data_recente = df['Order_Date'].max()
clima_data_recente = df['Weatherconditions'].loc[df['Order_Date']==data_recente].unique()

print("As condições climáticas no dia {}/{}/{} foram:".format(data_recente.day, data_recente.month, data_recente.year))
for c in clima_data_recente:
    print(c[11:])

As condições climáticas no dia 6/4/2022 foram:
Cloudy
Sunny
Stormy
Windy
Fog
Sandstorms
NaN


## 8. Quantos tipos de densidade de trânsito existem na base de dados? Quais os nomes delas?

In [17]:
filtro = df['Road_traffic_density']!='NaN '
dfaux = df.loc[filtro,:]

In [109]:
tipos_densidade_transito = dfaux['Road_traffic_density'].unique()
tipos_densidade_transito.shape
print("Existem {} tipos de densidade de trânsito na base de dados, e são eles:".format(tipos_densidade_transito.shape[0]))
for t in tipos_densidade_transito:
    print(t)

Existem 4 tipos de densidade de trânsito na base de dados, e são eles:
High 
Jam 
Low 
Medium 


## 9. Quantas entregas foram feitas em cada condição climática?

In [18]:
for c in climas:
    filtro = df['Weatherconditions']==c
    entregas = df.loc[filtro,:]
    entregas.shape[0]
    clima = c[11:]
    print('Para a condição do clima {} foram feitas {} entregas.'.format(clima,entregas.shape[0]))


Para a condição do clima Sunny foram feitas 7284 entregas.
Para a condição do clima Stormy foram feitas 7586 entregas.
Para a condição do clima Sandstorms foram feitas 7495 entregas.
Para a condição do clima Cloudy foram feitas 7536 entregas.
Para a condição do clima Fog foram feitas 7654 entregas.
Para a condição do clima Windy foram feitas 7422 entregas.


In [19]:
dfaux[['Weatherconditions','ID']].groupby('Weatherconditions').count().reset_index()

Unnamed: 0,Weatherconditions,ID
0,conditions Cloudy,7536
1,conditions Fog,7654
2,conditions NaN,15
3,conditions Sandstorms,7495
4,conditions Stormy,7586
5,conditions Sunny,7284
6,conditions Windy,7422


## 10. Quantos entregadores únicos fizeram entregas em cada condição climática?

In [20]:
filtro = ['Delivery_person_ID','Weatherconditions']
df_clean = df.loc[df['Weatherconditions'] != 'conditions NaN']

weatherconditions = df_clean['Weatherconditions'].unique()
delivery_person_ids = df_clean['Delivery_person_ID'].unique()

df_ans = pd.DataFrame([(' ', 0)], columns=['Weatherconditions','IDs'])
i = 0

for weather in weatherconditions:
    df_aux = df_clean[filtro].loc[ df_clean['Weatherconditions']==weather ]
    df_ans.loc[i] = [weather, df_aux['Delivery_person_ID'].unique().size ]
    i = i+1
df_ans


Unnamed: 0,Weatherconditions,IDs
0,conditions Sunny,1242
1,conditions Stormy,1239
2,conditions Sandstorms,1248
3,conditions Cloudy,1253
4,conditions Fog,1261
5,conditions Windy,1237


## 11. Quantas entregas foram feitas em cada tipo de densidade de trânsito?

In [43]:
traffic_density = df['Road_traffic_density'].unique()
print(traffic_density)
df[['ID','Road_traffic_density']].groupby('Road_traffic_density').count()


['High ' 'Jam ' 'Low ' 'Medium ' 'NaN ']


Unnamed: 0_level_0,ID
Road_traffic_density,Unnamed: 1_level_1
High,4425
Jam,14143
Low,15477
Medium,10947
,601


## 12. Quantos entregadores únicos fizeram entregas em cada tipo de densidade de trânsito?

In [57]:
traffic_density
# delivery_person = df[['Delivery_person_ID','Road_traffic_density']].unique()
delivery_person = df['Delivery_person_ID'].unique()

df_ans = pd.DataFrame([(' ',0)], columns=['Road_traffic_density', 'IDs'])
i = 0

for traffic in traffic_density:
    dfaux = df[['Delivery_person_ID','Road_traffic_density']].loc[df['Road_traffic_density']==traffic]
    df_ans.loc[i] = [traffic, dfaux['Delivery_person_ID'].unique().size]
    i = i+1

df_ans

Unnamed: 0,Road_traffic_density,IDs
0,High,795
1,Jam,1308
2,Low,1311
3,Medium,1293
4,,456


## 13. Quantas cidades únicas existem na base? Quais são os seus nomes?

In [66]:
df[['ID','City']].groupby('City').count().reset_index()

Unnamed: 0,City,ID
0,Metropolitian,34093
1,,1200
2,Semi-Urban,164
3,Urban,10136


## 14. Quantos tipos de veículos únicos existem na base?

In [77]:
ans = df['Type_of_vehicle'].unique().size
print('Existem {} tipos de veículos na base.'.format( ans ))

Existem 4 tipos de veículos na base.


## 15. Qual o tipo de veículo que mais fez entregas com a condição de trânsito pesado? ( High )

In [118]:
# df.dtypes 'Road_traffic_density', 'Type_of_vehicle'
dfaux = df[['Road_traffic_density','Type_of_vehicle']].loc[df['Road_traffic_density']=='High '].reset_index()
dfaux = dfaux[['Road_traffic_density','Type_of_vehicle']].groupby('Type_of_vehicle').count().reset_index()
dfaux
print("Em condição de trânsito pesado, o tipo de veículo que fez mais entregas foi {} com {} entregas.".format(
dfaux.loc[1,'Type_of_vehicle'], dfaux.loc[1,'Road_traffic_density'] ))

Em condição de trânsito pesado, o tipo de veículo que fez mais entregas foi motorcycle  com 2612 entregas.


## 16. Qual o tipo de pedido mais feito durante condições climáticas de tempestade de areia?

## 17. Qual a cidade com o maior número de pedidos de Bebidas (Drinks) feito em Scooter?

## 18. Qual o nome da cidade com o (os) entregador mais velho? E o nome da cidade com o (os) entregadores mais novos?

## 19. Quantas entregas foram feitas durante o Festival?

## 20. Quantas cidades únicas tiveram entregas feitas durante o Festival?

## 21. Quantas entregas foram feitas durante o Festival na cidade chamada Urban ("Urban")