# Perguntas de Negócio

1. Qual o número total de entregadores cadastrados na base de dados?
2. Qual o número total de entregadores únicos cadastrados na base de dados?
3. Qual a idade do entregador mais velho? E do mais novo?
4. Qual o ID do entregador com a maior idade? E o ID do entregaor com a menor idade?
5. Quais os nomes das condições climáticas?
6. Quantas entregas foram realizadas sob condições climáticas de tempestade
de areia? ( Sandstorms )
7. Quais eram as condicões climáticas da data mais recente de entrega?
8. Quantos tipos de densidade de trânsito existem na base de dados? Quais os
nomes delas?
9. Quantas entregas foram feitas em cada condição climática?
10. Quantos entregadores únicos fizeram entregas em cada condição climática?
11. Quantas entregas foram feitas em cada tipo de densidade de trânsito?
12. Quantos entregadores únicos fizeram entregas em cada tipo de densidade
de trânsito?
13. Quantas cidades únicas existem na base? Quais são os seus nomes?
14. Quantos tipos de veículos únicos existem na base?
15. Qual o tipo de veículo que mais vez entregas com a condição de trânsito
pesado? ( High )
16. Qual o tipo de pedido mais feito durante condições climáticas de tempestade
de areia?
17. Qual a cidade com o maior número de pedidos de Bebidas (Drinks) feito em
Scooter?
18. Qual o nome da cidade com o (os) entregador mais velho? E o nome da
cidade com o (os) entregadores mais novos?
19. Quantas entregas foram feitas durante o Festival?
20. Quantas cidades únicas tiveram entregas feitas durante o Festival?
21. Quantas entregas foram feitas durante o Festival na cidade chamada Urban
("Urban")

# Respondendo as Perguntas de Negócio

### Imports

In [1]:
import pandas as pd
import numpy as np
import re

### Lendo a base de dados

In [2]:
pwd

'F:\\Ruiz\\comunidade-ds\\ciclo-basico\\ftc'

In [3]:
df_raw = pd.read_csv('F:\\Ruiz\\comunidade-ds\\ciclo-basico\\ftc\\dados\\train.csv')

### Limpando e formatando a base de dados

In [4]:
# Fazendo cópia do dataframe lido
df = df_raw.copy()

# Conversao de texto para data
df['Order_Date'] = pd.to_datetime( df['Order_Date'], format='%d-%m-%Y' )

## Remover spaco da string 
cols = ['ID', 'Road_traffic_density', 'Type_of_order', 'Type_of_vehicle', 'City', 'Festival']
df.loc[:, cols] = df.loc[:, cols].apply(lambda x: x.str.strip())



# Excluir as linhas com a idade dos entregadores vazia
# ( Conceitos de seleção condicional )
linhas_vazias = df['Delivery_person_Age'] != 'NaN '
df = df.loc[linhas_vazias, :]

# Excluir as linhas com tipo de trafego vazio
# ( Conceitos de seleção condicional )
linhas_vazias = df['Road_traffic_density'] != 'NaN '
df = df.loc[linhas_vazias, :]

# Excluir as linhas com cidade vazio
# ( Conceitos de seleção condicional )
linhas_vazias = df['City'] != 'NaN '
df = df.loc[linhas_vazias, :]

# Conversao de texto/categoria/string para numeros inteiros
df['Delivery_person_Age'] = df['Delivery_person_Age'].astype( int )

# Conversao de texto/categoria/strings para numeros decimais
df['Delivery_person_Ratings'] = df['Delivery_person_Ratings'].astype( float )


# Remove as linhas da culuna multiple_deliveries que tenham o 
# conteudo igual a 'NaN '
linhas_vazias = df['multiple_deliveries'] != 'NaN '
df = df.loc[linhas_vazias, :]
df['multiple_deliveries'] = df['multiple_deliveries'].astype( int )

# Comando para remover o texto de números
df = df.reset_index( drop=True )
for i in range( len( df ) ):
    df.loc[i, 'Time_taken(min)'] = re.findall( r'\d+', df.loc[i, 'Time_taken(min)'] )
df['Time_taken(min)'] = df['Time_taken(min)'].apply(lambda x: x[0]).astype(int)

In [5]:
df.head()

Unnamed: 0,ID,Delivery_person_ID,Delivery_person_Age,Delivery_person_Ratings,Restaurant_latitude,Restaurant_longitude,Delivery_location_latitude,Delivery_location_longitude,Order_Date,Time_Orderd,Time_Order_picked,Weatherconditions,Road_traffic_density,Vehicle_condition,Type_of_order,Type_of_vehicle,multiple_deliveries,Festival,City,Time_taken(min)
0,0x4607,INDORES13DEL02,37,4.9,22.745049,75.892471,22.765049,75.912471,2022-03-19,11:30:00,11:45:00,conditions Sunny,High,2,Snack,motorcycle,0,No,Urban,24
1,0xb379,BANGRES18DEL02,34,4.5,12.913041,77.683237,13.043041,77.813237,2022-03-25,19:45:00,19:50:00,conditions Stormy,Jam,2,Snack,scooter,1,No,Metropolitian,33
2,0x5d6d,BANGRES19DEL01,23,4.4,12.914264,77.6784,12.924264,77.6884,2022-03-19,08:30:00,08:45:00,conditions Sandstorms,Low,0,Drinks,motorcycle,1,No,Urban,26
3,0x7a6a,COIMBRES13DEL02,38,4.7,11.003669,76.976494,11.053669,77.026494,2022-04-05,18:00:00,18:10:00,conditions Sunny,Medium,0,Buffet,motorcycle,1,No,Metropolitian,21
4,0x70a2,CHENRES12DEL01,32,4.6,12.972793,80.249982,13.012793,80.289982,2022-03-26,13:30:00,13:45:00,conditions Cloudy,High,1,Snack,scooter,1,No,Metropolitian,30


## Respostas

In [6]:
df1 = df.copy()
df.head()

Unnamed: 0,ID,Delivery_person_ID,Delivery_person_Age,Delivery_person_Ratings,Restaurant_latitude,Restaurant_longitude,Delivery_location_latitude,Delivery_location_longitude,Order_Date,Time_Orderd,Time_Order_picked,Weatherconditions,Road_traffic_density,Vehicle_condition,Type_of_order,Type_of_vehicle,multiple_deliveries,Festival,City,Time_taken(min)
0,0x4607,INDORES13DEL02,37,4.9,22.745049,75.892471,22.765049,75.912471,2022-03-19,11:30:00,11:45:00,conditions Sunny,High,2,Snack,motorcycle,0,No,Urban,24
1,0xb379,BANGRES18DEL02,34,4.5,12.913041,77.683237,13.043041,77.813237,2022-03-25,19:45:00,19:50:00,conditions Stormy,Jam,2,Snack,scooter,1,No,Metropolitian,33
2,0x5d6d,BANGRES19DEL01,23,4.4,12.914264,77.6784,12.924264,77.6884,2022-03-19,08:30:00,08:45:00,conditions Sandstorms,Low,0,Drinks,motorcycle,1,No,Urban,26
3,0x7a6a,COIMBRES13DEL02,38,4.7,11.003669,76.976494,11.053669,77.026494,2022-04-05,18:00:00,18:10:00,conditions Sunny,Medium,0,Buffet,motorcycle,1,No,Metropolitian,21
4,0x70a2,CHENRES12DEL01,32,4.6,12.972793,80.249982,13.012793,80.289982,2022-03-26,13:30:00,13:45:00,conditions Cloudy,High,1,Snack,scooter,1,No,Metropolitian,30


### 1. Qual o número total de entregadores cadastrados na base de dados?

In [7]:
total_deliveries = df1.ID.count()
total_deliveries

42805

### 2. Qual o número total de entregadores únicos cadastrados na base de dados?

In [8]:
total_unique_deliverers = df1.Delivery_person_ID.nunique()
total_unique_deliverers 

1320

### 3. Qual a idade do entregador mais velho? E do mais novo?

In [22]:
dfaux = df1.sort_values( 'Delivery_person_Age', ascending=False )
print( dfaux.iloc[0, 2] )
print( dfaux.iloc[-1, 2] )

50
15


### 4. Qual o ID do entregador com a maior idade? E o ID do entregaor com a menor idade?

In [23]:
print( dfaux.iloc[0, 1] )
print( dfaux.iloc[-1, 1] )

KNPRES03DEL03 
CHENRES03DEL02 


### 5. Quais os nomes das condições climáticas?

In [32]:
df1.Weatherconditions.unique()

array(['conditions Sunny', 'conditions Stormy', 'conditions Sandstorms',
       'conditions Cloudy', 'conditions Fog', 'conditions Windy',
       'conditions NaN'], dtype=object)

### 6. Quantas entregas foram realizadas sob condições climáticas de tempestade de areia? ( Sandstorms )

In [38]:
df1.query('Weatherconditions == "conditions Sandstorms" ').shape[0]

7083

In [46]:
filtro = df1['Weatherconditions'] == 'conditions Sandstorms'

df1.loc[ filtro, : ].shape[0]

7083

### 7. Quais eram as condicões climáticas da data mais recente de entrega?

In [56]:
dfaux = df1.sort_values( 'Order_Date', ascending=False )
dfaux.iloc[ 0, 11 ]


'conditions Windy'

### 8. Quantos tipos de densidade de trânsito existem na base de dados? Quais os nomes delas?

In [61]:
print(df1.Road_traffic_density.nunique())
print(df1.Road_traffic_density.unique())

5
['High' 'Jam' 'Low' 'Medium' 'NaN']


### 9. Quantas entregas foram feitas em cada condição climática?

In [163]:
df1.groupby('Weatherconditions').ID.count()

Weatherconditions
conditions Cloudy        7135
conditions Fog           7288
conditions NaN             91
conditions Sandstorms    7083
conditions Stormy        7226
conditions Sunny         6904
conditions Windy         7078
Name: ID, dtype: int64

### 10. Quantos entregadores únicos fizeram entregas em cada condição climática?

In [86]:
dfaux = pd.DataFrame(df1.groupby('Weatherconditions').Delivery_person_ID.nunique())
for i, row in dfaux.iterrows():
    print(f'{i} teve {row[0]} entregas.')

conditions Cloudy teve 1246 entregas.
conditions Fog teve 1251 entregas.
conditions NaN teve 87 entregas.
conditions Sandstorms teve 1239 entregas.
conditions Stormy teve 1234 entregas.
conditions Sunny teve 1233 entregas.
conditions Windy teve 1230 entregas.


### 11. Quantas entregas foram feitas em cada tipo de densidade de trânsito?

In [72]:
df1.groupby('Road_traffic_density').ID.count()

Road_traffic_density
High       4212
Jam       13480
Low       14605
Medium    10417
NaN          91
Name: ID, dtype: int64

### 12. Quantos entregadores únicos fizeram entregas em cada tipo de densidade

In [73]:
df1.groupby('Road_traffic_density').Delivery_person_ID.nunique()

Road_traffic_density
High       787
Jam       1306
Low       1310
Medium    1287
NaN         87
Name: Delivery_person_ID, dtype: int64

### 13. Quantas cidades únicas existem na base? Quais são os seus nomes?

In [74]:
print( df1.City.nunique() )
print( df1.City.unique() )

4
['Urban' 'Metropolitian' 'Semi-Urban' 'NaN']


### 14. Quantos tipos de veículos únicos existem na base?

In [76]:
print( df1.Type_of_vehicle.nunique() )

4


### 15. Qual o tipo de veículo que mais vez entregas com a condição de trânsito pesado? ( High )

In [144]:
series = df1.query( 'Road_traffic_density == "High"' ).groupby( 'Type_of_vehicle' ).ID.count()
print(series.idxmax())
series

motorcycle


Type_of_vehicle
electric_scooter     332
motorcycle          2481
scooter             1399
Name: ID, dtype: int64

### 16. Qual o tipo de pedido mais feito durante condições climáticas de tempestade de areia?

In [142]:
series = df1.query( 'Weatherconditions == "conditions Sandstorms"' ).groupby( 'Type_of_order' ).ID.count()

print(series.idxmax())
series

Meal


Type_of_order
Buffet    1732
Drinks    1734
Meal      1812
Snack     1805
Name: ID, dtype: int64

### 17. Qual a cidade com o maior número de pedidos de Bebidas (Drinks) feito em
Scooter?

In [143]:
series = df1.query( 'Type_of_order == "Drinks" & Type_of_vehicle == "scooter"' ).groupby( 'City' ).ID.count()
print(series.idxmax())
series

Metropolitian


City
Metropolitian    2655
NaN               100
Semi-Urban          1
Urban             847
Name: ID, dtype: int64

### 18. Qual o nome da cidade com o (os) entregador mais velho? E o nome da cidade com o (os) entregadores mais novos?

In [148]:
oldest_deliverer = df1.Delivery_person_Age.max()
series = df1.query( 'Delivery_person_Age == @oldest_deliverer' ).groupby('City').City.count()

print(f'A cidade com os entregadores mais velhos é {series.idxmax()}')
print(series)
print()

youngest_deliverer = df1.Delivery_person_Age.min()
series = df1.query( 'Delivery_person_Age == @youngest_deliverer' ).groupby('City').City.count()
print(f'A cidade com os entregadores mais novos é {series.idxmax()}')
print(series)

A cidade com os entregadores mais velhos é Metropolitian
City
Metropolitian    37
NaN               2
Urban            14
Name: City, dtype: int64

A cidade com os entregadores mais novos é Metropolitian
City
Metropolitian    27
Urban            11
Name: City, dtype: int64


### 19. Quantas entregas foram feitas durante o Festival?

In [156]:
df1.query( 'Festival == "Yes" ' ).ID.count()

848

### 20. Quantas cidades únicas tiveram entregas feitas durante o Festival?

In [158]:
df1.query( 'Festival == "Yes" ' ).City.nunique()

4

### 21. Quantas entregas foram feitas durante o Festival na cidade chamada Urban
("Urban")

In [161]:
df1.query( 'Festival == "Yes" & City == "Urban" ' ).ID.count()

109