## Business challenge: IronHack Delivery orders analysis (use pycharm)
En este análisis, exploraremos un conjunto de datos que contiene información sobre pedidos de socios falsos dentro de la aplicación. Los socios falsos son tiendas no integradas directamente con Glovo, y nuestro equipo de contenido gestiona su catálogo de productos y precios. Este conjunto de datos proporciona detalles sobre los pedidos, discrepancias de pago y otra información relevante.

1. Descripción del Conjunto de Datos

* order_id: Identificador único para cada pedido.
* activation_time_local: Hora local cuando se activó el pedido.
* country_code: Código de país para el pedido.
* store_address: Dirección de la tienda.
* final_status: El estado final del pedido.
* payment_status: El estado de pago del pedido.
* products: Número de productos en el pedido.
* products_total: Monto total en el momento de la compra en euros (€).
* purchase_total_price: Monto que el mensajero pagó en la tienda en euros (€).
  
2. Antecedentes Los pedidos de socios falsos pueden exhibir discrepancias entre el monto total en el momento de la compra (products_total) y el monto que el mensajero paga en la tienda (purchase_total_price). Cuando products_total es menor que purchase_total_price, los clasificamos como "pedidos no autorizados suficientemente". Entender estas discrepancias es crucial para la transición de cobro contra entrega a un modelo de autorización y captura.

3. Preguntas Clave Durante este proceso de Análisis Exploratorio de Datos (EDA), apuntamos a responder las siguientes preguntas:

A. ¿Qué porcentaje de pedidos no están suficientemente autorizados?
B. ¿Qué porcentaje de pedidos estarían correctamente autorizados con una autorización incremental del 20% sobre el monto en el momento de la compra?
C. ¿Existen diferencias en los porcentajes anteriores cuando se dividen por país?
D. Para los pedidos restantes fuera de la autorización incremental, ¿qué valores serían necesarios para capturar el monto restante?
E. ¿Cuáles son las tiendas más problemáticas en términos de pedidos y valor monetario?
F. Para los pedidos no autorizados suficientemente, ¿existe una correlación entre la diferencia de precio y las cancelaciones de pedidos? En otras palabras, ¿es más probable que un pedido sea cancelado a medida que aumenta la diferencia de precio?

A través de este análisis, apuntamos a obtener insights sobre las fluctuaciones de precios de pedidos pasados y evaluar el riesgo asociado con la transición a un nuevo modelo de autorización.

¡Sumérgete en el conjunto de datos y comienza a explorar!

In [1]:
import pandas as pd

In [2]:
# Load the dataset
df = pd.read_csv("./fake_orders_test.csv")

In [3]:
df

Unnamed: 0,33557880,2019-03-10 23:59:59.000000,AR,14200,DeliveredStatus,PAID,1,4.54,8.64
0,33512615,2019-03-10 23:58:32.000000,TR,28725,DeliveredStatus,PAID,1,3.76,3.76
1,33512451,2019-03-10 23:57:56.000000,TR,28725,DeliveredStatus,PAID,1,2.86,2.86
2,33530892,2019-03-10 23:57:33.000000,ES,19777,CanceledStatus,PAID,1,12.95,0.00
3,33557765,2019-03-10 23:57:21.000000,AR,34565,DeliveredStatus,PAID,2,2.86,6.48
4,33512273,2019-03-10 23:57:13.000000,TR,63536,DeliveredStatus,PAID,4,1.88,1.96
...,...,...,...,...,...,...,...,...,...
60394,31960607,2019-03-01 00:04:31.000000,TR,68820,DeliveredStatus,PAID,2,10.17,10.33
60395,32002079,2019-03-01 00:03:53.000000,AR,50175,CanceledStatus,PAID,1,3.80,0.00
60396,32002046,2019-03-01 00:03:06.000000,AR,55159,DeliveredStatus,PAID,1,4.24,4.91
60397,32001950,2019-03-01 00:01:01.000000,AR,62504,CanceledStatus,PAID,1,4.91,0.00


In [4]:
columns = ['order_id', 'activation_time_local','country_code','store_address','final_status','payment_status','products','products_total','purchase_total_price']
df.columns = columns

In [5]:
df

Unnamed: 0,order_id,activation_time_local,country_code,store_address,final_status,payment_status,products,products_total,purchase_total_price
0,33512615,2019-03-10 23:58:32.000000,TR,28725,DeliveredStatus,PAID,1,3.76,3.76
1,33512451,2019-03-10 23:57:56.000000,TR,28725,DeliveredStatus,PAID,1,2.86,2.86
2,33530892,2019-03-10 23:57:33.000000,ES,19777,CanceledStatus,PAID,1,12.95,0.00
3,33557765,2019-03-10 23:57:21.000000,AR,34565,DeliveredStatus,PAID,2,2.86,6.48
4,33512273,2019-03-10 23:57:13.000000,TR,63536,DeliveredStatus,PAID,4,1.88,1.96
...,...,...,...,...,...,...,...,...,...
60394,31960607,2019-03-01 00:04:31.000000,TR,68820,DeliveredStatus,PAID,2,10.17,10.33
60395,32002079,2019-03-01 00:03:53.000000,AR,50175,CanceledStatus,PAID,1,3.80,0.00
60396,32002046,2019-03-01 00:03:06.000000,AR,55159,DeliveredStatus,PAID,1,4.24,4.91
60397,32001950,2019-03-01 00:01:01.000000,AR,62504,CanceledStatus,PAID,1,4.91,0.00


In [6]:
df.set_index('order_id', inplace = True)

In [7]:
df.head()

Unnamed: 0_level_0,activation_time_local,country_code,store_address,final_status,payment_status,products,products_total,purchase_total_price
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
33512615,2019-03-10 23:58:32.000000,TR,28725,DeliveredStatus,PAID,1,3.76,3.76
33512451,2019-03-10 23:57:56.000000,TR,28725,DeliveredStatus,PAID,1,2.86,2.86
33530892,2019-03-10 23:57:33.000000,ES,19777,CanceledStatus,PAID,1,12.95,0.0
33557765,2019-03-10 23:57:21.000000,AR,34565,DeliveredStatus,PAID,2,2.86,6.48
33512273,2019-03-10 23:57:13.000000,TR,63536,DeliveredStatus,PAID,4,1.88,1.96


In [8]:
df['discrepancies'] = 'orders not sufficiently authorized'
df.loc[df['products_total'] >= df['purchase_total_price'], 'discrepancies'] = 'sufficiently authorized orders'

In [9]:
df

Unnamed: 0_level_0,activation_time_local,country_code,store_address,final_status,payment_status,products,products_total,purchase_total_price,discrepancies
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
33512615,2019-03-10 23:58:32.000000,TR,28725,DeliveredStatus,PAID,1,3.76,3.76,sufficiently authorized orders
33512451,2019-03-10 23:57:56.000000,TR,28725,DeliveredStatus,PAID,1,2.86,2.86,sufficiently authorized orders
33530892,2019-03-10 23:57:33.000000,ES,19777,CanceledStatus,PAID,1,12.95,0.00,sufficiently authorized orders
33557765,2019-03-10 23:57:21.000000,AR,34565,DeliveredStatus,PAID,2,2.86,6.48,orders not sufficiently authorized
33512273,2019-03-10 23:57:13.000000,TR,63536,DeliveredStatus,PAID,4,1.88,1.96,orders not sufficiently authorized
...,...,...,...,...,...,...,...,...,...
31960607,2019-03-01 00:04:31.000000,TR,68820,DeliveredStatus,PAID,2,10.17,10.33,orders not sufficiently authorized
32002079,2019-03-01 00:03:53.000000,AR,50175,CanceledStatus,PAID,1,3.80,0.00,sufficiently authorized orders
32002046,2019-03-01 00:03:06.000000,AR,55159,DeliveredStatus,PAID,1,4.24,4.91,orders not sufficiently authorized
32001950,2019-03-01 00:01:01.000000,AR,62504,CanceledStatus,PAID,1,4.91,0.00,sufficiently authorized orders


In [10]:
# A. ¿Qué porcentaje de pedidos no están suficientemente autorizados?
# Calculamos el total de pedidos
total_orders = len(df)
# Calculamos numero de no autorizados
not_autorized_order = df['discrepancies'].value_counts()['orders not sufficiently authorized']
# Calculamos porcentaje
not_autorized_order / total_orders * 100

57.58373483004685

In [11]:
# B. ¿Qué porcentaje de pedidos estarían correctamente autorizados con una autorización incremental del 20% sobre el monto en el momento de la compra?
# Creamos una columan con el monto total incremetado a 20%
df['increment_20'] = df['products_total'] * 1.20

# Calculamos las discrepancias
df['discrepancies'] = 'orders not sufficiently authorized'
df.loc[df['increment_20'] >= df['purchase_total_price'], 'discrepancies'] = 'sufficiently authorized orders'


# Calculamos numero de no autorizados ahora con los montos incremetados
not_autorized_order = df['discrepancies'].value_counts()['orders not sufficiently authorized']
# Calculamos porcentaje
not_autorized_order / total_orders * 100

30.964088809417373

In [12]:
# C.¿Existen diferencias en los porcentajes anteriores cuando se dividen por país?
