# Proyecto Individual 02

En esta ocasión, se presenta el desarrollo del segundo proyecto individual. 

**El proyecto posee el siguiente contexto**:

La logística es un mercado vital en el mundo globalizado y conectado donde vivimos, coordinar el transporte de toda la cadena de suministros desde donde son producidos los bienes hasta que llegan al cliente final es una tarea compleja, que debe ser planificada y ejecutada correctamente para el funcionamiento del comercio, tanto local como mundial.

Gracias a las nuevas herramientas como el uso de geolocalizadores, registros digitales de entrada/salida de los centros de distribución, distintos medios de transporte terrestres, marítimos y aéreos, además de las herramientas de IoT en toda la cadena de suministro y producción, es posible acumular muchísimos datos, que pueden ser analizados para optimizar los procesos logísticos.


**La consigna tiene la siguiente problemática**:

Somos parte de una empresa de logística que trabaja para un portal importante de E-Commerce, y nuestro Team Leader nos da la tarea de implementar un modelo que nos permita predecir si un envío llegará a tiempo o no, según la información contenida en el dataset puesto a disposición para poder prestar atención y mejor seguimiento a aquellos envíos que pueden llegar a dar problemas.

**Métrica de evaluacion de predicción**:

La evaluacion de este proyecto es mediante la maginutd de la Exhaustividad (Recall) de la matriz de confusión (Confusión Matrix):

$$
Recall = TP / (TP + FN)
$$


Donde TP se refiere a los resultados "Verdaderos positivos" (True Positives) y FN son los "Falsos Negativos" (False Negatives).


**Para el desarrollo de este proyecto se tiene provisto los siguientes archivos**:


- 'E-Commerce_train.xlsx', con 8998 observaciones y 12 dimensiones, incluyendo información sobre si el envío llegó a tiempo o no en el momento del registro.
- 'E-Commerce_test.xlsx', con 2000 observaciones y 11 dimensiones, sin incluir información sobre si el envío llegó a tiempo o no en el momento del registro.

**Descripción de las dimensiones**:

- ID: identificador del registro de orden (valor entero).
- Warehouse_block: Almacén de distribución de donde salió la orden (A a F).
- Mode_of_Shipment: Medio de transporte (Flight, Road, Ship).
- Customer_care_calls: Número de llamadas a atención al cliente que hubo por esa orden. (valores enteros del 2 al 7)
- Customer_rating: Puntaje del cliente (valores enteros 1 al 5).
- Cost_of_the_Product: Costo del producto (valor numérico entero de 96 a 310).
- Prior_purchases: Número de compras previas realizadas por el cliente (valor numérico entero de 2 a 10).
- Product_importance: Nivel de importancia del producto (low, medium, high).
- Gender: Género del comprador (F, M).
- Discount_offered: Porcentaje de descuento ofrecido por esa compra (valor numérico entero de 1 a 65):
- Weight_in_gms: Peso del paquete de la orden, en gramos (valor numérico entero de 1001 a 7846).
- Reached.on.Time_Y.N: Información sobre la llegada del paquete a destino (1 si llegó a tiempo, 0 si no llegó a tiempo).

## Workflow del proyecto

Para este proyecto se desarrollará mediante pasos que nos permitirán crear un modelo predictivo para la entrega de paquetes con los datasets provistos.

Se avanzara de acuerdo a los siguientes pasos:

1. **Exploración de la data**
2. **Preprocesamiento de la data**
3. **Division de entrenamiento/testeo de la data**
4. **Entrenamiento del modelo predictivo**
5. **Aplicacion del modelo predictivo**
6. **Predicción**

## Preprocesamiento de los datos



En la primera parte del proyecto, el objetivo es la exploración

In [161]:
#Importamos las librerias para realizar los ajustes necesarios.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [162]:
#Leemos el archivo "E-Commerce_train.xlsx" con ayuda de pandas
E_train = pd.read_excel(r'C:\Users\Mimar\Desktop\P\2\Datathon\E-Commerce_train.xlsx')
E_train

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms,Reached.on.Time_Y.N
0,1,D,Flight,4,2,177,3,low,F,44,1233,1
1,2,F,Flight,4,5,216,2,low,M,59,3088,1
2,3,A,Flight,2,2,183,4,low,M,48,3374,1
3,4,B,Flight,3,3,176,4,medium,M,10,1177,1
4,5,C,Flight,2,2,184,3,medium,F,46,2484,1
...,...,...,...,...,...,...,...,...,...,...,...,...
8994,8995,D,Ship,3,1,217,3,low,F,1,4177,1
8995,8996,F,Ship,5,3,232,3,medium,M,3,4526,0
8996,8997,A,Ship,4,5,260,3,medium,F,6,4221,0
8997,8998,B,Ship,4,2,184,3,medium,F,5,5931,1


In [163]:
#Buscamos en este dataframe si existen instancias duplicadas.
E_train[E_train.duplicated()]


Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms,Reached.on.Time_Y.N


In [164]:
#Corroboramos la cantidad de datos duplicados
E_train.duplicated().sum()

0

In [165]:
#Corroboramos, con alguna fila al azar de cuadro anterior.

E_train[E_train.ID == 333]

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms,Reached.on.Time_Y.N
332,333,A,Ship,3,5,215,3,medium,F,22,2585,1


In [166]:
#Corroboramos los valores nulos
E_train.isnull().sum()

ID                     0
Warehouse_block        0
Mode_of_Shipment       0
Customer_care_calls    0
Customer_rating        0
Cost_of_the_Product    0
Prior_purchases        0
Product_importance     0
Gender                 0
Discount_offered       0
Weight_in_gms          0
Reached.on.Time_Y.N    0
dtype: int64

In [167]:
#Después de esto, corroboramos el tipo de datos para cada columna
E_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8999 entries, 0 to 8998
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID                   8999 non-null   int64 
 1   Warehouse_block      8999 non-null   object
 2   Mode_of_Shipment     8999 non-null   object
 3   Customer_care_calls  8999 non-null   int64 
 4   Customer_rating      8999 non-null   int64 
 5   Cost_of_the_Product  8999 non-null   int64 
 6   Prior_purchases      8999 non-null   int64 
 7   Product_importance   8999 non-null   object
 8   Gender               8999 non-null   object
 9   Discount_offered     8999 non-null   int64 
 10  Weight_in_gms        8999 non-null   int64 
 11  Reached.on.Time_Y.N  8999 non-null   int64 
dtypes: int64(8), object(4)
memory usage: 843.8+ KB


In [168]:
#Leemos los archivos xlsx en pandas

E_test = pd.read_excel(r'C:\Users\Mimar\Desktop\P\2\Datathon\E-Commerce_test.xlsx')
E_test

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms
0,9000,F,Ship,5,1,189,2,medium,M,10,5248
1,9001,D,Ship,5,3,150,2,high,F,9,4446
2,9002,F,Ship,3,3,200,3,low,M,3,5739
3,9003,A,Ship,5,1,133,2,medium,M,1,4643
4,9004,B,Ship,4,2,260,3,low,M,4,5504
...,...,...,...,...,...,...,...,...,...,...,...
1995,10995,A,Ship,4,1,252,5,medium,F,1,1538
1996,10996,B,Ship,4,1,232,5,medium,F,6,1247
1997,10997,C,Ship,5,4,242,5,low,F,4,1155
1998,10998,F,Ship,5,2,223,6,medium,M,2,1210


In [169]:
#Buscamos en este dataframe si existen instancias duplicadas.
E_test[E_test.duplicated()]


Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms


In [170]:
#Corroboramos, con alguna fila al azar de cuadro anterior.

E_test[E_test.ID == 222]

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms


In [171]:
#Corroboramos la cantidad de datos duplicados
E_test.duplicated().sum()

0

In [172]:
#Corroboramos los valores nulos
E_test.isnull().sum()

ID                     0
Warehouse_block        0
Mode_of_Shipment       0
Customer_care_calls    0
Customer_rating        0
Cost_of_the_Product    0
Prior_purchases        0
Product_importance     0
Gender                 0
Discount_offered       0
Weight_in_gms          0
dtype: int64

In [173]:
#Después de esto, corroboramos el tipo de datos para cada columna
E_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID                   2000 non-null   int64 
 1   Warehouse_block      2000 non-null   object
 2   Mode_of_Shipment     2000 non-null   object
 3   Customer_care_calls  2000 non-null   int64 
 4   Customer_rating      2000 non-null   int64 
 5   Cost_of_the_Product  2000 non-null   int64 
 6   Prior_purchases      2000 non-null   int64 
 7   Product_importance   2000 non-null   object
 8   Gender               2000 non-null   object
 9   Discount_offered     2000 non-null   int64 
 10  Weight_in_gms        2000 non-null   int64 
dtypes: int64(7), object(4)
memory usage: 172.0+ KB


## Transformación de datos de tipo categóricos

In [174]:
#En la data tenemos datos de tipo categoricos, por lo que utilizaremos
#la librería de scikitlearn para aplicar algunas funciones, de preporcesamiento.
from sklearn.preprocessing import LabelEncoder

In [175]:
#Para el preprocesamiento de datos, utilizamos la funcion de LabelEncoder que nos permite
#catalogar las variables categoricas contenidas en las columnas en numeros.
#En este caso llamamos dicha funcion para reducir a numeros las columnas "Warehouse_block",
# "Mode_of_Shipment", "Product_importance" y "Gender".
encoder = LabelEncoder()
E_train['Warehouse_block'] = encoder.fit_transform(E_train['Warehouse_block'])
E_train['Mode_of_Shipment'] = encoder.fit_transform(E_train['Mode_of_Shipment'])
E_train['Product_importance'] = encoder.fit_transform(E_train['Product_importance'])
E_train['Gender'] = encoder.fit_transform(E_train['Gender'])

E_train.head()

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms,Reached.on.Time_Y.N
0,1,3,0,4,2,177,3,1,0,44,1233,1
1,2,4,0,4,5,216,2,1,1,59,3088,1
2,3,0,0,2,2,183,4,1,1,48,3374,1
3,4,1,0,3,3,176,4,2,1,10,1177,1
4,5,2,0,2,2,184,3,2,0,46,2484,1


De modo que nos queda las variables de la siguiente forma:
-Warehouse -> [0=A, 1=B, 2=C, 3=D, 4=E, 5=F]
-Mode_of_shipment -> [0=Flight, 1=Road, 2=Ship]
-Product_importance -> [0=high, 1=low, 2=med]
-Gender -> [0=F,1=M]


Esto nos permite realizar el modelaje de una manera mucho más sencilla.

In [177]:
E_train

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms,Reached.on.Time_Y.N
0,1,3,0,4,2,177,3,1,0,44,1233,1
1,2,4,0,4,5,216,2,1,1,59,3088,1
2,3,0,0,2,2,183,4,1,1,48,3374,1
3,4,1,0,3,3,176,4,2,1,10,1177,1
4,5,2,0,2,2,184,3,2,0,46,2484,1
...,...,...,...,...,...,...,...,...,...,...,...,...
8994,8995,3,2,3,1,217,3,1,0,1,4177,1
8995,8996,4,2,5,3,232,3,2,1,3,4526,0
8996,8997,0,2,4,5,260,3,2,0,6,4221,0
8997,8998,1,2,4,2,184,3,2,0,5,5931,1


In [176]:
#Para el preprocesamiento de datos, utilizamos la funcion de LabelEncoder que nos permite
#catalogar las variables categoricas contenidas en las columnas en numeros.
#En este caso llamamos dicha funcion para reducir a numeros las columnas "Warehouse_block",
# "Mode_of_Shipment", "Product_importance" y "Gender".
encoder = LabelEncoder()
E_test['Warehouse_block'] = encoder.fit_transform(E_test['Warehouse_block'])
E_test['Mode_of_Shipment'] = encoder.fit_transform(E_test['Mode_of_Shipment'])
E_test['Product_importance'] = encoder.fit_transform(E_test['Product_importance'])
E_test['Gender'] = encoder.fit_transform(E_test['Gender'])

E_test.head()

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms
0,9000,4,2,5,1,189,2,2,1,10,5248
1,9001,3,2,5,3,150,2,0,0,9,4446
2,9002,4,2,3,3,200,3,1,1,3,5739
3,9003,0,2,5,1,133,2,2,1,1,4643
4,9004,1,2,4,2,260,3,1,1,4,5504


In [178]:
E_test

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms
0,9000,4,2,5,1,189,2,2,1,10,5248
1,9001,3,2,5,3,150,2,0,0,9,4446
2,9002,4,2,3,3,200,3,1,1,3,5739
3,9003,0,2,5,1,133,2,2,1,1,4643
4,9004,1,2,4,2,260,3,1,1,4,5504
...,...,...,...,...,...,...,...,...,...,...,...
1995,10995,0,2,4,1,252,5,2,0,1,1538
1996,10996,1,2,4,1,232,5,2,0,6,1247
1997,10997,2,2,5,4,242,5,1,0,4,1155
1998,10998,4,2,5,2,223,6,2,1,2,1210


In [179]:
#Revisamos la distribucion de la columa 'Reached.on.Time_Y.N'
E_train['Reached.on.Time_Y.N'].value_counts()

1    5719
0    3280
Name: Reached.on.Time_Y.N, dtype: int64

In [180]:
#Importamos la librería para poder segmentar nuestra informacion y Separamos nuestras variables a entrenar y a testear
from sklearn.model_selection import train_test_split


X = E_train.drop(columns='Reached.on.Time_Y.N', axis=1)
Y = E_train['Reached.on.Time_Y.N']

In [181]:
X

Unnamed: 0,ID,Warehouse_block,Mode_of_Shipment,Customer_care_calls,Customer_rating,Cost_of_the_Product,Prior_purchases,Product_importance,Gender,Discount_offered,Weight_in_gms
0,1,3,0,4,2,177,3,1,0,44,1233
1,2,4,0,4,5,216,2,1,1,59,3088
2,3,0,0,2,2,183,4,1,1,48,3374
3,4,1,0,3,3,176,4,2,1,10,1177
4,5,2,0,2,2,184,3,2,0,46,2484
...,...,...,...,...,...,...,...,...,...,...,...
8994,8995,3,2,3,1,217,3,1,0,1,4177
8995,8996,4,2,5,3,232,3,2,1,3,4526
8996,8997,0,2,4,5,260,3,2,0,6,4221
8997,8998,1,2,4,2,184,3,2,0,5,5931


In [182]:
Y

0       1
1       1
2       1
3       1
4       1
       ..
8994    1
8995    0
8996    0
8997    1
8998    0
Name: Reached.on.Time_Y.N, Length: 8999, dtype: int64

In [None]:
#Separamos la data de entrenamiento y testeo
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.35, random_state=7)

In [None]:
print(X.shape, X_train.shape, X_test.shape)

Ya con esto realizamos el análisis de los datos mediante correlación.

## Análisis de los datos: correlación

In [None]:
#En el archivo test vemos que variables tienen correlacion unas con otras.
corr_df = E_train.corr(method='pearson')


plt.figure(figsize=(8,6))
sns.heatmap(corr_df, annot=True)
plt.show()

In [None]:
# Viendo esta correlación procedemos a designar nuestros valores para entrenamiento (train) 
# y prueba (test)

# Entrenando el modelo

## Regresión lógistica

In [None]:
#Importamos la librería para usar el modelo de regresión linear
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, recall_score

In [None]:
model = LogisticRegression()

In [183]:
#Entrenando el modelo de Regresion logistica con la train data.
#model.fit(X_train, Y_train)
model.fit(X, Y)

# Evaluacion del modelo

In [184]:
# Puntaje de precisión sobre la data de entrenamiento

# X_train_prediction = model.predict(X_train)
# training_data_accuracy = accuracy_score(X_train_prediction, Y_train)

X_train_prediction = model.predict(X)
training_data_accuracy = accuracy_score(X_train_prediction, Y)

In [185]:
print(training_data_accuracy)

0.6836315146127347


In [None]:
# Puntaje de precisión sobre la data de testeo

X_test_prediction = model.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction, Y_test)

In [None]:
print(test_data_accuracy)

# Armando el modelo predictivo

In [186]:

Y_pred = model.predict(E_test)

Y_pred

array([0, 0, 0, ..., 0, 0, 0], dtype=int64)

In [187]:
DataR = pd.DataFrame(Y_pred, columns=["pred"])
DataR

Unnamed: 0,pred
0,0
1,0
2,0
3,0
4,0
...,...
1995,0
1996,0
1997,0
1998,0


In [188]:
unique, counts = np.unique(Y_pred, return_counts=True)
print(dict(zip(unique, counts)))

{0: 1945, 1: 55}


In [None]:
# Matriz de confusión 

from sklearn.metrics import confusion_matrix, classification_report
cm = confusion_matrix(Y_Test, Y_Pred)

fig, ax = plt.subplots(figsize=(12,8))
ax.matshow(cm)
plt.title('Matriz de Confusión', fontsize=20)
plt.ylabel('Etiqueta Verdadera', fontsize=15)
plt.xlabel('Etiqueta Predicha', fontsize=15)
for (i, j), z in np.ndenumerate(cm):
    ax.text(j, i, '{:0.1f}'.format(z), ha='center', va='center')

In [None]:
recall_score(Y_train, Y_pred, average=None)

In [189]:
#Guardando las predicciones en csv
DataR.to_csv('Grayfox9.csv', index=False)