In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import gdown
from wordcloud import WordCloud, STOPWORDS
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix, classification_report
import string
import os

In [None]:
url = 'https://drive.google.com/file/d/1O7CqasWnb7o7sJNypfUZ4z1D4AzTGEuD/view?usp=sharing'
file_name = 'Pakistan Largest Ecommerce Dataset.csv'

def download_file(fileid, file):
    if os.path.exists(file):
        print(f"El dataset {file} ya existe en el directorio")
    else:
        print(f"Descargando {file}...")
        gdown.download(fileid, file, quiet=False, fuzzy=True)
        print(f"{file} descargado exitosamente")

download_file(url, file_name)

In [None]:
df = pd.read_csv(file_name)
df.head()

In [None]:
#Dado que la exploración inicial con pandas muestra 5 columnas que en verdad no existen en el dataset original, procederemos a borrar
deleteCols =  ['Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25']
new_df = df.drop(columns = deleteCols)

In [None]:
new_df.head()

In [None]:
new_df.info()

print('\n\nCantidad de filas y columnas de datos')
new_df.shape

Estadísticas descriptivas de datos numéricos

In [None]:
new_df['price'].describe()

In [None]:
new_df['qty_ordered'].describe()

In [None]:
new_df['grand_total'].describe()

In [None]:
new_df['discount_amount'].describe()

Visualización de Datos Relevantes acerca de las ventas

In [None]:
#Contabilizamos categorías para posteriormente mostrar las que más ordenes tienen
category_counts = new_df['category_name_1'].value_counts().sort_index()
category_counts.head()

In [None]:
#Para poder visualizar todos los estados de órdenes
orders_status_count =new_df['status'].value_counts().sort_index()
orders_status_count.head()

In [None]:
#Gráfico de barras con dimensiones 10 x 6
plt.figure(figsize=(10, 6))
catbar = plt.bar(category_counts.index, category_counts.values, color = 'blue')
plt.title('Las categorías que más vendieron entre 2016 y 2018')
plt.xlabel('Categoría')
plt.ylabel('Conteo')
plt.xticks(rotation=45, ha='right')

#Declaramos una función que nos permite visualizar valores para cada categoría
def get_yval(graphs):
    for graph in graphs:
        y_values = graph.get_height()
        plt.text(graph.get_x() + graph.get_width()/2, y_values + 0.1, int(y_values), ha='center', va='bottom')

get_yval(catbar)

Veremos las tendencias de ventas en correspondencia con el mes de cada año

In [None]:
#Usaremos la fecha original "Working Date" convirtiendola a fecha
new_df['Working Date'] = pd.to_datetime(new_df['Working Date'])

#Extraemos el mes
new_df['Month'] = new_df['Working Date'].dt.to_period('M')

#Frecuencia de registros de órdenes
bymonth_orders = new_df.groupby('Month').size()

plt.figure(figsize=(14, 6))
plt.plot(bymonth_orders.index.astype(str), bymonth_orders.values, marker='o', linestyle='-', color='b')
plt.title('Frecuencia de Órdenes por Mes')
plt.xlabel('Mes por año (Julio 2016 a Agosto 2018')
plt.ylabel('Conteo de órdenes')
plt.xticks(rotation=45, ha='right')
plt.grid(True)

In [None]:
#Para poder contabilizar métodos de pago por cada orden

payment_methods_count =new_df['payment_method'].value_counts().sort_index()
payment_methods_count.head()

In [None]:
plt.figure(figsize=(10, 6))
payments_bar = plt.bar(payment_methods_count.index, payment_methods_count.values, color='green')
plt.title('Métodos de pago por órdenes')
plt.xlabel('Método de Pago')
plt.ylabel('Conteo de órdenes')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y')

get_yval(payments_bar)

In [None]:
#Conteo de los estatus de órdenes
status_counts = new_df['status'].value_counts()

plt.figure(figsize=(14, 6))
bargraph = plt.bar(status_counts.index, status_counts.values, color = 'blue')
plt.title('Estados de Órdenes')
plt.xlabel('Estado de Orden')
plt.ylabel('Counts')
plt.xticks(rotation=45, ha='right')

get_yval(bargraph)

Las tendencias y patrones en datos: Segmentación de clientes por medio del RFM

Recencia, Frecuencia y Valor monetario

Dado que nuestro dataset nos proporciona detalles del registro de órdenes, podemos segmentar clientes en 

1. Clientes Recientes
2. Clientes Frecuentes
3. Clientes de Alto Valor monetario

In [None]:
#Para realizar dicho análisis tomaremos como referencia el ID del cliente, la fecha de creación de la orden y el monto total de dicha orden
new_df['created_at'] = pd.to_datetime(new_df['created_at'])

"""
Si requerimos de una fecha reciente como referencia, tomaremos en cuenta que estos datos abarcan hasta agosto de 2018, por lo tanto
Definiremos una recencia del 01-07-2018
"""

recency_reference = pd.to_datetime('2018-07-01')

In [None]:
rfm = new_df.groupby('Customer ID').agg({
    'created_at': lambda x: (recency_reference - x.max()).days,
    'grand_total': ['sum', 'count'] })

rfm.columns = ['Recency', 'Monetary', 'Frequency']
rfm = rfm.reset_index()

In [None]:
#Creamos los scores que definen y puntúan a cada tipo de cliente, del 1 al 4

rfm['R_score'] = pd.qcut(rfm['Recency'], 4, labels=[4, 3, 2, 1])
rfm['F_score'] = pd.qcut(rfm['Frequency'].rank(method="first"), 4, labels=[1, 2, 3, 4])
rfm['M_score'] = pd.qcut(rfm['Monetary'], 4, labels=[1, 2, 3, 4])

#Unificamos los 3 scores
rfm['RFM_score'] = rfm['R_score'].astype(str) + rfm['F_score'].astype(str) + rfm['M_score'].astype(str)

In [None]:
def segments(df):
    if df['RFM_score'] >= '344':
        return 'Clientes Valiosos'
    elif df['RFM_score'] >= '244':
        return 'Clientes Frecuentes'
    elif df['RFM_score'] >= '144':
        return 'Clientes Recientes'
    else:
        return 'Clientes de Riesgo'

rfm['Segment'] = rfm.apply(segments, axis = 1)

Clasificación definida:

1. Clientes Valiosos: Alta frecuencia y valor monetario
2. Clientes Frecuentes: No gastan mucho pero compraron recientemente
3. Clientes Recientes: Clientes que compraron recientemente pero no compran seguido
4. Clientes de Riesgo: Tienen puntajes bajos en las tres métricas

In [None]:
#Visualización de segmentos
segments_count = rfm['Segment'].value_counts()

segment_percentages = segments_count / segments_count.sum() * 100

plt.figure(figsize=(14,10))
segments_bar = plt.bar(segments_count.index, segments_count.values, color='blue')
plt.title('Distribución en segmentos de clientes identificados')
plt.xlabel('Segmento')
plt.ylabel('Conteo de clientes')

for i, bar in enumerate(segments_bar):
    count = segments_count.values[i]
    percent = segment_percentages.values[i]
    plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height() + 0.3, 
             f'{count} ({percent:.1f}%)', ha='center', va='bottom', fontsize=11)

Correlaciones entre:

Categorías de órdenes y las fechas en las que se emiten.

In [None]:
new_df['order_datetime'] = pd.to_datetime(new_df['created_at'])
category_date_counts = new_df.groupby([new_df['order_datetime'].dt.to_period('M'), 'category_name_1']).size().unstack(fill_value=0)

category_date_counts.plot(kind='line', figsize=(10, 6))
plt.title('Frecuencia de Órdenes por Categoría y Fecha')
plt.xlabel('Fecha')
plt.ylabel('Cantidad de órdenes')
plt.legend(title='Categoría')

Agrupación de Métodos de pago y Estado de Orden

In [None]:
status_payment_counts = new_df.groupby(['payment_method', 'status']).size().unstack(fill_value=0)

plt.figure(figsize=(14, 12))
status_payment_counts.plot(kind='bar', stacked=True, figsize=(10, 6))
plt.title('Método de Pago vs Estado de Orden')
plt.xlabel('Método de Pago')
plt.ylabel('Número de Pedidos')
plt.legend(title='Estado de Orden')
plt.xticks(rotation=45)