In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

## Closed_deals

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Closed_deals = pd.read_csv('Datasets_original/olist_closed_deals_dataset.csv')
Closed_deals.sample(10)

In [None]:
# tamaño del dataset
Closed_deals.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Closed_deals.info()

In [None]:
# descripcion de las columnas numéricas
Closed_deals.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariciones
Closed_deals.describe(include=['O'])

In [None]:
# cuantos datos nulos por columna se encuentran
valores=Closed_deals.isna().sum().sort_values(ascending=False)*100/Closed_deals.shape[0]
sns.set(style="darkgrid")
sns.set(rc={'figure.figsize':(15,8)})

# Establecer los datos
ax = sns.barplot(x=valores.index, y=valores)

# Establecer etiquetas
ax.set_ylabel('Porcentaje Nulos')
plt.xticks(rotation=45,ha='right')

ax.set_ylim(top=valores.max())

for p in ax.patches:
    ax.annotate(str(np.round(p.get_height(),decimals=1))+" %", 
                (p.get_x()+p.get_width()/2., p.get_height()), 
                ha='center', 
                va='center', 
                xytext=(0, 10), 
                textcoords='offset points',
                fontsize = 10
               )

# Mostrar la gráfica
plt.show()

- De un total de 842 registros las columnas has_company, has_gtin, average_stock y declared_product_catalog_size tiene mas del 90 % de sus datos faltantes
- Esta tabla no aporta datos muy relevantes

## Customers

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Customers = pd.read_csv('Datasets_original/olist_customers_dataset.csv')
Customers.sample(10)

In [None]:
# tamaño del dataset
Customers.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Customers.info()

In [None]:
# descripcion de las columnas numéricas 
Customers.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Customers.describe(include=['O'])

In [None]:
#15 ciudades con mayor cantidad de clientes
val=Cantidad_por_ciudad=Customers.groupby(["customer_city"]).count().sort_values(by=["customer_id"],ascending=False).drop_duplicates("customer_id")["customer_id"].head(15)
plot = val.plot.pie(ylabel="",subplots=True, figsize=(20, 10),autopct='%1.1f%%')

- Analizando Customers faltan datos de customers_unique_id que no hay referencia de como fueron creados esos codigos
- Esta tabla se puede utilizar para saber de qué ciudades provienen los consumos

## Geolocation

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Geolocation = pd.read_csv('Datasets_original/olist_geolocation_dataset.csv')
Geolocation.sample(10)

In [None]:
# tamaño del dataset
Geolocation.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Geolocation.info()

In [None]:
# descripcion de las columnas numéricas
Geolocation.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Geolocation.describe(include=['O'])

- Esta tabla puede servir para ubicar las ciudades correctamente en objeto mapa del Dashboard.

## Marketing

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Marketing = pd.read_csv('Datasets_original/olist_marketing_qualified_leads_dataset.csv')
Marketing.sample(10)

In [None]:
# tamaño del dataset
Marketing.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Marketing.info()

In [None]:
# descripcion de las columnas numéricas
Marketing.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Marketing.describe(include=['O'])

In [None]:
# cuantos datos nulos por columna se encuentran
Marketing.isna().sum()*100/Marketing.shape[0]

- Esta tabla no aporta datos significativos para el análisis que queremos realizar

## Order_items

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Order_items = pd.read_csv('Datasets_original/olist_order_items_dataset.csv')
Order_items.sample(10)

In [None]:
# tamaño del dataset
Order_items.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Order_items.info()

In [None]:
# descripcion de las columnas numéricas
Order_items.describe()

In [None]:
# Detección de outliers
sns.boxplot(x=Order_items.price)

In [None]:
# Rango intercuartil
IQR = Order_items.price.quantile(0.75) - Order_items.price.quantile(0.25)
lower_lim = Order_items.price.quantile(0.25) - 2.5 * IQR
upper_lim = Order_items.price.quantile(0.75) + 2.5 * IQR
outliers_low = Order_items.price < lower_lim
outliers_up = Order_items.price > upper_lim
print("Total de outliers:",(len(Order_items.price[outliers_low]) + len(Order_items.price[outliers_up])))
Order_items[~(outliers_low | outliers_up)].shape

In [None]:
# Z-Score
z = np.abs(stats.zscore(Order_items.price))
outliers = Order_items.price[(z > 3)].index
print("Total de outliers:", len(outliers))
Order_items.drop(outliers).shape

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Order_items.describe(include=['O'])

In [None]:
# Revisión de la columna order_item_id; expresa la cantidad incremental de artículos presentes en una misma orden
Order_items[['order_id', 'order_item_id']].groupby(['order_id']).count().sort_values('order_item_id', ascending=False)

In [None]:
# Revisión de la columna product_id; cuál es el producto más vendido
Order_items[['order_id','product_id']].groupby(['product_id']).count().sort_values('order_id', ascending=False)

In [None]:
# Revisión de la columna product_id; cuánto facturó el producto más vendido
Order_items[['price','product_id']].groupby(['product_id']).sum().sort_values('price', ascending=False)

In [None]:
# Revisión de la columna seller_id; cuál es el vendedor con más órdenes
Order_items[['order_id','seller_id']].groupby(['seller_id']).count().sort_values('order_id', ascending=False)

In [None]:
# Revisión de la columna seller_id; cuánto sumaron las órdenes de cada vendedor
Order_items[['price','seller_id']].groupby(['seller_id']).sum().sort_values('price', ascending=False)

## Order_payments

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Order_payments = pd.read_csv('Datasets_original/olist_order_payments_dataset.csv')

In [None]:
Order_payments.sample(10)

In [None]:
# tamaño del dataset
Order_payments.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Order_payments.info()

In [None]:
# descripcion de las columnas numéricas
Order_payments.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Order_payments.describe(include=['O'])

- El comportamiento de los pagos. La utilidad dependerá de la propuesta del PO

## Order_reviews

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Order_reviews = pd.read_csv('Datasets_original/olist_order_reviews_dataset.csv')
Order_reviews.sample(10)

In [None]:
# tamaño del dataset
Order_reviews.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Order_reviews.info()

In [None]:
# descripcion de las columnas numéricas
Order_reviews.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Order_reviews.describe(include=['O'])

In [None]:
# cuantos datos nulos por columna se encuentran
Order_reviews.isna().sum()*100/Order_reviews.shape[0]

In [None]:
val=Order_reviews.review_score.value_counts()
plot = val.plot.pie(subplots=True, figsize=(20, 10),autopct='%1.1f%%')

- La utilidad de esta tabla dependerá del objetivo propuesto.

## Orders

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Orders = pd.read_csv('Datasets_original/olist_orders_dataset.csv')
Orders.sample(10)

In [None]:
#En la columna orders se puede agregar una nueva columna que contenga la cantidad de dias entre
#la aprobacion de una compra y su entrega al cliente.

Orders['Tiempo_entrega'] = pd.to_datetime(Orders["order_approved_at"]) - pd.to_datetime(Orders['order_delivered_customer_date'])

#Transformar los valores a solo días
Orders['Tiempo_entrega'] = Orders['Tiempo_entrega'].apply(lambda x: x.days + (x.seconds // 86400)) 

In [None]:
# tamaño del dataset
Orders.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Orders.info()

In [None]:
# descripcion de las columnas numéricas
Orders.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Orders.describe(include=['O'])

In [None]:
# cuantos datos nulos por columna se encuentran
valores=Orders.isna().sum()*100/Orders.shape[0]

sns.set(style="darkgrid")
sns.set(rc={'figure.figsize':(15,5)})

# Establecer los datos
ax = sns.barplot(x=valores.index, y=valores)

# Establecer etiquetas
ax.set_ylabel('Porcentaje Nulos')
plt.xticks(rotation=45,ha='right')

ax.set_ylim(top=valores.max())

for p in ax.patches:
    ax.annotate(str(np.round(p.get_height(),decimals=1))+" %", 
                (p.get_x()+p.get_width()/2., p.get_height()), 
                ha='center', 
                va='center', 
                xytext=(0, 10), 
                textcoords='offset points',
                fontsize = 10
               )

# Mostrar la gráfica
plt.show()

- La utilidad de esta tabla dependerá del objetivo.

## Products

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Products = pd.read_csv('Datasets_original/olist_products_dataset.csv')
Products.sample(10)

In [None]:
# tamaño del dataset
Products.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Products.info()

In [None]:
# descripcion de las columnas numéricas
Products.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Products.describe(include=['O'])

In [None]:
# cuantos datos nulos por columna se encuentran
valores=Products.isna().sum()*100/Products.shape[0]
sns.set(style="darkgrid")
sns.set(rc={'figure.figsize':(12,5)})

# Establecer los datos
ax = sns.barplot(x=valores.index, y=valores)

# Establecer etiquetas
ax.set_ylabel('Porcentaje Nulos')
plt.xticks(rotation=45,ha='right')

ax.set_ylim(top=valores.max())

for p in ax.patches:
    ax.annotate(str(np.round(p.get_height(),decimals=1))+" %", 
                (p.get_x()+p.get_width()/2., p.get_height()), 
                ha='center', 
                va='center', 
                xytext=(0, 10), 
                textcoords='offset points',
                fontsize = 10
               )

# Mostrar la gráfica
plt.show()

- La utilidad de esta tabla dependerá del objetivo.

## Sellers

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Sellers = pd.read_csv('Datasets_original/olist_sellers_dataset.csv')
Sellers.sample(10)

In [None]:
# tamaño del dataset
Sellers.shape

In [None]:
# revisamos la distribución de las ciudades (mejor con un gráfico)
Sellers.seller_city.value_counts()

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Sellers.info()

In [None]:
# descripcion de las columnas numéricas
Sellers.describe()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Sellers.describe(include=['O'])

In [None]:
# Revisamos uniendo las tablas, cuál es la ciudad con mayor cantidad de órdenes
val=Sellers.merge(Order_items)[['seller_city','order_id']].groupby(['seller_city']).count().sort_values('order_id', ascending=False).head(15)

plot = val.plot.pie(subplots=True, figsize=(20, 10),autopct='%1.1f%%')

In [None]:
# Revisamos uniendo las tablas, cuál es la ciudad con el monto mayor en ventas
val=Sellers.merge(Order_items)[['seller_city','price']].groupby(['seller_city']).sum().sort_values('price', ascending=False).head(15)
plot = val.plot.pie(subplots=True, figsize=(20, 10),autopct='%1.1f%%')

In [None]:
# Revisamos uniendo las tablas, cuál es la provincia con mayor cantidad de órdenes
val=Sellers.merge(Order_items)[['seller_state','order_id']].groupby(['seller_state']).count().sort_values('order_id', ascending=False).head()

plot = val.plot.pie(subplots=True, figsize=(20, 10),autopct='%1.1f%%')

## Product_category_name_translation

In [None]:
# carga del dataset y muestreo de 10 registros aleatorios
Product_category_name_translation = pd.read_csv('Datasets_original/product_category_name_translation.csv')
Product_category_name_translation.sample(10)

In [None]:
# tamaño del dataset
Product_category_name_translation.shape

In [None]:
# tipo de datos, no nulos y cantidad de registros para cada columna
Product_category_name_translation.info()

In [None]:
# como se comportan las variables categóricas-- count=cantidad, unique=registros unicos, top=mas veces registrado, freq=frecuencia de los registros con mas aparariociones
Product_category_name_translation.describe(include=['O'])

## Combinacion de datasets y creacion de matriz de correlacion

In [None]:
datasets_combinados=Orders.merge(Order_reviews,on="order_id")
datasets_combinados=datasets_combinados.merge(Order_payments,on="order_id")
datasets_combinados=datasets_combinados.merge(Order_items,on="order_id")
datasets_combinados=datasets_combinados.merge(Sellers,on="seller_id")
datasets_combinados=datasets_combinados.merge(Closed_deals,on="seller_id",how="left")

In [None]:
#Lista de columnas a las que se le aplica label encoder
list_columns = datasets_combinados.select_dtypes(include='object').columns


from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

#Se aplica label encoder a todas las columnas
for col in list_columns:
    datasets_combinados[col] = le.fit_transform(datasets_combinados[col])

In [None]:
#Se arma otro grafico solo con la columna que se quiere evaluar
corr=datasets_combinados.drop(["declared_monthly_revenue","declared_product_catalog_size"],axis=1).corr()
corr=corr.sort_values(by="review_score",ascending=False)[["review_score"]]
sns.set(rc={'figure.figsize':(20,20)})
sns.heatmap(corr,annot=True,vmin=-1,vmax=+1)

## Tabla valoración vendedor

Armaremos una tabla que nos permita darle una valoración a cada vendedor, basado en diferentes unidades:

- Location (?)
- Amount of distinct products
- Type of products (?)
- Time to fill order
- Review score
- Number of orders
- Number of sales
- Gross income
- Net income

In [None]:
datasets_combinados=Orders.merge(Order_reviews,on="order_id")
datasets_combinados=datasets_combinados.merge(Order_payments,on="order_id")
datasets_combinados=datasets_combinados.merge(Order_items,on="order_id")
datasets_combinados=datasets_combinados.merge(Sellers,on="seller_id")
datasets_combinados=datasets_combinados.merge(Products,on="product_id")

In [None]:
datasets_combinados.head()

In [None]:
datasets_combinados["Month"] = pd.DatetimeIndex(datasets_combinados["order_approved_at"]).month
datasets_combinados["Year"] = pd.DatetimeIndex(datasets_combinados["order_approved_at"]).year

datasets_combinados['avg_price_month'] = datasets_combinados.groupby(['seller_id','Month',"Year"])['price'].transform('mean')


In [None]:
# Se seleccionan columnas con ID para modificar
columnas = [0,1,9,19,20,21]
datasets_combinados.columns

In [None]:
#Se aplica label encoder a las columnas de ID
for col in columnas:
    datasets_combinados[datasets_combinados.columns[col]] = le.fit_transform(datasets_combinados[datasets_combinados.columns[col]])

In [None]:
Valoracion = pd.DataFrame(columns=['seller_id'])

In [None]:
Valoracion.seller_id = datasets_combinados.seller_id.unique()
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'seller_city']].groupby(['seller_id']).max(), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'seller_state']].groupby(['seller_id']).max(), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'product_id']].groupby(['seller_id']).count(), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'product_category_name']].groupby(['seller_id']).nunique(), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'Tiempo_entrega']].groupby(['seller_id']).mean().round(2), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'review_score']].groupby(['seller_id']).mean().round(2), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'order_id']].groupby(['seller_id']).count(), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'price']].groupby(['seller_id']).sum(), on= 'seller_id')
Valoracion = Valoracion.merge(datasets_combinados[['seller_id', 'avg_price_month']].groupby("seller_id").mean().reset_index().round(2), on= 'seller_id')

In [None]:
Valoracion.drop_duplicates(inplace=True)

In [None]:
Valoracion.rename({'product_id':'distinct_prod', 'Tiempo_entrega':'delivery_avg', 'product_category_name':'distinct_categories',\
                   'review_score':'review_avg', 'order_id':'total_orders', 'price':'total_income'}, axis=1, inplace=True)

In [None]:
Valoracion

In [None]:
Valoracion.info()

In [None]:
Valoracion.to_csv('Datasets_resultantes\Valoraciones.csv')