# EDA for Sales

## Setup

In [1]:
import pandas as pd 
import numpy as np 

import matplotlib.pyplot as plt 
import seaborn as sns
import plotly.express as px

## Import Data

In [2]:
holidays = pd.read_csv("../../datasets/holidays_events.csv")
oil = pd.read_csv("../../datasets/oil.csv")
stores = pd.read_csv("../../datasets/stores.csv")
transactions = pd.read_csv("../../datasets/transactions.csv") 

train = pd.read_csv("../../datasets/train.csv")
test = pd.read_csv("../../datasets/test.csv")


holidays["date"] = pd.to_datetime(holidays["date"])
oil["date"] = pd.to_datetime(oil["date"])
transactions["date"] = pd.to_datetime(transactions["date"])

train["date"] = pd.to_datetime(train["date"])
test["date"] = pd.to_datetime(test["date"])

## Exploratory Data Analysis

### Stores.csv

In [3]:
stores

Unnamed: 0,store_nbr,city,state,type,cluster
0,1,Quito,Pichincha,D,13
1,2,Quito,Pichincha,D,13
2,3,Quito,Pichincha,D,8
3,4,Quito,Pichincha,D,9
4,5,Santo Domingo,Santo Domingo de los Tsachilas,D,4
5,6,Quito,Pichincha,D,13
6,7,Quito,Pichincha,D,8
7,8,Quito,Pichincha,D,8
8,9,Quito,Pichincha,B,6
9,10,Quito,Pichincha,C,15


In [4]:
transactions.groupby("store_nbr")["transactions"].sum().reset_index()

Unnamed: 0,store_nbr,transactions
0,1,2553963
1,2,3219901
2,3,5366350
3,4,2519007
4,5,2347877
5,6,3065896
6,7,2995993
7,8,4637971
8,9,3516162
9,10,1652493


In [5]:
temp_stores = stores.merge(transactions.groupby("store_nbr")["transactions"].sum().reset_index(), on="store_nbr")
temp_stores

Unnamed: 0,store_nbr,city,state,type,cluster,transactions
0,1,Quito,Pichincha,D,13,2553963
1,2,Quito,Pichincha,D,13,3219901
2,3,Quito,Pichincha,D,8,5366350
3,4,Quito,Pichincha,D,9,2519007
4,5,Santo Domingo,Santo Domingo de los Tsachilas,D,4,2347877
5,6,Quito,Pichincha,D,13,3065896
6,7,Quito,Pichincha,D,8,2995993
7,8,Quito,Pichincha,D,8,4637971
8,9,Quito,Pichincha,B,6,3516162
9,10,Quito,Pichincha,C,15,1652493


In [6]:
# Store Type Encoder
from sklearn.preprocessing import OrdinalEncoder

store_type_encoder = OrdinalEncoder()
temp_stores["type"] = store_type_encoder.fit_transform(temp_stores[["type"]])
temp_stores.corr(numeric_only=True)["transactions"].sort_values()

type           -0.456709
store_nbr       0.118950
cluster         0.206197
transactions    1.000000
Name: transactions, dtype: float64

In [7]:
# city / state encoding
from sklearn.preprocessing import OneHotEncoder

city_state_encoder = OneHotEncoder(sparse_output=False)

city_state_encoding_result = pd.DataFrame(city_state_encoder.fit_transform(temp_stores[["city", "state"]]), columns=city_state_encoder.get_feature_names_out())
city_state_encoding_result
pd.concat([temp_stores, city_state_encoding_result], axis="columns").corr(numeric_only=True)["transactions"].sort_values(ascending=True)

type                                   -0.456709
state_Manabi                           -0.253255
city_Manta                             -0.234698
state_Guayas                           -0.201399
city_Puyo                              -0.183807
state_Pastaza                          -0.183807
state_Santo Domingo de los Tsachilas   -0.163854
city_Santo Domingo                     -0.163854
city_Guayaquil                         -0.145507
city_Playas                            -0.129969
state_Azuay                            -0.111775
city_Cuenca                            -0.111775
state_Cotopaxi                         -0.105961
city_Latacunga                         -0.105961
city_El Carmen                         -0.101527
state_Santa Elena                      -0.095526
city_Salinas                           -0.095526
state_El Oro                           -0.080287
city_Machala                           -0.080287
city_Libertad                          -0.076609
city_Quevedo        

#### Итоги проверки гипотез

##### Подтвержденные гипотезы 

1. __Проверка связи между продажами магазина и его типом__

    Есть неплохая кореляция между продажами и типом магазина [-0.45], так что явно неплохой атрибут для обучения модели

2. __Проверка связи между продажами магазина и городом/штатом в котором они находятся__
    
    В зависимости от города, в котором находится магазин может наблюдаться хорошая кореляция с продажами, например если взять столицу Кито или нахождение магазина в штате Пичинча. Также некоторые города и штаты дают отрицательную кореляцию, так что в целом как будто бы что то с чем можно работать. Возможно стоит отставить только атрибут, который показывает, находится ли магазин в столице/штатет Пинчинча и может быть еще пару других городов и штатов которые дают неплохую отрицательную кореляцию, но об этом лучше еще подумать чутка

3. __Проверка связи между продажами магазина и его кластером__ 

    Кореляция 0.2 так что в целом непонятно, но теоретически можно взять
