# I. Business understanting

## I.1. Avaliar a situação

**1. Descrição do problema de negócio**

A InStyle é uma das maiores lojas de roupas dos Estados Unidos que **passa por problemas de customer experience** ou experiência do cliente.
    
O grande desafio de escalar o faturamento de uma loja é **manter a qualidade do produto e a taxa de satisfação do cliente em alta**.
    
À medida que a empresa alcance mais clientes, **os processos internos** de vendas que começa com a concepção do produto, passam pela divulgação do marketing e chegam até os sistemas de pagamento do financeiro **começam a apresentar problemas**.
    
O time de produtos tem dificuldade em determinar a necessidade da maioria dos clientes. O time de marketing enfrente desafios para determinar o cliente ideal e o time de desenvolvimento sofre com os grandes volumes de acessos no site e em seu aplicativo, causando quedas de sistema e tornando o site inoperante por algumas horas, impedindo as pessoas de comprar e assim, **gerando muitas reclamações no atendimento**, liderado pelo time de customer experience.
    
Portanto, a medição da satisfação dos clientes é extremamente importante para a empresa manter a boa reputação no mercado.

**2. Contexto do problema**
    
A empresa é uma das maiores lojas de roupas dos Estados Unidos e está experimentando um notável crescimento. Esta **escalada traz consigo desafios para manter a qualidade do produto e a satisfação do cliente em níveis elevados.**

**3. Identificar o ponto verdadeiro ponto focal / público alvo**
    
O time de customer experience desempenha um papel crucial como guardião da boa reputação da empresa, sendo responsável por monitorar métricas de desempenho relacionadas à satisfação do cliente. Diante disso, o projeto será iniciado com um enfoque voltado à perspectiva dessa equipe.

## I.2. Determinar o objetivo do negócio

**1. Por que é importante para o negócio?**

A medição da satisfação dos clientes é extremamente importante para a empresa na totalidade. Pois, permite entender as necessidades dos clientes, suas expectativas e desafios internos para fornecer soluções que atendam às suas demandas.

**2. Quais são as dores / desafio / problema atual?**

O time de produtos tem dificuldade em determinar a necessidade da maioria dos clientes. O time de marketing enfrente desafios para determinar o cliente ideal e o time de desenvolvimento sofre com os grandes volumes de acessos no site e em seu aplicativo, causando quedas de sistema e tornando o site inoperante por algumas horas, impedindo as pessoas de comprar e assim, gerando muitas reclamações no atendimento, liderado pelo time de customer experience.

**3. Quais são os resultados esperados? Quais as principais consequências esperadas?**

O objetivo principal do projeto é **desenvolver um algoritmo de previsão de satisfação do cliente e fornecer informações valiosas ao time de customer experience**, permitindo-lhes analisar e compreender como a empresa pode aprimorar seus produtos, serviços e processos internos. 

Os próximos passos são: priorizar as melhorias e acompanhar os demais times em suas respectivas necessidades.

## I.3. Produzir o plano do projeto

**1. Saída**

Algoritmo de previsão de satisfação do cliente e possíveis insigths.

**2. Processo**

- Utilizar o framework CRISP-DM como passso a passo.
- Tabela de satisfação dos clientes;
- Gráficos de visualização.

**3. Entrada**

- Fonte de dados: [kaggle](https://www.kaggle.com/competitions/instyle-nps/data);
- Ferramentas: Jupyter.

## I.4. Determinar o objetivo da mineração

**Descrever os cenários**

**Cenário 1: Classificação de clientes em satisfeito ou insatisfeito**

* Dado que o time de Customer Experience possui uma planilha com dados de clientes
* Quando o algoritmo de previsão é executado para classificar os clientes em "Satisfeito" ou "Insatisfeito”
* Então o algoritmo deve atribuir o status de satisfação a cada cliente com **maior precisão**

**Cenário 2: Análise das principais razões de insatisfação**
    
* Dado que o algoritmo identificou os clientes classificados como "Insatisfeito”
* Quando analisamos os principais motivos de insatisfação
* Então deve obter insights sobre os problemas mais recorrentes enfrentados pelos clientes

# 0. IMPORTS

## 0.1. Importing libraries

In [80]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import inflection

## 0.2. Loading data

In [24]:
df_raw = pd.read_csv('../datasets/train.csv')

## 0.3. Helper functions

In [100]:
# Padroniza o nome das colunas
def rename_columns(cols):
    cols = list(map(lambda x: inflection.titleize(x), cols))
    cols = list(map(lambda x: x.replace(" ", ""), cols))
    cols = list(map(lambda x: inflection.underscore(x), cols))
    return cols

# Cria tabela com todas as informações desejadas de estatística descritiva numérica
def num_descriptive_statistical(num_attributes):
    num_desc_stat = df1.describe().T
    num_desc_stat['range']    = pd.DataFrame(num_attributes.apply(lambda x: x.max() - x.min()))
    num_desc_stat['skew']     = pd.DataFrame(num_attributes.apply(lambda x: x.skew()))
    num_desc_stat['kurtosis'] = pd.DataFrame(num_attributes.apply(lambda x: x.kurtosis()))
    return num_desc_stat

# Fazer uma lista das categorias por feature
def list_unique(cat_attributes):
    tab_unique = pd.DataFrame(cat_attributes.nunique())
    tab_unique.columns = ['#']
    tab_unique['categories'] = pd.DataFrame(cat_attributes.apply(lambda x: x.unique()))
    return tab_unique

# 1. DATA DESCRIPTION

In [47]:
df1 = df_raw.copy()

## 1.1. Rename columns

In [48]:
df1.columns = rename_columns(df1.columns)

## 1.2. Data dimension

In [45]:
print('Number of rows: {:,}'.format(df1.shape[0]))
print('Number of cols: {:,}'.format(df1.shape[1]))

Number of rows: 103,904
Number of cols: 24


## 1.3 Data Types

In [34]:
df1.dtypes

id                              int64
gender                         object
customer_type                  object
age                             int64
type_of_purchase               object
store_size                     object
store_distance                  int64
in_store_wifi                   int64
open/close_time_convenient      int64
easy_of_online_shopping         int64
store_location                  int64
toilet_cleaning                 int64
dressing_room                   int64
waiting_room                    int64
kids_entertainment              int64
seller_service                  int64
showroom                        int64
self_store                      int64
purchase_service                int64
store_service                   int64
cleanliness                     int64
carrier_delay_in_minutes        int64
delivery_delay_in_minutes     float64
satisfaction                   object
dtype: object

## 1.4 Check NA

In [49]:
df1.isna().sum()

id                              0
gender                          0
customer_type                   0
age                             0
type_of_purchase                0
store_size                      0
store_distance                  0
in_store_wifi                   0
open/close_time_convenient      0
easy_of_online_shopping         0
store_location                  0
toilet_cleaning                 0
dressing_room                   0
waiting_room                    0
kids_entertainment              0
seller_service                  0
showroom                        0
self_store                      0
purchase_service                0
store_service                   0
cleanliness                     0
carrier_delay_in_minutes        0
delivery_delay_in_minutes     310
satisfaction                    0
dtype: int64

## 1.5. Fillout / Drop NA

In [50]:
# Remove NA's
df1 = df1.dropna()

# Redefine index
df1 = df1.reset_index()

In [51]:
df1.shape

(103594, 25)

## 1.6. Change Types

In [53]:
df1['delivery_delay_in_minutes'] = df1['delivery_delay_in_minutes'].astype(int)
df1.dtypes

index                          int64
id                             int64
gender                        object
customer_type                 object
age                            int64
type_of_purchase              object
store_size                    object
store_distance                 int64
in_store_wifi                  int64
open/close_time_convenient     int64
easy_of_online_shopping        int64
store_location                 int64
toilet_cleaning                int64
dressing_room                  int64
waiting_room                   int64
kids_entertainment             int64
seller_service                 int64
showroom                       int64
self_store                     int64
purchase_service               int64
store_service                  int64
cleanliness                    int64
carrier_delay_in_minutes       int64
delivery_delay_in_minutes      int32
satisfaction                  object
dtype: object

## 1.7 Descriptive Statistical

In [57]:
num_attributes = df1.select_dtypes(include= ['int64', 'int32', 'float64'])
cat_attributes = df1.select_dtypes(exclude= ['int64', 'int32', 'float64'])

### 1.7.1. Numerical attributes

In [None]:
# Medidas de tendência central: Média e mediana
# Medidas de dispersão: Max, min, range, desvio padrão, skewness(assimetria), kurtosis(achatamento)
# Estatística de ordem (em relação a posição): quartis

In [77]:
# Medidas de tendência central, dispersão e de ordem
num_descriptive_statistical(num_attributes)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,range,skew,kurtosis
index,103594.0,51950.102274,29997.914016,0.0,25960.25,51955.5,77924.75,103903.0,103903,-7.5e-05,-1.200168
id,103594.0,64942.428625,37460.816597,1.0,32562.25,64890.0,97370.5,129880.0,129879,0.002057,-1.198112
age,103594.0,39.380466,15.113125,7.0,27.0,40.0,51.0,85.0,78,-0.004306,-0.719227
store_distance,103594.0,1189.325202,997.297235,31.0,414.0,842.0,1743.0,4983.0,4952,1.109886,0.269306
in_store_wifi,103594.0,2.729753,1.327866,0.0,2.0,3.0,4.0,5.0,5,0.040254,-0.846069
open/close_time_convenient,103594.0,3.060081,1.525233,0.0,2.0,3.0,4.0,5.0,5,-0.334391,-1.037919
easy_of_online_shopping,103594.0,2.756984,1.398934,0.0,2.0,3.0,4.0,5.0,5,-0.018138,-0.910294
store_location,103594.0,2.977026,1.277723,0.0,2.0,3.0,4.0,5.0,5,-0.058996,-1.030432
toilet_cleaning,103594.0,3.202126,1.329401,0.0,2.0,3.0,4.0,5.0,5,-0.151277,-1.145431
dressing_room,103594.0,3.250497,1.349433,0.0,2.0,3.0,4.0,5.0,5,-0.453957,-0.701729


### 1.7.2. Categorical attributes

In [None]:
# Quantidade de únicos por feature
# Frequência e porporção
# Tabela de contingência
# Gráficos

In [89]:
# Quantidade de únicos por feature
cat_attributes.nunique()

gender              2
customer_type       2
type_of_purchase    2
store_size          3
satisfaction        2
dtype: int64

In [102]:
# Fazer uma lista das categorias por feature
list_unique(cat_attributes)

Unnamed: 0,#,categories
gender,2,"[Male, Female]"
customer_type,2,"[Loyal Customer, disloyal Customer]"
type_of_purchase,2,"[Personal, Gift]"
store_size,3,"[Small, Large, Medium]"
satisfaction,2,"[Neutral or Dissatisfaction, Satisfied]"


# 2. Feature engineering

In [81]:
df2 = df1.copy()

In [None]:
# Pular por hora

# 3. Filtragem de variáveis

Conforme dito anteriormente, o projeto será iniciado com enfoque na perspectiva do time de customer experience.

Os passos mais importantes para o time de CX são:
- Entender o que faz os clientes se sentirem insatisfeitos;
- Encontrar um bom plano de MVP.

Para isso, vamos separar os tipos de clientes e entender melhor o que eles têm em comum.

In [82]:
df3 = df2.copy()

In [114]:
# Separar os clientes em satisfeitos e insatisfeitos
df_dissatisfaction = df3.loc[df3['satisfaction'] == 'Neutral or Dissatisfaction', :]
df_dissatisfaction

array(['Neutral or Dissatisfaction'], dtype=object)

# 4. Exploratory data analysis

In [115]:
df4 = df_dissatisfaction.copy()