# I. Business understanting

## I.1. Avaliar a situação

**1. Descrição do problema de negócio**

A InStyle é uma das maiores lojas de roupas dos Estados Unidos que passa por problemas de customer experience ou experiência do cliente.
    
O grande desafio de escalar o faturamento de uma loja é manter a qualidade do produto e a taxa de satisfação do cliente em alta.
    
À medida que a empresa alcance mais clientes, os processos internos de vendas que começa com a concepção do produto, passam pela divulgação do marketing e chegam até os sistemas de pagamento do financeiro começam a apresentar problemas.
    
O time de produtos tem dificuldade em determinar a necessidade da maioria dos clientes. O time de marketing enfrente desafios para determinar o cliente ideal e o time de desenvolvimento sofre com os grandes volumes de acessos no site e em seu aplicativo, causando quedas de sistema e tornando o site inoperante por algumas horas, impedindo as pessoas de comprar e assim, gerando muitas reclamações no atendimento, liderado pelo time de customer experience.
    
Portanto, a medição da satisfação dos clientes é extremamente importante para a empresa manter a boa reputação no mercado.

**2. Contexto do problema**
    
A empresa é uma das maiores lojas de roupas dos Estados Unidos e está experimentando um notável crescimento e esta escalada traz consigo desafios para manter a qualidade do produto e a satisfação do cliente em níveis elevados.

**3. Identificar o ponto verdadeiro ponto focal / público alvo**
    
O time de customer experience desempenha um papel crucial como guardião da boa reputação da empresa, sendo responsável por monitorar métricas de desempenho relacionadas à satisfação do cliente. Diante disso, o projeto será iniciado com um enfoque voltado à perspectiva dessa equipe.

## I.2. Determinar o objetivo do negócio

**1. Por que é importante para o negócio?**

A medição da satisfação dos clientes é extremamente importante para a empresa na totalidade. Pois, permite entender as necessidades dos clientes, suas expectativas e desafios internos para fornecer soluções que atendam às suas demandas.

**2. Quais são as dores / desafio / problema atual?**

O time de produtos tem dificuldade em determinar a necessidade da maioria dos clientes. O time de marketing enfrente desafios para determinar o cliente ideal e o time de desenvolvimento sofre com os grandes volumes de acessos no site e em seu aplicativo, causando quedas de sistema e tornando o site inoperante por algumas horas, impedindo as pessoas de comprar e assim, gerando muitas reclamações no atendimento, liderado pelo time de customer experience.

**3. Quais são os resultados esperados? Quais as principais consequências esperadas?**

O objetivo principal do projeto é **desenvolver um algoritmo de previsão de satisfação do cliente e fornecer informações valiosas ao time de customer experience**, permitindo-lhes analisar e compreender como a empresa pode aprimorar seus produtos, serviços e processos internos. 

Os próximos passos são: priorizar as melhorias e acompanhar os demais times em suas respectivas necessidades.

## I.3. Produzir o plano do projeto

**1. Saída**

Algoritmo de previsão de satisfação do cliente e possíveis insigths.

**2. Processo**

- Utilizar o framework CRISP-DM como passso a passo.
- Tabela de satisfação dos clientes;
- Gráficos de visualização.

**3. Entrada**

- Fonte de dados: [kaggle](https://www.kaggle.com/competitions/instyle-nps/data);
- Ferramentas: Jupyter.

## I.4. Determinar o objetivo da mineração

**Descrever os cenários**

**Cenário 1: Classificação de clientes em satisfeito ou insatisfeito**

* Dado que o time de Customer Experience possui uma planilha com dados de clientes
* Quando o algoritmo de previsão é executado para classificar os clientes em "Satisfeito" ou "Insatisfeito”
* Então o algoritmo deve atribuir o status de satisfação a cada cliente com **maior precisão**

**Cenário 2: Análise das principais razões de insatisfação**
    
* Dado que o algoritmo identificou os clientes classificados como "Insatisfeito”
* Quando analisamos os principais motivos de insatisfação
* Então deve obter insights sobre os problemas mais recorrentes enfrentados pelos clientes

# 0. IMPORTS

## 0.1. Importing libraries

In [27]:
import pandas as pd
import inflection

## 0.2. Loading data

In [24]:
df_raw = pd.read_csv('../datasets/train.csv')

## 0.3. Helper functions

In [42]:
# Function Rename columns
def rename_columns(cols):
    cols = list(map(lambda x: inflection.titleize(x), cols))
    cols = list(map(lambda x: x.replace(" ", ""), cols))
    cols = list(map(lambda x: inflection.underscore(x), cols))
    return cols

# 1. DATA DESCRIPTION

In [47]:
df1 = df_raw.copy()

## 1.1. Rename columns

In [48]:
df1.columns = rename_columns(df1.columns)

## 1.2. Data dimension

In [45]:
print('Number of rows: {:,}'.format(df1.shape[0]))
print('Number of cols: {:,}'.format(df1.shape[1]))

Number of rows: 103,904
Number of cols: 24


## 1.3 Data Types

In [34]:
df1.dtypes

id                              int64
gender                         object
customer_type                  object
age                             int64
type_of_purchase               object
store_size                     object
store_distance                  int64
in_store_wifi                   int64
open/close_time_convenient      int64
easy_of_online_shopping         int64
store_location                  int64
toilet_cleaning                 int64
dressing_room                   int64
waiting_room                    int64
kids_entertainment              int64
seller_service                  int64
showroom                        int64
self_store                      int64
purchase_service                int64
store_service                   int64
cleanliness                     int64
carrier_delay_in_minutes        int64
delivery_delay_in_minutes     float64
satisfaction                   object
dtype: object

## 1.4 Check NA's

In [49]:
df1.isna().sum()

id                              0
gender                          0
customer_type                   0
age                             0
type_of_purchase                0
store_size                      0
store_distance                  0
in_store_wifi                   0
open/close_time_convenient      0
easy_of_online_shopping         0
store_location                  0
toilet_cleaning                 0
dressing_room                   0
waiting_room                    0
kids_entertainment              0
seller_service                  0
showroom                        0
self_store                      0
purchase_service                0
store_service                   0
cleanliness                     0
carrier_delay_in_minutes        0
delivery_delay_in_minutes     310
satisfaction                    0
dtype: int64

## 1.5. Fillout / Drop NA's

In [50]:
# Remove NA's
df1 = df1.dropna()

# Redefine index
df1 = df1.reset_index()

In [51]:
df1.shape

(103594, 25)