## Conhhecendo o Dataset

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv('superstore_data.csv')

In [None]:
df.head()

In [None]:
df.columns

In [None]:
df.shape

*Descrição das colunas do dataset*
* Id: número único de cada cliente
* Year_Birth: ano de nascimento do cliente
* Education: nível de educação do cliente
* Maritial_Status: estado civíl
* Income: renda familiar anual
* Kidhome: número de crianças em casa
* Teenhome: número de adolescentes em casa
* Dt_Customer:data de inscrição do cliente na empresa
* Recency: número de dias desde a última compra
* MntWines: o valor gasto em produtos vitivinícolas nos últimos 2 anos
* MntFruits: o valor gasto em frutas nos últimos 2 anos
* MntMeatProducts: o valor gasto em produtos de carne nos últimos dois anos
* MntFishProducts: o valor gasto em produtos de peixe nos últimos dois anos
* MntSweetProducts: o valor gasto em produtos doces nos últimos dois anos
* MntGoldProds: o valor gasto em produtos de ouro nos últimos dois anos
* NumDealsPurchases: números de compras feitas com desconto
* NumWebPurchases: número de compras feitas através do site da empresa
* NumCatalogPurchases: número de compras feitas por catálogo (compra de mercadorias para envio pelo correio)
* NumStorePurchases: número de compras feitas diretamente nas lojas
* NumWebVisitsMonth: número de visitas ao site da empresa no último mês
* Response: 1 se o cliente aceitou a oferta na última campanha, 0 caso contrário
* Complain: 1 se o cliente reclamou nos últimos 2 anos

In [None]:
df.dtypes

In [None]:
df.describe()

In [None]:
df.Year_Birth.max() - df.Year_Birth.min()

In [None]:
df.Education.value_counts()

In [None]:
df.Marital_Status.value_counts()

In [None]:
df.Teenhome.value_counts()

In [None]:
df.Kidhome.value_counts()

In [None]:
df.isnull().sum()

In [None]:
df.loc[df['Income'].isnull()]

In [None]:
df.isnull().sum() / len(df) * 100 # porcentagem de valores nulos

In [None]:
df.drop_duplicates()

In [None]:
df.shape

### Observações

* A coluna "Dt_Customer" não está no formato correto (data), iremos corrigir isso posteriormente;
* A coluna "Year_Birth" tem uma grande diferença entre seu valor máximo e mínimo;
* Há muitas categorias na coluna "Maritial_Status", podemos resolver isso ao definir "Alone", "YOLO", e "Absurd" como "Single" e "Together" como "Married";
* A coluna Education possui a categoria "Master" e "2n Cycle", no qual significam a mesma coisa;
* Podemos excluir a coluna "Id";
* A coluna "Income" possui valores nulos (1.07%).

Os valores nulos (Income) e a exclusão (Id) serão feitos mais adiante, pois trataremos individualmente.

## Tratamento e exploração dos dados

In [None]:
import matplotlib.pyplot as plt
import plotly.express as px

Alterando o tipos da variável para datetime

In [None]:
df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], format='%m/%d/%Y') # atribuindo tipo datetime para a variável "Dt_Customer"

In [None]:
df.dtypes

In [None]:
df.head(3)

Verificando e removendo os outliers da coluna "Year_Birth"

In [None]:
px.box(df, x='Year_Birth') # outliers

In [None]:
df = df.loc[df['Year_Birth'] > 1900] # retirando outliers

In [None]:
df.shape

In [None]:
px.box(df, x='Year_Birth') # verificando

Diminuindo o número de categorias das colunas "Maritial_Status" e "Education"

In [None]:
# substituindo características em uma só categoria
df['Marital_Status'] = df['Marital_Status'].replace(['Absurd', 'YOLO', 'Alone'], 'Single')
df['Marital_Status'] = df['Marital_Status'].replace(['Together'], 'Married')

In [None]:
df.Marital_Status.value_counts()

In [None]:
df['Education'] = df['Education'].replace(['2n Cycle'], 'Master') # transformando categorias em uma só

In [None]:
df.Education.value_counts()

A exclusão da coluna "Id" e o tratamento dos valores nulos para a colunas "Income" serão feitos mais adiante, pois trataremos cada um de forma individual. Vejamos agora a questão de outliers nas variaveis: 
* MntWines
* MntFruits
* MntMeatProducts
* MntFishProducts
* MntSweetProducts
* MntGoldProds
* NumDealsPurchases
* NumWebPurchases
* NumCatalogPurchases
* NumStorePurchases
* NumWebVisitsMonth

In [None]:
df.loc[df['Income'].isnull()]

In [None]:
def null_incomes(null_ids):
    '''
    Função que substitui os valores nulos da coluna "Income" pela media daqueles que possuem 
    caracteristicas semelhantes (nivel de educação, estado civil, crianças em casa, e jovens em casa)
    '''
    for i in null_ids.itertuples():
        df.loc[df.Id == i.Id, 'Income'] = df.loc[(df['Education'] == i.Education) & 
                                          (df['Marital_Status'] == i.Marital_Status) & 
                                          (df['Kidhome'] == i.Kidhome) & 
                                          (df['Teenhome'] == i.Teenhome), 'Income'].mean()

In [None]:
null_incomes(df.loc[df['Income'].isnull()])

In [None]:
df.loc[df['Income'].isnull()]

In [None]:
df = df.drop('Id', axis=1) # excluindo coluna id