# Importando os módulos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# Carregando os dados

In [2]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

FileNotFoundError: [Errno 2] File b'train.csv' does not exist: b'train.csv'

# Visualização dos dados

In [None]:
train.head()

In [None]:
test.head()

In [None]:
# Verificando os tipos dos dados.
train.info()

Pronto!
Já sabemos quais são as variáveis do nosso conjunto de dados e seus tipos. Mas antes de começar a plotar nossos gráficos vamos dar uma olhada no resumo estatístico das nossas variáveis.

# Resumo estatístico

In [None]:
# Variáveis numéricas.
train.describe()

In [None]:
# Variáveis categóricas.
train.describe(include=['O'])

#  Exploratory Data Analysis (EDA)

Começaremos a nossa análise verificando a distribuição da nossa variável alvo (Purchase).

In [None]:
plt.style.use('fivethirtyeight')
plt.figure(figsize=(8,6))
sns.distplot(train.Purchase, bins = 25)
plt.xlabel('Valor gasto na compra')
plt.ylabel('Número de compradores')
plt.title('Distribuição dos valores')

Até o momento a única informação que temos é que existe uma maior concentração entre os valores de 5000 a 10000 dólares. Seria mais interessante plotarmos um gráfico de boxplot para uma melhor avaliação da distribuição desses dados, além disso podemos facilmente descobrir se temos outliers.

In [None]:
train['Purchase'].plot.box()

E olha só esse gráfico acaba de nos dar uma imformação muito importante, temos outliers na nossa variável alvo. Podemos facilmente afirmar que os valores de compra acima de 20000 dólares são outliers.

# Será que temos mais usuários do sexo masculino ou do sexo feminino?

In [None]:
train['Gender'].value_counts()

In [None]:
sns.countplot(train.Gender)

# Qual o valor médio da compra para cada sexo?

In [None]:
train[['Gender','Purchase']].groupby(['Gender'], as_index = True).mean().sort_values(by='Purchase',ascending=False)

In [None]:
sns.boxplot('Gender', 'Purchase', data=train)

Bom, o que podemos obsevar é que temos um número bem maior de usuários do sexo masculino e que o valor da compra também tende a ser um pouco maior que a do sexo feminino.

# Qual é a idade predominante entre esses usuários?

In [None]:
train['Age'].value_counts()

In [None]:
sns.countplot(train.Age)

Observe que a faixa etária entre os usuários se concentra entre 26 a 30 anos, mais ainda não conseguimos saber se nessa faixa etária temos mais homens ou mulheres. O código a seguir agrupa os dados por sexo e faz a contagem dos registros por faixa etária.

In [None]:
train.groupby('Gender')['Age'].value_counts()

Agora sim podemos dizer que temos mais homens que mulheres na faixa etária de 26 a 30 anos.

# Qual o valor médio de compra para cada faixa etária?

In [None]:
train[['Age','Purchase']].groupby(['Age'], as_index = True).mean().sort_values(by='Purchase',ascending=False)

In [None]:
sns.boxplot('Age', 'Purchase', data=train)

O valor médio da compra está bem distribuido entre as idades, com o valor um pouco menor na faixa etária de 0 a 17 anos.

# Vamos observar o número de consumidores por ocupação.

In [None]:
train['Occupation'].value_counts()

In [None]:
sns.countplot(train.Occupation)

In [None]:
train[['Occupation','Purchase']].groupby(['Occupation'], as_index = True).mean().sort_values(by='Purchase',ascending=False)

In [None]:
sns.boxplot('Occupation', 'Purchase', data=train)

Temos algumas ocupações com maior concentração de valores, só não sabemos que ocupações são essas, já que a empresa preferiu mascarar essa informação. 

# De qual categoria é a cidade com o maior número de usuários?

In [None]:
train['City_Category'].value_counts()

In [None]:
sns.countplot(train.City_Category)

# Qual a média de compra por cidade?

In [None]:
train[['City_Category','Purchase']].groupby(['City_Category'], as_index = True).mean().sort_values(by='Purchase',ascending=False)

In [None]:
sns.boxplot('City_Category', 'Purchase', data=train)

Chegamos a seguinte conclusão: o maior número de usuários pertence a cidade de categoria B, porém a cidade de categoria C tem o maior valor médio de compra.

# A quantos anos o usuário mora na cidade atual?

In [None]:
train['Stay_In_Current_City_Years'].value_counts()

In [None]:
sns.countplot(train.Stay_In_Current_City_Years)

# Qual a média do valor da compra de acordo com o número de anos que o usuário mora na cidade atual.

In [None]:
train[['Stay_In_Current_City_Years','Purchase']].groupby(['Stay_In_Current_City_Years'], as_index = True).mean().sort_values(by='Purchase',ascending=False)

In [None]:
sns.boxplot('Stay_In_Current_City_Years', 'Purchase', data=train)

 De acordo com os nossos gráficos os usuários na sua grande maioria moram há 1 ano na cidade atual.

# Agora queremos saber qual o estado civil dos consumidores.

In [None]:
train['Marital_Status'].value_counts()

In [None]:
sns.countplot(train.Marital_Status)

In [None]:
train[['Marital_Status','Purchase']].groupby(['Marital_Status'], as_index = True).mean().sort_values(by='Purchase',ascending=False)

# Qual o valor médio de compra para cada estado civil?

In [None]:
sns.boxplot('Marital_Status', 'Purchase', data=train)

Por default 0 = False e 1 = True, ou seja 0 não é casado e 1 é casado. Dito isso fica claro que os usuários em sua maioria não são casados.

# Vamos analisar algumas informações sobre a categoria dos produtos

In [None]:
train['Product_Category_1'].value_counts()

In [None]:
train[['Product_Category_1','Purchase']].groupby(['Product_Category_1'], as_index = True).mean().sort_values(by='Purchase',ascending=True)

In [None]:
train['Product_Category_1'].plot.box()

Os produtos da categoria 1 que pertencem ao grupo 19 e 20 são outliers.

In [None]:
train['Product_Category_2'].value_counts()

In [None]:
train[['Product_Category_2','Purchase']].groupby(['Product_Category_2'], as_index = True).mean().sort_values(by='Purchase',ascending=True)

In [None]:
train['Product_Category_2'].plot.box()

Já na categoria 2, temos uma maior quantidade de produtos do grupo 8. Podemos observar também que o produto do grupo 10 teve o maior valor médio de compra.

In [None]:
train['Product_Category_3'].value_counts()

In [None]:
train[['Product_Category_3','Purchase']].groupby(['Product_Category_3'], as_index = True).mean().sort_values(by='Purchase',ascending=True)

In [None]:
train['Product_Category_3'].plot.box()

Na categoria 3 temos o produto do grupo 3 com a menor quantidade. Dando uma verificada mais detalhada, chegamos a uma informação importante, na categoria 2 e 3 temos um valor médio de compra bem próximo para os produtos do grupo 10.

# Agora vamos verificar graficamente as informações citadas acima.

In [None]:
# Distribuição dos valores para cada categoria.
plt.figure(figsize=(14,4))
plt.subplot(131)
sns.countplot(train.Product_Category_1)
plt.xticks(rotation=90)

plt.subplot(132)
sns.countplot(train.Product_Category_2)
plt.xticks(rotation=90)

plt.subplot(133)
sns.countplot(train.Product_Category_3)
plt.xticks(rotation=90)

plt.show()

E por último mais não menos importante, temos a matriz de correlação, que nos possibilita fazer uma análise silmultânea da associação entre as variáveis.

In [None]:
matrix = train.corr()
sns.set(rc={'axes.facecolor':'white', 'figure.facecolor':'white'})
f, ax = plt.subplots(figsize = (8,6))
sns.heatmap(matrix, vmax=.8,annot_kws={'size': 10}, annot=True, fmt='.2f')
plt.show()

Um ponto importante a se observar é a alta correlação entre a categoria dos produtos. Isso já era esperado uma vez que foi dito que um produto pode pertencer a mais de uma categoria.

Meu objetivo principal foi mostrar como podemos extrair importantes informações através de técnicas estatísticas e visualização de dados.
Abaixo vou resumir o que foi descoberto.
- A maioria dos usuários é do sexo masculino
- Com idade entre 26 a 30 anos
- Não são casados
- Residem na cidade de categoria B
- Moram 1 ano na cidade atual
- E compraram mais produtos da categoria 1.