In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns # criar graficos mais bonitos
import matplotlib.pyplot as plt # criar graficos comuns
import google

In [None]:
# Abrir o csv de dados
customers = pd.read_csv('../input/customer-segmentation-tutorial-in-python/Mall_Customers.csv')

In [None]:
# visualizar as 5 primeiras linhas do banco
customers.head()

**Inserir descrições do video**

In [None]:
# verificar informações das variáveis
customers.info()

In [None]:
# verificar a existência de campos nulos
customers.isnull().sum()

In [None]:
# adicionar valores nulos
customers_null = customers
for col in customers_null.columns:
    customers_null.loc[customers_null.sample(frac=0.1).index, col] = np.nan

In [None]:
customers_null.info()

In [None]:
customers_null.isnull().sum()

In [None]:
# analisando o dataset
customers_null.head(200)

In [None]:
# deletar as linhas que possuem algum valor nulo (gera problemas em datasets reduzidos)
customers_null.dropna()

In [None]:
# preencher os valores nulos (nan) com um valor (verificar se o 0 ou outro valor não vai comprometer a interpretação os dados)
customers_null.fillna(0)

In [None]:
# estatisticas do dataset
customers_null.describe()

In [None]:
# preencher os valores nulos (nan) com um valores medios
customers_null.fillna(customers_null.mean())

In [None]:
# analisar o banco de dados
customers.describe()

**Inserir descrições do video**

**Verificar visualmente se existe outliers (anomalias) nos dados usando o boxplot**

In [None]:
# constroi o boxplot para as colunas desejadas
boxplot = customers.boxplot(column=['Age', 'Annual Income (k$)', 'Spending Score (1-100)'])

# a bolinha fora do limite pode ser um outlier (nesse caso é)

**Verificar se existe outliers (anomalias) nos dados usando o Z-Score**

In [None]:
from scipy import stats
z = np.abs(stats.zscore(customers['Annual Income (k$)'].values))
threshold = 2
result = np.where(z > threshold)

df_salario_outlier=customers.iloc[result[0]]
#print(z)

In [None]:
df_salario_outlier # todos os usuários com salário anual com possível outlier

**Explorando dados**

In [None]:
# analisar a distribuição dos clientes por gênero
sns.countplot(x='Gender', data=customers); # cria o gráfico que conta a quantidade de consumidores existente em cada um dos gêneros
plt.title('Distribuição dos clientes quanto ao gênero'); # adicionar o título do gráfico

In [None]:
# Distribuição dos clientes pela idade através do histograma
customers.hist('Age', bins=25); # seleciona a coluna idade para realizar o histograma
                                # os bins indicam a quantidade de grupos que se deseja dividir os dados
plt.title('Distribuição dos clientes pela idade'); # adicionar o título do gráfico
plt.xlabel('Idade');

**Aplicando codificação aos dados**

In [None]:
cat_df_customers = customers.select_dtypes(include=['object']) # copiando as colunas que são dos tipo categoricas

In [None]:
cat_df_customers.head()

**Aplicando o mapeamento**

In [None]:
replace_map = {'Gender': {'Male': 1, 'Female': 2}} # define o dicionário utilizado no map
labels = cat_df_customers['Gender'].astype('category').cat.categories.tolist() # encontra a lista das variáveis categóricas
replace_map_comp = {'Gender' : {k: v for k,v in zip(labels, list(range(1,len(labels)+1)))}} # define o mapeamento

print(replace_map_comp)

In [None]:
cat_df_customers_replace = pd.read_csv('../input/customer-segmentation-tutorial-in-python/Mall_Customers.csv') # copia o dataset

In [None]:
cat_df_customers_replace.replace(replace_map_comp, inplace=True) # aplica o mapeamento para o dataset
cat_df_customers_replace.head()

**Aplicando o Label Encodering (mapeamento mais simples)**

In [None]:
# cat_df_customers_lc = customers
customers = pd.read_csv('../input/customer-segmentation-tutorial-in-python/Mall_Customers.csv') # copia o dataset

In [None]:
cat_df_customers_lc=customers

In [None]:
cat_df_customers_lc['Gender'] = pd.Categorical(cat_df_customers_lc['Gender']) # transformar coluna no tipo categoria
cat_df_customers_lc.dtypes

In [None]:
cat_df_customers_lc['Gender'] = cat_df_customers_lc['Gender'].cat.codes # mapear a coluna do tipo categoria
cat_df_customers_lc.head()

**LabelEnconder**

In [None]:
# usando a função label encoder do sklearn para mapear
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder() # instanciando o objeto

In [None]:
# aplicando a codificação para as colunas categóricas
customers_label = pd.read_csv('../input/customer-segmentation-tutorial-in-python/Mall_Customers.csv')
customers_label['Gender'] = le.fit_transform(customers_label['Gender'])
customers_label.head(10)

**One Hot Encoding**

In [None]:
# Get dummies
# Adiciona novas colunas - evitar aplicação de peso maior ao valor 1 que o 0
customers_one_hot = pd.read_csv('../input/customer-segmentation-tutorial-in-python/Mall_Customers.csv')

# customers_one_hot['Gender'] = pd.Categorical(cat_df_customers_lc['Gender'])
customers_one_hot = pd.get_dummies(customers_one_hot)

customers_one_hot.head()

In [None]:
customers = pd.read_csv('../input/customer-segmentation-tutorial-in-python/Mall_Customers.csv')

In [None]:
# importando o OneHotEncoder
customers_one_hot = customers
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder() # instanciando o objeto

In [None]:
# aplica o OneHotEncoder para a coluna
customers_ohe = ohe.fit_transform(customers_one_hot['Gender'].values.reshape(-1,1)).toarray() # It returns an numpy array
customers_ohe.shape

In [None]:
customers_ohe