### 1 - Data Understanding and Cleaning

- Nesta etapa, vamos ter o primeiro contato com os dados, onde buscamos manipulá-los com ferramentas com **Pandas** e **Numpy**, afim de entender que tipo de dados estamos trabalhando, quais são as *features* que estão presentes.

- Para que isso seja possível, estudamos os dados e realizamos a limpeza do mesmo, manipulando dados faltantes, excluindo dados duplicados e *outliers*, tornando o conjunto de dados pronto para a aplicação dos modelos.

- Os dados que estamos trabalhando fazem parte do conjunto de DataFrames do site *Kaggle*, o link de acesso é [Dados](https://www.kaggle.com/datasets/dev0914sharma/customer-clustering/data), o site disponibiliza uma breve explicação do conteúdo dos dados. Em resumo, o DataFrame aborda informações de clientes que contém o cartão de fidelidade de um supermercado físico de "FMCG" e deseja utilizar estas informações para segmentar esses clientes. Esta segmentação seria útil para outros setores do estabelecimento tomarem decisões. Por exemplo, o setor de marketing conhecer o público-alvo de suas campanhas ou o setor de negócios planejar estratégias eficientes.

In [6]:
#importação das bibliotecas

import pandas as pd 
import numpy as np
import seaborn as sns  

In [2]:
#carregamento dos dados

df = pd.read_csv("/home/edmurcn/Documentos/MeusProjetos/Customer-Clustering/data/segmentation_data.csv", header=0)
df.head(10)

Unnamed: 0,ID,Sex,Marital status,Age,Education,Income,Occupation,Settlement size
0,100000001,0,0,67,2,124670,1,2
1,100000002,1,1,22,1,150773,1,2
2,100000003,0,0,49,1,89210,0,0
3,100000004,0,0,45,1,171565,1,1
4,100000005,0,0,53,1,149031,1,1
5,100000006,0,0,35,1,144848,0,0
6,100000007,0,0,53,1,156495,1,1
7,100000008,0,0,35,1,193621,2,1
8,100000009,0,1,61,2,151591,0,0
9,100000010,0,1,28,1,174646,2,0


- De acordo com as informações presentes no site e no arquivo [data_dictionary](https://docs.google.com/spreadsheets/d/1dP1ZB_Yuv610Fa1aw_rCSYrsighS44VB/edit?usp=drive_link&ouid=105591099330593823176&rtpof=true&sd=true), construi o seguinte dicionário para os dados:

  - **ID**: Representa a identificação de cada cliente dentro do ambiente de gerenciamento do cartão;

  - **Sex**: Representa o sexo biológico do cliente {0,1}, onde 0 é masculino e 1 feminino;

  - **Marital Status**: Representa o estado civil dos cliente {0,1}, em que 0 é solteiro e 1 outros estados civis;

  - **Age**: Representa a idade dos clientes;
  
  - **Education**: Representa o nível de escolaridade dos clientes {0,1,2,3}, em que 0 estão os níveis desconhecidos/outros, 1 até o ensino médio, 2 até a graduação e 3 até pós-graduação;

  - **Income**: Representa a renda salarial anual dos clientes em dólares;

  - **Occupation**: Representa o tipo de trabalho que o cliente atua {0,1,2}, onde 0 são desempregados/trabalho não qualificado, 1 são empregos qualificados/servidor e 2 são trabalhos muito qualificados/autoridades/administradores;

  - **Settlement size**: Representa o tamanho da cidade em que o cliente mora {0,1,2}, 0 cidades pequenas, 1 cidades de porte médio e 2 grandes cidades.

- Observamos que a maioria dos dados são categóricos e ordinais.

In [3]:
#Explorando os dados para observar valores faltantes

print(df.isna().sum())

ID                 0
Sex                0
Marital status     0
Age                0
Education          0
Income             0
Occupation         0
Settlement size    0
dtype: int64


In [4]:
#Explorando a estatística dos dados numéricos

print(df[["Age", "Income"]].describe())


               Age         Income
count  2000.000000    2000.000000
mean     35.909000  120954.419000
std      11.719402   38108.824679
min      18.000000   35832.000000
25%      27.000000   97663.250000
50%      33.000000  115548.500000
75%      42.000000  138072.250000
max      76.000000  309364.000000


In [9]:
#Explorando o balanceamento dentre os dados categóricos

columns_categoricals = ["Sex", "Marital status", "Education", "Occupation", "Settlement size"]

for column in columns_categoricals:
    print()
    print(column)
    print("-"*15)
    print(df[column].value_counts(normalize=True))



Sex
---------------
0    0.543
1    0.457
Name: Sex, dtype: float64

Marital status
---------------
0    0.5035
1    0.4965
Name: Marital status, dtype: float64

Education
---------------
1    0.6930
2    0.1455
0    0.1435
3    0.0180
Name: Education, dtype: float64

Occupation
---------------
1    0.5565
0    0.3165
2    0.1270
Name: Occupation, dtype: float64

Settlement size
---------------
0    0.4945
1    0.2720
2    0.2335
Name: Settlement size, dtype: float64


In [8]:
#Distribuição das features


#### Tratamento dos dados

- Observamos que os dados não possuem valores faltantes, além disso, os dados numéricos não possuem outliers e os dados categóricos aparentemente estão balanceados com exceção da classe de pós graduados, porém, vamos manter esta classe até que observamos alguma necessidade de retirá-la. A única alteração a ser feita nesta etapa será a exclusão da coluna **ID**, pois as informações que ela trás não são relevantes para os modelos.

In [48]:
# Exclusão da coluna ID

df = df.drop("ID", axis=1)
df.to_csv("dados_tratado.csv", index=False)