### Desafio:

Você trabalha em uma empresa do varejo e tem milhares de clientes diferentes.

Com o objetivo de aumentar o faturamento e o lucro da sua empresa, a diretoria quer conseguir identificar quem é o cliente ideal para seus produtos, baseado no histórico de compras dos clientes.

Para isso, ela fez um trabalho de classificar os clientes com uma nota de 1 a 100. Só que agora, sobrou para você conseguir, a partir dessa nota, descobrir qual o perfil de cliente ideal da empresa.

Qual a profissão? Qual a idade? Qual a faixa de renda? E todas as informações que você puder analisar para dizer qual o cliente ideal da empresa.


In [87]:
import pandas as pd

### 1- Importando a base de dados

In [88]:
dados = pd.read_csv('clientes.csv', sep=';', encoding='latin')
dados.head()

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família,Unnamed: 8
0,1,Normal,19,15000,39,Saúde,1,4,
1,2,Normal,21,35000,81,Engenheiro,3,3,
2,3,Promoção,20,86000,2,Engenheiro,1,1,
3,4,Promoção,23,59000,73,Advogado,0,2,.
4,5,Promoção,31,38000,48,Entretenimento,2,6,


### 2- Analisando as informações para tratar os dados

In [89]:
dados.info() # -> Não é o caso mas para remover lançamentos duplicados: drop_duplicated()

# Observa-se uma coluna inútil 'Unnamed: 8' 

# Coluna 'Salário Anual (R$)' não está sendo reconhecida como número

# Coluna 'Profissão' possui 35 linhas vazias

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ClienteID             2000 non-null   int64 
 1   Origem                2000 non-null   object
 2   Idade                 2000 non-null   int64 
 3   Salário Anual (R$)    2000 non-null   object
 4   Nota (1-100)          2000 non-null   int64 
 5   Profissão             1965 non-null   object
 6   Experiência Trabalho  2000 non-null   int64 
 7   Tamanho Família       2000 non-null   int64 
 8   Unnamed: 8            1 non-null      object
dtypes: int64(5), object(4)
memory usage: 140.8+ KB


In [90]:
# visualizando
#display(dados.groupby('Profissão').count())
display(dados.groupby('Profissão')['Profissão'].count())

Profissão
Advogado          142
Artista           612
Construção         60
Doutor            161
Engenheiro        179
Entretenimento    234
Executivo         153
Marketing          85
Saúde             339
Name: Profissão, dtype: int64

In [91]:
# Observando as linhas faltantes da coluna Profissão 
display(dados[dados['Profissão'].isna()])

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família,Unnamed: 8
79,80,Promoção,49,não informado,38,,1,1,
118,119,Promoção,51,84000,39,,2,7,
219,220,Promoção,59,76000,57,,9,1,
237,238,Normal,95,36000,35,,0,4,
437,438,Normal,76,136259,14,,0,7,
440,441,Promoção,0,57373,1,,0,7,
498,499,Normal,95,121725,10,,12,3,
545,546,Promoção,89,107359,29,,10,6,
601,602,Normal,61,126370,27,,11,4,
641,642,Normal,66,121377,19,,7,7,


In [92]:
# Removendo a coluna inítil

dados = dados.drop('Unnamed: 8', axis=1)

# Fazendo a coluna Salário Anual (R$) ser reconhecida como número

dados['Salário Anual (R$)'] = pd.to_numeric(dados['Salário Anual (R$)'],errors='coerce') 

# Tratando os valores vazios na coluna Profissão -> São 35 profissões faltantes, como é um dados importante essas linhas serão removidas para não atrapalhar a análise. 
dados = dados.dropna()


In [93]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1965 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ClienteID             1965 non-null   int64  
 1   Origem                1965 non-null   object 
 2   Idade                 1965 non-null   int64  
 3   Salário Anual (R$)    1965 non-null   float64
 4   Nota (1-100)          1965 non-null   int64  
 5   Profissão             1965 non-null   object 
 6   Experiência Trabalho  1965 non-null   int64  
 7   Tamanho Família       1965 non-null   int64  
dtypes: float64(1), int64(5), object(2)
memory usage: 138.2+ KB


### 4- Análise dos dados tratados

In [94]:
display(dados.describe())

Unnamed: 0,ClienteID,Idade,Salário Anual (R$),Nota (1-100),Experiência Trabalho,Tamanho Família
count,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0
mean,1000.309924,48.894656,110616.009669,52.385242,3.675318,3.757252
std,578.443714,28.414889,45833.860195,28.593269,3.909676,1.968335
min,1.0,0.0,0.0,1.0,0.0,1.0
25%,498.0,25.0,74350.0,29.0,0.0,2.0
50%,1000.0,48.0,109759.0,52.0,1.0,4.0
75%,1502.0,73.0,149095.0,77.0,7.0,5.0
max,2000.0,99.0,189974.0,100.0,17.0,9.0


In [95]:
# Seria a ideia ideal mas devido a problemas de versões os gráficos não apareceram (o código testado no google collab deu certo)  

# Palpites: maior salário maior a nota? clientes de promoção são piores? 

#import plotly.express as px

# criar gráfico

#grafico = px.histogram(dados,x='Origem',y='Nota (1-100)')

# mostrar o gáfico
#grafico.show()

In [96]:
# criar gráfico
#for coluna in dados.columns():
    #grafico = px.histogram(dados,x=coluna,y='Nota (1-100)', histfunc="avg", text_auto=True, nbins=10)

    # mostrar o gáfico
    #grafico.show()

In [97]:
# Perfil ideal do cliente 
# Acima de 15 anos (não há muita diferença após isso)
# Faixa salarial não apresenta diferença relevante
# Areas de trabalho: Entretenimento e Artistas (evitar clientes de construção)
# Ter entre 10-15 anos de experiência
# Famílias grandes (acima de 6 pessoas) não é ideal