### Desafio:

Você trabalha em uma empresa do varejo e tem milhares de clientes diferentes.

Com o objetivo de aumentar o faturamento e o lucro da sua empresa, a diretoria quer conseguir identificar quem é o cliente ideal para seus produtos, baseado no histórico de compras dos clientes.

Para isso, ela fez um trabalho de classificar os clientes com uma nota de 1 a 100. Só que agora, sobrou para você conseguir, a partir dessa nota, descobrir qual o perfil de cliente ideal da empresa.

Qual a profissão? Qual a idade? Qual a faixa de renda? E todas as informações que você puder analisar para dizer qual o cliente ideal da empresa.

In [1]:
# Importar a base de dados
import pandas as pd

tabela = pd.read_csv("/kaggle/input/clientes/clientes.csv", encoding="latin1", sep=";")

In [2]:
# Visualizar os dados
tabela.head()

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família,Unnamed: 8
0,1,Normal,19,15000,39,Saúde,1,4,
1,2,Normal,21,35000,81,Engenheiro,3,3,
2,3,Promoção,20,86000,2,Engenheiro,1,1,
3,4,Promoção,23,59000,73,Advogado,0,2,.
4,5,Promoção,31,38000,48,Entretenimento,2,6,


In [3]:
# Tratar os dados

# Excluir as colunas desnecessárias
tabela = tabela.drop(["ClienteID", "Unnamed: 8"], axis=1)

# Tatar os tipos de dados
tabela["Salário Anual (R$)"] = pd.to_numeric(tabela["Salário Anual (R$)"], errors="coerce")

# Excluir linhas vazias
tabela = tabela.dropna(how="any", axis=0)

tabela.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1965 entries, 0 to 1999
Data columns (total 7 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Origem                1965 non-null   object 
 1   Idade                 1965 non-null   int64  
 2   Salário Anual (R$)    1965 non-null   float64
 3   Nota (1-100)          1965 non-null   int64  
 4   Profissão             1965 non-null   object 
 5   Experiência Trabalho  1965 non-null   int64  
 6   Tamanho Família       1965 non-null   int64  
dtypes: float64(1), int64(4), object(2)
memory usage: 122.8+ KB


In [4]:
# Análise inicial
tabela.describe()

Unnamed: 0,Idade,Salário Anual (R$),Nota (1-100),Experiência Trabalho,Tamanho Família
count,1965.0,1965.0,1965.0,1965.0,1965.0
mean,48.894656,110616.009669,52.385242,3.675318,3.757252
std,28.414889,45833.860195,28.593269,3.909676,1.968335
min,0.0,0.0,1.0,0.0,1.0
25%,25.0,74350.0,29.0,0.0,2.0
50%,48.0,109759.0,52.0,1.0,4.0
75%,73.0,149095.0,77.0,7.0,5.0
max,99.0,189974.0,100.0,17.0,9.0


In [5]:
# Análise completa

import plotly.express as px

# Para cada coluna, comparar com a coluna de notas
for coluna in tabela.columns:
    # Ignorar a coluna de notas
    if coluna != "Nota (1-100)":
        # Criar o gráfico
        grafico = px.histogram(tabela, x=coluna, y="Nota (1-100)", histfunc="avg", text_auto=True)

        # Mostrar o gráfico
        grafico.show()


### **Conclusões**

#### Perfil ideal de clientes:
- Acima de 15 anos
- Áreas de atuação:
    * Entretenimento
    * Artista
- Entre 10 e 15 anos de experiência
- Famílias de no máximo 6 pessoas