# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa do varejo e tem milhares de clientes diferentes.

Com o objetivo de aumentar o faturamento e o lucro da sua empresa, a diretoria quer conseguir identificar quem é o cliente ideal para seus produtos, baseado no histórico de compras dos clientes.

Para isso, ela fez um trabalho de classificar os clientes com uma nota de 1 a 100. Só que agora, sobrou para você conseguir, a partir dessa nota, descobrir qual o perfil de cliente ideal da empresa.

Qual a profissão? Qual a idade? Qual a faixa de renda? E todas as informações que você puder analisar para dizer qual o cliente ideal da empresa.

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=share_link

Tratando dados

In [2]:
import pandas as pd
# leitura da base de dado com codificação latin
tabela = pd.read_csv('clientes.csv', encoding="latin", sep=";")
# excluindo coluna irrelevante
tabela = tabela.drop("Unnamed: 8", axis=1)
# transformando dados para o formato correto
tabela["Salário Anual (R$)"] = pd.to_numeric(tabela["Salário Anual (R$)"], errors="coerce")
# excluindo dados nulos
tabela = tabela.dropna()
# resumo dos dados
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1965 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ClienteID             1965 non-null   int64  
 1   Origem                1965 non-null   object 
 2   Idade                 1965 non-null   int64  
 3   Salário Anual (R$)    1965 non-null   float64
 4   Nota (1-100)          1965 non-null   int64  
 5   Profissão             1965 non-null   object 
 6   Experiência Trabalho  1965 non-null   int64  
 7   Tamanho Família       1965 non-null   int64  
dtypes: float64(1), int64(5), object(2)
memory usage: 138.2+ KB
None


Análise de cada coluna - Entender as notas dos clientes

In [3]:
display(tabela.describe())

Unnamed: 0,ClienteID,Idade,Salário Anual (R$),Nota (1-100),Experiência Trabalho,Tamanho Família
count,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0
mean,1000.309924,48.894656,110616.009669,52.385242,3.675318,3.757252
std,578.443714,28.414889,45833.860195,28.593269,3.909676,1.968335
min,1.0,0.0,0.0,1.0,0.0,1.0
25%,498.0,25.0,74350.0,29.0,0.0,2.0
50%,1000.0,48.0,109759.0,52.0,1.0,4.0
75%,1502.0,73.0,149095.0,77.0,7.0,5.0
max,2000.0,99.0,189974.0,100.0,17.0,9.0


Geração de gráficos

In [7]:
import plotly.express as px
for x in tabela.columns:
    if "Cliente" not in x and "Nota" not in x:
        grafico = px.histogram(tabela, x=x, y="Nota (1-100)", histfunc="avg", text_auto=True, nbins=20)
        grafico.show()

##### Perfil ideal de cliente
- Cliente acima de 10 anos
- Áreas de trabalho: Entretetimento e Artista (evitar construção)
- Experiência de trabalho entre 10 e 15 anos

##### Obs. final:
- O salário não parece fazer muita diferença. 
- Cliente de promoção parecem ter uma leve nota menor, mas não tanto