# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa do varejo e tem milhares de clientes diferentes.

Com o objetivo de aumentar o faturamento e o lucro da sua empresa, a diretoria quer conseguir identificar quem é o cliente ideal para seus produtos, baseado no histórico de compras dos clientes.

Para isso, ela fez um trabalho de classificar os clientes com uma nota de 1 a 100. Só que agora, sobrou para você conseguir, a partir dessa nota, descobrir qual o perfil de cliente ideal da empresa.

Qual a profissão? Qual a idade? Qual a faixa de renda? E todas as informações que você puder analisar para dizer qual o cliente ideal da empresa.

Base de Dados: https://drive.google.com/drive/folders/1XvNLDKVH7TUS8HdH4r0TkXL__MFpoc3e?usp=share_link

In [5]:
# Passo a passo

# 1: Importar a base de dados
import pandas as pd

tabela = pd.read_csv("clientes.csv", encoding="latin", sep=";")

# 2: Visualizar a base de dados
    # Entender as informações disponíveis
    # Procurar erros
        # Deletar a coluna inútil
tabela = tabela.drop("Unnamed: 8", axis=1)

display(tabela)

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família
0,1,Normal,19,15000,39,Saúde,1,4
1,2,Normal,21,35000,81,Engenheiro,3,3
2,3,Promoção,20,86000,2,Engenheiro,1,1
3,4,Promoção,23,59000,73,Advogado,0,2
4,5,Promoção,31,38000,48,Entretenimento,2,6
...,...,...,...,...,...,...,...,...
1995,1996,Promoção,71,184387,48,Artista,8,7
1996,1997,Promoção,91,73158,28,Doutor,7,7
1997,1998,Normal,87,90961,14,Saúde,9,2
1998,1999,Normal,77,182109,4,Executivo,7,2


In [6]:
# 3: Tratar os dados

    # Acertar informações que estão sendo reconhecidas de forma errada
tabela["Salário Anual (R$)"] = pd.to_numeric(tabela["Salário Anual (R$)"], errors="coerce")

    # Corrigir informações vazias
# display(tabela[tabela["Profissão"].isna()])
tabela = tabela.dropna()
print(tabela.info())

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família
79,80,Promoção,49,,38,,1,1
118,119,Promoção,51,84000.0,39,,2,7
219,220,Promoção,59,76000.0,57,,9,1
237,238,Normal,95,36000.0,35,,0,4
437,438,Normal,76,136259.0,14,,0,7
440,441,Promoção,0,57373.0,1,,0,7
498,499,Normal,95,121725.0,10,,12,3
545,546,Promoção,89,107359.0,29,,10,6
601,602,Normal,61,126370.0,27,,11,4
641,642,Normal,66,121377.0,19,,7,7


<class 'pandas.core.frame.DataFrame'>
Index: 1965 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ClienteID             1965 non-null   int64  
 1   Origem                1965 non-null   object 
 2   Idade                 1965 non-null   int64  
 3   Salário Anual (R$)    1965 non-null   float64
 4   Nota (1-100)          1965 non-null   int64  
 5   Profissão             1965 non-null   object 
 6   Experiência Trabalho  1965 non-null   int64  
 7   Tamanho Família       1965 non-null   int64  
dtypes: float64(1), int64(5), object(2)
memory usage: 138.2+ KB
None


In [None]:
# 4: Análise inicial -> Entender as notas dos clientes

In [None]:
# 5: Análise completa -> Entender como cada característica do cliente impacta na nota