# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa do varejo e tem milhares de clientes diferentes.

Com o objetivo de aumentar o faturamento e o lucro da sua empresa, a diretoria quer conseguir identificar quem é o cliente ideal para seus produtos, baseado no histórico de compras dos clientes.

Para isso, ela fez um trabalho de classificar os clientes com uma nota de 1 a 100. Só que agora, sobrou para você conseguir, a partir dessa nota, descobrir qual o perfil de cliente ideal da empresa.

Qual a profissão? Qual a idade? Qual a faixa de renda? E todas as informações que você puder analisar para dizer qual o cliente ideal da empresa.

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=share_link

In [14]:
import pandas as pd
# Sempre que tiver um problema envolvendo base de dados de uma empresa, o passo a passo sera semelhante a este.
# Passo 1: Baixar a base de dados da empresa.
basededados = pd.read_csv(r"clientes.csv", encoding="latin", sep=";")

# Deletar a coluna inútil
basededados = basededados.drop("Unnamed: 8", axis= 1)

# Passo 2: Visualizar a base de dados
    # Entender as informações que voce tem disponivel
    # Procurar as cagadas(erros) da base de dados
        # Anotações:
            # Uma coluna ou informação que nao te agrega em nada, pode te atrapalhar como por exemplo a coluna "Unnamed:8"
            # axis 0 -> Deleta uma linha; axis 1  -> Deletar uma coluna.
            # basededados.drop -> Usado para deletar ou excluir uma coluna/ linha por exemplo
display(basededados)





Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família
0,1,Normal,19,15000,39,Saúde,1,4
1,2,Normal,21,35000,81,Engenheiro,3,3
2,3,Promoção,20,86000,2,Engenheiro,1,1
3,4,Promoção,23,59000,73,Advogado,0,2
4,5,Promoção,31,38000,48,Entretenimento,2,6
...,...,...,...,...,...,...,...,...
1995,1996,Promoção,71,184387,48,Artista,8,7
1996,1997,Promoção,91,73158,28,Doutor,7,7
1997,1998,Normal,87,90961,14,Saúde,9,2
1998,1999,Normal,77,182109,4,Executivo,7,2


In [21]:
# Passo 3: Fazer o Tratamento de Dados
    # Valores no formato errado
basededados["Salário Anual (R$)"] = pd.to_numeric(basededados["Salário Anual (R$)"], errors="coerce") #coerce é forçar/coagir
    
    # Valores vazios / prenchidos de forma errada
basededados = basededados.dropna()

    
display(basededados.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1965 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ClienteID             1965 non-null   int64  
 1   Origem                1965 non-null   object 
 2   Idade                 1965 non-null   int64  
 3   Salário Anual (R$)    1965 non-null   float64
 4   Nota (1-100)          1965 non-null   int64  
 5   Profissão             1965 non-null   object 
 6   Experiência Trabalho  1965 non-null   int64  
 7   Tamanho Família       1965 non-null   int64  
dtypes: float64(1), int64(5), object(2)
memory usage: 138.2+ KB


None

In [23]:
# Passo 4: Análise inicial: entender as notas dos clientes.
# std é desvio padrao( parte de estatistica)
# .describe ele analise e nos dar resultados apenas de valores numéricos.
display(basededados.describe())

Unnamed: 0,ClienteID,Idade,Salário Anual (R$),Nota (1-100),Experiência Trabalho,Tamanho Família
count,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0
mean,1000.309924,48.894656,110616.009669,52.385242,3.675318,3.757252
std,578.443714,28.414889,45833.860195,28.593269,3.909676,1.968335
min,1.0,0.0,0.0,1.0,0.0,1.0
25%,498.0,25.0,74350.0,29.0,0.0,2.0
50%,1000.0,48.0,109759.0,52.0,1.0,4.0
75%,1502.0,73.0,149095.0,77.0,7.0,5.0
max,2000.0,99.0,189974.0,100.0,17.0,9.0


In [38]:
# Passo 5: Análise completa: traçar o perfil ideal de cliente = entender como cada caracteristica impacta na nota do cliente
import plotly.express as px

#Todo grafico em phyton ele é feito em duas partes
# histfunc="avg" usado pra mudar o grafico pra inves de somar que é o padrao, fazer uma média, avg vem de média
# Parametro nbins, indica o numero de divisoes que vai ter no seu grafico, ajuda na hora da leitura( e quanto menor, ajuda e diminuir os pontos fora da curva)
#  text_auto=True é para aparecer os valores no gráfico
#Primeiro voce cria o gráfico
for coluna in tabela.columns:
    grafico = px.histogram(basededados, x= coluna, y="Nota (1-100)", histfunc="avg", text_auto=True, nbins=10)

    #Depois exibe o gráfico
    grafico.show()


In [24]:
!pip install plotly

