# Análise de dados com Python

## Desafio

Para controle de custos, todos os dias, seu chefe pede um relatório com todas as compras de mercadorias da empresa.
O seu trabalho, como analista, é enviar um e-mail para ele, assim que começar a trabalhar, com o total gasto, a quantidade de produtos compradas e o preço médio dos produtos.

E-mail do seu chefe: para o nosso exercício, coloque um e-mail seu como sendo o e-mail do seu chefe<br>
Link de acesso ao sistema da empresa: https://pages.hashtagtreinamentos.com/aula1-intensivao-sistema

Para resolver isso, vamos usar o pyautogui, uma biblioteca de automação de comandos do mouse e do teclado

### Passos:

* Passo 1: Importar a base de dados;
* Passo 2: Visualizar os dados;
* Passo 3: Tratamento dos dados;
* Passo 4: Analise inicial - entender como estão as notas dos clientes;
* Passo 5: Analise completa - traçar o perfil ideal de cliente / entender cada característica do cliente que impacta na sua nota

## Bibiotecas

In [2]:
import pandas as pd
import openpyxl
import numpy as np

In [7]:
tabela = pd.read_csv("clientes.csv", sep=';', encoding='latin-1')

In [9]:
display(tabela)

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família,Unnamed: 8
0,1,Normal,19,15000,39,Saúde,1,4,
1,2,Normal,21,35000,81,Engenheiro,3,3,
2,3,Promoção,20,86000,2,Engenheiro,1,1,
3,4,Promoção,23,59000,73,Advogado,0,2,.
4,5,Promoção,31,38000,48,Entretenimento,2,6,
...,...,...,...,...,...,...,...,...,...
1995,1996,Promoção,71,184387,48,Artista,8,7,
1996,1997,Promoção,91,73158,28,Doutor,7,7,
1997,1998,Normal,87,90961,14,Saúde,9,2,
1998,1999,Normal,77,182109,4,Executivo,7,2,


In [10]:
# Apagar a última coluna que não trás nenhuma informação

tabela = tabela.drop('Unnamed: 8', axis=1)
display(tabela)

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família
0,1,Normal,19,15000,39,Saúde,1,4
1,2,Normal,21,35000,81,Engenheiro,3,3
2,3,Promoção,20,86000,2,Engenheiro,1,1
3,4,Promoção,23,59000,73,Advogado,0,2
4,5,Promoção,31,38000,48,Entretenimento,2,6
...,...,...,...,...,...,...,...,...
1995,1996,Promoção,71,184387,48,Artista,8,7
1996,1997,Promoção,91,73158,28,Doutor,7,7
1997,1998,Normal,87,90961,14,Saúde,9,2
1998,1999,Normal,77,182109,4,Executivo,7,2


In [11]:
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ClienteID             2000 non-null   int64 
 1   Origem                2000 non-null   object
 2   Idade                 2000 non-null   int64 
 3   Salário Anual (R$)    2000 non-null   object
 4   Nota (1-100)          2000 non-null   int64 
 5   Profissão             1965 non-null   object
 6   Experiência Trabalho  2000 non-null   int64 
 7   Tamanho Família       2000 non-null   int64 
dtypes: int64(5), object(3)
memory usage: 125.1+ KB
None


In [12]:
# Tratamento de erros
tabela["Salário Anual (R$)"] = pd.to_numeric(tabela["Salário Anual (R$)"], errors="coerce") # o parâmetro 'coerce' força o erro para número     

In [13]:
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ClienteID             2000 non-null   int64  
 1   Origem                2000 non-null   object 
 2   Idade                 2000 non-null   int64  
 3   Salário Anual (R$)    1999 non-null   float64
 4   Nota (1-100)          2000 non-null   int64  
 5   Profissão             1965 non-null   object 
 6   Experiência Trabalho  2000 non-null   int64  
 7   Tamanho Família       2000 non-null   int64  
dtypes: float64(1), int64(5), object(2)
memory usage: 125.1+ KB
None


In [15]:
# Valores vazios
tabela = tabela.dropna()
tabela.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1965 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ClienteID             1965 non-null   int64  
 1   Origem                1965 non-null   object 
 2   Idade                 1965 non-null   int64  
 3   Salário Anual (R$)    1965 non-null   float64
 4   Nota (1-100)          1965 non-null   int64  
 5   Profissão             1965 non-null   object 
 6   Experiência Trabalho  1965 non-null   int64  
 7   Tamanho Família       1965 non-null   int64  
dtypes: float64(1), int64(5), object(2)
memory usage: 138.2+ KB


In [19]:
# Passo 4: Análise inicial
tabela.describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ClienteID,1965.0,1000.31,578.44,1.0,498.0,1000.0,1502.0,2000.0
Idade,1965.0,48.89,28.41,0.0,25.0,48.0,73.0,99.0
Salário Anual (R$),1965.0,110616.01,45833.86,0.0,74350.0,109759.0,149095.0,189974.0
Nota (1-100),1965.0,52.39,28.59,1.0,29.0,52.0,77.0,100.0
Experiência Trabalho,1965.0,3.68,3.91,0.0,0.0,1.0,7.0,17.0
Tamanho Família,1965.0,3.76,1.97,1.0,2.0,4.0,5.0,9.0


In [None]:
# -02:06:00