# Desafio

## Importação das Bibliotecas e Tratamento dos Dados

In [12]:
import pandas as pd

In [13]:
# Após importar a biblioteca, vamos ao carregamento do arquivo

df = pd.read_csv("./data/DB_Teste.csv", sep=";", encoding="utf-8")
df.head()

Unnamed: 0,Cliente,ID,Tipo,Data da Venda,Categoria,Vendedor,Regional,Duração do Contrato (Meses),Equipe,Valor,Unnamed: 10
0,Cliente 1,2017-0022,Serviços,02/01/2018,Novo Logo,Vendedor 1,Brasil,1,Time 1,"R$ 24.800,00",
1,Cliente 10,2018-0088,Serviços,14/02/2018,Novo Logo,Vendedor 1,Brasil,6,Time 1,"R$ 302.720,00",
2,Cliente 10,2018-0104,Serviços,13/03/2018,Upselling,Vendedor 1,Brasil,1,Time 1,"R$ 51.894,86",
3,Cliente 10,2018-0168,Serviços,30/04/2018,Upselling,Vendedor 1,Brasil,2,Time 1,"R$ 51.894,86",
4,Cliente 10,2018-0169,Serviços,30/04/2018,Upselling,Vendedor 1,Brasil,2,Time 1,"R$ 51.894,86",


Com o DataFrame criado, vamos verificar as colunas contidas, seus Dtypes e a existência de valores nulos.

In [14]:
df.info()
df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 853 entries, 0 to 852
Data columns (total 11 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Cliente                      853 non-null    object 
 1   ID                           853 non-null    object 
 2   Tipo                         853 non-null    object 
 3   Data da Venda                853 non-null    object 
 4   Categoria                    853 non-null    object 
 5   Vendedor                     853 non-null    object 
 6   Regional                     853 non-null    object 
 7   Duração do Contrato (Meses)  853 non-null    int64  
 8   Equipe                       853 non-null    object 
 9   Valor                        853 non-null    object 
 10  Unnamed: 10                  0 non-null      float64
dtypes: float64(1), int64(1), object(9)
memory usage: 73.4+ KB


Index(['Cliente', 'ID', 'Tipo', 'Data da Venda', 'Categoria', 'Vendedor',
       'Regional', 'Duração do Contrato (Meses)', 'Equipe', 'Valor',
       'Unnamed: 10'],
      dtype='object')

Com a identificação de uma coluna nomeada "Unnamed: 10" contendo apenas valores nulos, podemos excluí-la sem perder nenhuma informação, deixando o DataFrame mais limpo.

In [15]:
df = df.drop("Unnamed: 10", axis=1)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 853 entries, 0 to 852
Data columns (total 10 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Cliente                      853 non-null    object
 1   ID                           853 non-null    object
 2   Tipo                         853 non-null    object
 3   Data da Venda                853 non-null    object
 4   Categoria                    853 non-null    object
 5   Vendedor                     853 non-null    object
 6   Regional                     853 non-null    object
 7   Duração do Contrato (Meses)  853 non-null    int64 
 8   Equipe                       853 non-null    object
 9   Valor                        853 non-null    object
dtypes: int64(1), object(9)
memory usage: 66.8+ KB


Verificando a existência de valores duplicados

In [16]:
duplicados = df.duplicated()
print(duplicados.sum())

0


Após verificar o dtype de cada coluna, constatamos que a coluna "Valor" não está registrada como um tipo numérico. É necessário tratá-la para converter suas ocorrências em valores numéricos.

In [17]:
df["Valor"] = df["Valor"].replace(
    {
        "\s+": "",
        "R\$": "",
        "\.": "",
        ",": "."
    },
    regex=True
).astype(float)

  "\s+": "",
  "R\$": "",
  "\.": "",


Salvando o CSV limpo para uso posterior

In [18]:
df.to_csv("./data/DB_Teste_Limpo.csv", index=False, sep=";")

## Desafios

1. Construa uma tabela auxiliar que sumarize o valor vendido por cada vendedor, ordenando do maior para o menor.

In [19]:
# Agrupando o DataFrame pelos vendedores e somando os valores vendidos
df_vendedores = df.groupby("Vendedor")[["Valor"]].sum().reset_index()

# Ordenando os vendedores do maior para o menor valor vendido
df_vendedores = df_vendedores.sort_values(by="Valor", ascending=False)

# Aplicando uma função lambda para formatar os valores para facilitar a visualização
df_vendedores["Valor"] = df_vendedores["Valor"].apply(lambda x: "%.2f" % x)

# Resposta
df_vendedores

Unnamed: 0,Vendedor,Valor
22,Vendedor 3,166220477.72
27,Vendedor 7,57799181.73
1,Vendedor 10,52212055.49
28,Vendedor 8,47274510.01
0,Vendedor 1,30929480.27
29,Vendedor 9,26374558.54
4,Vendedor 13,24837304.87
9,Vendedor 18,22662296.25
21,Vendedor 29,19076866.26
24,Vendedor 4,17346823.03


2. Imprima e identifica qual foi o cliente responsável pela venda com maior valor e com menor valor.

In [20]:
# Encontrando o index da linha com o menor valor
menor_index = df["Valor"].idxmin()
# Encontrando o cliente associado ao menor valor
menor_id = df.loc[menor_index, "Cliente"]

# Encontrando o inex da linha com o maior valor
maior_index = df["Valor"].idxmax()
# Encontrando o cliente associado ao maior valor
maior_id = df.loc[maior_index, "Cliente"]

# Resposta
print(f"O cliente com o menor valor de venda: {menor_id}")
print(f"O cliente com o maior valor de venda: {maior_id}")


O cliente com o menor valor de venda: Cliente 120
O cliente com o maior valor de venda: Cliente 89


3. Imprima valor médio por Tipo de venda (Serviços, Licenciamento, Produtos).

In [21]:
# Agrupando o DataFrame pelo tipo de venda e calculando a média dos valores
df_valor_medio = df.groupby("Tipo")[["Valor"]].mean().reset_index()

# Aplicando uma função lambda para formatar os valores para facilitar a visualização
df_valor_medio["Valor"] = df_valor_medio["Valor"].apply(lambda x: "%.2f" % x)

# Resposta
df_valor_medio

Unnamed: 0,Tipo,Valor
0,Licenciamento,983448.77
1,Produtos,893409.19
2,Serviços,314567.94


4. Imprima o número de vendas realizada por cliente.

In [22]:
# Calculando o número de vendas de cada cliente
df_numero_vendas_cliente = df.value_counts("Cliente", sort=True).reset_index()

# Formatando o nome das colunas para melhor compreensão
df_numero_vendas_cliente.columns =["Cliente", "Número de Vendas"]

# Resposta
df_numero_vendas_cliente

Unnamed: 0,Cliente,Número de Vendas
0,Cliente 5,128
1,Cliente 8,61
2,Cliente 4,60
3,Cliente 10,43
4,Cliente 3,31
...,...,...
152,Cliente 146,1
153,Cliente 144,1
154,Cliente 143,1
155,Cliente 142,1
