<a href="https://colab.research.google.com/github/icoqueiro/ProcessoSeletivo_AlbertEinstein/blob/main/Q2_TesteVagaDev_AE_IvanCoqueiro_ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##Questão 2. Data Analysis (15 pontos)



Você tem um arquivo CSV contendo informações de vendas com as colunas: data, produto, quantidade, preco_unitario.

*   Escreva um código que leia o arquivo e calcule o faturamento total por produto.
*   Encontre o produto com maior e menor faturamento.

##Solução

Para trabalhar com dados em PT-BR, fiz a conversão do locale

In [None]:
import os

# Instalar pt-BR.UTF8
!/usr/share/locales/install-language-pack pt_BR
!dpkg-reconfigure locales


A princípio, iniciaremos as bibliotecas necessárias para realizar a análise dos dados. Também será montado o drive no qual a imagem da base de dados do problema está localizada. Vale ressaltar que essa base foi indicada no problema, mas foi construída com dados aleatórios na plataforma Google Sheets.

In [None]:
#importa as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#monta a imagem do google drive
from google.colab import drive
drive.mount('/content/drive')

#importa os locales
import locale
locale.setlocale(locale.LC_ALL,'pt_BR.UTF-8')
locale.getlocale()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


('pt_BR', 'UTF-8')

Agora, os dados serão importados para nossa rotina através da biblioteca pandas. será usado um dataframe para construir a tabela:



In [None]:
dados = pd.read_csv('/content/drive/MyDrive/Processos Seletivos/informacoes_de_vendas.csv')
dados #como é uma tabela curta, plotei os dados para verificar a integridade dos mesmos

Unnamed: 0,data,produto,quantidade,preco_unitario
0,09/03/2000,mascara de oxigenio,5,598
1,31/03/2008,tesoura cirurgica,9,2632
2,09/07/2008,esparadrapos,9,6817
3,31/03/1908,agulha hipodermica,10,2639
4,21/12/2015,medicamento a,7,3358
5,13/07/2003,medicamento b,5,6794
6,09/07/2008,medicamento c,9,4181
7,30/11/1999,luva cirurgica,6,425
8,14/09/1995,hastes flexiveis,6,4474
9,31/03/2008,sabonete,8,8910


In [None]:
dados.dtypes #checa os data types na tabela.

Unnamed: 0,0
data,object
produto,object
quantidade,int64
preco_unitario,object


In [None]:
#converte as vírgulas em pontos para que seja possível realizar aritméticas
dados['preco_unitario'] = dados['preco_unitario'].apply(lambda v: locale.atof(v.split()[-1]))
dados

Unnamed: 0,data,produto,quantidade,preco_unitario
0,09/03/2000,mascara de oxigenio,5,5.98
1,31/03/2008,tesoura cirurgica,9,26.32
2,09/07/2008,esparadrapos,9,68.17
3,31/03/1908,agulha hipodermica,10,26.39
4,21/12/2015,medicamento a,7,33.58
5,13/07/2003,medicamento b,5,67.94
6,09/07/2008,medicamento c,9,41.81
7,30/11/1999,luva cirurgica,6,4.25
8,14/09/1995,hastes flexiveis,6,44.74
9,31/03/2008,sabonete,8,89.1


Agora podemos criar uma coluna com os valores faturados. O código está redigido em um número menor de linhas. Nesse caso, pedimos ao dataframe para inserir uma coluna e multiplicamos dentro da própria função a fim de evitar o uso de espaço desnecessário da memória, e otimizar o _runtime_.

In [None]:
dados.insert(4,'faturamento_total',dados['quantidade'].astype(float)*dados['preco_unitario'],allow_duplicates=False)
dados

Unnamed: 0,data,produto,quantidade,preco_unitario,faturamento_total
0,09/03/2000,mascara de oxigenio,5,5.98,29.9
1,31/03/2008,tesoura cirurgica,9,26.32,236.88
2,09/07/2008,esparadrapos,9,68.17,613.53
3,31/03/1908,agulha hipodermica,10,26.39,263.9
4,21/12/2015,medicamento a,7,33.58,235.06
5,13/07/2003,medicamento b,5,67.94,339.7
6,09/07/2008,medicamento c,9,41.81,376.29
7,30/11/1999,luva cirurgica,6,4.25,25.5
8,14/09/1995,hastes flexiveis,6,44.74,268.44
9,31/03/2008,sabonete,8,89.1,712.8


Produtos sem estoque não faturaram, pois sequer foram vendidos. Segue uma nova tabela sem esses valores

In [None]:
#encontra os produtos com quantidades zeradas de produto
valorzerado = dados.loc[(dados==0).any(axis=1)]
valorzerado
#cria um df sem esses dados zerados
dados_novo = dados.drop(valorzerado.index)
dados_novo

Unnamed: 0,data,produto,quantidade,preco_unitario,faturamento_total
0,09/03/2000,mascara de oxigenio,5,5.98,29.9
1,31/03/2008,tesoura cirurgica,9,26.32,236.88
2,09/07/2008,esparadrapos,9,68.17,613.53
3,31/03/1908,agulha hipodermica,10,26.39,263.9
4,21/12/2015,medicamento a,7,33.58,235.06
5,13/07/2003,medicamento b,5,67.94,339.7
6,09/07/2008,medicamento c,9,41.81,376.29
7,30/11/1999,luva cirurgica,6,4.25,25.5
8,14/09/1995,hastes flexiveis,6,44.74,268.44
9,31/03/2008,sabonete,8,89.1,712.8


Por fim, definiremos quais são os produtos que mais faturaram e os que menos faturaram. Segue a rotina abaixo com os valores maximos e minimos da tabela:

In [None]:
max_fat = dados_novo.loc[dados_novo['faturamento_total'].idxmax()] #escolhe o produto que possuiu o maior faturamento
min_fat = dados_novo.loc[dados_novo['faturamento_total'].idxmin()] #escolhe o produto que possuiu o menor faturamento

#imprime na tela
str_max = 'maior faturamento foi do item ' + max_fat.produto + ' no valor de ' + 'R${:,.2f}'.format(max_fat.faturamento_total)
str_min = 'menor faturamento foi do item ' + min_fat.produto + ' no valor de ' + 'R${:,.2f}'.format(min_fat.faturamento_total)


#aqui fiz a correção dos sinais de vírgula e de ponto para o formato brasileiro. Aparentemente aqui no colab isso não existe.
str_max = str_max.replace(',',';')
str_max = str_max.replace('.',',')
str_max = str_max.replace(';','.')
str_min = str_min.replace(',',';')
str_min =str_min.replace('.',',')
str_min = str_min.replace(';','.')

print(str_max)
print(str_min)


maior faturamento foi do item ressonancia 1,5T no valor de R$4.502.339,10
menor faturamento foi do item vacina D no valor de R$6,86
