# Projeto: Banco FinanceX
<hr>

#### Respondendo a perguntas de negócio com base na exploração e análise de dados <br>

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_vendas_original = pd.read_csv("./vendas_produtos_financeiros.csv", delimiter=";")

> #### Iniciando exploração do dataset

In [3]:
df_vendas_original.head()

Unnamed: 0,Produto,Quantidade,Preco_Unitario,Valor_Total,Data,Estado
0,Produto 10,5,6.03,30.15,05/10/2023 10:03,RS
1,Produto 2,9,20.48,184.32,17/03/2023 14:03,RJ
2,Produto 5,3,25.39,76.17,20/04/2023 09:03,BA
3,Produto 6,3,10.73,32.19,21/09/2023 15:03,AM
4,Produto 8,4,34.67,138.68,04/09/2023 01:03,SP


In [4]:
df_vendas_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2031 entries, 0 to 2030
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Produto         2026 non-null   object 
 1   Quantidade      2031 non-null   int64  
 2   Preco_Unitario  2019 non-null   float64
 3   Valor_Total     2021 non-null   float64
 4   Data            2031 non-null   object 
 5   Estado          2031 non-null   object 
dtypes: float64(2), int64(1), object(3)
memory usage: 95.3+ KB


In [5]:
df_vendas_original.describe()

Unnamed: 0,Quantidade,Preco_Unitario,Valor_Total
count,2031.0,2019.0,2021.0
mean,5.466273,21.126612,114.736388
std,2.842971,10.492021,87.156235
min,1.0,-0.92,-3.68
25%,3.0,11.94,46.78
50%,5.0,19.66,91.56
75%,8.0,28.165,161.94
max,10.0,52.04,477.4


In [6]:
df_vendas_original.shape

(2031, 6)

### Pergunta 1:
Existem valores ausentes no dataset coletado?

In [7]:
print(df_vendas_original.isna().sum())

Produto            5
Quantidade         0
Preco_Unitario    12
Valor_Total       10
Data               0
Estado             0
dtype: int64


### Pergunta 2:
O dataset coletado possui algum registro duplicado?

In [8]:
print("O dataset possui:", df_vendas_original.duplicated().sum(), "registros duplicados.")

O dataset possui: 31 registros duplicados.


> Para responder as próximas perguntas será realizado o tratamento dos dados ausentes conforme orientação dada no projeto: </br>1. Para dados os dados categóricos, utilize a estratégia de exclusão dos dados.<br>
    2. Para os dados numéricos, utilize:<br>
        a. Regra do negócio para corrigi-los.</br>
        b. Você pode corrigir os dados de diversos métodos: Where, mask, fillna.</br>
            i. Escolha o melhor método de sua preferência.</br>
        c. Atenção para a correção baseada na regra.</br>
            i. Ex.: Valor total da venda = Quantidade unitária * Preço do produto</br>
            ii. Utilize os próprios dados para fazer a correção.</br>


In [10]:
#Exclusão dos dados categóricos
df_clean_product = df_vendas_original.dropna(subset=['Produto'])

In [11]:
print(df_clean_product.isna().sum())

Produto            0
Quantidade         0
Preco_Unitario    12
Valor_Total        9
Data               0
Estado             0
dtype: int64


In [12]:
#Tratamento dos dados númericos: aplicada a média dos valores nos dados ausentes de Preco_Unitario e realizdo o calculo para preenchimento do Valor_Total
df_clean_final = df_clean_product.fillna({'Preco_Unitario': df_clean_product['Preco_Unitario'].mean(), 'Valor_Total': df_clean_product['Quantidade'] * df_clean_product['Preco_Unitario']})

In [13]:
#Todos os valores ausentes foram preenchidos
print(df_clean_final.isna().sum())

Produto           0
Quantidade        0
Preco_Unitario    0
Valor_Total       0
Data              0
Estado            0
dtype: int64


### Pergunta 3:
Qual é a média do valor das vendas de todos os produtos destinados ao Estado de São Paulo (SP)?

In [14]:
df_grouped_estate_sp = df_clean_final[df_clean_final['Estado'] == 'SP'].groupby('Estado')

In [15]:
df_grouped_estate_final = df_grouped_estate_sp['Valor_Total'].mean()

In [16]:
print("A média das vendas realizadas no Estado de São Paulo é: \n", df_grouped_estate_final.round(2))

A média das vendas realizadas no Estado de São Paulo é: 
 Estado
SP    111.57
Name: Valor_Total, dtype: float64


### Pergunta 4:
Qual é o desvio padrão da quantidade unitária para todos os produtos vendidos no Estado de Pernambuco (PE)?

In [17]:
df_grouped_estate_pe = df_clean_final[df_clean_final['Estado'] == 'PE'].groupby('Estado')

In [18]:
df_grouped_estate_pe.head()

Unnamed: 0,Produto,Quantidade,Preco_Unitario,Valor_Total,Data,Estado
9,Produto 9,4,14.52,58.08,23/01/2023 04:03,PE
10,Produto 3,9,16.06,144.54,03/10/2023 04:03,PE
19,Produto 1,5,9.35,46.75,28/08/2023 18:03,PE
29,Produto 7,2,48.72,97.44,17/03/2023 07:03,PE
61,Produto 8,8,33.55,268.4,21/11/2022 22:03,PE


In [19]:
df_grouped_estate_pe_final = df_grouped_estate_pe['Quantidade'].std()

In [20]:
print("O desvio padrão encontrado é: \n", df_grouped_estate_pe_final.round(2))

O desvio padrão encontrado é: 
 Estado
PE    2.86
Name: Quantidade, dtype: float64


### Pergunta 5:
Qual é o valor máximo da venda para os produtos vendidos no Estado de Santa Catarina (SC)?

In [21]:
df_grouped_estate_sc = df_clean_final[df_clean_final['Estado'] == 'SC'].groupby('Estado')

In [22]:
df_grouped_estate_sc_final = df_grouped_estate_sc['Valor_Total'].max()

In [23]:
print("O maior valor de venda encontrado é: \n", df_grouped_estate_sc_final)

O maior valor de venda encontrado é: 
 Estado
SC    356.2
Name: Valor_Total, dtype: float64


### Pergunta 6:
Calcule a soma da coluna "Quantidade" para todos os produtos e responda: qual produto teve o maior total de unidades vendidas?

In [24]:
df_calc_qtd = df_clean_final.groupby('Produto')['Quantidade'].sum().sort_values(ascending = False)
print(df_calc_qtd)

Produto
Produto 3     1197
Produto 2     1191
Produto 6     1185
Produto 5     1183
Produto 1     1122
Produto 10    1104
Produto 8     1056
Produto 4     1037
Produto 7     1016
Produto 9      996
Name: Quantidade, dtype: int64


### Pergunta 7:
Qual é a média da quantidade vendida para o Produto 8 no Estado de Pernambuco (PE)?

In [25]:
df_grouped_prod_pe = df_clean_final[(df_clean_final['Estado'] == 'PE') & (df_clean_final['Produto'] == 'Produto 8')].groupby('Estado')
df_grouped_prod_pe_final = df_grouped_prod_pe['Quantidade'].mean()
print("A média de quantidades vendidas para o Produto 8 é: \n", df_grouped_prod_pe_final.round(2))

A média de quantidades vendidas para o Produto 8 é: 
 Estado
PE    5.41
Name: Quantidade, dtype: float64


### Pergunta 8:
Qual é a soma do valor da venda para todos os produtos vendidos para os estados de MG e SP?

In [26]:
df_grouped_prod_mg_sp = df_vendas_original[df_vendas_original['Estado'].isin(['MG', 'SP'])].groupby('Estado')
df_grouped_prod_mg_sp_final = df_grouped_prod_mg_sp['Valor_Total'].sum()
print("A soma total de vendas dos dois estados é: R$", df_grouped_prod_mg_sp_final.sum())

A soma total de vendas dos dois estados é: R$ 43858.25


### Pergunta 9:
Calcule a média da coluna "Valor Total" para todos os produtos que estão disponíveis nos estados de AL, BA, CE, MA, PB, PE, PI, RN, SE. Qual é o valor resultante?ed


In [27]:
df_grouped_prod_estates = df_vendas_original[df_vendas_original['Estado'].isin(['AL', 'BA', 'CE', 'MA', 'PB', 'PE', 'PI', 'RN', 'SE'])].groupby('Estado')
df_grouped_prod_mg_sp_final = df_grouped_prod_estates['Valor_Total'].mean()
print("A média do valor total dos estados é: R$", df_grouped_prod_mg_sp_final.mean().round(2))

A média do valor total dos estados é: R$ 114.31
