<a href="https://colab.research.google.com/github/PedroHudson/PUC_MVP3/blob/main/MVP_Engenharia_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**MVP - Engenharia de Dados**



**1. Objetivo:**

Esse projeto tem como objetivo construir um Bando de Dados na Nuvem. O escopo e desenvolvimento do projeto envolve a busca, coleta, modelagem, carga e análise de dados.

**2. Definição do Problema:**

Para a elaboração desse projeto será utilizado um dataset com dados de faturamento de um escritório de advocacia de médio porte, cuja sede localiza-se na cidade de São Paulo.

O escritório tem 33 anos de história, com forte atuação na área empresarial, reconhecidos pelo mercado jurídico como especialistas nas áreas de processo civil, direito aplicado aos FIDC’s (fundos de investimento em direitos creditórios), negócios empresariais, mercado imobiliário, especialmente loteamentos e negócios fiduciários, além de processo tributário e processo do trabalho.

Visando a confidencialidade e proteção dos dados, seguindo as normas e diretrizes da LGPD (Lei Geral de Proteção de Dados Pessoais), todos os dados confidenciais do dataset foram previamente tratados e transformados, para a utilização das informações de modo ético e seguro, garantindo a segurança dos dados e as boas práticas de governança.

Iremos analisar o faturamento da empresa nos últimos 4 anos, demonstraremos o faturamento por ano, por área e por rubrica, visualizaremos também os maiores clientes por faturamento e analisaremos como foi o desempenho do escritório durante e pós pandemia de COVID-19.







**3. Importação das Bibliotecas e Configurações.**

In [25]:
# Importação do Pandas
import pandas as pd

# Importação do Numpy
import numpy as np

# Importação do Pyplot
import matplotlib.pyplot as plt

# Importação de pacotes Matplotlib
from matplotlib import cm

# Importação do Seaborn
import seaborn as sns

# Configuração para não exibir Warnings
import warnings
warnings.filterwarnings('ignore')

**4. Importação do Dataset.**

In [26]:
# Importando dados da url para um dataframe

# url a importar
url_dados = 'https://github.com/PedroHudson/PUC_MVP3/blob/main/Faturamento.xlsx?raw=true'

# carga do dataset através da url
dataset = pd.read_excel(url_dados)


**5. Análise Exploratória - Primeiras Visualizações e Análises.**

In [27]:
# Visualização da quantidade de instâncias e atributos do dataset
dataset.shape

(10397, 10)

*Nessa primeira análise verificamos que o dataset tem 10 atributos e 10397 instâncias.*

In [28]:
# Visualização da quantidade de linhas por coluna
dataset.count()

Data          10397
Banco         10397
Cliente       10397
Finalidade    10397
Histórico     10397
C/D           10397
Valor         10397
Rubrica       10397
Área          10397
Processo      10397
dtype: int64

*Todos os atributos possuem a mesma quantidade de instâncias.*

In [29]:
# Visualização dos tipos de dados
dataset.dtypes

Data           object
Banco          object
Cliente        object
Finalidade     object
Histórico      object
C/D            object
Valor         float64
Rubrica        object
Área           object
Processo       object
dtype: object

*A visualização dos tipos de dados nos permite verificar que 9 atributos são do tipo object e apenas o atributo "Valor" é do tipo float64.*

In [30]:
# Visualização das primeiras linhas do dataframe
dataset.head()

Unnamed: 0,Data,Banco,Cliente,Finalidade,Histórico,C/D,Valor,Rubrica,Área,Processo
0,02/01/2020,Itaú,Cobra Brasil Fomento Mercantil S.A,Honorários de Sucumbência - Parcela 02/10,TF Acordo Credit Brasil FIDC Master x Bouton I...,C,969.76,Sucumbência,Recuperação de Crédito,CBR0874-NT
1,02/01/2020,Itaú,Cobra Brasil Fomento Mercantil S.A,Honorários de Êxito - Parcela 02/10,TF Acordo Credit Brasil FIDC Master x Bouton I...,C,436.39,Honorários de Êxito,Recuperação de Crédito,CBR0874-NT
2,02/01/2020,Banco do Brasil,Grupo Alves Cintra,Honorários de Sucumbência - Parcela 02/10,TF Acordo Loteamentos Sítios e Recreios Colina...,C,71.23,Sucumbência,Recuperação de Crédito,AL0312
3,02/01/2020,Banco do Brasil,Grupo Alves Cintra,Honorários de Sucumbência - Parcela 02/10,TF Acordo Alves Cardoso x Juliana Benvenuto da...,C,33.77,Sucumbência,Contencioso Cível,AL0308
4,03/01/2020,Banco do Brasil,Escritório Advogados Associados,Honorários de Sucumbência - Parcela 02/05,TF Acordo Teixeira Fortes x Progress Comércio ...,C,500.0,Sucumbência,Contencioso Cível,TF0863


In [31]:
# Visualização das últimas linhas do dataframe
dataset.tail()

Unnamed: 0,Data,Banco,Cliente,Finalidade,Histórico,C/D,Valor,Rubrica,Área,Processo
10392,31/08/2023,Banco do Brasil,Minas Finanças Ltda,Honorários de Sucumbência - parcela 01/06,TF Acordo Banminas FIDC NP x Marisa Lojas S/A ...,C,3700.0,Sucumbência,Recuperação de Crédito,BMI0014-NT
10393,31/08/2023,Itaú,Auto Mecânica Mister,Fee Mensal - Junho/2023 - parcial,TF Auto Mecânica Marcelo Ltda,C,1998.31,Fee Mensal,Gestão,MPE-FEE
10394,31/08/2023,Itaú,Jose Norberto Fomento Mercantil Ltda.,Honorários de Êxito - Parcela 09,TF RJ JN Fomento x AAX Produção e Comércio de ...,C,101.48,Honorários de Êxito,Recuperação Judicial e Falência,JN0446
10395,31/08/2023,Itaú,Oerca Torres S/A,Honorários de Êxito - Parcela 48,TF RJ Irga x Alumini Engenharia S.A - IR1217,C,17.79,Honorários de Êxito,Recuperação Judicial e Falência,IR1217
10396,31/08/2023,Itaú,Oerca Torres S/A,Honorários de Êxito - Parcela 48,TF RJ Mammoet x Alumini Engenharia S.A e outro...,C,127.64,Honorários de Êxito,Recuperação Judicial e Falência,MIB0086
