<a href="https://colab.research.google.com/github/PedroHudson/PUC_MVP1/blob/main/MVP_An%C3%A1lise_de_Dados_e_Boas_Pr%C3%A1ticas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**MVP - Análise de Dados e Boas Práticas**


**1. Definiçao do Problema.**

Esse projeto visa analisar a arrecadaçao da Uniao Federal referente ao IPI (Imposto sobre Produtos Industrializados), no período de Janeiro/2000 a Fevereiro/2023. A análise será centrada em 3 categorias do imposto, IPI - Fumo, IPI - Bebidas e IPI - Automóveis, iremos focar nos estados que compoe a regiao sudeste do país, que juntos geram a maior arrecadacao da Uniao.
Para isso utilizaremos os dados disponíveis do Portal de Dados Abertos do Governo Federal.  

**2. Importacao das Bibliotecas e Configuracoes para nao receber Warnings, para Transformacoes Númericas e Categóricas.**

In [1]:
# Importacao do Pandas
import pandas as pd

# Importacao do Numpy
import numpy as np

# Importacao do Pyplot
import matplotlib.pyplot as plt

# Importacao de pacotes Matplotlib
from matplotlib import cm

# Importacao do Seaborn
import seaborn as sns

# Importacao do MissingNo para tratamento de missings
import missingno as ms 

# Transformacoes Númericas

# Normalizacao
from sklearn.preprocessing import MinMaxScaler 

# Padronizacao
from sklearn.preprocessing import StandardScaler

# Transformacoes Categóricas
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder

# Configuracao para nao exibir Warnings
import warnings
warnings.filterwarnings('ignore')

**3. Importacao do Dataset.**

In [2]:
# Importando dados da url para um dataframe

# url a importar
url_dados = 'https://www.gov.br/receitafederal/dados/arrecadacao-estado.csv?raw=true'

# carga do dataset através da url
ipi = pd.read_csv(url_dados, sep=';', encoding='ISO-8859-1',decimal=',')

**4. Análise Exploratória - Primeiras Análises.**

In [3]:
# Visualizacao da quantidade de instancias e atributos do dataset
ipi.shape

(7506, 45)

In [4]:
# Visualizacao da quantidade de linhas por coluna
ipi.count()

Ano                                                             7506
Mês                                                             7506
UF                                                              7506
IMPOSTO SOBRE IMPORTAÇÃO                                        7506
IMPOSTO SOBRE EXPORTAÇÃO                                        7506
IPI - FUMO                                                      7506
IPI - BEBIDAS                                                   7506
IPI - AUTOMÓVEIS                                                7506
IPI - VINCULADO À IMPORTACAO                                    7506
IPI - OUTROS                                                    7506
IRPF                                                            7506
IRPJ - ENTIDADES FINANCEIRAS                                    7506
IRPJ - DEMAIS EMPRESAS                                          7506
IRRF - RENDIMENTOS DO TRABALHO                                  7506
IRRF - RENDIMENTOS DO CAPITAL     

Observa-se que os itens que serao o foco da análise tem a mesma quantidade de linhas (IPI - Fumo, IPI - Bebidas e IPI - Automóveis).

In [5]:
# Visualizacao dos tipos de dados 
ipi.dtypes

Ano                                                               int64
Mês                                                              object
UF                                                               object
IMPOSTO SOBRE IMPORTAÇÃO                                         object
IMPOSTO SOBRE EXPORTAÇÃO                                         object
IPI - FUMO                                                       object
IPI - BEBIDAS                                                    object
IPI - AUTOMÓVEIS                                                 object
IPI - VINCULADO À IMPORTACAO                                     object
IPI - OUTROS                                                     object
IRPF                                                             object
IRPJ - ENTIDADES FINANCEIRAS                                     object
IRPJ - DEMAIS EMPRESAS                                           object
IRRF - RENDIMENTOS DO TRABALHO                                  

Com a visualizacao dos tipos de dados por atributo verificou-se que os itens que serao analisados estao classificados como tipo Object, portanto sera necessario fazer um tratamento para a transformacao dos dados em tipo Inteiro (int), permitindo assim a realizacao e visualizacao de um resumo estatistico dos atributos com valores numéricos.

**5. Criacao do Dataframe a ser analisado, primeiras visualizacoes de dados.**

In [6]:
# Selecao das colunas para a criacao do novo dataframe
ipi_cols = ipi[['Ano', 'Mês', 'UF', 'IPI - FUMO', 'IPI - BEBIDAS', 'IPI - AUTOMÓVEIS']]

# Criacao de variável para a selecao dos Estados a serem analisados
sudeste = ['ES', 'MG', 'RJ', 'SP']

# Criacao do novo Dataframe 
ipi_sud = ipi_cols[ipi_cols['UF'].isin(sudeste)]


In [7]:
# Visualizacao da quantidade de instancias e atributos do novo dataframe
ipi_sud.shape

(1112, 6)

In [8]:
# Visualizacao dos tipos de dados do novo dataframe
ipi_sud.dtypes

Ano                  int64
Mês                 object
UF                  object
IPI - FUMO          object
IPI - BEBIDAS       object
IPI - AUTOMÓVEIS    object
dtype: object

**6. Pré-processamento - Transformacoes dos dados.**

In [9]:
# Transformacao dos dados da coluna IPI - FUMO em Inteiro(int)
ipi_sud['IPI - FUMO']=ipi_sud['IPI - FUMO'].str.replace(',','').astype(int)

In [10]:
# Transformacao dos dados da coluna IPI - BEBIDAS em Inteiro(int)
ipi_sud['IPI - BEBIDAS']=ipi_sud['IPI - BEBIDAS'].str.replace(',','').astype(int)

In [None]:
# Transformacao dos dados da 