# Análise de dados: Falsificação de cédulas de Real (R$)

Neste projeto serão analisados os dados de reclamações de consumidores com uma empresa de telecomunicações no 1º semestre de 2021, são dados (.csv) reais extraídos do site [consumidor.gov.br](https://www.consumidor.gov.br) disponibilizados pelo [Portal de dados do Ministério da Justiça](http://dados.mj.gov.br/).

Neste projeto serão analisados os dados de falsificação de cédulas de Real (R$) de 1995 até 2020, são informações (.csv) legítimas extraídas do portal de [Dados Abertos](https://dadosabertos.bcb.gov.br/) disponibilizados pelo [Banco Central do Brasil](https://www.bcb.gov.br/).

## Demanda da análise

- Demonstrar a evolução das falsificações
- Identificar as cédulas mais falsificadas
- Identificar os estados com mais incidência de falsificações
- Estimar para os próximos anos a incidência de falsificações

## Indagações a serem respondidas pela análise exploratória dos dados

1. Qual a quantidade/percentual de falsificações por cédula?
2. Qual a quantidade/percentual de falsificações por cédula?
3. Qual a quantidade/percentual de falsificações por ano?
4. Qual a quantidade/percentual de falsificações por ano?
5. Qual a quantidade/percentual de falsificações por cédula/ano?
6. Qual a quantidade/percentual de falsificações por cédula/ano?
7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?
8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## Importação de pacotes

In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mp
import seaborn as sns
import glob

sns.set_style('darkgrid')

## Carregamento dos dados

In [47]:
# Criando um dataframe atribuindoo o arquivo csv no diretório dados e definindo o nome das colunas

df = pd.read_csv('dados/Falsificacao_DadosAbertos.csv', sep=';', header=None)

df.columns = ['Ano', 'Estado', 'Família', 'Denominação', 'Quantidade']


## Detalhes do dataframe

In [48]:
df.sample(10)

Unnamed: 0,Ano,Estado,Família,Denominação,Quantidade
366,2001,ESPÍRITO SANTO,Cédulas - 1a. família,1.0,200
1438,2006,RONDÔNIA,Cédulas - 1a. família,20.0,10700
4112,2017,DISTRITO FEDERAL,Cédulas - 1a. família,2.0,3800
3720,2015,TOCANTINS,Cédulas - 1a. família,10.0,700
1778,2008,NAO INFORMADO,Cédulas - 1a. família,50.0,4100
3722,2015,TOCANTINS,Cédulas - 1a. família,20.0,3000
335,2001,ALAGOAS,Cédulas - 1a. família,10.0,"1.234,00"
1986,2009,PARÁ,Cédulas - 1a. família,50.0,"2.778,00"
1637,2007,RONDÔNIA,Cédulas - 1a. família,2.0,2000
992,2004,PERNAMBUCO,Cédulas - 1a. família,50.0,"9.916,00"


In [50]:
df.shape

(5680, 5)

In [51]:
# Removendo a coluna que não será utilizada na análise

df = df.drop(columns=['Família'])
df.shape

(5680, 4)

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int64  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   object 
dtypes: float64(1), int64(1), object(2)
memory usage: 177.6+ KB


## Tratando valores nulos

In [53]:
df.isnull().sum()

Ano            0
Estado         0
Denominação    0
Quantidade     0
dtype: int64

## Tratando os tipos de valores

In [54]:
df.dtypes

Ano              int64
Estado          object
Denominação    float64
Quantidade      object
dtype: object

In [62]:
df['Ano'] = df['Ano'].astype('int8', errors='ignore')
df['Quantidade'] = df['Quantidade'].astype('int64', errors='ignore')

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int8   
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   object 
dtypes: float64(1), int8(1), object(2)
memory usage: 138.8+ KB


In [58]:
df.count()

Ano            5680
Estado         5680
Denominação    5680
Quantidade     5680
dtype: int64

## 1. Qual a quantidade/percentual de falsificações por cédula?

## 2. Qual a quantidade/percentual de falsificações por cédula?

## 3. Qual a quantidade/percentual de falsificações por ano?

## 4. Qual a quantidade/percentual de falsificações por ano?

## 5. Qual a quantidade/percentual de falsificações por cédula/ano?

## 6. Qual a quantidade/percentual de falsificações por cédula/ano?

## 7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## 8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?