# Análise de dados: Falsificação de cédulas de Real (R$)

Neste projeto serão analisados os dados de falsificação de cédulas de Real (R$) de 1995 até 2020, são informações (.csv) legítimas extraídas do portal de [Dados Abertos](https://dadosabertos.bcb.gov.br/) disponibilizados pelo [Banco Central do Brasil](https://www.bcb.gov.br/).

## Demanda da análise

- Demonstrar a evolução das falsificações
- Identificar as cédulas mais falsificadas
- Identificar os estados com mais incidência de falsificações
- Estimar para os próximos anos a incidência de falsificações

## Indagações a serem respondidas pela análise exploratória dos dados

1. Qual a quantidade/percentual de falsificações por cédula?
2. Qual a quantidade/percentual de falsificações por cédula?
3. Qual a quantidade/percentual de falsificações por ano?
4. Qual a quantidade/percentual de falsificações por ano?
5. Qual a quantidade/percentual de falsificações por cédula/ano?
6. Qual a quantidade/percentual de falsificações por cédula/ano?
7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?
8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## Importação de pacotes

In [59]:
# Importação de pacotes e definição de parâmetros globais

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mp
import seaborn as sns

sns.set_style('darkgrid')

## Carregamento dos dados

In [60]:
# Criando um dataframe atribuindo o arquivo csv no diretório dados e definindo o nome das colunas

df = pd.read_csv('dados/Falsificacao_DadosAbertos.csv', sep=';', header=None)

df.columns = ['Ano', 'Estado', 'Família', 'Denominação', 'Quantidade']


## Detalhes do dataframe

In [61]:
# Amostra de dados do dataframe

df.sample(10)

Unnamed: 0,Ano,Estado,Família,Denominação,Quantidade
5123,2020,MARANHÃO,Cédulas - 2a. família,10.0,5400
4636,2018,RORAIMA,Cédulas - 2a. família,50.0,6400
4086,2017,BAHIA,Cédulas - 1a. família,2.0,8500
3546,2015,MATO GROSSO DO SUL,Cédulas - 2a. família,20.0,6000
5396,2021,CEARÁ,Cédulas - 2a. família,200.0,18800
2764,2012,SÃO PAULO,Cédulas - 1a. família,20.0,"17.928,00"
2478,2011,SANTA CATARINA,Cédulas - 1a. família,20.0,"2.788,00"
5023,2020,ALAGOAS,Cédulas - 2a. família,5.0,6400
3207,2014,MATO GROSSO,Cédulas - 2a. família,2.0,200
2778,2012,SERGIPE,Cédulas - 2a. família,50.0,60100


In [62]:
# Quantidade de linhas e colunas

df.shape

(5680, 5)

In [63]:
# Removendo a coluna que não será utilizada na análise

df = df.drop(columns=['Família'])
df.shape

(5680, 4)

In [64]:
# Informações das colunas como nome, contagem de linhas nulas e tipo de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int64  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   object 
dtypes: float64(1), int64(1), object(2)
memory usage: 177.6+ KB


## Tratando valores nulos

In [65]:
# Identificando a quantidade de valores nulos, no caso não há dados nulos

df.isnull().sum()

Ano            0
Estado         0
Denominação    0
Quantidade     0
dtype: int64

## Tratando os tipos de valores

In [66]:
# Identificando os tipos de dados das colunas

df.dtypes

Ano              int64
Estado          object
Denominação    float64
Quantidade      object
dtype: object

In [67]:
# Efetuando as conversões necessárias dos tipos de dados e exibindo novamente as informações das colunas

df['Ano'] = df['Ano'].astype('int')


df['Quantidade'] = [float(str(i).replace(",", "")) for i in df['Quantidade']]
df['Quantidade'] = df['Quantidade'].astype('int')

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int32  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   int32  
dtypes: float64(1), int32(2), object(1)
memory usage: 133.2+ KB


In [68]:
# Contagem de linhas do dataframe

df.count()

Ano            5680
Estado         5680
Denominação    5680
Quantidade     5680
dtype: int64

## Amostra de dados do dataframe após tratamento das informações

In [69]:
df.sample(10)

Unnamed: 0,Ano,Estado,Denominação,Quantidade
2836,2013,BAHIA,10.0,700
1787,2008,PARÁ,100.0,11300
1972,2009,MINAS GERAIS,10.0,4
324,2000,TOCANTINS,5.0,3300
3289,2014,PERNAMBUCO,20.0,67700
176,1999,RIO GRANDE DO SUL,50.0,24400
4731,2019,BAHIA,2.0,1400
3185,2014,GOIÁS,10.0,100
2156,2010,MATO GROSSO,10.0,21700
1198,2005,PIAUÍ,2.0,800


## 1. Qual a quantidade/percentual de falsificações por cédula?

## 2. Qual a quantidade/percentual de falsificações por cédula?

## 3. Qual a quantidade/percentual de falsificações por ano?

## 4. Qual a quantidade/percentual de falsificações por ano?

## 5. Qual a quantidade/percentual de falsificações por cédula/ano?

## 6. Qual a quantidade/percentual de falsificações por cédula/ano?

## 7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## 8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?