# Análise de dados: Falsificação de cédulas de Real (R$)

Neste projeto serão analisados os dados de falsificação de cédulas de Real (R$) de 1995 até 2020, são informações (.csv) legítimas extraídas do portal de [Dados Abertos](https://dadosabertos.bcb.gov.br/) disponibilizados pelo [Banco Central do Brasil](https://www.bcb.gov.br/).

## Demanda da análise

- Demonstrar a evolução das falsificações
- Identificar as cédulas mais falsificadas
- Identificar os estados com mais incidência de falsificações
- Estimar para os próximos anos a incidência de falsificações

## Indagações a serem respondidas pela análise exploratória dos dados

1. Qual a quantidade/percentual de falsificações por cédula?
2. Qual a quantidade/percentual de falsificações por cédula?
3. Qual a quantidade/percentual de falsificações por ano?
4. Qual a quantidade/percentual de falsificações por ano?
5. Qual a quantidade/percentual de falsificações por cédula/ano?
6. Qual a quantidade/percentual de falsificações por cédula/ano?
7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?
8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## Importação de pacotes

In [232]:
# Importação de pacotes e definição de parâmetros globais

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mp
import seaborn as sns

sns.set_style('darkgrid')

## Carregamento dos dados

In [233]:
# Criando um dataframe atribuindo o arquivo csv no diretório dados e definindo o nome das colunas

df = pd.read_csv('dados/Falsificacao_DadosAbertos.csv', sep=';', header=None)

df.columns = ['Ano', 'Estado', 'Família', 'Denominação', 'Quantidade']


## Detalhes do dataframe

In [234]:
# Amostra de dados do dataframe

df.sample(10)

Unnamed: 0,Ano,Estado,Família,Denominação,Quantidade
5348,2021,ALAGOAS,Cédulas - 1a. família,20.0,300
4842,2019,PARÁ,Cédulas - 1a. família,5.0,4300
3467,2015,CEARÁ,Cédulas - 1a. família,2.0,300
3494,2015,ESPÍRITO SANTO,Cédulas - 2a. família,5.0,1200
3090,2014,ACRE,Cédulas - 1a. família,5.0,600
5267,2020,RIO GRANDE DO SUL,Cédulas - 2a. família,50.0,"9.993,00"
438,2001,RIO GRANDE DO NORTE,Cédulas - 1a. família,5.0,6900
767,2003,PARÁ,Cédulas - 1a. família,10.0,"1.487,00"
4979,2019,SÃO PAULO,Cédulas - em polímero,10.0,3500
3891,2016,PARÁ,Cédulas - 2a. família,50.0,"1.084,00"


In [235]:
# Quantidade de linhas e colunas

df.shape

(5680, 5)

In [236]:
# Removendo a coluna que não será utilizada na análise

df = df.drop(columns=['Família'])
df.shape

(5680, 4)

In [237]:
# Informações das colunas como nome, contagem de linhas nulas e tipo de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int64  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   object 
dtypes: float64(1), int64(1), object(2)
memory usage: 177.6+ KB


## Tratando valores nulos

In [238]:
# Identificando a quantidade de valores nulos, no caso não há dados nulos

df.isnull().sum()

Ano            0
Estado         0
Denominação    0
Quantidade     0
dtype: int64

## Tratando os tipos de valores

In [239]:
# Identificando os tipos de dados das colunas

df.dtypes

Ano              int64
Estado          object
Denominação    float64
Quantidade      object
dtype: object

In [240]:
# Efetuando as conversões necessárias dos tipos de dados e exibindo novamente as informações das colunas

df['Ano'] = df['Ano'].astype('int')

df['Quantidade'] = [(str(i).replace('.', '')) for i in df['Quantidade']]
df['Quantidade'] = [(str(i).replace(',', '.')) for i in df['Quantidade']]
df['Quantidade'] = [float(str(i)) for i in df['Quantidade']]
df['Quantidade'] = df['Quantidade'].astype('int')

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int32  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   int32  
dtypes: float64(1), int32(2), object(1)
memory usage: 133.2+ KB


In [241]:
# Contagem de linhas do dataframe

df.count()

Ano            5680
Estado         5680
Denominação    5680
Quantidade     5680
dtype: int64

## Selecionando o período entre 1995 e 2020

In [242]:
# Criando um dataframe com todos os períodos

df_full = df

print('-'*30, 'Dataframe: df_full', '-'*30)
print(df_full.info())
print('\n')

# Criando um dataframe com o período entre 1995 e 2020

print('-'*33, 'Dataframe: df', '-'*33)
print(df['Ano'].unique())

df_remover = df.loc[
    (df['Ano'] == 2021) |
    (df['Ano'] == 2022)
]

df = df.drop(df_remover.index)

print('\n')
print(df.info())
print('\n')
print(df['Ano'].unique())


------------------------------ Dataframe: df_full ------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int32  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   int32  
dtypes: float64(1), int32(2), object(1)
memory usage: 133.2+ KB
None


--------------------------------- Dataframe: df ---------------------------------
[1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022]


<class 'pandas.core.frame.DataFrame'>
Int64Index: 5337 entries, 0 to 5336
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5337 non-null   int32  
 1   Estado       5337 non-null

## Amostra de dados do dataframe após tratamento das informações

In [243]:
df.sample(10)

Unnamed: 0,Ano,Estado,Denominação,Quantidade
2815,2013,AMAPÁ,10.0,5
2049,2009,RORAIMA,10.0,50
1680,2008,ACRE,2.0,5
4346,2017,SERGIPE,10.0,571
5310,2020,SÃO PAULO,20.0,16614
577,2002,PARAÍBA,5.0,158
314,2000,SÃO PAULO,5.0,5456
153,1999,PARANÁ,5.0,41
4453,2018,ESPÍRITO SANTO,20.0,50
5190,2020,PARAÍBA,50.0,473


## 1. Qual a quantidade/percentual de falsificações por cédula entre 1995 e 2020?

In [244]:
df_temp = df.groupby(['Ano','Denominação'])['Quantidade'].sum()
df_ano_denominacao_quantidade = pd.DataFrame(df_temp)

df_ano_denominacao_quantidade.head(10)



Unnamed: 0_level_0,Unnamed: 1_level_0,Quantidade
Ano,Denominação,Unnamed: 2_level_1
1995,50.0,240
1995,100.0,2
1996,5.0,2
1996,10.0,6088
1996,50.0,8001
1996,100.0,2330
1997,5.0,182
1997,10.0,108
1997,50.0,154
1997,100.0,180


## 2. Qual a quantidade/percentual de falsificações por cédula?

## 3. Qual a quantidade/percentual de falsificações por ano?

## 4. Qual a quantidade/percentual de falsificações por ano?

## 5. Qual a quantidade/percentual de falsificações por cédula/ano?

## 6. Qual a quantidade/percentual de falsificações por cédula/ano?

## 7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## 8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?