# Análise de dados: Falsificação de cédulas de Real (R$)

Neste projeto serão analisados os dados de reclamações de consumidores com uma empresa de telecomunicações no 1º semestre de 2021, são dados (.csv) reais extraídos do site [consumidor.gov.br](https://www.consumidor.gov.br) disponibilizados pelo [Portal de dados do Ministério da Justiça](http://dados.mj.gov.br/).

Neste projeto serão analisados os dados de falsificação de cédulas de Real (R$) de 1995 até 2020, são informações (.csv) legítimas extraídas do portal de [Dados Abertos](https://dadosabertos.bcb.gov.br/) disponibilizados pelo [Banco Central do Brasil](https://www.bcb.gov.br/).

## Demanda da análise

- Demonstrar a evolução das falsificações
- Identificar as cédulas mais falsificadas
- Identificar os estados com mais incidência de falsificações
- Estimar para os próximos anos a incidência de falsificações

## Indagações a serem respondidas pela análise exploratória dos dados

1. Qual a quantidade/percentual de falsificações por cédula?
2. Qual a quantidade/percentual de falsificações por cédula?
3. Qual a quantidade/percentual de falsificações por ano?
4. Qual a quantidade/percentual de falsificações por ano?
5. Qual a quantidade/percentual de falsificações por cédula/ano?
6. Qual a quantidade/percentual de falsificações por cédula/ano?
7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?
8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## Importação de pacotes

In [48]:
# Importação de pacotes e definição de parâmetros globais

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mp
import seaborn as sns

sns.set_style('darkgrid')

## Carregamento dos dados

In [49]:
# Criando um dataframe atribuindo o arquivo csv no diretório dados e definindo o nome das colunas

df = pd.read_csv('dados/Falsificacao_DadosAbertos.csv', sep=';', header=None)

df.columns = ['Ano', 'Estado', 'Família', 'Denominação', 'Quantidade']


## Detalhes do dataframe

In [50]:
# Amostra de dados do dataframe

df.sample(10)

Unnamed: 0,Ano,Estado,Família,Denominação,Quantidade
2238,2010,RONDÔNIA,Cédulas - em polímero,10.0,100
4035,2016,TOCANTINS,Cédulas - 2a. família,5.0,600
3663,2015,RONDÔNIA,Cédulas - 1a. família,10.0,2100
5204,2020,PARANÁ,Cédulas - 2a. família,50.0,"2.107,00"
4686,2018,TOCANTINS,Cédulas - 1a. família,50.0,8700
4718,2019,AMAPÁ,Cédulas - 2a. família,50.0,3900
863,2004,ACRE,Cédulas - 1a. família,10.0,5300
1690,2008,ALAGOAS,Cédulas - 1a. família,20.0,37700
5143,2020,MATO GROSSO,Cédulas - 2a. família,200.0,100
1665,2007,SÃO PAULO,Cédulas - 1a. família,100.0,"4.268,00"


In [51]:
# Quantidade de linhas e colunas

df.shape

(5680, 5)

In [52]:
# Removendo a coluna que não será utilizada na análise

df = df.drop(columns=['Família'])
df.shape

(5680, 4)

In [53]:
# Informações das colunas como nome, contagem de linhas nulas e tipo de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int64  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   object 
dtypes: float64(1), int64(1), object(2)
memory usage: 177.6+ KB


## Tratando valores nulos

In [54]:
# Identificando a quantidade de valores nulos, no caso não há dados nulos

df.isnull().sum()

Ano            0
Estado         0
Denominação    0
Quantidade     0
dtype: int64

## Tratando os tipos de valores

In [55]:
# Identificando os tipos de dados das colunas

df.dtypes

Ano              int64
Estado          object
Denominação    float64
Quantidade      object
dtype: object

In [56]:
# Efetuando as conversões necessárias dos tipos de dados e exibindo novamente as informações das colunas

df['Ano'] = df['Ano'].astype('int')


df['Quantidade'] = [float(str(i).replace(",", "")) for i in df['Quantidade']]
df['Quantidade'] = df['Quantidade'].astype('int')

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int32  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   int32  
dtypes: float64(1), int32(2), object(1)
memory usage: 133.2+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5680 entries, 0 to 5679
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Ano          5680 non-null   int32  
 1   Estado       5680 non-null   object 
 2   Denominação  5680 non-null   float64
 3   Quantidade   5680 non-null   int32  
dtypes: float64(1), int32(2), object(1)
memory usage: 133.2+ KB


In [57]:
# Contagem de linhas do dataframe

df.count()

Ano            5680
Estado         5680
Denominação    5680
Quantidade     5680
dtype: int64

## Amostra de dados do dataframe após tratamento das informações

In [58]:
df.sample(10)

Unnamed: 0,Ano,Estado,Denominação,Quantidade
1599,2007,PERNAMBUCO,2.0,14000
1421,2006,RIO GRANDE DO NORTE,10.0,92800
341,2001,AMAPÁ,100.0,200
3472,2015,CEARÁ,10.0,5600
362,2001,DISTRITO FEDERAL,10.0,3300
3206,2014,MATO GROSSO,2.0,300
5166,2020,MINAS GERAIS,100.0,2
2759,2012,SÃO PAULO,2.0,21500
4629,2018,RORAIMA,2.0,100
4032,2016,TOCANTINS,2.0,100


## 1. Qual a quantidade/percentual de falsificações por cédula?

## 2. Qual a quantidade/percentual de falsificações por cédula?

## 3. Qual a quantidade/percentual de falsificações por ano?

## 4. Qual a quantidade/percentual de falsificações por ano?

## 5. Qual a quantidade/percentual de falsificações por cédula/ano?

## 6. Qual a quantidade/percentual de falsificações por cédula/ano?

## 7. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?

## 8. Qual a estimativa de falsificações por cédula/ano (2021 e 2022)?