# ST IT Cloud - Data and Analytics Test LV.3

Esse teste deve avaliar a qualidade técnica na manipulacão de dados.

## Passo a passo

- Disponibilizamos aqui 1 case para ser solucionado, leia os enunciados dos problemas, desenvolva os programas, utilizando a **stack definida durante o processo seletivo**, para entregar os dados de acordo com os requisitos descritos abaixo.


**Faz parte dos critérios de avaliacão a pontualidade da entrega. Implemente até onde for possível dentro do prazo acordado.**

**Os dados de pessoas foram gerados de forma aleatória, utilizando a biblioteca FakerJS, FakerJS-BR e Faker**

LEMBRE-SE: A entrega deve conter TODOS os passos para o avaliador executar o programa (keep it simple).


# TESTE PRÁTICO

**Problema**: Você está recebendo o arquivo 'dados_cadastrais_fake.csv' que contem dados cadastrais de clientes, mas para que análises ou relatórios sejam feitos é necessário limpar e normalizar os dados. Além disso, existe uma coluna com o número de cpf e outra com cnpj, você precisará padronizar deixando apenas dígitos em formato string (sem caracteres especiais), implementar uma forma de verificar se tais documentos são válidos sendo que a informação deve se adicionada ao dataframe em outras duas novas colunas.

Após a normalização, gere reports que respondam as seguintes perguntas:
- Quantos clientes temos nessa base?
- Qual a média de idade dos clientes?
- Quantos clientes nessa base pertencem a cada estado?
- Quantos CPFs válidos e inválidos foram encontrados?
- Quantos CNPJs válidos e inválidos foram encontrados?

Ao final gere um arquivo no formato csv e um outro arquivo no formato parquet chamado (problema1_normalizado), eles serão destinados para pessoas distintas.

<a id='sec1'></a>
## 1. BIBLIOTECAS

In [1]:
## Data analysis packages:

import pandas as pd
import numpy as np

# ignore warnings:

import warnings
warnings.filterwarnings("ignore")

# Validate-docbr (Python Library for Validation of Brazilian Documents).

!pip install validate-docbr

from validate_docbr import CPF

cpf = CPF()

from validate_docbr import CNPJ

cnpj = CNPJ()



<a id='sec2'></a>
## 2. Data Wrangling (Preparação dos Dados)

Processo pelo qual passamos a transição de entradas de fonte de dados brutas em saídas preparadas para serem utilizadas na análise e em vários outros fins.

In [2]:
### Base import

cad_fake = pd.read_csv('dados_cadastrais_fake.csv', sep = ';', encoding = 'utf-8')

In [3]:
### Number of instances (rows):

cad_fake.shape

(10000, 6)

In [4]:
cad_fake.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nomes   10000 non-null  object
 1   idade   10000 non-null  int64 
 2   cidade  10000 non-null  object
 3   estado  10000 non-null  object
 4   cpf     10000 non-null  object
 5   cnpj    10000 non-null  object
dtypes: int64(1), object(5)
memory usage: 468.9+ KB


In [5]:
## How many different cities.

cad_fake['cidade'].unique()

array(['ACRELÂNDIA', 'ÁGUA BRANCA', 'ALVARÃES', 'SERRA DO NAVIO',
       'ABAÍRA', 'ABAIARA', 'Brasília', 'AFONSO CLÁUDIO',
       'ABADIA DE GOIÁS', 'AÇAILÂNDIA', 'ABADIA DOS DOURADOS',
       'ÁGUA CLARA', 'ACORIZAL', 'ABAETETUBA', 'ABREU E LIMA', 'ACAUÃ',
       'ABATIÁ', 'ANGRA DOS REIS', 'ACARI', "ALTA FLORESTA D'OESTE",
       'AMAJARI', 'ACEGUÁ', 'ABDON BATISTA', 'AMPARO DE SÃO FRANCISCO',
       'ADAMANTINA', 'ABREULÂNDIA'], dtype=object)

In [6]:
## Title Default for City Names.

cad_fake['cidade'] = cad_fake['cidade'].str.title()

In [7]:
cad_fake['cidade'].unique()

array(['Acrelândia', 'Água Branca', 'Alvarães', 'Serra Do Navio',
       'Abaíra', 'Abaiara', 'Brasília', 'Afonso Cláudio',
       'Abadia De Goiás', 'Açailândia', 'Abadia Dos Dourados',
       'Água Clara', 'Acorizal', 'Abaetetuba', 'Abreu E Lima', 'Acauã',
       'Abatiá', 'Angra Dos Reis', 'Acari', "Alta Floresta D'Oeste",
       'Amajari', 'Aceguá', 'Abdon Batista', 'Amparo De São Francisco',
       'Adamantina', 'Abreulândia'], dtype=object)

In [8]:
## How many different states.

cad_fake['estado'].unique()

array(['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'distrito federal', 'ES', 'GO',
       'MA', 'MG', 'MS', 'MT', 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN',
       'RO', 'RR', 'RS', 'SC', 'SE', 'SP', 'TO', 'sao  paulo', 'DF',
       'são  paulo', 'rio de  janeiro ', 'MINAS GERAI', 'MINAS GERAIs'],
      dtype=object)

In [9]:
## Standardization of the Legend of States.

cad_fake = cad_fake.replace('distrito federal','DF')
cad_fake = cad_fake.replace('sao  paulo','SP')
cad_fake = cad_fake.replace('são  paulo','SP')
cad_fake = cad_fake.replace('MINAS GERAI','MG')
cad_fake = cad_fake.replace('MINAS GERAIs','MG')
cad_fake = cad_fake.replace('rio de  janeiro ','RJ')

In [10]:
cad_fake['estado'].unique()

array(['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG',
       'MS', 'MT', 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR',
       'RS', 'SC', 'SE', 'SP', 'TO'], dtype=object)

In [11]:
display(cad_fake)

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj
0,Dennis Daniels,31,Acrelândia,AC,97566536800,06589184909526
1,Leah Becker,42,Água Branca,AL,425.263.807-07,25.673.336/2350-20
2,Sally Ford,18,Alvarães,AM,34647754103,26543101702989
3,Colleen Duncan,21,Serra Do Navio,AP,252.531.560-03,19.062.080/5100-98
4,Jeff Stephenson,73,Abaíra,BA,49668886542,97794530015384
...,...,...,...,...,...,...
9995,Rebekah Mitchell PhD,55,Abaiara,CE,744.822.622-34,16.740.076/9329-75
9996,Lisa Parrish Jr.,73,Brasília,DF,10683395190,32246978843482
9997,Michael Young MD,87,Afonso Cláudio,ES,538.223.638-04,86.601.303/7580-88
9998,Kevin Watson DDS,82,Abadia De Goiás,GO,11632512408,08651414023648


In [12]:
## Checking the Distinct CPF's number.

cad_fake.cpf.nunique()

10000

In [13]:
## Checking the Distinct CNPJ's number.

cad_fake.cnpj.nunique()

10000

## TRATAMENTO DO CPF E DO CNPJ

- A variável "CPF" está no formato "425.263.807-07"
- Utilizando RegEx, tratar para o formato: "42526380707"
- A variável "CNPJ" está no formato "17.263.979/0001-93"
- Utilizando RegEx, tratar para o formato: "17263979000193"

In [14]:
## Applies Regex.

cad_fake['cpf'] = cad_fake['cpf'].replace(to_replace='[^0-9]+', value='', inplace=False, regex=True)
cad_fake['cnpj'] = cad_fake['cnpj'].replace(to_replace='[^0-9]+', value='', inplace=False, regex=True)

In [15]:
display(cad_fake)

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj
0,Dennis Daniels,31,Acrelândia,AC,97566536800,06589184909526
1,Leah Becker,42,Água Branca,AL,42526380707,25673336235020
2,Sally Ford,18,Alvarães,AM,34647754103,26543101702989
3,Colleen Duncan,21,Serra Do Navio,AP,25253156003,19062080510098
4,Jeff Stephenson,73,Abaíra,BA,49668886542,97794530015384
...,...,...,...,...,...,...
9995,Rebekah Mitchell PhD,55,Abaiara,CE,74482262234,16740076932975
9996,Lisa Parrish Jr.,73,Brasília,DF,10683395190,32246978843482
9997,Michael Young MD,87,Afonso Cláudio,ES,53822363804,86601303758088
9998,Kevin Watson DDS,82,Abadia De Goiás,GO,11632512408,08651414023648


In [16]:
cad_fake.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nomes   10000 non-null  object
 1   idade   10000 non-null  int64 
 2   cidade  10000 non-null  object
 3   estado  10000 non-null  object
 4   cpf     10000 non-null  object
 5   cnpj    10000 non-null  object
dtypes: int64(1), object(5)
memory usage: 468.9+ KB


## VALIDAÇÃO DOS CPF´s E CNPJ´s

In [17]:
cad_fake['validade_cpf'] = cpf.validate_list(cad_fake['cpf'])

In [18]:
cad_fake['validade_cnpj'] = cnpj.validate_list(cad_fake['cnpj'])

In [19]:
display(cad_fake)

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj,validade_cpf,validade_cnpj
0,Dennis Daniels,31,Acrelândia,AC,97566536800,06589184909526,True,True
1,Leah Becker,42,Água Branca,AL,42526380707,25673336235020,True,True
2,Sally Ford,18,Alvarães,AM,34647754103,26543101702989,True,True
3,Colleen Duncan,21,Serra Do Navio,AP,25253156003,19062080510098,True,True
4,Jeff Stephenson,73,Abaíra,BA,49668886542,97794530015384,True,True
...,...,...,...,...,...,...,...,...
9995,Rebekah Mitchell PhD,55,Abaiara,CE,74482262234,16740076932975,True,True
9996,Lisa Parrish Jr.,73,Brasília,DF,10683395190,32246978843482,True,True
9997,Michael Young MD,87,Afonso Cláudio,ES,53822363804,86601303758088,True,True
9998,Kevin Watson DDS,82,Abadia De Goiás,GO,11632512408,08651414023648,True,True


In [20]:
val_cpf = cad_fake.validade_cpf.value_counts()
print("No. de CPF´s válidos :", val_cpf)

No. de CPF´s válidos : True    10000
Name: validade_cpf, dtype: int64


In [21]:
val_cnpj = cad_fake.validade_cnpj.value_counts()
print("No. de CNPJ´s válidos :", val_cnpj)

No. de CNPJ´s válidos : True    10000
Name: validade_cnpj, dtype: int64


<a id='sec1'></a>
## 3. REPORTS

### 1) Quantos clientes temos nessa base?

In [22]:
nomes_unicos = cad_fake.nomes.nunique()
print("Nome de Clientes com Nomes Distintos :", nomes_unicos)

Nome de Clientes com Nomes Distintos : 8655


In [23]:
cpf_unicos = cad_fake.cpf.nunique()
print("Números Distintos de CPF´s :", cpf_unicos)

Números Distintos de CPF´s : 10000


In [24]:
val_cpf = cad_fake.validade_cpf.value_counts()
print("No. de CPF´s válidos :", val_cpf)

No. de CPF´s válidos : True    10000
Name: validade_cpf, dtype: int64


* Considerando que todos os CPF´s são válidos, devemos considerar a presença de pessoas homônimas em nossa base de dados.
* Considerando que só existe um CPF por pessoa física.
* Concluímos que temos 10000 clientes em nossa base.

### 2) Qual a média de idade dos clientes?

In [25]:
med_idade = cad_fake['idade'].mean()
print("A Média de Idade dos Clientes é de :", med_idade, "anos.")

A Média de Idade dos Clientes é de : 53.7831 anos.


### 3) Quantos clientes nessa base pertencem a cada estado?

In [26]:
cad_fake.groupby('estado').size().reset_index()

Unnamed: 0,estado,0
0,AC,371
1,AL,371
2,AM,371
3,AP,371
4,BA,371
5,CE,371
6,DF,371
7,ES,371
8,GO,371
9,MA,371


* Aqui calculamos o numero de repetições que cada sigla de estado tem no DataFrame e desta forma concluimos a quantidade de clientes por estado.

### 4) Quantos CPF´s válidos e inválidos foram encontrados?

In [27]:
cad_fake.validade_cpf.value_counts()

True    10000
Name: validade_cpf, dtype: int64

**Válidos = 10000**

**Inválidos = 0**

### 5) Quantos CNPJ´s válidos e inválidos foram encontrados?

In [28]:
cad_fake.validade_cnpj.value_counts()

True    10000
Name: validade_cnpj, dtype: int64

**Válidos = 10000**

**Inválidos = 0**

**Cézar Augusto Meira Carmo - cezaraugustomeiracarmo@gmail.com**