# ST IT Cloud - Data and Analytics Test LV.4

Esse teste deve avaliar alguns conceitos de big data e a qualidade técnica na manipulacão de dados, otimização de performance, trabalho com arquivos grandes e tratamento de qualidade.

## Passo a passo

-Disponibilizamos aqui 2 cases para serem desenvolvidos, leia os enunciados dos problemas, desenvolver os programas, utilizando a **stack definida durante o processo seletivo**, para entregar os dados de acordo com os requisitos descritos abaixo.

**Faz parte dos critérios de avaliacão a pontualidade da entrega. Implemente até onde for possível dentro do prazo acordado.**

**Os dados de pessoas foram gerados de forma aleatória, utilizando a biblioteca FakerJS, FakerJS-BR e Faker**

LEMBRE-SE: A entrega deve conter TODOS os passos para o avaliador executar o programa (keep it simple).


# TESTE PRÁTICO

**Problema 1**: Você está recebendo o arquivo 'dados_cadastrais_fake.csv' que contem dados cadastrais de clientes, mas para que análises ou relatórios sejam feitos é necessário limpar e normalizar os dados. Além disso, existe uma coluna com o número de cpf e outra com cnpj, você precisará padronizar deixando apenas dígitos em formato string (sem caracteres especiais), implementar uma forma de verificar se tais documentos são válidos sendo que a informação deve se adicionada ao dataframe em outras duas novas colunas.

Após a normalização, gere reports que respondam as seguintes perguntas:
- Quantos clientes temos nessa base?
- Qual a média de idade dos clientes?
- Quantos clientes nessa base pertencem a cada estado?
- Quantos CPFs válidos e inválidos foram encontrados?
- Quantos CNPJs válidos e inválidos foram encontrados?

Ao final gere um arquivo no formato csv e um outro arquivo no formato parquet chamado (problema1_normalizado), eles serão destinados para pessoas distintas.


In [28]:
#importando bibliotecas numpy e pandas
import numpy as np
import pandas as pd
import string
from validate_docbr import CPF, CNPJ

In [29]:
#carregando conjunto de dados
df = pd.read_csv("dados_cadastrais_fake.csv",sep = ';')
df.head()

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj
0,Dennis Daniels,31,ACRELÂNDIA,AC,97566536800,06589184909526
1,Leah Becker,42,ÁGUA BRANCA,AL,425.263.807-07,25.673.336/2350-20
2,Sally Ford,18,ALVARÃES,AM,34647754103,26543101702989
3,Colleen Duncan,21,SERRA DO NAVIO,AP,252.531.560-03,19.062.080/5100-98
4,Jeff Stephenson,73,ABAÍRA,BA,49668886542,97794530015384


Normalização do dataframe

In [30]:
#Valores NaN encontrados 
df.isna().sum()

nomes     0
idade     0
cidade    0
estado    0
cpf       0
cnpj      0
dtype: int64

In [31]:
#Lista de estados
df.groupby(['estado']).count()

Unnamed: 0_level_0,nomes,idade,cidade,cpf,cnpj
estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AC,371,371,371,371,371
AL,371,371,371,371,371
AM,371,371,371,371,371
AP,371,371,371,371,371
BA,371,371,371,371,371
CE,371,371,371,371,371
DF,365,365,365,365,365
ES,371,371,371,371,371
GO,371,371,371,371,371
MA,371,371,371,371,371


In [32]:
#Normalizando os nomes dos estados
#Agrupando estados com nomes fora do padrão
sigla_estado = list()
for sigla in list (df['estado'].drop_duplicates()):
    if len(sigla) > 2:
       sigla_estado.append(sigla)

sigla_estado

['distrito federal',
 'sao  paulo',
 'são  paulo',
 'rio de  janeiro ',
 'MINAS GERAI',
 'MINAS GERAIs']

In [33]:
#Normalizando os nomes dos estados
#Padronizando as SIGLAS
lista_estados = df.query("estado == 'distrito federal'").index.to_list()
df.loc[lista_estados,'estado'] = 'DF'
lista_estados = df.query("estado == 'sao  paulo'").index.to_list()
df.loc[lista_estados,'estado'] = 'SP'
lista_estados = df.query("estado == 'são  paulo'").index.to_list()
df.loc[lista_estados,'estado'] = 'SP'
lista_estados = df.query("estado == 'rio de  janeiro '").index.to_list()
df.loc[lista_estados,'estado'] = 'RJ'
lista_estados = df.query("estado == 'MINAS GERAI'").index.to_list()
df.loc[lista_estados,'estado'] = 'MG'
lista_estados = df.query("estado == 'MINAS GERAIs'").index.to_list()
df.loc[lista_estados,'estado'] = 'MG'

In [34]:
#Conferencia de correção das Siglas
df.groupby(['estado']).count()

Unnamed: 0_level_0,nomes,idade,cidade,cpf,cnpj
estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AC,371,371,371,371,371
AL,371,371,371,371,371
AM,371,371,371,371,371
AP,371,371,371,371,371
BA,371,371,371,371,371
CE,371,371,371,371,371
DF,371,371,371,371,371
ES,371,371,371,371,371
GO,371,371,371,371,371
MA,371,371,371,371,371


In [35]:
#Lista de estados
df.groupby(['cidade']).count()

Unnamed: 0_level_0,nomes,idade,estado,cpf,cnpj
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ABADIA DE GOIÁS,371,371,371,371,371
ABADIA DOS DOURADOS,370,370,370,370,370
ABAETETUBA,370,370,370,370,370
ABAIARA,371,371,371,371,371
ABATIÁ,370,370,370,370,370
ABAÍRA,371,371,371,371,371
ABDON BATISTA,370,370,370,370,370
ABREU E LIMA,370,370,370,370,370
ABREULÂNDIA,370,370,370,370,370
ACARI,370,370,370,370,370


In [36]:
#Normalizando os nomes dos cidade
#Padronizando o nome da cidade
lista_index_cidades = df.query("cidade == 'Brasília'").index.to_list()
df.loc[lista_index_cidades,'cidade'] = 'BRASÍLIA'

In [37]:
#Lista de cidades 
df.groupby(['cidade']).count()

Unnamed: 0_level_0,nomes,idade,estado,cpf,cnpj
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ABADIA DE GOIÁS,371,371,371,371,371
ABADIA DOS DOURADOS,370,370,370,370,370
ABAETETUBA,370,370,370,370,370
ABAIARA,371,371,371,371,371
ABATIÁ,370,370,370,370,370
ABAÍRA,371,371,371,371,371
ABDON BATISTA,370,370,370,370,370
ABREU E LIMA,370,370,370,370,370
ABREULÂNDIA,370,370,370,370,370
ACARI,370,370,370,370,370


In [38]:
#Normalizando os nomes
def primeira_letra_maiuscula(nome):
    nomes_corrigir = string.capwords
    return nomes_corrigir(" ".join([n.lower() for n in str(nome).split(" ")]))

df['nomes']= df['nomes'].apply(primeira_letra_maiuscula)
df.head()

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj
0,Dennis Daniels,31,ACRELÂNDIA,AC,97566536800,06589184909526
1,Leah Becker,42,ÁGUA BRANCA,AL,425.263.807-07,25.673.336/2350-20
2,Sally Ford,18,ALVARÃES,AM,34647754103,26543101702989
3,Colleen Duncan,21,SERRA DO NAVIO,AP,252.531.560-03,19.062.080/5100-98
4,Jeff Stephenson,73,ABAÍRA,BA,49668886542,97794530015384


In [39]:
#Normatizar CPF
def corrigir_caracter(valor):
    return valor.replace('.', '').replace('-', '').replace('/', '')

df['cpf'] = df['cpf'].apply(corrigir_caracter)
df['cnpj'] = df['cnpj'].apply(corrigir_caracter)

df.head()

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj
0,Dennis Daniels,31,ACRELÂNDIA,AC,97566536800,6589184909526
1,Leah Becker,42,ÁGUA BRANCA,AL,42526380707,25673336235020
2,Sally Ford,18,ALVARÃES,AM,34647754103,26543101702989
3,Colleen Duncan,21,SERRA DO NAVIO,AP,25253156003,19062080510098
4,Jeff Stephenson,73,ABAÍRA,BA,49668886542,97794530015384


In [42]:
#Validar CPF e CNPJ
cpf = CPF()
cnpj = CNPJ()

def valida_cpf(value):
    return cpf.validate(value)

def valida_cnpj(value):    
    return cnpj.validate(value)

df['cpf_valido'] = df['cpf'].apply(valida_cpf)
df['cnpj_valido'] = df['cnpj'].apply(valida_cnpj)

df.head()

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj,cpf_valido,cnpj_valido
0,Dennis Daniels,31,ACRELÂNDIA,AC,97566536800,6589184909526,True,True
1,Leah Becker,42,ÁGUA BRANCA,AL,42526380707,25673336235020,True,True
2,Sally Ford,18,ALVARÃES,AM,34647754103,26543101702989,True,True
3,Colleen Duncan,21,SERRA DO NAVIO,AP,25253156003,19062080510098,True,True
4,Jeff Stephenson,73,ABAÍRA,BA,49668886542,97794530015384,True,True


1 - Quantos clientes temos nessa base?

In [45]:
cliente = df['nomes'].count()
cliente

10000

Qual a média de idade dos clientes?

In [46]:
media = int (df['idade'].mean())
media

53

Quantos clientes nessa base pertencem a cada estado?

In [48]:
df[['nomes','estado']].groupby(['estado']).count()

Unnamed: 0_level_0,nomes
estado,Unnamed: 1_level_1
AC,371
AL,371
AM,371
AP,371
BA,371
CE,371
DF,371
ES,371
GO,371
MA,371


Quantos CPFs válidos e inválidos foram encontrados?

In [49]:
valido_CPF = df[['cpf','cpf_valido']].groupby(['cpf_valido']).count()['cpf'].tolist()[0]
invalido_CPF = df.groupby(['cpf_valido']).count()['cpf'].tolist()[0] - df['cpf'].count()
print(f'CPFs válidos encontrados: {valido_CPF}.')
print(f'CPFs inválidos encontrados: {invalido_CPF}.')

CPFs válidos encontrados: 10000.
CPFs inválidos encontrados: 0.


In [None]:
Quantos CNPJs válidos e inválidos foram encontrados?

In [50]:
df[['cnpj','cnpj_valido']].groupby(['cnpj_valido']).count()
valido_CNPJ = df[['cnpj','cnpj_valido']].groupby(['cnpj_valido']).count()['cnpj'].tolist()[0]
invalido_CNPJ = df.groupby(['cnpj_valido']).count()['cnpj'].tolist()[0] - df['cnpj'].count()
print(f'CNPJs válidos encontrados: {valido_CNPJ}.')
print(f'CNPJs inválidos encontrados: {invalido_CNPJ}.') 

CNPJs válidos encontrados: 10000.
CNPJs inválidos encontrados: 0.


**Problema 2**: Você deverá implementar um programa, para ler, tratar e particionar os dados.

O arquivo fonte está disponível em `https://st-it-cloud-public.s3.amazonaws.com/people-v2_1E6.csv.gz`

### Data Quality

- Higienizar e homogenizar o formato da coluna `document`
- Detectar através da coluna `document` se o registro é de uma Pessoa Física ou Pessoa Jurídica, adicionando uma coluna com essa informação
- Higienizar e homogenizar o formato da coluna `birthDate`
- Existem duas colunas nesse dataset que em alguns registros estão trocadas. Quais são essas colunas? 
- Corrigir os dados com as colunas trocadas
- Além desses pontos, existem outras tratamentos para homogenizar esse dataset. Aplique todos que conseguir.

### Agregação dos dados

- Quais são as 5 PF que mais gastaram (`totalSpent`)? 
- Qual é o valor de gasto médio por estado (`state`)?
- Qual é o valor de gasto médio por `jobArea`?
- Qual é a PF que gastou menos (`totalSpent`)?
- Quantos nomes e documentos repetidos existem nesse dataset?
- Quantas linhas existem nesse dataset?

### Particionamento de dados tratados com as regras descritas em `DATA QUALITY`

- Particionar em arquivos PARQUET por estado (`state`)
- Particionar em arquivos CSV por ano/mes/dia de nascimento (`birthDate`)

In [57]:
dados = "https://st-it-cloud-public.s3.amazonaws.com/people-v2_1E6.csv.gz"
base = pd.read_csv(dados,compression='gzip',error_bad_lines=False,sep=';')
base.head()



  base = pd.read_csv(dados,compression='gzip',error_bad_lines=False,sep=';')


Unnamed: 0,document,name,job,jobArea,jobType,phoneNumber,birthDate,city,state,totalSpent
0,76684148787,Charlleny Braga,Oficial Criativo Dinâmico,Configuração,Estrategista,(62) 4216-9799,20-05-1972,Município de Iara,Goiás,913.8
1,85704855733,Newton Saraiva,Administrador Comunicações Internacional,Prestação de contas,Facilitador,Aplicações,10-Jun-1982,Município de Neide do Sul,RR,57.26
2,15664328373377,Dr. Sr. Solange Macedo,Designer Identidade Direto,Métricas,,+55 (95) 7143-3307,05/16/1968,Município de Santo,RO,660.71
3,02.328.238/0877-86,Celina Carvalho Jr.,,Qualidade,Ligação,+55 (58) 4136-5577,19810417,Reis do Norte,RO,542.51
4,30073687408740,Aurilo Martins,Especialista Paradigma Internacional,Programa,Executivo,(96) 47498-7325,04/07/1980,Município de Aminadab,RO,104.33


In [60]:
#VALORES VAZIOS:
base.isna().sum()

document            0
name                0
job             99915
jobArea             0
jobType        100189
phoneNumber         0
birthDate           0
city           200001
state               0
totalSpent       9775
dtype: int64

In [61]:
#VALORES NULOS:
base.isnull().sum()

document            0
name                0
job             99915
jobArea             0
jobType        100189
phoneNumber         0
birthDate           0
city           200001
state               0
totalSpent       9775
dtype: int64