# ST IT Cloud - Data and Analytics Test LV.4

Esse teste deve avaliar alguns conceitos de big data e a qualidade técnica na manipulacão de dados, otimização de performance, trabalho com arquivos grandes e tratamento de qualidade.

## Passo a passo

-Disponibilizamos aqui 2 cases para serem desenvolvidos, leia os enunciados dos problemas, desenvolver os programas, utilizando a **stack definida durante o processo seletivo**, para entregar os dados de acordo com os requisitos descritos abaixo.

**Faz parte dos critérios de avaliacão a pontualidade da entrega. Implemente até onde for possível dentro do prazo acordado.**

**Os dados de pessoas foram gerados de forma aleatória, utilizando a biblioteca FakerJS, FakerJS-BR e Faker**

LEMBRE-SE: A entrega deve conter TODOS os passos para o avaliador executar o programa (keep it simple).


# TESTE PRÁTICO

**Problema 1**: Você está recebendo o arquivo 'dados_cadastrais_fake.csv' que contem dados cadastrais de clientes, mas para que análises ou relatórios sejam feitos é necessário limpar e normalizar os dados. Além disso, existe uma coluna com o número de cpf e outra com cnpj, você precisará padronizar deixando apenas dígitos em formato string (sem caracteres especiais), implementar uma forma de verificar se tais documentos são válidos sendo que a informação deve se adicionada ao dataframe em outras duas novas colunas.

Após a normalização, gere reports que respondam as seguintes perguntas:
- Quantos clientes temos nessa base?
- Qual a média de idade dos clientes?
- Quantos clientes nessa base pertencem a cada estado?
- Quantos CPFs válidos e inválidos foram encontrados?
- Quantos CNPJs válidos e inválidos foram encontrados?

Ao final gere um arquivo no formato csv e um outro arquivo no formato parquet chamado (problema1_normalizado), eles serão destinados para pessoas distintas.


In [1]:
import pandas as pd
from bradocs4py import ValidadorCpf
from bradocs4py import ValidadorCnpj

In [2]:
df=pd.read_csv (r"C:\Users\jrsel\Downloads\talent-data-analyst-lv4-main\talent-data-analyst-lv4-main\dados_cadastrais_fake.csv", sep=";")

In [3]:
#Vizualizando o dataset.
df.head()

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj
0,Dennis Daniels,31,ACRELÂNDIA,AC,97566536800,06589184909526
1,Leah Becker,42,ÁGUA BRANCA,AL,425.263.807-07,25.673.336/2350-20
2,Sally Ford,18,ALVARÃES,AM,34647754103,26543101702989
3,Colleen Duncan,21,SERRA DO NAVIO,AP,252.531.560-03,19.062.080/5100-98
4,Jeff Stephenson,73,ABAÍRA,BA,49668886542,97794530015384


In [4]:
#Invertigar quais os datatypes existem no arquivo.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nomes   10000 non-null  object
 1   idade   10000 non-null  int64 
 2   cidade  10000 non-null  object
 3   estado  10000 non-null  object
 4   cpf     10000 non-null  object
 5   cnpj    10000 non-null  object
dtypes: int64(1), object(5)
memory usage: 468.9+ KB


In [5]:
#Colocando as colunas strings com uppercase e retirando os espaços.
df['nomes']=df['nomes'].str.upper().str.strip()
df['cidade']=df['cidade'].str.upper().str.strip()
df['estado']=df['estado'].str.upper().str.strip()

In [6]:
#Padronização do CPF e CNPJ.
df['cpf']=df['cpf'].str.replace('[\.\-]','',regex=True)
df['cnpj']=df['cnpj'].str.replace('[\.\-/]','',regex=True)

In [7]:
#Tratamento do campo estado.
df['estado']=df['estado'].replace({'DISTRITO FEDERAL':'DF',
                                   'SAO  PAULO':'SP',
                                   'SÃO  PAULO':'SP',
                                   'RIO DE  JANEIRO':'RJ',
                                   'MINAS GERAI':'MG',
                                   'MINAS GERAIS':'MG'})

In [8]:
#Quantos clientes temos nessa base? Caso tivesse cpf`s duplicados, teríamos números diferentes de clientes.
df['cpf'].nunique()

10000

In [9]:
#Invertigação rápida para verificar se a idade é válida.
df['idade'].describe()

count    10000.000000
mean        53.783100
std         21.039651
min         18.000000
25%         36.000000
50%         53.000000
75%         72.000000
max         90.000000
Name: idade, dtype: float64

In [10]:
#Qual a média de idade dos clientes?
df['idade'].mean()

53.7831

In [11]:
#Quantos clientes nessa base pertencem a cada estado?
df.groupby('estado').count()[['cpf']]

Unnamed: 0_level_0,cpf
estado,Unnamed: 1_level_1
AC,371
AL,371
AM,371
AP,371
BA,371
CE,371
DF,371
ES,371
GO,371
MA,371


In [12]:
#Quantos CPFs válidos e inválidos foram encontrados?
df['cpfValido']=df['cpf'].apply(ValidadorCpf.validar)

In [13]:
df['cpfValido'].sum()

10000

In [14]:
df.head()

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj,cpfValido
0,DENNIS DANIELS,31,ACRELÂNDIA,AC,97566536800,6589184909526,True
1,LEAH BECKER,42,ÁGUA BRANCA,AL,42526380707,25673336235020,True
2,SALLY FORD,18,ALVARÃES,AM,34647754103,26543101702989,True
3,COLLEEN DUNCAN,21,SERRA DO NAVIO,AP,25253156003,19062080510098,True
4,JEFF STEPHENSON,73,ABAÍRA,BA,49668886542,97794530015384,True


In [15]:
#Quantos CNPJs válidos e inválidos foram encontrados?
df['cnpjValido']=df['cnpj'].apply(ValidadorCnpj.validar)

In [16]:
df['cnpjValido'].sum()

10000

In [17]:
df.head()

Unnamed: 0,nomes,idade,cidade,estado,cpf,cnpj,cpfValido,cnpjValido
0,DENNIS DANIELS,31,ACRELÂNDIA,AC,97566536800,6589184909526,True,True
1,LEAH BECKER,42,ÁGUA BRANCA,AL,42526380707,25673336235020,True,True
2,SALLY FORD,18,ALVARÃES,AM,34647754103,26543101702989,True,True
3,COLLEEN DUNCAN,21,SERRA DO NAVIO,AP,25253156003,19062080510098,True,True
4,JEFF STEPHENSON,73,ABAÍRA,BA,49668886542,97794530015384,True,True


**Problema 2**: Você deverá implementar um programa, para ler, tratar e particionar os dados.

O arquivo fonte está disponível em `https://st-it-cloud-public.s3.amazonaws.com/people-v2_1E6.csv.gz`

### Data Quality

- Higienizar e homogenizar o formato da coluna `document`
- Detectar através da coluna `document` se o registro é de uma Pessoa Física ou Pessoa Jurídica, adicionando uma coluna com essa informação
- Higienizar e homogenizar o formato da coluna `birthDate`
- Existem duas colunas nesse dataset que em alguns registros estão trocadas. Quais são essas colunas? 
- Corrigir os dados com as colunas trocadas
- Além desses pontos, existem outras tratamentos para homogenizar esse dataset. Aplique todos que conseguir.

### Agregação dos dados

- Quais são as 5 PF que mais gastaram (`totalSpent`)? 
- Qual é o valor de gasto médio por estado (`state`)?
- Qual é o valor de gasto médio por `jobArea`?
- Qual é a PF que gastou menos (`totalSpent`)?
- Quantos nomes e documentos repetidos existem nesse dataset?
- Quantas linhas existem nesse dataset?

### Particionamento de dados tratados com as regras descritas em `DATA QUALITY`

- Particionar em arquivos PARQUET por estado (`state`)
- Particionar em arquivos CSV por ano/mes/dia de nascimento (`birthDate`)

In [62]:
df=pd.read_csv (r"C:\Users\jrsel\Downloads\people-v2_1E6.csv.gz", compression="gzip", sep=";", encoding="utf-8")

In [63]:
df

Unnamed: 0,document,name,job,jobArea,jobType,phoneNumber,birthDate,city,state,totalSpent
0,76684148787,Charlleny Braga,Oficial Criativo Dinâmico,Configuração,Estrategista,(62) 4216-9799,20-05-1972,Município de Iara,Goiás,913.80
1,85704855733,Newton Saraiva,Administrador Comunicações Internacional,Prestação de contas,Facilitador,Aplicações,10-Jun-1982,Município de Neide do Sul,RR,57.26
2,15664328373377,Dr. Sr. Solange Macedo,Designer Identidade Direto,Métricas,,+55 (95) 7143-3307,05/16/1968,Município de Santo,RO,660.71
3,02.328.238/0877-86,Celina Carvalho Jr.,,Qualidade,Ligação,+55 (58) 4136-5577,19810417,Reis do Norte,RO,542.51
4,30073687408740,Aurilo Martins,Especialista Paradigma Internacional,Programa,Executivo,(96) 47498-7325,04/07/1980,Município de Aminadab,RO,104.33
...,...,...,...,...,...,...,...,...,...,...
999995,20297054201,Aurilo Franco Neto,Agente Funcionalidade Investidor,Otimização,,(54) 8742-5107,16-04-1976,Vila Attilio,RO,180.85
999996,76245248035484,Iata Martins,Técnico A infraestrutura Central,Rede,,(72) 8066-0110,"Fri, May.22.1981",Grande Roverlei,Paraíba,89.75
999997,15787105200206,Erica Melo,Associado Operações Cliente,Garantia,,(00) 5316-2453,23-01-1988,,Maranhão,138.48
999998,12922681661,Jurema Carvalho Filho Neto,Agente Operações Legado,Programa,Engenheiro,+55 (44) 8691-2473,"Thu, Apr.11.1968",,Rio Grande do Norte,827.67


In [20]:
#Higienizar e homogenizar o formato da coluna document
df['document']=df['document'].str.replace('[\.\-/]','',regex=True)

In [21]:
df.head()

Unnamed: 0,document,name,job,jobArea,jobType,phoneNumber,birthDate,city,state,totalSpent
0,76684148787,Charlleny Braga,Oficial Criativo Dinâmico,Configuração,Estrategista,(62) 4216-9799,20-05-1972,Município de Iara,Goiás,913.8
1,85704855733,Newton Saraiva,Administrador Comunicações Internacional,Prestação de contas,Facilitador,Aplicações,10-Jun-1982,Município de Neide do Sul,RR,57.26
2,15664328373377,Dr. Sr. Solange Macedo,Designer Identidade Direto,Métricas,,+55 (95) 7143-3307,05/16/1968,Município de Santo,RO,660.71
3,2328238087786,Celina Carvalho Jr.,,Qualidade,Ligação,+55 (58) 4136-5577,19810417,Reis do Norte,RO,542.51
4,30073687408740,Aurilo Martins,Especialista Paradigma Internacional,Programa,Executivo,(96) 47498-7325,04/07/1980,Município de Aminadab,RO,104.33


In [22]:
#Higienizar e homogenizar o formato da coluna birthDate
df['birthDate'] = df['birthDate'].astype('datetime64[ns]')
df['birthDate'] = df['birthDate'].dt.strftime('%d/%m/%Y')

  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
  to_datetime(arr).values,
 

In [23]:
df.head()

Unnamed: 0,document,name,job,jobArea,jobType,phoneNumber,birthDate,city,state,totalSpent
0,76684148787,Charlleny Braga,Oficial Criativo Dinâmico,Configuração,Estrategista,(62) 4216-9799,20/05/1972,Município de Iara,Goiás,913.8
1,85704855733,Newton Saraiva,Administrador Comunicações Internacional,Prestação de contas,Facilitador,Aplicações,10/06/1982,Município de Neide do Sul,RR,57.26
2,15664328373377,Dr. Sr. Solange Macedo,Designer Identidade Direto,Métricas,,+55 (95) 7143-3307,16/05/1968,Município de Santo,RO,660.71
3,2328238087786,Celina Carvalho Jr.,,Qualidade,Ligação,+55 (58) 4136-5577,17/04/1981,Reis do Norte,RO,542.51
4,30073687408740,Aurilo Martins,Especialista Paradigma Internacional,Programa,Executivo,(96) 47498-7325,07/04/1980,Município de Aminadab,RO,104.33


In [24]:
#Detectar através da coluna document se o registro é de uma Pessoa Física ou Pessoa Jurídica, adicionando uma coluna com essa informação
df['Tipo_Pessoa']=df['document'].apply(lambda x: 'PF' if len(x) == 11 else 'PJ')

In [64]:
#Colocando as colunas strings com uppercase e retirando os espaços.
df['name']=df['name'].str.upper().str.strip()
df['job']=df['job'].str.upper().str.strip()
df['jobArea']=df['jobArea'].str.upper().str.strip()
df['jobType']=df['jobType'].str.upper().str.strip()
df['city']=df['city'].str.upper().str.strip()

In [65]:
df.head()

Unnamed: 0,document,name,job,jobArea,jobType,phoneNumber,birthDate,city,state,totalSpent
0,76684148787,CHARLLENY BRAGA,OFICIAL CRIATIVO DINÂMICO,CONFIGURAÇÃO,ESTRATEGISTA,(62) 4216-9799,20-05-1972,MUNICÍPIO DE IARA,Goiás,913.8
1,85704855733,NEWTON SARAIVA,ADMINISTRADOR COMUNICAÇÕES INTERNACIONAL,PRESTAÇÃO DE CONTAS,FACILITADOR,Aplicações,10-Jun-1982,MUNICÍPIO DE NEIDE DO SUL,RR,57.26
2,15664328373377,DR. SR. SOLANGE MACEDO,DESIGNER IDENTIDADE DIRETO,MÉTRICAS,,+55 (95) 7143-3307,05/16/1968,MUNICÍPIO DE SANTO,RO,660.71
3,02.328.238/0877-86,CELINA CARVALHO JR.,,QUALIDADE,LIGAÇÃO,+55 (58) 4136-5577,19810417,REIS DO NORTE,RO,542.51
4,30073687408740,AURILO MARTINS,ESPECIALISTA PARADIGMA INTERNACIONAL,PROGRAMA,EXECUTIVO,(96) 47498-7325,04/07/1980,MUNICÍPIO DE AMINADAB,RO,104.33


In [27]:
#Tratamento do campo state.
df['state']=df['state'].str.upper().str.strip()

In [28]:
#Tratamento do campo state.
df['state']=df['state'].replace({'GOIÁS':'GO',
                                   'SERGIPE':'SE',
                                   'MINAS GERAIS':'MG',
                                   'PERNAMBUCO':'PE',
                                   'MATO GROSSO DO SUL':'MS',
                                   'PARÁ':'PA',
                                 'TOCANTINS':'TO',
                                 'ACRE':'AC',
                                 'PARANÁ':'PR',
                                 'AMAZONAS':'AM',
                                 'RORAIMA':'RR',
                                 'ESPÍRITO SANTO':'ES',
                                 'PIAUÍ':'PI',
                                 'SÃO PAULO':'SP',
                                 'DISTRITO FEDERAL':'DF',
                                 'RIO DE JANEIRO':'RJ',
                                 'AMAPÁ':'AP',
                                 'CEARÁ':'CE',
                                 'RIO GRANDE DO NORTE':'RN',
                                 'MATO GROSSO':'MT',
                                 'RIO GRANDE DO SUL':'RS',
                                 'PARAÍBA':'PB',
                                 'MARANHÃO':'MA',
                                 'RONDÔNIA':'RO',
                                 'ALAGOAS':'AL',
                                 'BAHIA':'BA',
                                 'SANTA CATARINA':'SC'})

In [29]:
df['state'].unique()

array(['GO', 'RR', 'RO', 'SE', 'MG', 'BA', 'PE', 'MS', 'SP', 'PA', 'TO',
       'AC', 'AM', 'PI', 'PR', 'MA', 'CE', 'RS', 'ES', 'DF', 'RJ', 'AP',
       'RN', 'AL', 'MT', 'PB', 'SC'], dtype=object)

In [30]:
df_pf=df[df['Tipo_Pessoa']=='PF']

In [31]:
#Quais são as 5 PF que mais gastaram (totalSpent)?
df_pf.groupby('document').sum()[['totalSpent']].sort_values('totalSpent',ascending=False).head(5)

Unnamed: 0_level_0,totalSpent
document,Unnamed: 1_level_1
78155376770,1973.11
57913684291,1889.39
8174237704,1870.75
70795760671,1857.11
31307158277,1854.8


In [32]:
#Qual é o valor de gasto médio por estado (state)?
df.groupby('state').mean()[['totalSpent']]

Unnamed: 0_level_0,totalSpent
state,Unnamed: 1_level_1
AC,502.478424
AL,500.515519
AM,498.770663
AP,504.259137
BA,498.77414
CE,499.3003
DF,499.107366
ES,501.631747
GO,501.292493
MA,500.435299


In [97]:
#Qual é o valor de gasto médio por jobArea?
df['jobArea']=df['jobArea'].str.replace('[\(\)\-\0-9]','',regex=True)
df.groupby('jobArea').mean()[['totalSpent']]

Unnamed: 0_level_0,totalSpent
jobArea,Unnamed: 1_level_1
,500.292896
AINFRAESTRUTURA,499.695026
APLICAÇÕES,501.919056
BRANDING,499.801944
COMUNICAÇÕES,498.317039
CONFIGURAÇÃO,502.357337
CONTAS,499.075625
CRIATIVO,499.824512
DADOS,500.842081
DIRETIVAS,499.962812


In [35]:
#Qual é a PF que gastou menos (totalSpent)?
df_menor=df_pf.groupby('document').sum()[['totalSpent']].sort_values('totalSpent',ascending=True)
df_menor[df_menor['totalSpent']>0].head(4)
#Foi identificado um empate de quatro CPF`f e não estou contando quem não gastou 0.0.

Unnamed: 0_level_0,totalSpent
document,Unnamed: 1_level_1
12037751729,0.01
28876278214,0.01
61782608494,0.01
82121396624,0.01


In [36]:
#Quantos nomes e documentos repetidos existem nesse dataset?
df[df.document.duplicated(keep=False)].sort_values('document')['document'].count()

860

In [37]:
#Quantos nomes e documentos repetidos existem nesse dataset?
df[df.document.duplicated(keep=False)].sort_values('document')['document'].nunique()

430

In [38]:
#Quantos nomes e documentos repetidos existem nesse dataset?
df[df.name.duplicated(keep=False)].sort_values('name')['name'].count()

718499

In [39]:
#Quantos nomes e documentos repetidos existem nesse dataset?
df[df.name.duplicated(keep=False)].sort_values('name')['name'].nunique()

173513

In [40]:
#Quantas linhas existem nesse dataset?
df.shape[0]

1000000

In [41]:
#Particionar em arquivos PARQUET por estado (state)
states=df['state'].unique()
for uf in states:
    df_parquet=df[df['state']==uf]
    df_parquet.to_parquet(f'people_{uf}.parquet')

In [42]:
#Particionar em arquivos CSV por ano/mes/dia de nascimento (birthDate)
list_ano = pd.DatetimeIndex(df['birthDate']).year.unique().sort_values()
list_mes = pd.DatetimeIndex(df['birthDate']).month.unique().sort_values()
list_dia = pd.DatetimeIndex(df['birthDate']).day.unique().sort_values()

  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_sequence_not_strict(
  dtarr = DatetimeArray._from_s

In [43]:
#Particionar em arquivos CSV por ano/mes/dia de nascimento (birthDate)
for ano in list_ano:
    for mes in list_mes:
        for dia in list_dia:
            df_csv = (df[(pd.DatetimeIndex(df['birthDate']).year==ano)&
                         (pd.DatetimeIndex(df['birthDate']).month==mes)&
                         (pd.DatetimeIndex(df['birthDate']).day==dia)])
            df_csv.to_csv(f'people_{ano}_{mes}_{dia}.csv')