# Objetivo do teste:

## Avaliar o seu conhecimento em Pyspark e boas práticas de programação.
Carregue a base abaixo, aplique os casos e grave a saída em um arquivo .parquet.
Base:

001;José;Anápolis;São Paulo;01-09-1900 <br />
02;Igor;Anápolis;São Paulo;11-09-1977 <br />
3;Leonardo;Anápolis;São Paulo;21-12-2000<br />
04;Humberto;Pato Branco;Rio Grande do Sul;13-11-1964<br />
005;Isaias;Pato Branco;Rio Grande do Sul;07-07-2002<br />
6;Lucas;Taua;Ceará;05-09-1984 <br />

**Schema da base: cod_cliente, Nome, Município, Estado, data de nascimento.**
* [**Caso 1 – Adicionar 1 coluna com um contador sequencial por Município e ordenar por Estado.**](#http://localhost:8888/notebooks/Spark/Teste%20Pyspark.ipynb#Caso-1-%E2%80%93-Adicionar-1-coluna-com-um-contador-sequencial-por-Munic%C3%ADpio-e-ordenar-por-Estado.)
* [**Caso 2 - Adicionar 1 coluna com a Idade em anos e na coluna cod_cliente formatar o campo com 3 posições a esquerda completando com “0”.**](#http://localhost:8888/notebooks/Spark/Teste%20Pyspark.ipynb#Caso-2---Adicionar-1-coluna-com-a-Idade-em-anos-e-na-coluna-cod_cliente-formatar-o-campo-com-3-posi%C3%A7%C3%B5es-a-esquerda-completando-com-%E2%80%9C0%E2%80%9D.)
* [**Caso 3 - Adicionar 1 coluna com a data de atualização, preenchendo com a data do dia da execução e retirar os caracteres especiais do campo Estado.**](#http://localhost:8888/notebooks/Spark/Teste%20Pyspark.ipynb#Caso-3---Adicionar-1-coluna-com-a-data-de-atualiza%C3%A7%C3%A3o,-preenchendo-com-a-data-do-dia-da-execu%C3%A7%C3%A3o-e-retirar-os-caracteres-especiais-do-campo-Estado.)

OBS.: Criei um csv da base 

### Preparando o dataset


In [1]:
from pyspark.sql.functions import  row_number, to_date, datediff, current_date, floor, lpad, date_format, regexp_replace
from pyspark import SparkContext 
import pandas as pd
from pyspark.sql import SQLContext 
from pyspark.sql.window import *



In [2]:
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv('base.csv', sep = ';', encoding='utf-8') 
sdf=sqlContext.createDataFrame(df) 

In [3]:
df

Unnamed: 0,cod_cliente,Nome,Município,Estado,data de nascimento
0,1,José,Anápolis,São Paulo,01-09-1900
1,2,Igor,Anápolis,São Paulo,11-09-1977
2,3,Leonardo,Anápolis,São Paulo,21-12-2000
3,4,Humberto,Pato Branco,Rio Grande do Sul,13-11-1964
4,5,Isaias,Pato Branco,Rio Grande do Sul,07-07-2002
5,6,Lucas,Taua,Ceará,05-09-1984


In [4]:
sdf

DataFrame[cod_cliente: bigint, Nome: string, Município: string, Estado: string, data de nascimento: string]

### Caso 1 – Adicionar 1 coluna com um contador sequencial por Município e ordenar por Estado.


In [5]:
sdf = sdf.withColumn("row_num_municipio", row_number().over(Window.partitionBy("Município").orderBy("Município"))).sort("Estado")
sdf.show()

+-----------+--------+-----------+-----------------+------------------+-----------------+
|cod_cliente|    Nome|  Município|           Estado|data de nascimento|row_num_municipio|
+-----------+--------+-----------+-----------------+------------------+-----------------+
|          6|   Lucas|       Taua|            Ceará|        05-09-1984|                1|
|          4|Humberto|Pato Branco|Rio Grande do Sul|        13-11-1964|                1|
|          5|  Isaias|Pato Branco|Rio Grande do Sul|        07-07-2002|                2|
|          1|    José|   Anápolis|        São Paulo|        01-09-1900|                1|
|          3|Leonardo|   Anápolis|        São Paulo|        21-12-2000|                3|
|          2|    Igor|   Anápolis|        São Paulo|        11-09-1977|                2|
+-----------+--------+-----------+-----------------+------------------+-----------------+



### Caso 2 - Adicionar 1 coluna com a Idade em anos e na coluna cod_cliente formatar o campo com 3 posições a esquerda completando com “0”.

In [6]:
from pyspark.sql.functions import to_date, datediff, current_date, floor, lpad, date_format

# criando coluna com idade
sdf = sdf.withColumn("idade",floor(datediff(current_date(), to_date("data de nascimento",'dd-MM-yyyy'))/(365.25)))

# formatando cod_cliente para três dígitos
sdf = sdf.withColumn("cod_cliente", lpad("cod_cliente", 3, '0'))


sdf.show()

+-----------+--------+-----------+-----------------+------------------+-----------------+-----+
|cod_cliente|    Nome|  Município|           Estado|data de nascimento|row_num_municipio|idade|
+-----------+--------+-----------+-----------------+------------------+-----------------+-----+
|        006|   Lucas|       Taua|            Ceará|        05-09-1984|                1|   36|
|        004|Humberto|Pato Branco|Rio Grande do Sul|        13-11-1964|                1|   56|
|        005|  Isaias|Pato Branco|Rio Grande do Sul|        07-07-2002|                2|   19|
|        001|    José|   Anápolis|        São Paulo|        01-09-1900|                1|  120|
|        002|    Igor|   Anápolis|        São Paulo|        11-09-1977|                2|   43|
|        003|Leonardo|   Anápolis|        São Paulo|        21-12-2000|                3|   20|
+-----------+--------+-----------+-----------------+------------------+-----------------+-----+



### Caso 3 - Adicionar 1 coluna com a data de atualização, preenchendo com a data do dia da execução e retirar os caracteres especiais do campo Estado.

In [7]:
# criando coluna com a data de atualização

sdf = sdf.withColumn("data_de_atualizacao",date_format(current_date(), 'dd-MM-yyyy'))
sdf.show()

+-----------+--------+-----------+-----------------+------------------+-----------------+-----+-------------------+
|cod_cliente|    Nome|  Município|           Estado|data de nascimento|row_num_municipio|idade|data_de_atualizacao|
+-----------+--------+-----------+-----------------+------------------+-----------------+-----+-------------------+
|        006|   Lucas|       Taua|            Ceará|        05-09-1984|                1|   36|         19-07-2021|
|        005|  Isaias|Pato Branco|Rio Grande do Sul|        07-07-2002|                2|   19|         19-07-2021|
|        004|Humberto|Pato Branco|Rio Grande do Sul|        13-11-1964|                1|   56|         19-07-2021|
|        001|    José|   Anápolis|        São Paulo|        01-09-1900|                1|  120|         19-07-2021|
|        002|    Igor|   Anápolis|        São Paulo|        11-09-1977|                2|   43|         19-07-2021|
|        003|Leonardo|   Anápolis|        São Paulo|        21-12-2000| 

In [8]:
# removendo caracteres especiais 
sdf = sdf.withColumn("Estado", regexp_replace("Estado", "[áàâã]", "a"))
sdf = sdf.withColumn("Estado", regexp_replace("Estado", "[éèê]", "e"))
sdf = sdf.withColumn("Estado", regexp_replace("Estado", "[íï]", "i"))
sdf = sdf.withColumn("Estado", regexp_replace("Estado", "[óôõö]", "o"))
sdf = sdf.withColumn("Estado", regexp_replace("Estado", "[úü]", "u"))

sdf.show()

+-----------+--------+-----------+-----------------+------------------+-----------------+-----+-------------------+
|cod_cliente|    Nome|  Município|           Estado|data de nascimento|row_num_municipio|idade|data_de_atualizacao|
+-----------+--------+-----------+-----------------+------------------+-----------------+-----+-------------------+
|        006|   Lucas|       Taua|            Ceara|        05-09-1984|                1|   36|         19-07-2021|
|        004|Humberto|Pato Branco|Rio Grande do Sul|        13-11-1964|                1|   56|         19-07-2021|
|        005|  Isaias|Pato Branco|Rio Grande do Sul|        07-07-2002|                2|   19|         19-07-2021|
|        001|    José|   Anápolis|        Sao Paulo|        01-09-1900|                1|  120|         19-07-2021|
|        003|Leonardo|   Anápolis|        Sao Paulo|        21-12-2000|                3|   20|         19-07-2021|
|        002|    Igor|   Anápolis|        Sao Paulo|        11-09-1977| 

#### salvando o arquivo em formato parquet 

In [9]:
sdf = sdf.withColumnRenamed("data de nascimento", "data_de_nascimento")
sdf.write.parquet("base.parquet")