# Trabalhando com fluxo de dados: resolvendo o desafio do processo seletivo da Raccoon

Aqui vamos nós: mais um desafio em um processo seletivo a ser resolvido.

O processo de escrever meus pensamentos e minhas tomadas de decisão me agrada, pois ele próprio me ajuda a pensar e a tomar decisões. Além disso,

- pode servir como guia para alguém resolvendo um problema similar ao meu,
- será útil caso eu passe para a fase de entrevista e precise explicar minhas decisões,
- pode ser útil para os trabalhadores que estão conduzindo meu processo seletivo entenderem como penso os problemas e como modelo e codifico suas soluções.

Lo-fi no talo, cafeína e sem mais digressões, vamos ao problema:

#### Resumo Abstrato do Problema

Tratar dados recebidos através de uma requisição e enviá-los, de acordo com as especificações, à outro serviço.

#### Especificações da Solução Desejada 

a) IDs dos produtos que contém "promoção" no título e seus respectivos preços para todas as mídias. O
resultado deve estar ordenado por preço e depois ID, de forma CRESCENTE. OBS: Não pode conter IDs de
produtos repetidos.

b) IDs dos posts e preços dos produtos para as postagens com mais de 700 likes na mídia
"instagram_cpc". O resultado deve estar ordenado por preço e depois ID de forma CRESCENTE.

c) Somatório de likes no mês de maio de 2019 para todas as mídias pagas (google_cpc, facebook_cpc,
instagram_cpc).

d) Todos os IDs de produtos devem ter o mesmo preço nas postagens. Eventualmente poderá ocorrer
postagens com o mesmo produto e diferentes preços, causando problemas para o cliente.

Sua tarefa é verificar se existe alguma inconsistência nos produtos que a API retorna pela rota https://us-
central1-psel-clt-ti-junho-2019.cloudfunctions.net/psel_2019_get_error.

Caso seja encontrado algum erro, envie em uma lista todos os IDs de produtos com erro de forma ordenada
e crescente.
Atenção: A rota para o exercício d é diferente dos exercícios a, b e c.

#### Documentação da API

- Rota de a, b e c: https://us-central1-psel-clt-ti-junho-2019.cloudfunctions.net/psel_2019_get

- Exemplo de resposta:

```python
{
    "report_info": {
        "trace_id": "dd628806-d804-45f1-8d26-9ef604328874",
        "begin_date": "23/09/2019",
        "end_date": "28/11/2019",
        "response": 200,
        "extraction_duration": "260 seconds",
        "extraction_size": "16.25 Mb"
    },
    "posts": [
        {
            "media": "MEDIA_A",
            "post_id": "928981fb-77ed-48ef-8aa2-026207731121",
            "title": "product_0_padrao",
            "product_id": "b755a6f1-d34a-433b-b6c9-bf87a67c459f",
            "price": 20,
            "date": "18/10/2019",
            "likes": 828
        },
        {
            "media": "MEDIA_A",
            "post_id": "ad5ae35c-b3cd-4422-aef5-37e30500c8a3",
            "title": "product_1_lancamento_promocao",
            "product_id": "2e370229-750b-4dc7-91c9-ae63cd5e154e",
            "price": 261,
            "date": "24/07/2019",
            "likes": 520
        }
    ]
}
```

- Rota de d: https://us-central1-psel-clt-ti-junho-2019.cloudfunctions.net/psel_2019_get_error

- Exemplo de Resposta:

```python
{
    "report_info": {
        "trace_id": "dd628806-d804-45f1-8d26-9ef604328874",
        "begin_date": "23/09/2019",
        "end_date": "28/11/2019",
        "response": 200,
        "extraction_duration": "260 seconds",
        "extraction_size": "16.25 Mb"
    },
    "posts": [
        {
            "media": "MEDIA_A",
            "post_id": "928981fb-77ed-48ef-8aa2-026207731121",
            "title": "product_0_padrao",
            "product_id": "b755a6f1-d34a-433b-b6c9-bf87a67c459f",
            "price": 20,
            "date": "18/10/2019",
            "likes": 828
        },
        {
            "media": "MEDIA_A",
            "post_id": "ad5ae35c-b3cd-4422-aef5-37e30500c8a3",
            "title": "product_1_lancamento_promocao",
            "product_id": "2e370229-750b-4dc7-91c9-ae63cd5e154e",
            "price": 261,
            "date": "24/07/2019",
            "likes": 520
        }
    ]
}
```

- Rota de Envio: https://us-central1-psel-clt-ti-junho-2019.cloudfunctions.net/psel_2019_post

- Formato Esperado de dados no POST

```python
{
    'full_name': "nome completo",
    'email': "email@pessoal.com",
    'code_link': "www.github.com/name/psel-raccoon",
    'response_a': [
        {"product_id": "prod_id_example", "price_field": 10},
        {"product_id": "prod_id_example2", "price_field": 50}
    ],
    'response_b': [
        {"post_id": "post_id_example3", "price_field": 20},
        {"post_id": "post_id_example3", "price_field": 100}
    ],
    'response_c': 1365,
    'response_d': ["prod_id_example7", "prod_id_example8"]
}
```

- Exemplo de Resposta POST

```json
{
    "success": true,
    "msg": "Thank you for sending your answer. Results: Response A: true Response B: true: Response C: true Response D: true"
}
```

#### Pensamentos iniciais e escolha de tecnologias

Trata-se de um problema de processamento de dados. Os itens "a" e "b" são muito parecidos, mudando apenas o critério de filtro. O "c" e o "d" são levemente diferentes, mas continuam sendo problemas de processamento de dados.

Fiquei com vontade de aprender alguma linguagem de programação funcional para resolver, mas isso adicionaria um tempo a mais que não tenho, já que estou participando de outros processos seletivos que envolvem um desafio (para a mesma data!). Por isso, me restou javascript e python, que são linguagens que eu tenho o conhecimento necessário para resolver o problema, já que já trampei fazendo processamento de dados usando as duas.

Vou de python: consigo usar princípios da programação funcional e ainda dá pra usar um Jupyter Notebook, usando o mesmo ambiente pra escrever as reflexões e desenvolver código de fato. :) Gitignore de python já ta na bala, vamo que vamo.

#### Método de Resolução

Vou fazer em ordem: a -> b -> c -> d. Tem que começar por algum lugar e essa escolha não apresenta nenhuma problemática.

Todos os problemas podem ser solucionados com pouco código, utilizando apenas built ins do python. Entretando, resolverei como se estivesse fazendo um projeto que seria posto em produção. Para isso, farei funções genéricas reutilizáveis, usarei princípios de clean code e, como disse anteriormente, programação funcional.

#### Requerindo os dados para a, b e c

Vou printar os resultados das operações parcialmente, para facilitar a visualização.

In [1]:
import requests
import json

posts_req = requests.get('https://us-central1-psel-clt-ti-junho-2019.cloudfunctions.net/psel_2019_get')

req_to_print = {
    **posts_req.json(),
    'posts': posts_req.json()['posts'][:3]
}
print(json.dumps(req_to_print, indent=True))

{
 "report_info": {
  "trace_id": "3587b260-dc01-4a67-9a01-590d005753be",
  "begin_date": "15/03/2019",
  "end_date": "29/11/2019",
  "response": 200,
  "extraction_duration": "165 seconds",
  "extraction_size": "10.3125 Mb"
 },
 "posts": [
  {
   "media": "google_cpc",
   "post_id": "6644dd21-f696-45a0-863a-8bdb607484cb",
   "title": "product_0_promocao",
   "product_id": "72c9936a-24ae-4dc2-8bc8-3315b9055b49",
   "price": 84,
   "date": "09/12/2018",
   "likes": 815
  },
  {
   "media": "google_cpc",
   "post_id": "a9633897-afe5-4a7e-80ea-a05cd597787b",
   "title": "product_1_lancamento",
   "product_id": "93d504f8-a63d-4096-b747-de7cd167c550",
   "price": 299,
   "date": "24/04/2019",
   "likes": 370
  },
  {
   "media": "google_cpc",
   "post_id": "64a7e9eb-b5a0-4aeb-bbbf-b7dee9f5f629",
   "title": "product_2_lancamento",
   "product_id": "1978ddc1-cb28-4a26-a4eb-e5f42aeb883b",
   "price": 11,
   "date": "22/06/2019",
   "likes": 175
  }
 ]
}


#### Fazendo transformações para o "a"

In [2]:
from functools import partial

def filter_by_keywords_in_field_value(list_dict, field, keywords):
    return filter(lambda x: any(keyword in x[field] for keyword in keywords), list_dict)

filter_by_promocao_in_title = partial(
    filter_by_keywords_in_field_value, field='title', keywords=['promocao']
)

posts = posts_req.json()['posts']

promotion_posts = [*filter_by_promocao_in_title(posts)]

print(json.dumps(promotion_posts[:3], indent=True))

[
 {
  "media": "google_cpc",
  "post_id": "6644dd21-f696-45a0-863a-8bdb607484cb",
  "title": "product_0_promocao",
  "product_id": "72c9936a-24ae-4dc2-8bc8-3315b9055b49",
  "price": 84,
  "date": "09/12/2018",
  "likes": 815
 },
 {
  "media": "google_cpc",
  "post_id": "16f5489d-1bf3-4f78-a6c5-52827be508e0",
  "title": "product_5_lancamento_promocao",
  "product_id": "3096a02d-de88-43ac-980d-f2735ba9e90f",
  "price": 389,
  "date": "07/11/2019",
  "likes": 962
 },
 {
  "media": "google_cpc",
  "post_id": "bb8e57f4-0d7c-4a99-bf17-9fcb1c4774c2",
  "title": "product_6_promocao",
  "product_id": "b2dc2b0a-1a93-448b-b11b-725fbccfc564",
  "price": 303,
  "date": "21/05/2019",
  "likes": 221
 }
]


<a id='wrong-observation'></a>

Obs.: estou consumindo os geradores apenas para poder mostrar o resultado. O ideal seria mantê-los enquanto lazy iterables.

Aparentemente, a única vez que precisarei filtrar por keyword no valor de um campo do dicionário é essa. Portanto, a função poderia ser, sem problemas, essa:

```python
def filter_by_promocao_in_title(posts):
    return filter(lambda x: 'promocao' in x['title'], posts)
```

Entretanto, generalizar uma função é interessante pois permite - em caso de um subsequente desenvolvimento do projeto - que essa mesma função seja reutilizada para outros filtros em diferentes campos e com diferentes keywords. Testes não precisariam ser refeitos.

Agora que fiz a primeira transformação (filtro), é hora de:

- remover posts com id de produto duplicado.
- reduzir a lista apenas aos ids dos produtos e preços,
- reordenar por preço e id em ordem crescente,
- mudar o campo 'price' para 'price_field'.

In [3]:
from operator import itemgetter


def sort_by_multiple_fields(list_dict, fields):
    return sorted(list_dict, key=itemgetter(*fields))

def map_to_fields(list_dict, fields):
    return map(lambda x: {field: x[field] for field in fields}, list_dict)

def change_field_name(list_dict, old_name, new_name):
    return map(lambda x: {**x, **{new_name: x.pop(old_name)}}, list_dict)

def remove_entries_with_duplicated_field_value(list_dict, field):
    return list({
        dict_['product_id']: dict_
        for dict_ in list_dict
    }.values())

sort_by_price_and_product_id = partial(
    sort_by_multiple_fields, fields=['price', 'product_id']
)

map_to_product_id_and_price = partial(
    map_to_fields, fields=['product_id', 'price']
)

change_price_to_price_field = partial(
    change_field_name, old_name='price', new_name='price_field'
)

remove_entries_with_duplicated_product_id = partial(
    remove_entries_with_duplicated_field_value, field='product_id'
)

a_result = [
    *change_price_to_price_field(
        sort_by_price_and_product_id(
            map_to_product_id_and_price(
                remove_entries_with_duplicated_product_id(promotion_posts)
            )
        )
    )
]

a_result

[{'product_id': '47940a7e-6161-4823-8fe8-e596d565ee51', 'price_field': 32},
 {'product_id': '72c9936a-24ae-4dc2-8bc8-3315b9055b49', 'price_field': 84},
 {'product_id': 'e7d6e8dd-c6d1-4022-b756-748cb6f5b51a', 'price_field': 103},
 {'product_id': '04f32293-00ad-4c0c-ae7b-929312769553', 'price_field': 108},
 {'product_id': 'a9e5d53e-628b-4f72-980b-e03d14612b5c', 'price_field': 124},
 {'product_id': '527307ad-b1e3-4813-8c8e-4f087ad2c838', 'price_field': 147},
 {'product_id': 'f762d53e-2010-4797-bb38-7f4122b684e3', 'price_field': 228},
 {'product_id': '56ceadbe-461b-4765-8e68-a0767db3145c', 'price_field': 231},
 {'product_id': 'b2dc2b0a-1a93-448b-b11b-725fbccfc564', 'price_field': 303},
 {'product_id': 'a274c7a9-f3e0-4dde-8ddc-da6c0bcf7cf1', 'price_field': 316},
 {'product_id': '81d0832d-f8d0-46b1-9f81-0e1d01cf4065', 'price_field': 317},
 {'product_id': 'dc9cb92a-e43b-47ab-81eb-fc5b8980f651', 'price_field': 321},
 {'product_id': 'aea4fc80-0bae-4f32-8a6a-abe91e7d6d4e', 'price_field': 344},
 

#### Fazendo transformações para o "b"

In [4]:
from operator import gt

filter_by_instagram_cpc_in_media = partial(
    filter_by_keywords_in_field_value, field='media', keywords=['instagram_cpc']
)

def filter_by_field_value_comparation(list_dict, field, operator, n_to_compare):
    return filter(lambda x: operator(float(x[field]), n_to_compare), list_dict)

filter_by_likes_greater_than_700 = partial(
    filter_by_field_value_comparation, field='likes', operator=gt, n_to_compare=700
)

insta_cpc_posts_with_over_700_likes = [
    *filter_by_likes_greater_than_700(
        filter_by_instagram_cpc_in_media(posts)
    )
]

print(json.dumps(insta_cpc_posts_with_over_700_likes[:3], indent=True))

[
 {
  "media": "instagram_cpc",
  "post_id": "26850b8f-e8e7-43ac-b563-664258d59847",
  "title": "product_5_lancamento_promocao",
  "product_id": "3096a02d-de88-43ac-980d-f2735ba9e90f",
  "price": 389,
  "date": "08/06/2019",
  "likes": 926
 },
 {
  "media": "instagram_cpc",
  "post_id": "3709b99f-315f-4e78-a7b9-971d7a2de71d",
  "title": "product_6_promocao",
  "product_id": "b2dc2b0a-1a93-448b-b11b-725fbccfc564",
  "price": 303,
  "date": "17/03/2019",
  "likes": 780
 },
 {
  "media": "instagram_cpc",
  "post_id": "73e422c0-6fd3-4ebd-bcdf-5be8f53a7b6c",
  "title": "product_9_padrao",
  "product_id": "b9019f0e-a314-438c-958a-31c3b398da2f",
  "price": 345,
  "date": "22/10/2019",
  "likes": 729
 }
]


Ao contrário do que eu erroneamente observei [anteriormente](#wrong-observation), precisei utilizar novamente um filtro por keyword no valor de um campo de uma lista de dicionário. Felizmente, a função genérica já estava pronta e eu apenas a reutilizei.

Agora que fiz as transformações de filtro, é hora de:

- reutilizar a função já usada em "a" para reordenar por preço e id em ordem crescente,
- reduzir a lista apenas aos ids dos posts e preços,
- reutilizar a função já usada em "a" para mudar o campo 'price' para 'price_field'.

In [5]:
map_to_post_id_and_price = partial(
    map_to_fields, fields=['post_id', 'price']
)

b_result = [
    *change_price_to_price_field(
        map_to_post_id_and_price(
            sort_by_price_and_product_id(insta_cpc_posts_with_over_700_likes)
        )
    )
]

b_result

[{'post_id': '2f10f548-557e-4e93-9971-370b3806b5b9', 'price_field': 32},
 {'post_id': 'b7a008cd-af43-4a03-a2dd-73f06aa5ad90', 'price_field': 103},
 {'post_id': '6acd1fa8-f059-4c88-890b-0ae44d9ffc69', 'price_field': 108},
 {'post_id': '3bff4bbe-d291-4de3-9497-6d153f714f8e', 'price_field': 298},
 {'post_id': '3709b99f-315f-4e78-a7b9-971d7a2de71d', 'price_field': 303},
 {'post_id': '8357824f-2ba2-4568-99d7-d9023f0d1ced', 'price_field': 316},
 {'post_id': 'c625fa83-88c4-404c-8c84-223beeb61d14', 'price_field': 325},
 {'post_id': '73e422c0-6fd3-4ebd-bcdf-5be8f53a7b6c', 'price_field': 345},
 {'post_id': '26850b8f-e8e7-43ac-b563-664258d59847', 'price_field': 389},
 {'post_id': 'da1fc280-d9be-45ef-9133-112bcb2e1516', 'price_field': 415}]

#### Fazendo transformações para o "c"

In [6]:
from datetime import datetime
from functools import reduce


filter_by_paid_medias = partial(
    filter_by_keywords_in_field_value,
    field='media',
    keywords=['google_cpc', 'facebook_cpc','instagram_cpc']
)

def _is_date_a_match(date_string, days, months, years):
    return (datetime.strptime(date_string, '%d/%m/%Y').day in days and
            datetime.strptime(date_string, '%d/%m/%Y').month in months and
            datetime.strptime(date_string, '%d/%m/%Y').year in years)
    
def filter_by_date(list_dict, days, months, years, datetime=datetime):
    return filter(lambda x: _is_date_a_match(x['date'], days, months, years), list_dict)

def sum_values_by_field(list_dict, field):
    return reduce(lambda a, b: a + float(b[field]), list_dict, 0)

filter_by_may_2019 = partial(
    filter_by_date, days=[*range(1, 32)], months=[5], years=[2019]
)

sum_likes = partial(
    sum_values_by_field, field='likes'
)

c_result = int(
    sum_likes(
        filter_by_may_2019(
            filter_by_paid_medias(posts)
        )
    )
)

c_result

5420

#### Requerindo os dados para d

In [7]:
d_posts_req = requests.get('https://us-central1-psel-clt-ti-junho-2019.cloudfunctions.net/psel_2019_get_error')

req_to_print = {
    **d_posts_req.json(),
    'posts': posts_req.json()['posts'][:3]
}
print(json.dumps(req_to_print, indent=True))

{
 "report_info": {
  "trace_id": "3587b260-dc01-4a67-9a01-590d005753be",
  "begin_date": "15/03/2019",
  "end_date": "29/11/2019",
  "response": 200,
  "extraction_duration": "165 seconds",
  "extraction_size": "10.3125 Mb"
 },
 "posts": [
  {
   "media": "google_cpc",
   "post_id": "6644dd21-f696-45a0-863a-8bdb607484cb",
   "title": "product_0_promocao",
   "product_id": "72c9936a-24ae-4dc2-8bc8-3315b9055b49",
   "price": 84,
   "date": "09/12/2018",
   "likes": 815
  },
  {
   "media": "google_cpc",
   "post_id": "a9633897-afe5-4a7e-80ea-a05cd597787b",
   "title": "product_1_lancamento",
   "product_id": "93d504f8-a63d-4096-b747-de7cd167c550",
   "price": 299,
   "date": "24/04/2019",
   "likes": 370
  },
  {
   "media": "google_cpc",
   "post_id": "64a7e9eb-b5a0-4aeb-bbbf-b7dee9f5f629",
   "title": "product_2_lancamento",
   "product_id": "1978ddc1-cb28-4a26-a4eb-e5f42aeb883b",
   "price": 11,
   "date": "22/06/2019",
   "likes": 175
  }
 ]
}


A primeira solução que me vem na cabeça para esse problema é passar por todos os posts e, para cada um, passar novamente para checar se os preços de outros posts com o mesmo produto são diferentes. Algo assim (sem perder tempo com princípios de clean code e programação funcional, para fins demonstrativos):

```python
def catch_product_errors(posts):
    error_products = set()
    for post in posts:
        for post_2 in posts:
            if post['product_id'] == post2['product_id'] and post['price'] != post2['price']:
                error_products.add(post['product_id'])
                
    return error_products
```

Entretanto, a complexidade de tempo dessa solução não é muito boa: o aumento do tamanho da entrada aumenta o tempo de execução de forma quadrática. Dá pra melhorar usando um dicionário de controle pros produtos:

In [8]:
d_posts = d_posts_req.json()['posts']

def _is_price_diff_in_control(products_control, post):
    return (products_control.get(post['product_id']) and
            products_control.get(post['product_id']) != post['price'])

def _add_product_and_price_to_control(products_control, post):
    return {**products_control, post['product_id']: post['price']}

def catch_product_errors(posts):
    products_control = {}
    products_with_error = set()
    
    for post in posts:
        if _is_price_diff_in_control(products_control, post):
            products_with_error = products_with_error.union({post['product_id']})
        else:
            products_control = _add_product_and_price_to_control(products_control, post)
            
    return [*products_with_error]

d_result = sorted(catch_product_errors(d_posts))

d_result

['9b1046a4-6a5b-45e1-8d71-31761d7d02c7',
 'aea4fc80-0bae-4f32-8a6a-abe91e7d6d4e']

#### Enviando a resposta

In [9]:
result = {
    'full_name': 'Matheus Cabral Manoel',
    'email': 'matheuscmanoel@gmail.com',
    'code_link': 'https://github.com/matheus-manoel/psel-raccoon',
    'response_a': a_result,
    'response_b': b_result,
    'response_c': c_result,
    'response_d': d_result
}

req_answer = requests.post(
    'https://us-central1-psel-clt-ti-junho-2019.cloudfunctions.net/psel_2019_post',
    data=json.dumps(result),
    headers={'content-type': 'application/json'}
)

print(req_answer.json())

{'success': True, 'msg': 'Thank you for sending your answer. Results: Response A: True Response B: True Response C: True Response D: True'}


#### Conclusão
 
É isso, o problema foi resolvido. Para finalizar vou estruturar o código em partes - como eu faria em um projeto real -, para que a manutenção e o desenvolvimento seja facilitado. Vocês podem conferir o resultado [aqui](https://github.com/matheus-manoel/psel-raccoon).

Uma possível melhora seria o desenvolvimento de testes de unidade para as funções de utilidade. Mas por falta de tempo, vou deixar pra próxima oportunidade.