# UOL CatLovers

##### Imagine que você é um engenheiro de dados em uma startup de tecnologia pet chamada “UOLCatLovers”. A UOLCatLovers está desenvolvendo um aplicativo móvel que fornece fatos interessantes sobre gatos para seus usuários. Os fatos são extraídos da API Cat Facts.

##### Documentação em: https://alexwohlbruck.github.io/cat-facts/docs/

##### As respostas devem constar em um repositório no GitHub e o link do repositório deve ser compartilhado para a avaliação.
 
##### 1 - Como a startup foi recém criada, ainda não há uma grande demanda pelos dados, então você precisa desenvolver um script Python simples que extraía os dados de fatos sobre gatos (cat facts) da API e salva em um arquivo CSV local.

<p>Segue a criação do script que extrai os fatos sobre gatos da API Cat Facts e salva em um arquivo CSV local. Uso a biblioteca requests para fazer a solicitação HTTP para a API e a biblioteca csv para manipular o arquivos.

In [2]:
# Instalação da lib requests
!pip install requests



In [4]:
# Importando as bibliotecas
import requests
import csv

# Função que acessa a API
def get_cat_facts():
    url = "https://cat-fact.herokuapp.com/facts"
    response = requests.get(url)
    if response.status_code == 200: # Verifica se a resposta da solicitação foi bem-sucedida (código de status HTTP 200).
        return response.json()
    else:
        print("Falha ao obter fatos sobre gatos:", response.status_code)
        return None
# Função de escrita do arquivo .csv
def save_to_csv(cat_facts, filename):
    with open(filename, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.DictWriter(file, fieldnames=['id', 'text'])
        writer.writeheader()
        for fact in cat_facts:
            writer.writerow({'id': fact['_id'], 'text': fact['text']})

if __name__ == "__main__":
    cat_facts = get_cat_facts()
    if cat_facts:
        save_to_csv(cat_facts, 'cat_facts.csv')
        print("Fatos sobre gatos salvos com sucesso em 'cat_facts.csv'.")


Fatos sobre gatos salvos com sucesso em 'cat_facts.csv'.


<p> Resumindo, essa função é responsável por fazer uma solicitação para a API Cat Facts, verificar se a solicitação foi bem-sucedida e retornar os fatos sobre gatos se estiverem disponíveis. Se houver algum problema na solicitação, a função imprime uma mensagem de erro e retorna None. </p>

##### 2 - Com o tempo, o aplicativo ganhou popularidade e o número de fatos sobre gatos cresceu exponencialmente. Agora, a solução local não é mais viável e é necessário transpor a solução para a nuvem. Você precisa projetar uma arquitetura na plataforma Google Cloud que seja capaz de extrair, armazenar e disponibilizar os dados para os times de anaytics. Não é necessário implementar ou codificar, apenas desenhar a arquitetura.

Para transpor a solução para a cloud GCP, podemos projetar uma arquitetura usando os serviços:

Google Cloud Functions : Para criar uma função serverless que seja acionada periodicamente para extrair os dados da API Cat Facts. Essa função fica responsável por fazer a solicitação HTTP para a API e armazenar os dados em um banco de dados na nuvem.

Google Cloud Pub/Sub : Após extrair os dados, publicamos em um tópico do Pub/Sub. Isso permite que os dados sejam transmitidos de forma assíncrona para os consumidores.

Google Cloud Storage : Armazenamos os dados extraídos em um bucket do Cloud Storage. Os dados podem ser armazenados em formato JSON ou CSV, dependendo da necessidade.

Google BigQuery : Para disponibilizar os dados para os times de analytics, carregamos os dados armazenados no Cloud Storage para o BigQuery. O BigQuery é um armazém de dados totalmente gerenciado que permite consultar e analisar grandes conjuntos de dados com fac

Looker Studio : Ainda podemos utilizar essa ferramenta de visualização, antes conhecida como Google Data Studio, para criar dashboard com visões das extrações.ilidade.

Google Cloud Scheduler : Configuramos o Cloud Scheduler para acionar a função do Cloud Functions em intervalos regulares, garantindo que os dados sejam atualizados periodicamente.

Essa arquitetura permite uma solução escalável e gerenciada na nuvem, onde os dados são extraídos, armazenados e disponibilizados para os times de analytics de forma eficiente o, sob o link:nfiável.</p>

https://github.com/renanpyd/UOL_CatLovers/blob/main/arquitetura-GCP-UOL-CatLovers.pdf

##### 3 - Com o tempo, o time de analytics também sentiu necessidade de realizar suas próprias consultas sobre os dados, como a tecnologia mais conhecida por eles é o BigQuery, você precisa especificar o esquema da tabela de dados de fatos sobre gatos (cat facts), inclua os campos, tipos de campos e quaisquer outras considerações necessárias. A especificação pode ser feita por diagrama ou por código.

Para especificar o esquema da tabela cat facts no BigQuery, podemos fazê-lo por meio de um código SQL que define a estrutura da tabela:

In [6]:
"""
CREATE TABLE cat_facts (
                        fact_id STRING
                       ,fact_text STRING
                       ,user_id STRING
                       ,upvotes INT64
                       ,createdAt TIMESTAMP
                       ,updatedAt TIMESTAMP
                       ,deleted BOOLEAN
);
"""

'\nCREATE TABLE cat_facts (\n                        fact_id STRING\n                       ,fact_text STRING\n                       ,user_id STRING\n                       ,upvotes INT64\n                       ,createdAt TIMESTAMP\n                       ,updatedAt TIMESTAMP\n                       ,deleted BOOLEAN\n);\n'

In [7]:
# Neste esquema:
#
- `fact_id`: Uma string que representa o identificador único de cada fato sobre gatos#
- `fact_text`: Uma string que armazena o texto do fato sobre gato#.
- `user_id`: Uma string que representa o identificador único do usuário que adicionou o fato sobre gatos (se aplicáve#).
- `upvotes`: Um número inteiro que representa a contagem de votos positivos recebidos pelo fato sobre ga#os.
- `createdAt`: Um timestamp que indica a data e hora em que o fato sobre gatos foi cr#ado.
- `updatedAt`: Um timestamp que indica a data e hora em que o fato sobre gatos foi atualizado pela últim# vez.
- `deleted`: Um booleano que indica se o fato sobre gatos foi excluído.xcluído.

SyntaxError: invalid syntax (3907293630.py, line 3)

##### 4 - Apesar dos dados no BigQuery, o time de analytics não está conseguindo realizar as consultas por conta própria e pediu sua ajuda. Crie uma consulta que extraia os fatos que foram atualizados em agosto de 2020 para um estudo de caso demandado por eles.

In [8]:
"""
SELECT
    fact_id,
    fact_text,
    user_id,
    upvotes,
    createdAt,
    updatedAt,
    deleted
FROM
    `projeto.base_de_dados.cat_facts`
WHERE
    EXTRACT(YEAR FROM updatedAt) = 2020
    AND EXTRACT(MONTH FROM updatedAt) = 8;

"""

'\nSELECT\n    fact_id,\n    fact_text,\n    user_id,\n    upvotes,\n    createdAt,\n    updatedAt,\n    deleted\nFROM\n    `projeto.base_de_dados.cat_facts`\nWHERE\n    EXTRACT(YEAR FROM updatedAt) = 2020\n    AND EXTRACT(MONTH FROM updatedAt) = 8;\n\n'

##### 5 - O time de desenvolvimento soube da sua habilidade com consultas SQL e decidiu se aproveitar da fila de demandas para solicitar uma amostra da base de fatos sobre gatos (cat facts) para popular o ambiente de QA deles. O time solicitou uma consulta SQL que extraia, de forma aleatória, 10% dos registros da base contendo as informações de texto, data de criação e data de atualização. Uma consideração importante feita pelo time de desenvolvimento é que eles precisam da consulta SQL para extrair os dados para um arquivo CSV separado por vírgulas.

In [9]:
"""
SELECT
    fact_text,
    createdAt,
    updatedAt
FROM (
    SELECT
        fact_text,
        createdAt,
        updatedAt,
        RAND() AS rand_val
    FROM
        `projeto.base_de_dados.cat_facts`
)
WHERE
    rand_val <= 0.1
    
"""

'\nSELECT\n    fact_text,\n    createdAt,\n    updatedAt\nFROM (\n    SELECT\n        fact_text,\n        createdAt,\n        updatedAt,\n        RAND() AS rand_val\n    FROM\n        `projeto.base_de_dados.cat_facts`\n)\nWHERE\n    rand_val <= 0.1\n    \n'

In [10]:
""" 
Aqui selecionamos os campos fact_text, createdAt e updatedAt da tabela cat_facts.
Na subconsulta interna, estamos selecionando os campos mencionados e gerando um valor aleatório utilizando a função RAND() e nomeando-o como rand_val.
Na consulta principal, estamos filtrando os registros onde o valor aleatório (rand_val) é menor ou igual a 0.1
, representando aproximadamente 10% dos registros da ta  la.
Esses registros selecionados serão retornados como uma amostra aleatória de 10% dos dados da ab
ela.
Para salvar o resultado dessa consulta em um arquivo CSV separado por vla, devemos uírgutilizar as opções de exportação oferecidas pelo próprio BigQu
ery ou entxemosecutar a consulta e salvar o resultado manualmente como um aro csv.q
uivigo.

SyntaxError: incomplete input (1584878111.py, line 1)