<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Computação em Nuvem I
Caderno de **Aula**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Amazon Web Services;</li>
  <li>AWS IAM;</li>
  <li>AWS S3;</li>
  <li>AWS Athena.</li>
</ol>

---

# **Aulas**

## 1\. Amazon Web Services

### **2.1. Computação em nuvem** 

Computação em nuvem é um termo genérico para o oferecimento *web* de serviços e recursos computacionais **sob demanda** e **auto gerenciados**, especialmente processamento (cpu, memória RAM, etc.) e armazenamento.

### **2.2. Plataformas** 

As principais plataformas de computação em nuvem são:

 - [Amazon Web Services (AWS)](https://aws.amazon.com);
 - [Microsoft Azure](https://azure.microsoft.com);
 - [Google Cloud](https://cloud.google.com).

### **2.3. AWS** 

A Amazon Web Service (AWS) é uma plataforma de computação em nuvem da Amazon (*e-commerce*). Para criar a sua conta e navegar pelo console da AWS, basta acessar este [link](https://portal.aws.amazon.com/).

### **2.4. AWS Billing** 

> **Atenção:** Todo serviço da AWS tem o seu custo associado!

Uma nova conta da AWS é elegível a o nível gratuito. Confira neste [link](https://aws.amazon.com/pt/free) a oferta atual (podem mudar ao longo do tempo). A AWS oferece o AWS [Billing](https://docs.aws.amazon.com/account-billing/index.html), um serviço de acompanhamento de custos.

## 2\. AWS IAM

O AWS [IAM](https://aws.amazon.com/pt/iam/) (*Identity and Access Management*) é um serviço de gestão de usuários e recursos. Nele, criamos usuários, providenciamos/revogamos acessos, etc.

### **2.1. Funcionamento** 

 1. Um *user* representa um usuário ou aplicação que pode interagir com os recursos da AWS;
 1. Um *user group* é um conjunto de usuários que compartilham permissões, exemplo: *admin*, *dev*, *analyst*, etc.;
 1. Uma *role* é semelhante a um usuário temporário, *users* podem assumir uma *role* por um tempo.

### **2.2. Preço** 

O AWS [IAM](https://aws.amazon.com/pt/iam/) é gratuito.

### **2.3. Atividade** 

Vamos utilizar o AWS [IAM](https://aws.amazon.com/pt/iam/) durante as próximas aulas e módulos para configurar diversos serviços da AWS.

## 3\. AWS S3

O AWS [S3](https://aws.amazon.com/pt/s3/) (*Simple Storage Service*) é um serviço de armazenameto distribuido e sem servidor. No contexto de dados, pode atuar como repositório de dados. O serviço é inspirado no famoso projeto *open source* [Apache Hadoop](https://hadoop.apache.org/).



### **3.1. Funcionamento** 

1. Um *bucket* é uma partição lógica de dados, como uma pasta do seu computador;
2. Um objeto é um arquivo armazenado dentro de um um *bucket*;
3. Outros serviços da plataforma podem interagir com os objetos de um *bucket*. 

### **3.2. Preço** 

O AWS [S3](https://aws.amazon.com/pt/s3/) cobra por volume de dados armazenado. O preço atual é complexo, mas inicia-se com 0,0405 USD por mês por *gigabyte* (GB) armazenado (0,22 BRL aproximadamente). Você sempre deve consultar o preço na página *web* do serviço ([link](https://aws.amazon.com/pt/s3/pricing/?nc=sn&loc=4)).

### **3.3. Atividade** 

 - Criar um *bucket*;
 - Inserir um objeto no *bucket*.

Como objeto, gere o arquivo `iris.csv` com os códigos abaixo.

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
iris = sns.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [None]:
iris.to_csv('iris.csv', index=False, header=False)

## 4\. AWS Athena

O AWS [Athena](https://aws.amazon.com/pt/athena/) é um serviço de computação distribuída e sem servidor que atua como um motor de consulta (*query engine*). O serviço implementa na infrastrutura computacional da AWS o projeto *open source* [Presto](https://prestodb.io/).


> A combinação do AWS [Athena](https://aws.amazon.com/pt/athena/) e o AWS [S3](https://aws.amazon.com/pt/s3/) forma uma poderosa base de dados para processamento de grandes volumes de dados de **baixo custo** e **alta latência**, ideal para *data lakes*.


### **4.1. Funcionamento** 

1. Transforma uma *query* SQL em código [Spark](https://spark.apache.org);
2. Processa os objetos armazenados no AWS [S3](https://aws.amazon.com/pt/s3/) com o código [Spark](https://spark.apache.org) gerado; 
4. Salva o resultado da *query* SQL como um objeto em um *bucket* no AWS [S3](https://aws.amazon.com/pt/s3/);
3. Retorna o resultado da *query* SQL no console. 

### **4.2. Preço** 

O AWS [Athena](https://aws.amazon.com/pt/athena/) cobra por consulta. O preço atual é de 9,00 USD por *terabyte* escaneado (49,65 BRL aproximadamente). Você sempre deve consultar o preço na página web do serviço ([link](https://aws.amazon.com/pt/athena/pricing/?nc=sn&loc=3)).

### **4.3. Atividade** 

 - Criar um *bucket* no AWS [S3](https://aws.amazon.com/pt/s3/) para armazenar os resultados;
 - Configurar o AWS [Athena](https://aws.amazon.com/pt/athena/) para utilizar o *bucket* criado;
 - Criar uma tabela (com SQL) utilizando o *bucket* da aula 3, item 3.3;
 - Executar uma consulta SQL.

Código SQL para criar a tabela.

```sql
CREATE EXTERNAL TABLE iris (
  sepal_length double, 
  sepal_width double, 
  petal_length double, 
  petal_width double, 
  specie string
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
WITH SERDEPROPERTIES ('separatorChar'=',') 
LOCATION 's3://<bucket-name>/'
```

Códigos SQL para executar consultas.

```sql
SELECT * FROM iris LIMIT 10;
```

```sql
SELECT 
    specie, 
    round(avg(sepal_length), 4) as avg_sepal_length,
    round(avg(sepal_width),  4) as avg_sepal_width,
    round(avg(petal_length), 4) as avg_petal_length,
    round(avg(petal_width),  4) as avg_petal_width
FROM iris
GROUP BY specie;
```