# <center><span style="font-size: 42px;color: darkgreen;">Projeto - Processando e Analisando Bilhões de Registros com Presto, Hive e AWS EMR (Elastic MapReduce)</center></span>

<br>

---

<br>

## Contexto

<br>

No dia a dia, as empresas buscam **processar e analisar dados na maior velocidade possível**. Para atender a essa necessidade, este projeto não utiliza um `pseudo cluster`, mas sim um `multi-node cluster` (um cluster de várias máquinas).

Existem diversas alternativas para construir um cluster desse tipo. Aqui, optamos por um **Ambiente em Nuvem**, que, com apenas alguns cliques, permite configurar um `multi-node cluster` capaz de processar grandes volumes de dados. Além disso, não será necessário realizar nenhuma instalação local.

O **projeto** consiste em:

- **1.** Montar um ambiente de processamento de dados robusto na nuvem.
- **2.** Processar e analisar grandes quantidades de dados utilizando ferramentas distribuídas como `Presto`, `Hive` e `AWS Elastic MapReduce (EMR)`.
- **3.** Desligar o ambiente após o término do processamento, otimizando custos e recursos.

Esse fluxo proporciona eficiência e escalabilidade, atendendo às demandas das empresas modernas de Big Data.

<br><br>

---

<br>

## Instruções Gerais Sobre o Projeto

<br>

Este projeto utiliza uma **amostra de dados** composta por **aproximadamente 6,5 milhões de registros**, extraídos de um conjunto maior contendo **2,8 bilhões de registros**.

Para processar o conjunto de dados completo, será necessário dispor de **cerca de 300 GB de espaço em disco**. O procedimento para análise será idêntico, independentemente do tamanho do conjunto de dados.

A amostra foi selecionada para **facilitar a execução em ambientes com recursos limitados**, mantendo a escalabilidade para processar o dataset completo quando os recursos necessários estiverem disponíveis.

Portanto, o projeto será preparado pensando em processar e analisar bilhões de registros, mas, para fins de teste e validação, utilizaremos a amostra de 6,5 milhões de registros. Isso garante eficiência no desenvolvimento enquanto mantém a flexibilidade para lidar com o volume total de dados.

> É necessário criar uma conta gratuita na **AWS**.

Será necessário realizar **acesso remoto ao servidor AWS**. Certifique-se que nenhum firewall ou proxy na máquina ou rede tenha **restrições de acesso remoto**.

<br>

#### Importante

Reproduzir este projeto terá um <span style="font-size: 18px;color: red;">custo associado</span>, embora seja baixo.

> Lembre-se de finalizar todos os serviços AWS após a conclusão do Projeto.

<br><br>

---

<br>

### Explorando a AWS

<br>

Após **criar uma conta**, vamos explorar a líder mundial em **Computação em Nuvem**.

Ao **efetuar login**, você será direcionado à **Página Inicial do Console de Serviços**. Clique em **"Ver todos os serviços"** para explorar a vasta gama de recursos que a AWS oferece.

Um dos **serviços** disponíveis na seção **Análise de Dados** é o **EMR** (Elastic MapReduce), que será utilizado neste projeto.

<br><br>

---

<br>

### Sobre a Fonte de Dados

<br>

No site abaixo, você encontrará uma série de arquivos CSV com **dados de corridas de táxi** na cidade de Nova York. Os dados abrangem o período de 2009 a 2024. Para este projeto, trabalharemos com uma **amostra de 6,5 milhões de registros**.

- [TLC Trip Record Data](https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page)

<br>

> **Importante:** O procedimento/configuração é o mesmo, independentemente de estarmos trabalhando com 6,5 milhões ou bilhões de registros.

<br>

Para este projeto, utilizaremos os dados de 2020. Após acessar o link, clique em `2020`, e em seguida, no arquivo CSV **`Yellow Taxi Trip Records`** do mês de **janeiro**.

<br>

### Sobre o Conjunto de Dados

<br>

O conjunto de dados contém informações sobre **corridas de táxi** em Nova York no ano de **2020**, com aproximadamente **6,5 milhões de registros**. O arquivo contém **19 colunas**, incluindo informações como:

- **Data e hora de coleta e entrega** das corridas (`tpep_pickup_datetime`, `tpep_dropoff_datetime`).
- **Distância da viagem** e **código da tarifa** (`trip_distance`, `RatecodeID`).
- **Detalhes sobre o pagamento**, como o valor da tarifa e gorjeta (`fare_amount`, `tip_amount`).
- **Localizações de coleta e entrega** (`PULocationID`, `DOLocationID`).
- **Informações adicionais** como taxas de pedágio e taxa de melhoria (`tolls_amount`, `improvement_surcharge`).

Todo o processo de análise será realizado diretamente na **AWS**, utilizando a infraestrutura em nuvem. O Jupyter será utilizado apenas para escrever o passo a passo do procedimento, e não para a execução dos cálculos. A amostra de **6,5 milhões de registros** será utilizada como base para a análise, representando uma fração significativa do conjunto total.

<br><br>

---

<br>

### Resumo

<br>

Este é um projeto de demonstração para que você veja como configurar um **cluster multi-node** e processar grandes volumes de dados. Usaremos o **cluster Hadoop** com **Amazon EMR – Elastic MapReduce** e os serviços de motor de banco de dados **Presto** e **Hive** para análise dos dados.

Tudo será demonstrado passo a passo, e o ambiente será configurado nas aulas sem custo na **AWS**. Acompanhe atentamente as instruções que serão passadas durante as aulas.

<br><br><br><br><br>

---

<br><br><br><br>

# <center><span style="font-size: 38px;color: darkgreen;">Iniciando o Laboratório</center></span>

<br><br>

# 1. Movendo os Dados Para o AWS S3

<br>

- **1.1** Na **Página Inicial** da AWS, clique em **"Ver todos os serviços"**.  
- **1.2** Na seção de **Armazenamento**, clique em **S3**.
- **1.3** Após acessar o S3, será necessário criar um **Bucket** (um repositório de arquivos):
   - O nome do **Bucket** deve ser **único** em toda a AWS, ou seja, deve ser um nome que nunca tenha sido utilizado por nenhuma outra conta.
   - O nome escolhido para este projeto será: **`projeto-processando-e-analisando-bilhoes-de-registros-taxis-ny`**.
   - Deixe todas as **configurações padrão** e clique em **Criar Bucket**.

- **1.4** Após a criação do Bucket, clique sobre o **Bucket** recém-criado. Na próxima página, clique em **Carregar** para começar o processo de upload dos dados.

- **1.5** Na página de carregamento, **arraste e solte** o arquivo `yellow_tripdata_2020-01.parquet` para o campo indicado, e clique em **Carregar**.

- **1.6** Aguarde o tempo necessário para que o arquivo seja carregado na nuvem.

<br><br>

# 2. Criando um Multi Node Cluster com EMR (Amazon Elastic MapReduce)

<br>

Agora, vamos trabalhar com outro serviço da AWS: o **EMR (Elastic MapReduce)**. O EMR é uma plataforma que permite processar grandes volumes de dados usando frameworks como **Apache Hadoop** e **Apache Spark**.

Neste passo, faremos com que o **S3** e o **EMR** se comuniquem, permitindo que o EMR acesse os dados armazenados no S3 para processamento distribuído.

#### Passos para a Integração



















<br><br><br><br>

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6405008 entries, 0 to 6405007
Data columns (total 19 columns):
 #   Column                 Dtype         
---  ------                 -----         
 0   VendorID               int64         
 1   tpep_pickup_datetime   datetime64[ns]
 2   tpep_dropoff_datetime  datetime64[ns]
 3   passenger_count        float64       
 4   trip_distance          float64       
 5   RatecodeID             float64       
 6   store_and_fwd_flag     object        
 7   PULocationID           int64         
 8   DOLocationID           int64         
 9   payment_type           int64         
 10  fare_amount            float64       
 11  extra                  float64       
 12  mta_tax                float64       
 13  tip_amount             float64       
 14  tolls_amount           float64       
 15  improvement_surcharge  float64       
 16  total_amount           float64       
 17  congestion_surcharge   float64       
 18  airport_fee           

In [None]:
TLC Trip Record Data: https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page

Analisando 1,1 Bilhão de Viagens de Táxi e Uber de NY (com um toque de vingança): https://toddwschneider.com/posts/analyzing-1-1-billion-nyc-taxi-and-uber-trips-with-a-vengeance

New York City Taxi and For-Hire Vehicle Data (GitHub): https://github.com/toddwschneider/nyc-taxi-data