# A3Data - Residência Porto Digital 

## Processamento de Dados em Larga Escala - Aula 01

Prof. Dr. Neylson Crepalde

## Ementa

Sintaxe SQL e principais elementos de consulta de dados. Revisão da programação com Python. Introdução ao Spark. Computação distribuída, lazy evaluation. Transformações e ações. Consultas em Spark com Spark DataFrames e Spark SQL. Estudos de caso.

## Objetivo

Proporcionar aos alunos os conhecimentos básicos para a operação de processamento de dados em larga escala. Ao fim da disciplina, espera-se que o(a) aluno(a) seja capaz de implementar um pipeline de transformações e implementação de regras de negócio especificadas e entregar uma tabela final para consumo de dados analíticos.

## Metodologia

Todo o material didático, códigos e dados serão disponibilizados pelo professor para os alunos via email e/ou pasta compartilhada no Google Drive. Todas as atividades práticas deverão ser realizadas utilizando o Google Collab (https://colab.research.google.com/). Essa plataforma permite que todo o processamento de dados ocorra "em nuvem", não havendo a necessidade de nenhuma instalação ou configuração de ambiente local. Os alunos precisarão de um computador com acesso à internet.

## Conteúdo Programático

#### UNIDADE I - FUNDAMENTOS
1. Linguagem estruturada de consulta (SQL)
2. Programação com Python

#### UNIDADE II - PROCESSAMENTO DISTRIBUÍDO DE DADOS EM LARGA ESCALA
1. Introdução ao Apache Spark
2. Principais Operações com Spark
3. Estudo de caso 1
4. Arquitetura Spark
5. Otimizações de código e configurações
6. Estudo de caso 2

## Distribuição de pontos
- Estudo de caso 1 - 3 pts.
- Estudo de caso 2 - 3 pts.
- Projeto final - 4 pts.

## Referências

- CHAMBERS, Bill; ZAHARIA, Mattei. Spark: The Definitive Guide: Big Data Processing Made Simple. O’Reilly, 2018.
- DAMJI, Jules S. et al. Learning Spark: Lightning-Fast Data Analytics. O’Reilly, 2020.


# Aula 01 - Linguagem Estruturada de Consulta - SQL

## Preparação do ambiente

Execute as próximas duas células

In [None]:
%%bash
# Instal Java
apt-get update && apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Install PySpark
pip install -q pyspark

In [None]:
import os
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-8-openjdk-amd64'

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("AtividadeSQL").getOrCreate()

def q(query, n=30):
    return spark.sql(query).show(n=n, truncate=False)

Para executar alguma consulta, basta colocar seu código sql dentro da função q como no exemplo abaixo:

```python
q("""
    SELECT *
    FROM tabela
""")
```

e o resultado será exibido na tela.

---

Agora, vamos fazer o download do primeiro dataset que vamos utilizar nos exercícios:

In [None]:
!curl -O https://raw.githubusercontent.com/neylsoncrepalde/titanic_data_with_semicolon/main/titanic.csv

In [None]:
# Leitura da tabela para realização de consultas
titanic = spark.read.csv("titanic.csv", header=True, sep=";", inferSchema=True)
titanic.printSchema()
titanic.createOrReplaceTempView("titanic")

In [None]:
q("""

  SELECT *
  FROM titanic
  LIMIT 10

""")

In [None]:
q("""
  SELECT COUNT(1) as contagem
  FROM titanic
""")