<a href="https://colab.research.google.com/github/leticiafaria7/alura-courses/blob/main/apache-spark/iniciando_projeto_spark_no_colab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Iniciando um projeto spark no google colab

### Instalando a ferramenta Spark

In [26]:
# instalar as dependências

# pyspark (não pode ter espaço antes e depois do ==)
!pip install pyspark==3.3.1

# findspark - torna o pyspark uma biblioteca possível de ser importada regularmente
!pip install -q findspark

# instalar um kit de desenvolvimento java (JDK) que vai permitir rodar código na
# linguagem Scala e nas máquinas virtuais Java (JVM), que é como o spark foi construído
# VERIFICAR SE O ARQUIVO EXISTE NO SITE
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://dlcdn.apache.org/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz # baixar, através da ferramenta wget, os arquivos do Spark na máquina virtual do Google



In [27]:
# verificar se foi baixado corretamente

!ls

sample_data  spark-3.3.4-bin-hadoop3.tgz


In [28]:
# descompactar o arquivo que fizemos download

!tar xf spark-3.3.4-bin-hadoop3.tgz

In [29]:
# passar para o python e definir as variáveis de ambiente para cada utilitário
# ou seja, explicar para o computador onde estão os programas que vamos utilizar (java e spark)

import os
os.environ["JAVA_HOME"] = '/usr/lib/jvm/java-8-openjdk-amd64'
os.environ['SPARK_HOME'] = '/content/spark-3.3.4-bin-hadoop3'

In [30]:
# usar o findspark para permitir a importação dos pacotes necessários para utilizar o PySpark

import findspark
findspark.init()

### Testando o Spark UI

In [31]:
from pyspark.sql import SparkSession

In [57]:
# criar a seção Spark (API que vamos utilizar para trabalhar com o Spark)
# cuida de toda a parte de gerenciamento dos nós do processamento em paralelo
# método .config() - informa qula porta o Spark UI deve rodar

spark = SparkSession.builder\
  .master('local[*]')\
    .appName('Iniciando com Spark')\
      .config('spark.ui.port', '4050')\
        .getOrCreate()

In [33]:
# informações sobre a seção spark criada

spark

Pegar o localhost da máquina na nuvem e criar uma URL para que seja possível acessá-la

In [34]:
# faz o download da ferramenta ngrok e extrai os arquivos
# pega o localhost da máquina que está na nuvem e cria uma URL que possa ser acessada daqui

!wget -q https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip ngrok-stable-linux-amd64.zip

Archive:  ngrok-stable-linux-amd64.zip
  inflating: ngrok                   


In [58]:
# conferir se baixou mesmo

!ls

ngrok			      sample_data	       spark-3.3.4-bin-hadoop3.tgz
ngrok-stable-linux-amd64.zip  spark-3.3.4-bin-hadoop3


In [68]:
# get_ipython() - permite acessar comandos do IPython (interpretador interativo)
# .system_raw() - executar comandos em um prompt de comando shell
# ./ngrok - criar um caminho seguro
# protocolo http que roda na porta 4050

get_ipython().system_raw('./ngrok authtoken 2UlPlZn5jbsWmVkpDsYxxmvSjxL_Ap32FiJ8GqB2YYYinBZk')
get_ipython().system_raw("./ngrok http 4050 &")

In [69]:
# acessar a porta da API do Ngrok responsável por disponibilizar uma URL pública
# para acessar o Spark UI que está rodando na nuvem
# acessar a public_url gerada no arquivo json retornado pelo código

!curl -s http://localhost:4040/api/tunnels # arquivo json

{"tunnels":[{"name":"command_line (http)","uri":"/api/tunnels/command_line%20%28http%29","public_url":"http://1d1a-34-83-88-247.ngrok-free.app","proto":"http","config":{"addr":"http://localhost:4050","inspect":true},"metrics":{"conns":{"count":0,"gauge":0,"rate1":0,"rate5":0,"rate15":0,"p50":0,"p90":0,"p95":0,"p99":0},"http":{"count":0,"rate1":0,"rate5":0,"rate15":0,"p50":0,"p90":0,"p95":0,"p99":0}}},{"name":"command_line","uri":"/api/tunnels/command_line","public_url":"https://1d1a-34-83-88-247.ngrok-free.app","proto":"https","config":{"addr":"http://localhost:4050","inspect":true},"metrics":{"conns":{"count":0,"gauge":0,"rate1":0,"rate5":0,"rate15":0,"p50":0,"p90":0,"p95":0,"p99":0},"http":{"count":0,"rate1":0,"rate5":0,"rate15":0,"p50":0,"p90":0,"p95":0,"p99":0}}}],"uri":"/api/tunnels"}


### Dataframes com Spark

In [None]:
data = [('Zeca', '35'), ('Eva', '29')]
colNames = ['Nome', 'Idade']
df = spark.createDataFrame(data, colNames)

df.show()

+----+-----+
|Nome|Idade|
+----+-----+
|Zeca|   35|
| Eva|   29|
+----+-----+



In [None]:
df.toPandas()

Unnamed: 0,Nome,Idade
0,Zeca,35
1,Eva,29


# Projeto

Ler, manipular, tratar e salvar um conjunto de dados volumosos utilizando o Spark como feramenta

### Montar o drive

In [None]:
# montar o drive

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# biblioteca para extrair os arquivos

import zipfile

### Extrair os arquivos

In [None]:
# extrair os arquivos das empresas

zipfile.ZipFile('/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados/empresas.zip', 'r')\
.extractall('/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados')

In [None]:
# extrair os arquivos dos estabelecimentos

zipfile.ZipFile('/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados/estabelecimentos.zip', 'r')\
.extractall('/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados')

In [None]:
# extrair os arquivos dos sócios

zipfile.ZipFile('/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados/socios.zip', 'r')\
.extractall('/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados')

### Chamar as bases em uma variável

In [None]:
# salvar as bases de empresas em uma variável

path = '/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados/empresas'
# é possível colocar o nome do arquivo e colocar o caracter '?' ou '*' para referenciar o caracter que está variando em cada nome de arquivo

empresas = spark.read.csv(path, sep = ';', inferSchema = True)

In [None]:
# salvar as bases de estabelecimentos em uma variável

path_estabelecimentos = '/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados/estabelecimentos'

estabelecimentos = spark.read.csv(path_estabelecimentos, sep = ';', inferSchema = True)

In [None]:
# salvar as bases de sócios em uma variável

path_socios = '/content/drive/MyDrive/5. Cursos/programming/alura-courses/apache-spark/dados/socios'

socios = spark.read.csv(path_socios, sep = ';', inferSchema = True)

In [None]:
empresas.count()

4585679

In [None]:
estabelecimentos.count()

4836219

In [None]:
socios.count()

2046430