## Manuseando RDDs
Neste notebook iremos aprender a realizar operações em RDDs

### Importando as bibliotecas
Nesta etapa iremos apenas importar todas as bibliotecas e funções necessárias para rodar o programa

In [3]:
from pyspark.sql import SparkSession

### Criando uma SparkSession
Por meio de uma SparkSession terei acesso ao SparkContext da minha aplicação.

In [5]:
spark = SparkSession.builder.appName('Select').getOrCreate()

### Carregando os dados
Nesta etapa estamos carregando os dados que utilizaremos neste notebook

In [7]:
dados = spark.sparkContext.textFile("/FileStore/tables/student_mat.csv")

### Retorna as primeiras linhas do rdd
Note que quando carregamos os dados, criamos um RDD[String], ou seja, cada linha
do nosso arquivo está em uma posicao do RDD

In [9]:
dados.take(10)

### Se quiser pegar acessar a primeira linha como String, podemos fazer da seguinte forma

In [11]:
dados.take(10)[0]

### Agora vamos retirar o cabeçalho do nosso RDD

In [13]:
header = dados.take(1)[0]
resultados = dados.filter(lambda x : x != header)
resultados.take(1)

### Agora iremos transformar nosso RDD [String]

In [15]:
resultados = dados.map(lambda x : x.split(";"))

### Selecionando colunas específicas
Uma vez que temos um RDD [Array[String]] podemos selecionar uma coluna especifica. Lembrando das posicoes das colunas:
school;sex;age;address;famsize;Pstatus;Medu;Fedu;Mjob;Fjob;reason;guardian;traveltime;studytime;failures;schoolsup;famsup;paid;activities;nursery;higher;internet;romantic;famrel;freetime;goout;Dalc;Walc;health;absences;G1;G2;G3

In [17]:
# Seleciona a coluna school
resultados.map(lambda x : x[0]).take(10)

In [18]:
# Seleciona a coluna sex
resultados.map(lambda x : x[1]).take(10)

### Agora iremos colocar todos os comandos juntos para selecionar a coluna idade (já convertendo a idade para Int)

In [20]:
header = dados.take(1)[0]
dados.filter(lambda x : x != header) \
    .map(lambda x : x.split(";")) \
    .map(lambda x : int(x[2])) \
    .take(10)

### Verifica a quantidade de registros

In [22]:
dados.count()

### Calcula a média da coluna idade manualmente

In [24]:
header = dados.take(1)[0]
contagem = dados.count()
soma = dados.filter(lambda x : x != header).map(lambda x : x.split(";")).map(lambda x : int(x[2])).sum()
media = soma / contagem
media

### Filtra apenas sex = "M"

In [26]:
header = dados.take(1)[0]
dados.filter(lambda x : x != header).map(lambda x : x.split(";")).filter(lambda x : x[1] == '"M"').count()

### Seleciona as três primeiras colunas

In [28]:
resultados = dados.filter(lambda x : x != header).map(lambda x : x.split(";")).map(lambda x : [x[0], x[1], x[2]])
resultados.take(10)

### Obrigado!
Quer construir uma carreira em Data Science? Acesse meu blog pessoal em https://www.hackinganalytics.com/