#Disciplina: Processamento de Grande Volume de Dados

Prof. Francisco Pereira Junior

Profa. Rosangela Marquesone

Nesse notebook, as seguintes atividades serão realizadas:

* Instalação do Spark
* Criação de um SparkContext
* Funcionalidades do Spark SQL

### Download do Java

In [None]:
#download do Java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

### Download do spark

O download será feito a partir do seguinte link: https://archive.apache.org/dist/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz

In [None]:
#download do spark
!wget https://archive.apache.org/dist/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz

--2022-05-02 01:20:51--  https://archive.apache.org/dist/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz
Resolving archive.apache.org (archive.apache.org)... 138.201.131.134, 2a01:4f8:172:2ec5::2
Connecting to archive.apache.org (archive.apache.org)|138.201.131.134|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 233333392 (223M) [application/x-gzip]
Saving to: ‘spark-2.4.7-bin-hadoop2.7.tgz’


2022-05-02 01:20:59 (29.2 MB/s) - ‘spark-2.4.7-bin-hadoop2.7.tgz’ saved [233333392/233333392]



### Descompatando o Spark

In [None]:
#descompactando o spark
!tar -xf /content/spark-2.4.7-bin-hadoop2.7.tgz

### Instalando o findspark

A biblioteca findspark é utilizada para realizar a configuração do pyspark em um notebook, para não ser necessário a inicialização via linha de comando.

In [None]:
#instalando o findspark
!pip install -q findspark

In [None]:
#importando as bilbiotecas
import findspark
import os

In [None]:
#configurando a variável de ambiente do Java
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.7-bin-hadoop2.7"

In [None]:
#configurando a variável de ambiente do Spark
os.environ["SPARK_HOME"] = "/content/spark-2.4.7-bin-hadoop2.7"

In [None]:
#informando a pasta raíz do Spark
findspark.init("spark-2.4.7-bin-hadoop2.7")

### Iniciando uma sessão do Spark em modo local

Conforme vimos em sala de aula, o Spark pode ser inicializado de diversos modos. Nesse exemplo utilizaremos o modo local, com a quantidade de threads de acordo com o número de cores do sistema.

In [None]:
#iniciando uma sessão do Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
#visualizando a versão do Spark
spark.version

'2.4.7'

In [None]:
#importando as bibliotecas do Spark e do Pandas
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd

Para essa atividade, iremos criar um objeto SQLContext, que requer como argumento um objeto SparkContext.

In [None]:
#iniciando o objeto SQLContext
sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)

## Parte II - Utilizando o Spark SQL

Para essa atividade, utilizaremos uma base de dados de teste utilizada para a construção de modelos para predição de churn.

### Fazendo o download de dados

Link para download do dataset: https://raw.githubusercontent.com/bensadeghi/pyspark-churn-prediction/master/data/churn-bigml-20.csv

### Carregando o dataset

In [None]:
#realizando o download dos dados
!wget https://raw.githubusercontent.com/bensadeghi/pyspark-churn-prediction/master/data/churn-bigml-20.csv

--2022-05-02 01:22:15--  https://raw.githubusercontent.com/bensadeghi/pyspark-churn-prediction/master/data/churn-bigml-20.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 56329 (55K) [text/plain]
Saving to: ‘churn-bigml-20.csv’


2022-05-02 01:22:15 (16.1 MB/s) - ‘churn-bigml-20.csv’ saved [56329/56329]



In [None]:
#visualizando se o arquivo foi salvo
!ls

churn-bigml-20.csv  spark-2.4.7-bin-hadoop2.7
sample_data	    spark-2.4.7-bin-hadoop2.7.tgz


In [None]:
#carregando o dataset
df = sqlContext.read.load('churn-bigml-20.csv',
                               format='csv',
                               header='true',
                              inferSchema='true')

### Análise exploratória dos dados

Na sequência, visualizaremos algumas funções do Spark e do SparkSQL para análise exploratória dos dados.

In [None]:
#visualizando a estrutura do dataset
print(type(df))

<class 'pyspark.sql.dataframe.DataFrame'>


In [None]:
#visualizando as colunas do dataset
df.columns

['State',
 'Account length',
 'Area code',
 'International plan',
 'Voice mail plan',
 'Number vmail messages',
 'Total day minutes',
 'Total day calls',
 'Total day charge',
 'Total eve minutes',
 'Total eve calls',
 'Total eve charge',
 'Total night minutes',
 'Total night calls',
 'Total night charge',
 'Total intl minutes',
 'Total intl calls',
 'Total intl charge',
 'Customer service calls',
 'Churn']

In [None]:
#visualizando os tipos de dados dos atributos
df.dtypes

[('State', 'string'),
 ('Account length', 'int'),
 ('Area code', 'int'),
 ('International plan', 'string'),
 ('Voice mail plan', 'string'),
 ('Number vmail messages', 'int'),
 ('Total day minutes', 'double'),
 ('Total day calls', 'int'),
 ('Total day charge', 'double'),
 ('Total eve minutes', 'double'),
 ('Total eve calls', 'int'),
 ('Total eve charge', 'double'),
 ('Total night minutes', 'double'),
 ('Total night calls', 'int'),
 ('Total night charge', 'double'),
 ('Total intl minutes', 'double'),
 ('Total intl calls', 'int'),
 ('Total intl charge', 'double'),
 ('Customer service calls', 'int'),
 ('Churn', 'boolean')]

In [None]:
#visualizando o schema dos dados
df.printSchema()

root
 |-- State: string (nullable = true)
 |-- Account length: integer (nullable = true)
 |-- Area code: integer (nullable = true)
 |-- International plan: string (nullable = true)
 |-- Voice mail plan: string (nullable = true)
 |-- Number vmail messages: integer (nullable = true)
 |-- Total day minutes: double (nullable = true)
 |-- Total day calls: integer (nullable = true)
 |-- Total day charge: double (nullable = true)
 |-- Total eve minutes: double (nullable = true)
 |-- Total eve calls: integer (nullable = true)
 |-- Total eve charge: double (nullable = true)
 |-- Total night minutes: double (nullable = true)
 |-- Total night calls: integer (nullable = true)
 |-- Total night charge: double (nullable = true)
 |-- Total intl minutes: double (nullable = true)
 |-- Total intl calls: integer (nullable = true)
 |-- Total intl charge: double (nullable = true)
 |-- Customer service calls: integer (nullable = true)
 |-- Churn: boolean (nullable = true)



In [None]:
#visualizando a quantidade de linhas
df.count()

667

In [None]:
#visualizando a primeira linha
df.first()

Row(State='LA', Account length=117, Area code=408, International plan='No', Voice mail plan='No', Number vmail messages=0, Total day minutes=184.5, Total day calls=97, Total day charge=31.37, Total eve minutes=351.6, Total eve calls=80, Total eve charge=29.89, Total night minutes=215.8, Total night calls=90, Total night charge=9.71, Total intl minutes=8.7, Total intl calls=4, Total intl charge=2.35, Customer service calls=1, Churn=False)

Uma boa prática é remover os registros duplicados, caso haja algum

In [None]:
#removendo registros duplicados
df = df.dropDuplicates()
df.count()

667

Uma das opções para visualizar o conteúdo de um dataframe no Spark é por meio do método take(n), no qual n é o número de registros que deseja visualizar

In [None]:
#visualizandoo os top n registros
df.take(5)

[Row(State='ME', Account length=80, Area code=408, International plan='No', Voice mail plan='No', Number vmail messages=0, Total day minutes=322.3, Total day calls=113, Total day charge=54.79, Total eve minutes=222.0, Total eve calls=95, Total eve charge=18.87, Total night minutes=162.8, Total night calls=123, Total night charge=7.33, Total intl minutes=6.7, Total intl calls=8, Total intl charge=1.81, Customer service calls=0, Churn=True),
 Row(State='NH', Account length=155, Area code=408, International plan='No', Voice mail plan='No', Number vmail messages=0, Total day minutes=216.7, Total day calls=30, Total day charge=36.84, Total eve minutes=144.3, Total eve calls=125, Total eve charge=12.27, Total night minutes=135.3, Total night calls=106, Total night charge=6.09, Total intl minutes=10.8, Total intl calls=1, Total intl charge=2.92, Customer service calls=2, Churn=False),
 Row(State='HI', Account length=111, Area code=408, International plan='No', Voice mail plan='Yes', Number vm

Uma outra opção é utilizar o método collect(), caso queira visualizar todo o conteúdo do dataset. Entretanto, como o Spark mantém esses dados em memória, é preciso tomar cuidado com essa operação.

In [None]:
#visualizando os registros por meio do método collect()
df.collect()

[Row(State='ME', Account length=80, Area code=408, International plan='No', Voice mail plan='No', Number vmail messages=0, Total day minutes=322.3, Total day calls=113, Total day charge=54.79, Total eve minutes=222.0, Total eve calls=95, Total eve charge=18.87, Total night minutes=162.8, Total night calls=123, Total night charge=7.33, Total intl minutes=6.7, Total intl calls=8, Total intl charge=1.81, Customer service calls=0, Churn=True),
 Row(State='NH', Account length=155, Area code=408, International plan='No', Voice mail plan='No', Number vmail messages=0, Total day minutes=216.7, Total day calls=30, Total day charge=36.84, Total eve minutes=144.3, Total eve calls=125, Total eve charge=12.27, Total night minutes=135.3, Total night calls=106, Total night charge=6.09, Total intl minutes=10.8, Total intl calls=1, Total intl charge=2.92, Customer service calls=2, Churn=False),
 Row(State='HI', Account length=111, Area code=408, International plan='No', Voice mail plan='Yes', Number vm

Além do take e do collect(), o Spark também permite visualizar os dados de maneira formatada a partir do método show(n).

In [None]:
#visualizando os top n registros de maneira formatada
df.show(5)

+-----+--------------+---------+------------------+---------------+---------------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account length|Area code|International plan|Voice mail plan|Number vmail messages|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+--------------+---------+------------------+---------------+---------------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   

O Spark também inseriu na versão 2 a possibilidade de converter os registros em um formato de saída similar ao do Pandas.

In [None]:
#visualizando estatísticas básicas do dataset
df.describe().toPandas()

Unnamed: 0,summary,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls
0,count,667,667.0,667.0,667,667,667.0,667.0,667.0,667.0,667.0,667.0,667.0,667.0,667.0,667.0,667.0,667.0,667.0,667.0
1,mean,,102.84107946026988,436.15742128935534,,,8.407796101949025,180.9481259370315,100.93703148425789,30.76176911544228,203.35532233883055,100.4767616191904,17.285262368815594,199.6853073463267,100.11394302848576,8.985907046476756,10.238380809595204,4.527736131934033,2.76494752623688,1.563718140929535
2,stddev,,40.819480173022505,41.783304688567,,,13.994479792227358,55.50862775723812,20.3967904839353,9.436463453602563,49.71926848382943,18.948261696761925,4.226160133395478,49.7599308151923,20.172504565253856,2.2394289967728183,2.8078497461774288,2.4824419107360813,0.7581668198172478,1.333356969954058
3,min,AK,1.0,408.0,No,No,0.0,25.9,30.0,4.4,48.1,37.0,4.09,23.2,42.0,1.04,0.0,0.0,0.0,0.0
4,max,WY,232.0,510.0,Yes,Yes,51.0,334.3,165.0,56.83,361.8,168.0,30.75,367.7,175.0,16.55,18.3,18.0,4.94,8.0


### Consultando os dados a partir do método select

A partir do método select(), é possível acessar somente as colunas desejadas.

In [None]:
#visualizando somente alguns atributos
df.select("Area code", "total day minutes").show(10)

+---------+-----------------+
|Area code|total day minutes|
+---------+-----------------+
|      408|            322.3|
|      408|            216.7|
|      408|            193.1|
|      415|            137.8|
|      415|             97.2|
|      510|             87.2|
|      415|            125.9|
|      408|            157.8|
|      408|            156.7|
|      415|            135.2|
+---------+-----------------+
only showing top 10 rows



O Spark também permite renomear as colunas, caso seja necessário.

In [None]:
#renomeando a coluna "Account length" para "Account"
df = df.withColumnRenamed('Account length', 'Account')
df.show()

+-----+-------+---------+------------------+---------------+---------------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Number vmail messages|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+---------------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   ME|     80|      408|

O Spark também permite realizar o agrupamento dos dados, por meio do método groupBy()

In [None]:
#agrupando os dados pela coluna State
df.groupBy("State").count().show(10)

+-----+-----+
|State|count|
+-----+-----+
|   AZ|   19|
|   SC|   11|
|   LA|   16|
|   MN|   14|
|   NJ|   18|
|   DC|    9|
|   OR|   16|
|   VA|   10|
|   RI|   17|
|   KY|   16|
+-----+-----+
only showing top 10 rows



Além do count, as seguintes funções também podem ser realizadas no agrupamento:

* mean () - Retorna a média dos valores de cada grupo.
* max () - Retorna o valor máximo para cada grupo.
* min () - Retorna o valor mínimo para cada grupo.
* sum () - Retorna a soma de valores para cada grupo.
* avg () - Retorna a média dos valores de cada grupo.
* agg () - Calcula mais de um agregado por vez.

In [None]:
#agrupando e visualizando estatísticas do grupo
df.groupby('State').agg({'Total day calls': 'mean'}).show()

+-----+--------------------+
|State|avg(Total day calls)|
+-----+--------------------+
|   AZ|   96.94736842105263|
|   SC|  106.45454545454545|
|   LA|            104.6875|
|   MN|  100.21428571428571|
|   NJ|  102.16666666666667|
|   DC|  111.33333333333333|
|   OR|              100.25|
|   VA|               101.7|
|   RI|   99.17647058823529|
|   KY|            103.6875|
|   WY|  107.54545454545455|
|   NH|   91.92307692307692|
|   MI|               109.4|
|   NV|                90.6|
|   WI|   95.52941176470588|
|   ID|  100.29411764705883|
|   CA|               113.7|
|   NE|            105.0625|
|   CT|   97.73333333333333|
|   MT|   94.93333333333334|
+-----+--------------------+
only showing top 20 rows



O Spark também permite remover colunas do data frame.

In [None]:
#removendo a coluna "Number vmail messages"
df = df.drop('Number vmail messages')
df.show(5)

+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   ME|     80|      408|                No|             No|            322.3|            1

Caso a sua consulta tenha como objetivo filtrar linhas, e não colunas, é possível utilizar o método filter()

In [None]:
#realizando uma consulta a partir de um filtro
df.filter(df["total day minutes"] > 200).show()

+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   ME|     80|      408|                No|             No|            322.3|            1

In [None]:
#realizando um filtro a partir do operador between
df.filter(df["total day minutes"].between("200", "210")).show()

+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   PA|    134|      408|                No|             No|            205.3|            1

In [None]:
#utilizando um filtro a partir do operador like
df.filter(df["State"].like('U%')).show()

+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   UT|    103|      510|                No|            Yes|             87.2|             

Além do filtro, também é possível realizar a ordenação dos dados no Spark.

In [None]:
#ordenando os registros no Spark
df.orderBy('Total day calls', ascending=False).show() 

+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   MI|     91|      415|                No|             No|            154.4|            1

In [None]:
#visualizando os dados distintos
df.select('State').distinct().show()

+-----+
|State|
+-----+
|   AZ|
|   SC|
|   LA|
|   MN|
|   NJ|
|   DC|
|   OR|
|   VA|
|   RI|
|   KY|
|   WY|
|   NH|
|   MI|
|   NV|
|   WI|
|   ID|
|   CA|
|   NE|
|   CT|
|   MT|
+-----+
only showing top 20 rows



### Consultando os dados a partir do método sql

### Visualizando as funções existentes

In [None]:
from pyspark.sql import functions
print(dir(functions))



É possível visualizar a descrição das funções a partir do help(<nome_funcao>)

In [None]:
#visualizando a descrição da função lower
from pyspark.sql.functions import lower
help(lower)

Help on function lower in module pyspark.sql.functions:

lower(col)
    Converts a string column to lower case.
    
    .. versionadded:: 1.5



In [None]:
## aplicando a função lower na coluna State
from pyspark.sql.functions import col
df.select(lower(col('State'))).show(5)

+------------+
|lower(State)|
+------------+
|          me|
|          nh|
|          hi|
|          az|
|          nv|
+------------+
only showing top 5 rows



In [None]:
#visualizando o valor máximo e mínimo de uma coluna
from pyspark.sql.functions import min, max

df.select(min(col('Total day minutes')), 
          max(col('Total day minutes'))).show()

+----------------------+----------------------+
|min(Total day minutes)|max(Total day minutes)|
+----------------------+----------------------+
|                  25.9|                 334.3|
+----------------------+----------------------+



Para gerar consultas SQL sobre o data frame, o Spark oferece a função createOrReplaceTempView, que permite criar uma view temporária, que será utilizada enquanto a sessão estiver ativa.

In [None]:
#criando uma tabela temporária
df.createOrReplaceTempView("temp")

In [None]:
#criando uma consulta SQL
states = sqlContext.sql("select distinct state as estado from temp").show()

+------+
|estado|
+------+
|    AZ|
|    SC|
|    LA|
|    MN|
|    NJ|
|    DC|
|    OR|
|    VA|
|    RI|
|    KY|
|    WY|
|    NH|
|    MI|
|    NV|
|    WI|
|    ID|
|    CA|
|    NE|
|    CT|
|    MT|
+------+
only showing top 20 rows



In [None]:
#criando uma query para retornar os 5 primeirosregistros
spark.sql("select * from temp limit 5").show()

+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   ME|     80|      408|                No|             No|            322.3|            1

In [None]:
#criando uma query para retornar apenas algumas colunas
spark.sql("select State, `Total day minutes` from temp limit 5").show()

+-----+-----------------+
|State|Total day minutes|
+-----+-----------------+
|   ME|            322.3|
|   NH|            216.7|
|   HI|            193.1|
|   AZ|            137.8|
|   NV|             97.2|
+-----+-----------------+



In [None]:
#criando uma query para contar a quantidade de registros
spark.sql("select count(*) from temp").show()

+--------+
|count(1)|
+--------+
|     667|
+--------+



In [None]:
#visualizando o plano de execução do Spark SQL
spark.sql("explain select count(*) from temp").show(truncate=False)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Por fim, caso queira, você pode forçar a exclusão da tabela temporária.

In [None]:
#excluindo a tabela temporária
sqlContext.dropTempTable("temp")

Parabéns!!! Ao finalizar a execução desse notebook, você pode identificar como o Apache Spark pode ser utilizado a partir da linguagem Python. 

É importante lembrar que, embora a execução tenha sido realizada em modo local, o código não se altera ao realizar o processamento em modo distribuído (em um ambiente de cluster).

## Atividade prática

A partir dos comandos apresentados, utilize o conhecimento adquirido e gere consultas para responder as seguintes questões:

- Qual a média de chamadas por código de área? (Considere a variável total day calls)
- Qual a média de minutos por código de área? (Considere a variável total day minutes)
- Retorne todos os registros no qual o número de chamadas noturnas sejam menores que 55

Tire um print dos comandos realizados e de suas respectivas saídas e envie o print na atividade criada no moodle.

In [None]:
#Qual a média de chamadas por código de área? (Considere a variável total day calls)
df.groupby('Area code').agg({'Total day calls': 'mean'}).show()

+---------+--------------------+
|Area code|avg(Total day calls)|
+---------+--------------------+
|      415|  101.92878338278932|
|      510|  100.48447204968944|
|      408|    99.3905325443787|
+---------+--------------------+



In [None]:
#Qual a média de minutos por código de área? (Considere a variável total day minutes)
df.groupby('Area code').agg({'total day minutes': 'mean'}).show()

+---------+----------------------+
|Area code|avg(total day minutes)|
+---------+----------------------+
|      415|    181.42225519287825|
|      510|    185.72484472049686|
|      408|    175.45207100591716|
+---------+----------------------+



In [None]:
#Retorne todos os registros no qual o número de chamadas noturnas sejam menores que 55
df.filter(df["Total night minutes"] < 55).show()

+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|State|Account|Area code|International plan|Voice mail plan|Total day minutes|Total day calls|Total day charge|Total eve minutes|Total eve calls|Total eve charge|Total night minutes|Total night calls|Total night charge|Total intl minutes|Total intl calls|Total intl charge|Customer service calls|Churn|
+-----+-------+---------+------------------+---------------+-----------------+---------------+----------------+-----------------+---------------+----------------+-------------------+-----------------+------------------+------------------+----------------+-----------------+----------------------+-----+
|   AK|     76|      415|                No|            Yes|            160.1|            1