## Análise de dataset utilizando SparkSQL

<p style='color: red'>O propósito desse laboratório é mostrar o uso do SparkML para persistir um modelo e carregar um modelo persistido.

## Objetivos

Os propósitos deste laboratório são:
 - Carregar o csv no dataframe
 - Criar uma view temporária baseada em um dataframe
 - Executar consultas SQL na view
 - Analisar o dataset utilizando SparkSQL


## Datasets

Neste laboratório utilizaremos os seguintes datasets:

 - Versão modificada do dataset 'car mileage'.  Dataset original disponível em https://archive.ics.uci.edu/ml/datasets/auto+mpg
 - Versão modificada do dataset 'diamonds'. Dataset original disponível em https://www.openml.org/search?type=data&sort=runs&id=42225&status=active

----


## Configuração

Para este laboratório, utilizaremos as bibliotecas seguintes:

*   [`PySpark`](https://spark.apache.org/docs/latest/api/python/index.html?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMSkillsNetworkBD0231ENCoursera2789-2023-01-01) para conexão com o Cluster Spark.

### Instalando as Bibliotecas Necessárias

Spark Cluster está pre-instalado neste ambiente. Porém, você precisa de bibliotecas como pyspark e findspark para se conectar a este cluster.

As bibliotecas necessárias seguintes __não__ são pre-instaladas neste ambiente. __Você precisará executar a celula seguinte__ para instalar ambas:


In [1]:
!pip install pyspark==3.1.2 -q
#!pip install findspark -q

### Importar as Bibliotecas Necessárias

_É recomendado você importar todas as bibliotecas em um único lugar (aqui):_


In [2]:
# Você pode utilizar esta seção para suprimir avisos gerados pelo código:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn
warnings.filterwarnings('ignore')

# FindSpark simplifica o processo de utilizar Apache Spark com Python

import findspark
findspark.init()

# Importar Funções/Classes para sparkml

from pyspark.sql import SparkSession

# Car Mileage Dataset


## Criando a sessão spark


In [3]:
#Criando SparkSession
#Ignore qualquer aviso gerado pelo comando SparkSession

spark = SparkSession.builder.appName("SparkSQL").getOrCreate()

## Carregando o arquivo csv no dataframe

Download do arquivo de dados


In [4]:
!wget https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0231EN-SkillsNetwork/datasets/mpg.csv

--2025-03-28 14:40:16--  https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0231EN-SkillsNetwork/datasets/mpg.csv
Resolving cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud (cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud)... 169.45.118.108
Connecting to cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud (cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud)|169.45.118.108|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 13891 (14K) [text/csv]
Saving to: ‘mpg.csv’


2025-03-28 14:40:16 (341 MB/s) - ‘mpg.csv’ saved [13891/13891]



Carregando o dataset no dataframe spark


In [6]:
# Carregar mpg dataset
mpg_data = spark.read.csv("mpg.csv", header=True, inferSchema=True)

## Criando uma View temporária


Criando uma view temporária para o DataFrame chamada `mileage`

In [7]:
mpg_data.createOrReplaceTempView("mileage")

## Executando a consulta SQL no dataframe

Selecionar todos os carros onde a quilometragem é maior que 40

In [8]:
results = spark.sql("SELECT * FROM mileage WHERE MPG > 40")

In [9]:
# Mostrar os resultados
results.show()

+----+---------+-----------+----------+------+----------+----+--------+
| MPG|Cylinders|Engine Disp|Horsepower|Weight|Accelerate|Year|  Origin|
+----+---------+-----------+----------+------+----------+----+--------+
|43.1|        4|       90.0|        48|  1985|      21.5|  78|European|
|43.4|        4|       90.0|        48|  2335|      23.7|  80|European|
|41.5|        4|       98.0|        76|  2144|      14.7|  80|European|
|44.3|        4|       90.0|        48|  2085|      21.7|  80|European|
|40.8|        4|       85.0|        65|  2110|      19.2|  80|Japanese|
|44.6|        4|       91.0|        67|  1850|      13.8|  80|Japanese|
|46.6|        4|       86.0|        65|  2110|      17.9|  80|Japanese|
|44.0|        4|       97.0|        52|  2130|      24.6|  82|European|
+----+---------+-----------+----------+------+----------+----+--------+



## Analisando o dataset

Listar as origens únicas

In [10]:
spark.sql("SELECT distinct Origin FROM mileage").show()

+--------+
|  Origin|
+--------+
|European|
|Japanese|
|American|
+--------+



Mostrar a contagem de carros Japoneses

In [11]:
spark.sql("SELECT count(*) FROM mileage where Origin ='Japanese' ").show()

+--------+
|count(1)|
+--------+
|      79|
+--------+



Contar o número de carros com quilometragem acima de 40

In [12]:
spark.sql("SELECT count(*) FROM mileage where MPG > 40").show()

+--------+
|count(1)|
+--------+
|       8|
+--------+



Contar o número de carros feitos por Ano

In [13]:
spark.sql("SELECT Year, count(Year) FROM mileage group by Year").show()

+----+-----------+
|Year|count(Year)|
+----+-----------+
|  78|         36|
|  81|         28|
|  76|         34|
|  72|         28|
|  77|         28|
|  82|         30|
|  80|         27|
|  73|         40|
|  70|         29|
|  75|         30|
|  71|         27|
|  79|         29|
|  74|         26|
+----+-----------+



Mostrar o MPG máximo

In [14]:
spark.sql("SELECT max(MPG) FROM mileage").show()

+--------+
|max(MPG)|
+--------+
|    46.6|
+--------+



Parar a sessão Spark

In [15]:
spark.stop()

# Diamonds Dataset

### Criando a sessão spark

Criando a sessão spark com appname "SparkSQL Diamonds"


In [16]:
spark = SparkSession.builder.appName("SparkSQL Diamonds").getOrCreate()

### Carregando o arquivo csv no dataframe


Download do arquivo de dados

In [18]:
!wget https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0231EN-SkillsNetwork/datasets/diamonds.csv


--2025-03-28 15:36:28--  https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0231EN-SkillsNetwork/datasets/diamonds.csv
Resolving cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud (cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud)... 198.23.119.245
Connecting to cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud (cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud)|198.23.119.245|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3192561 (3.0M) [text/csv]
Saving to: ‘diamonds.csv’


2025-03-28 15:36:28 (8.62 MB/s) - ‘diamonds.csv’ saved [3192561/3192561]



Carregando o dataset diamonds no dataframe spark


In [19]:
diamond_data = spark.read.csv("diamonds.csv", header=True, inferSchema=True)

## Criando uma View temporária

Criando uma view temporária para o DataFrame chamada `diamonds`

In [20]:
diamond_data.createOrReplaceTempView("diamonds")

## Executando a consulta SQL no dataframe

Selecionar todas as linhas


In [21]:
results = spark.sql("SELECT * FROM diamonds")
results.show()

+---+-----+---------+-----+-------+-----+-----+-----+----+----+----+
|  s|carat|      cut|color|clarity|depth|table|price|   x|   y|   z|
+---+-----+---------+-----+-------+-----+-----+-----+----+----+----+
|  1| 0.23|    Ideal|    E|    SI2| 61.5| 55.0|  326|3.95|3.98|2.43|
|  2| 0.21|  Premium|    E|    SI1| 59.8| 61.0|  326|3.89|3.84|2.31|
|  3| 0.23|     Good|    E|    VS1| 56.9| 65.0|  327|4.05|4.07|2.31|
|  4| 0.29|  Premium|    I|    VS2| 62.4| 58.0|  334| 4.2|4.23|2.63|
|  5| 0.31|     Good|    J|    SI2| 63.3| 58.0|  335|4.34|4.35|2.75|
|  6| 0.24|Very Good|    J|   VVS2| 62.8| 57.0|  336|3.94|3.96|2.48|
|  7| 0.24|Very Good|    I|   VVS1| 62.3| 57.0|  336|3.95|3.98|2.47|
|  8| 0.26|Very Good|    H|    SI1| 61.9| 55.0|  337|4.07|4.11|2.53|
|  9| 0.22|     Fair|    E|    VS2| 65.1| 61.0|  337|3.87|3.78|2.49|
| 10| 0.23|Very Good|    H|    VS1| 59.4| 61.0|  338| 4.0|4.05|2.39|
| 11|  0.3|     Good|    J|    SI1| 64.0| 55.0|  339|4.25|4.28|2.73|
| 12| 0.23|    Ideal|    J|    VS1

## Analisando o dataset

Listar todos os únicos cortes

In [22]:
spark.sql("SELECT distinct cut FROM diamonds").show()

+---------+
|      cut|
+---------+
|  Premium|
|    Ideal|
|     Good|
|     Fair|
|Very Good|
+---------+



Contar o número de Cortes Premium

In [23]:
spark.sql("SELECT count(*) FROM diamonds where cut ='Premium' ").show()

+--------+
|count(1)|
+--------+
|   13791|
+--------+



Contar o numero de diamantes com tamanho da mesa maior que 65


In [24]:
spark.sql("SELECT count(*) FROM diamonds where table > 65").show()

+--------+
|count(1)|
+--------+
|     181|
+--------+



Listar o número de diamantes de cada cor

In [25]:
spark.sql("SELECT color, count(color) FROM diamonds group by color").show()

+-----+------------+
|color|count(color)|
+-----+------------+
|    F|        9542|
|    E|        9797|
|    D|        6775|
|    J|        2808|
|    G|       11292|
|    I|        5422|
|    H|        8304|
+-----+------------+



Mostrar o maior preço

In [26]:
spark.sql("SELECT max(price) FROM diamonds").show()

+----------+
|max(price)|
+----------+
|     18823|
+----------+



Parar a sessão Spark


In [27]:
spark.stop()

<!--
## Change Log
-->


<!--
|Date (YYYY-MM-DD)|Version|Changed By|Change Description|
|-|-|-|-|
|2023-05-04|0.1|Ramesh Sannareddy|Initial Version Created|
-->
