---
# Estudos com PySpark
---

#### Criado por: **Jodavid Ferreira**
#### Data de criação: 02.07.2021

---

#### Objetivo:

Avançar com os estudos utilizando as técnicas que utilizo no dia-a-dia, entretanto com o Spark e python;

---

#### Data da última atualização: 02.07.2021

---

## Instalando a biblioteca pyspark
---

In [None]:
# ------------------------------------
# Instalando a biblioteca pyspark
# No terminal:
# ------------
# pip install pyspark
# -----------------

## Importando as bibliotecas necessárias
---

In [None]:
# ------------------------------------
# Importanto as bibliotecas
# -----------------
from pyspark.sql import SparkSession
# -----------------

---
### Iniciando uma sessão do SPARK
---

In [4]:
# ------------------------------------
# Iniciando uma sessão do Spark
# ----
# obs:
# appName: Nome do app para a sessão
# -----------------
spark = SparkSession \
        .builder \
        .appName("Python Spark create RDD example") \
        .config("spark.some.config.option", "some-value") \
        .getOrCreate()
# -----------------

---
### Criando um banco de dados dentro do python
---

In [5]:
# ------------------------------------
# Criando um banco de dados dentro do python
# ----
# dimensão: 4 colunas e 3 linhas;
# -----------------
df = spark.sparkContext\
        .parallelize([(1, 2, 3, 'a b c'),
                      (4, 5, 6, 'd e f'),
                      (7, 8, 9, 'g h i')])\
        .toDF(['col1', 'col2', 'col3','col4'])
# -----------------

---
### Lendo um arquivo com extensão 'Parquet'
---

##### Base de dados : "userdata"

* Informações sobre a Base de dados:
    * Possui 5.000 linhas;
    * Possui 13 variáveis:
        1.		registration_dttm |	timestamp
        2.		id 		|	int
        3.		first_name 	|	string
        4.		last_name 	|	string
        5.		email 		|	string
        6.		gender 		|	string
        7.		ip_address 	|	string
        8.		cc 		|	string
        9.		country 	|	string
        10.		birthdate 	|	string
        11.		salary 		|	double
        12.		title 		|	string
        13.		comments 	|	string
 ---

In [10]:
# ------------------------------------
# Ler dados com extensão Parquet
# ----
# localização da base de dados:
# ../banco de dados - exemplo/userdata/
# ----
# Número de linhas: 5000
# -----------------
dados = spark.read.parquet("../banco de dados - exemplo/userdata/")
# -----------------

In [14]:
# ------------------------------------
# Verificando a quantidade de linhas
# -----------------
dados.count()
# -----------------

5000

In [15]:
# ------------------------------------
# Verificando as colunas
# -----------------
dados.printSchema()
# -----------------

root
 |-- registration_dttm: timestamp (nullable = true)
 |-- id: integer (nullable = true)
 |-- first_name: string (nullable = true)
 |-- last_name: string (nullable = true)
 |-- email: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- ip_address: string (nullable = true)
 |-- cc: string (nullable = true)
 |-- country: string (nullable = true)
 |-- birthdate: string (nullable = true)
 |-- salary: double (nullable = true)
 |-- title: string (nullable = true)
 |-- comments: string (nullable = true)



In [16]:
# ------------------------------------
# Mostrando as 20 linhas da variável
# "first_name"
# -----------------
dados.select("first_name").show()
# -----------------

+----------+
|first_name|
+----------+
|    Amanda|
|    Albert|
|    Evelyn|
|    Denise|
|    Carlos|
|   Kathryn|
|    Samuel|
|     Harry|
|      Jose|
|     Emily|
|     Susan|
|     Alice|
|    Justin|
|     Kathy|
|   Dorothy|
|     Bruce|
|     Emily|
|   Stephen|
|  Clarence|
|   Rebecca|
+----------+
only showing top 20 rows



In [18]:
dados.show(2,True)

+-------------------+---+----------+---------+----------------+------+--------------+----------------+---------+---------+---------+----------------+--------+
|  registration_dttm| id|first_name|last_name|           email|gender|    ip_address|              cc|  country|birthdate|   salary|           title|comments|
+-------------------+---+----------+---------+----------------+------+--------------+----------------+---------+---------+---------+----------------+--------+
|2016-02-03 04:55:29|  1|    Amanda|   Jordan|ajordan0@com.com|Female|   1.197.201.2|6759521864920116|Indonesia| 3/8/1971| 49756.53|Internal Auditor|   1E+02|
|2016-02-03 14:04:03|  2|    Albert|  Freeman| afreeman1@is.gd|  Male|218.111.175.34|                |   Canada|1/16/1968|150280.17|   Accountant IV|        |
+-------------------+---+----------+---------+----------------+------+--------------+----------------+---------+---------+---------+----------------+--------+
only showing top 2 rows

