# Introduction to spark 
<a href="https://spark.apache.org/docs/latest/quick-start.html">Spark Documentation</a>

In [58]:
import sys
import pandas as pd
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
from pyspark import SparkContext
# Create a SparkContext object
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Introduction to spark").getOrCreate()
# Versão do pyspark usada neste jupyter
print(f"Versão do pyspark usada neste jupyter: {spark.version}")
# Versão do python usada neste jupyter
print(f"Versão do python usada neste jupyter: {sys.version}")

Versão do pyspark usada neste jupyter: 3.5.4
Versão do python usada neste jupyter: 3.11.5 (main, Sep 11 2023, 13:54:46) [GCC 11.2.0]


In [59]:
# Dados criando um array de dados
dados = [
    ("mauro lucio", "pereira da silva",55, "mauro@email.com","Rua Leila Diniz, 798","Independencia","Petropolis","25645410","RJ","Brasil"),
    ("ethelyn helena", "c. pereira da silva", 19, "ethelyn@email.com","Estr. Luis Gomes da Silva, 714","Correas","Petropolis","25720020","RJ","Brasil"),
    ("evelin", "c. pereira da silva", 15, "evelin@email.com","Estr. Luis Gomes da Silva, 714","Correas","Petropolis","25720020","RJ","Brasil"),
    ("everton cristian",  "c. pereira da silva", 22, "everton@email.com","Estr. Luis Gomes da Silva, 714","Correas","Petropolis","25720020","RJ","Brasil"),
    ("andreia cristina",  "de moares", 29, "andreia@email.com","Estr. Luis Gomes da Silva, 714","Correas","Petropolis","25720020","RJ","Brasil"),
]

# Definição do Schema
schema = StructType([
    StructField("nome", StringType(), True),
    StructField("sobrenome", StringType(), True),
    StructField("idade",IntegerType(), True),
    StructField("e-mail", StringType(), True),
    StructField("Rua", StringType(), True),
    StructField("Bairro",StringType(), True),
    StructField("Cidade",StringType(), True),
    StructField("Cep",StringType(), True),
    StructField("Estado",StringType(), True),
    StructField("Pais",StringType(), True)
])

# Criando um DataFrame com o arry de dados
df = spark.createDataFrame(dados,schema)

# Mostrando o DataFrame
df.show()

+----------------+-------------------+-----+-----------------+--------------------+-------------+----------+--------+------+------+
|            nome|          sobrenome|idade|           e-mail|                 Rua|       Bairro|    Cidade|     Cep|Estado|  Pais|
+----------------+-------------------+-----+-----------------+--------------------+-------------+----------+--------+------+------+
|     mauro lucio|   pereira da silva|   55|  mauro@email.com|Rua Leila Diniz, 798|Independencia|Petropolis|25645410|    RJ|Brasil|
|  ethelyn helena|c. pereira da silva|   19|ethelyn@email.com|Estr. Luis Gomes ...|      Correas|Petropolis|25720020|    RJ|Brasil|
|          evelin|c. pereira da silva|   15| evelin@email.com|Estr. Luis Gomes ...|      Correas|Petropolis|25720020|    RJ|Brasil|
|everton cristian|c. pereira da silva|   22|everton@email.com|Estr. Luis Gomes ...|      Correas|Petropolis|25720020|    RJ|Brasil|
|andreia cristina|          de moares|   29|andreia@email.com|Estr. Luis Gom

In [60]:
# Filtrando colunas
filtered_df = df.filter(df['nome'] == "mauro lucio")
filtered_df.show()

+-----------+----------------+-----+---------------+--------------------+-------------+----------+--------+------+------+
|       nome|       sobrenome|idade|         e-mail|                 Rua|       Bairro|    Cidade|     Cep|Estado|  Pais|
+-----------+----------------+-----+---------------+--------------------+-------------+----------+--------+------+------+
|mauro lucio|pereira da silva|   55|mauro@email.com|Rua Leila Diniz, 798|Independencia|Petropolis|25645410|    RJ|Brasil|
+-----------+----------------+-----+---------------+--------------------+-------------+----------+--------+------+------+



In [61]:
# Agrupar e calcular a média agregada
grouped_df = df.groupBy("nome").agg({"idade":"avg"})
grouped_df.show()

+----------------+----------+
|            nome|avg(idade)|
+----------------+----------+
|     mauro lucio|      55.0|
|  ethelyn helena|      19.0|
|          evelin|      15.0|
|andreia cristina|      29.0|
|everton cristian|      22.0|
+----------------+----------+



In [62]:
# Número de registros do DataFrame
df.count()

5

In [63]:
# Primeira linha do DataFrame
df.first()

Row(nome='mauro lucio', sobrenome='pereira da silva', idade=55, e-mail='mauro@email.com', Rua='Rua Leila Diniz, 798', Bairro='Independencia', Cidade='Petropolis', Cep='25645410', Estado='RJ', Pais='Brasil')

In [66]:
# Filtrando onde tem uma palavra
linesWithSpark = df.filter(df["sobrenome"].contains("pereira"))
linesWithSpark.show()

+----------------+-------------------+-----+-----------------+--------------------+-------------+----------+--------+------+------+
|            nome|          sobrenome|idade|           e-mail|                 Rua|       Bairro|    Cidade|     Cep|Estado|  Pais|
+----------------+-------------------+-----+-----------------+--------------------+-------------+----------+--------+------+------+
|     mauro lucio|   pereira da silva|   55|  mauro@email.com|Rua Leila Diniz, 798|Independencia|Petropolis|25645410|    RJ|Brasil|
|  ethelyn helena|c. pereira da silva|   19|ethelyn@email.com|Estr. Luis Gomes ...|      Correas|Petropolis|25720020|    RJ|Brasil|
|          evelin|c. pereira da silva|   15| evelin@email.com|Estr. Luis Gomes ...|      Correas|Petropolis|25720020|    RJ|Brasil|
|everton cristian|c. pereira da silva|   22|everton@email.com|Estr. Luis Gomes ...|      Correas|Petropolis|25720020|    RJ|Brasil|
+----------------+-------------------+-----+-----------------+--------------