<a href="https://colab.research.google.com/github/eumarcosdeoliveira/Os-Amostradinhos/blob/main/Emilly_Vitoria_Ribeiro_dos_Santos_01549416_Introdu%C3%A7%C3%A3o_ao_Spark_com_PySpark_Part_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


#Introdução ao Apache Spark

Apache Spark é um framework de processamento de dados de código aberto projetado para ser rápido, fácil de usar e geral. Ele permite o processamento distribuído de grandes volumes de dados em clusters, suportando tarefas de processamento em lote e em tempo real. Spark é amplamente utilizado para análise de dados, aprendizado de máquina, processamento de streaming e muito mais.


#### História e Marcos do Apache Spark
*  2009: Desenvolvido originalmente na UC Berkeley’s AMPLab.
*  2010: Spark foi open-sourced.
*  2014: Tornou-se um projeto de alto nível da Apache Software Foundation.
*  2016: Spark 2.0 lançado, introduzindo DataFrames e Spark SQL.
*  2020: Spark 3.0 lançado, trazendo melhorias significativas em desempenho e novas APIs.
*  2024: Spark continua evoluindo, com foco em otimizações de desempenho e integração com tecnologias emergentes.

#Fundamentos do Apache Spark
#### RDDs (Resilient Distributed Datasets)

RDDs são a abstração fundamental no Spark, representando uma coleção distribuída de elementos que podem ser processados em paralelo. Eles são imutáveis e tolerantes a falhas.

##### Características:

* Imutabilidade: Uma vez criado, um RDD não pode ser alterado.
* Tolerância a falhas: Spark reconstrói automaticamente partes perdidas dos RDDs.
* Transformações e Ações: Operações que transformam os dados ou coletam resultados.

#### RDDs (Resilient Distributed Datasets)

#### **DataFrames**

DataFrames são uma abstração mais estruturada sobre RDDs, semelhantes a tabelas em bancos de dados relacionais. Eles permitem operações otimizadas e integração com Spark SQL.

**Vantagens:**

* Performance: Otimizações como o Catalyst Optimizer melhoram o desempenho.
* Facilidade de Uso: APIs mais amigáveis para manipulação de dados estruturados.
* Integração: Compatível com diversas fontes de dados e ferramentas de BI.


** Datasets Utilizados **

https://www.kaggle.com/datasets/shubhambathwal/flight-price-prediction

In [None]:
# Instalar PySpark via pip
!pip install pyspark



In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("satvshr/top-4-used-car-sales-datasets-combined")

print("Path to dataset files:", path)

path_lol = kagglehub.dataset_download("octopusteam/imdb-top-rated-titles-movies-and-tv-series")

print("Path to dataset files:", path_lol)

Downloading from https://www.kaggle.com/api/v1/datasets/download/satvshr/top-4-used-car-sales-datasets-combined?dataset_version_number=2...


100%|██████████| 446k/446k [00:00<00:00, 30.1MB/s]

Extracting files...
Path to dataset files: /root/.cache/kagglehub/datasets/satvshr/top-4-used-car-sales-datasets-combined/versions/2





Downloading from https://www.kaggle.com/api/v1/datasets/download/octopusteam/imdb-top-rated-titles-movies-and-tv-series?dataset_version_number=13...


100%|██████████| 140k/140k [00:00<00:00, 25.0MB/s]

Extracting files...
Path to dataset files: /root/.cache/kagglehub/datasets/octopusteam/imdb-top-rated-titles-movies-and-tv-series/versions/13





In [None]:
# Iniciar uma Sessão Spark
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ExemploPySpark") \
    .getOrCreate()

**Comparando métodos do pandas x métodos do PySpark**

Leitura de Dados:

In [None]:
import pandas as pd
df_pandas = pd.read_csv("/root/.cache/kagglehub/datasets/satvshr/top-4-used-car-sales-datasets-combined/versions/2/output.csv")

In [None]:
df_pandas.head(4)

Unnamed: 0,brand,model,transmission,age,fuel,engine,km,owner,price,location,mileage,power,seats,type
0,mahindra,thar,manual,4.0,diesel,2184.0,11003.0,1.0,1231000.0,,,,,
1,hyundai,verna,manual,6.0,petrol,1591.0,66936.0,1.0,786000.0,,,,,
2,tata,harrier,manual,2.0,diesel,1956.0,27990.0,1.0,1489000.0,,,,,
3,honda,city,automatic,1.0,petrol,1498.0,5061.0,1.0,1227000.0,,,,,


In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("ExemploLeitura").getOrCreate()

# Leitura de um arquivo CSV
df_pyspark = spark.read.csv("/root/.cache/kagglehub/datasets/satvshr/top-4-used-car-sales-datasets-combined/versions/2/output.csv", header=True, inferSchema=True)

In [None]:
#Nomes das colunas
for i in df_pandas.columns:
  print(i)

brand
model
transmission
age
fuel
engine
km
owner
price
location
mileage
power
seats
type


Seleção de Colunas:

In [None]:
# Seleciona colunas específicas - Pandas
df_selecionado_pandas = df_pandas[['brand', 'model','age']]

In [None]:
# Seleciona colunas específicas - PySpark
df_selecionado_spark = df_pyspark.select('brand', 'model','age')

Filtragem de Dados:

In [None]:
df_filtrado_pandas = df_pandas[df_pandas['age'] > 2]

In [None]:
df_filtrado_spark = df_pyspark.filter(df_pyspark.age > 2)

Agregações:

In [None]:
print(df_pandas.columns)


Index(['brand', 'model', 'transmission', 'age', 'fuel', 'engine', 'km',
       'owner', 'price', 'location', 'mileage', 'power', 'seats', 'type'],
      dtype='object')


In [None]:
df_agregado_pandas = df_pandas.groupby('brand')['age'].mean().reset_index()


In [None]:
from pyspark.sql.functions import avg

# Calcula a média de 'age' agrupada por 'brand'
df_agregado_spark = df_pyspark.groupBy("brand").agg(avg("age").alias("media_age"))



In [None]:
df_selecionado_spark.show(5)
df_filtrado_spark.show(5)
df_agregado_spark.show(5)

+--------+--------+---+
|   brand|   model|age|
+--------+--------+---+
|mahindra|    thar|4.0|
| hyundai|   verna|6.0|
|    tata| harrier|2.0|
|   honda|    city|1.0|
|    ford|ecosport|3.0|
+--------+--------+---+
only showing top 5 rows

+--------+--------+------------+---+------+------+-------+-----+---------+--------+-------+-----+-----+----+
|   brand|   model|transmission|age|  fuel|engine|     km|owner|    price|location|mileage|power|seats|type|
+--------+--------+------------+---+------+------+-------+-----+---------+--------+-------+-----+-----+----+
|mahindra|    thar|      manual|4.0|diesel|2184.0|11003.0|  1.0|1231000.0|    NULL|   NULL| NULL| NULL|NULL|
| hyundai|   verna|      manual|6.0|petrol|1591.0|66936.0|  1.0| 786000.0|    NULL|   NULL| NULL| NULL|NULL|
|    ford|ecosport|      manual|3.0|diesel|1498.0|23480.0|  1.0| 887000.0|    NULL|   NULL| NULL| NULL|NULL|
|   honda|    wr-v|      manual|3.0|petrol|1199.0|44787.0|  1.0| 796000.0|    NULL|   NULL| NULL| NULL|NU

Junções (Joins):

In [None]:
print(df1.columns)
print(df2.columns)


Index(['brand', 'model', 'transmission', 'age', 'fuel', 'engine', 'km',
       'owner', 'price', 'location', 'mileage', 'power', 'seats', 'type'],
      dtype='object')
Index(['id', 'title', 'type', 'genres', 'averageRating', 'numVotes',
       'releaseYear'],
      dtype='object')


In [None]:
# Junção de dois DataFrames pandas
df1['key'] = df1.index
df2['key'] = df2.index

df_juncao = pd.merge(df1, df2, on='key', how='left')


In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import monotonically_increasing_id

# Inicializa o SparkSession
spark = SparkSession.builder.appName("Example").getOrCreate()

# Lê os DataFrames
df1 = spark.read.csv("/root/.cache/kagglehub/datasets/satvshr/top-4-used-car-sales-datasets-combined/versions/2/output.csv", header=True, inferSchema=True)
df2 = spark.read.csv("/root/.cache/kagglehub/datasets/octopusteam/imdb-top-rated-titles-movies-and-tv-series/versions/13/data.csv", header=True, inferSchema=True)

# Adiciona uma coluna de chave a ambos os DataFrames
df1 = df1.withColumn("key", monotonically_increasing_id())
df2 = df2.withColumn("key", monotonically_increasing_id())

# Faz a junção usando a coluna de chave
df_juncao = df1.join(df2, on="key", how="left")

# Exibe o resultado
df_juncao.show()


+---+--------+--------+------------+----+------+------+-------+-----+---------+--------+-------+-----+-----+----+----------+--------------------+------------+--------------------+-------------+--------+-----------+
|key|   brand|   model|transmission| age|  fuel|engine|     km|owner|    price|location|mileage|power|seats|type|        id|               title|        type|              genres|averageRating|numVotes|releaseYear|
+---+--------+--------+------------+----+------+------+-------+-----+---------+--------+-------+-----+-----+----+----------+--------------------+------------+--------------------+-------------+--------+-----------+
|  0|mahindra|    thar|      manual| 4.0|diesel|2184.0|11003.0|  1.0|1231000.0|    NULL|   NULL| NULL| NULL|NULL| tt0903747|        Breaking Bad|    tvSeries|Crime, Drama, Thr...|          9.5| 2220756|       2008|
|  1| hyundai|   verna|      manual| 6.0|petrol|1591.0|66936.0|  1.0| 786000.0|    NULL|   NULL| NULL| NULL|NULL| tt5491994|     Planet Eart

Criação de Novas Colunas:

In [None]:
# Cria uma nova coluna 'nova_coluna' como a soma de 'coluna1' e 'coluna2'
df_pandas['nova_coluna'] = df_pandas['coluna1'] + df_pandas['coluna2']

KeyError: 'coluna1'

In [None]:
from pyspark.sql.functions import col

# Cria uma nova coluna 'nova_coluna' como a soma de 'coluna1' e 'coluna2'
df_pyspark = df_pyspark.withColumn("nova_coluna", col("coluna1") + col("coluna2"))


Ordenação de Dados:

In [None]:
# Ordena o DataFrame pelo 'coluna1' em ordem descendente
df_pandas_ordenado = df_pandas.sort_values(by='coluna1', ascending=False)

In [None]:
# Ordena o DataFrame pelo 'coluna1' em ordem descendente
df_pyspark_ordenado = df_pyspark.orderBy(df_pyspark.coluna1.desc())