
#Introdução ao Apache Spark

Apache Spark é um framework de processamento de dados de código aberto projetado para ser rápido, fácil de usar e geral. Ele permite o processamento distribuído de grandes volumes de dados em clusters, suportando tarefas de processamento em lote e em tempo real. Spark é amplamente utilizado para análise de dados, aprendizado de máquina, processamento de streaming e muito mais.


#### História e Marcos do Apache Spark
*  2009: Desenvolvido originalmente na UC Berkeley’s AMPLab.
*  2010: Spark foi open-sourced.
*  2014: Tornou-se um projeto de alto nível da Apache Software Foundation.
*  2016: Spark 2.0 lançado, introduzindo DataFrames e Spark SQL.
*  2020: Spark 3.0 lançado, trazendo melhorias significativas em desempenho e novas APIs.
*  2024: Spark continua evoluindo, com foco em otimizações de desempenho e integração com tecnologias emergentes.

#Fundamentos do Apache Spark
#### RDDs (Resilient Distributed Datasets)

RDDs são a abstração fundamental no Spark, representando uma coleção distribuída de elementos que podem ser processados em paralelo. Eles são imutáveis e tolerantes a falhas.

##### Características:

* Imutabilidade: Uma vez criado, um RDD não pode ser alterado.
* Tolerância a falhas: Spark reconstrói automaticamente partes perdidas dos RDDs.
* Transformações e Ações: Operações que transformam os dados ou coletam resultados.

#### RDDs (Resilient Distributed Datasets)

#### **DataFrames**

DataFrames são uma abstração mais estruturada sobre RDDs, semelhantes a tabelas em bancos de dados relacionais. Eles permitem operações otimizadas e integração com Spark SQL.

**Vantagens:**

* Performance: Otimizações como o Catalyst Optimizer melhoram o desempenho.
* Facilidade de Uso: APIs mais amigáveis para manipulação de dados estruturados.
* Integração: Compatível com diversas fontes de dados e ferramentas de BI.


** Datasets Utilizados **

https://www.kaggle.com/datasets/shubhambathwal/flight-price-prediction

In [17]:
# Instalar PySpark via pip
!pip install pyspark



In [7]:
!ls -R /root/.cache/kagglehub

/root/.cache/kagglehub:
datasets

/root/.cache/kagglehub/datasets:
jocelyndumlao  kirahhayatdata

/root/.cache/kagglehub/datasets/jocelyndumlao:
sentiment-analysis-chatgpt-youtube-comments

/root/.cache/kagglehub/datasets/jocelyndumlao/sentiment-analysis-chatgpt-youtube-comments:
1.complete  versions

/root/.cache/kagglehub/datasets/jocelyndumlao/sentiment-analysis-chatgpt-youtube-comments/versions:
1

/root/.cache/kagglehub/datasets/jocelyndumlao/sentiment-analysis-chatgpt-youtube-comments/versions/1:
'Sentiment Analysis ChatGPT YouTube Comments Dataset'

'/root/.cache/kagglehub/datasets/jocelyndumlao/sentiment-analysis-chatgpt-youtube-comments/versions/1/Sentiment Analysis ChatGPT YouTube Comments Dataset':
dataset_chatgpt_scrap.csv			 dataset_chatgpt_scrap_predicted_netral_fix.csv
dataset_chatgpt_scrap_predicted_negatif_fix.csv  dataset_chatgpt_scrap_predicted_positif_fix.csv

/root/.cache/kagglehub/datasets/kirahhayatdata:
pakistan-demographic-and-population-data

/root/.cache/kagg

In [18]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("kirahhayatdata/pakistan-demographic-and-population-data")

print("Path to dataset files:", path)

Path to dataset files: /root/.cache/kagglehub/datasets/kirahhayatdata/pakistan-demographic-and-population-data/versions/1


In [85]:
# Iniciar uma Sessão Spark
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ExemploPySpark") \
    .getOrCreate()

**Comparando métodos do pandas x métodos do PySpark**

Leitura de Dados:

In [31]:
import pandas as pd
df_age = pd.read_csv('/root/.cache/kagglehub/datasets/kirahhayatdata/pakistan-demographic-and-population-data/versions/1/Age_Group_Gender_Distribution.csv')

In [35]:
print(df_age.head())

   Unnamed: 0 Age Group         Male       Female        Total Sex ratio  \
0         NaN     Total  123,824,681  116,613,077  240,458,089    106.12   
1         0.0     0 – 4     18744989     17726432     36471421     105.1   
2         1.0     5 – 9     16566852     15705284     32272136     108.8   
3         2.0   10 – 14     14971914     13817137     28790182     111.8   
4         3.0   15 – 19     12581753     11569893     24154118     108.0   

  Percent  
0  100.0%  
1   14.0%  
2   14.5%  
3   11.8%  
4   10.3%  


In [36]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Exemplo").getOrCreate()

# Leitura de um arquivo CSV
df_pyspark = spark.read.csv('/root/.cache/kagglehub/datasets/kirahhayatdata/pakistan-demographic-and-population-data/versions/1/Age_Group_Gender_Distribution.csv', header=True, inferSchema=True)

In [39]:
#Nomes das colunas
print(df_age.columns)

Index(['Unnamed: 0', 'Age Group', 'Male', 'Female', 'Total', 'Sex ratio',
       'Percent'],
      dtype='object')


Seleção de Colunas:

In [41]:
# Seleciona colunas específicas - Pandas
df_selecionado_pandas = df_age[['Male', 'Female','Total']]

In [42]:
# Seleciona colunas específicas - PySpark
df_selecionado_spark = df_pyspark.select('Male', 'Female','Total')

Filtragem de Dados:

In [92]:
# Filtrar dados onde a faixa etária é '0 – 4' ou '5 – 9'
filtered_df_age = df_age[df_age['Age Group'].isin(['0 – 4', '5 – 9'])]



In [82]:
# Converter a coluna 'Male' para numérico, se necessário
df_age['Male'] = pd.to_numeric(df_age['Male'], errors='coerce')

# Filtrar dados onde a coluna 'Masculino' é maior que 15.000.000
df_filtrado_spark = df_age[df_age['Male'] > 15000000]

# Mostrar o DataFrame filtrado
print(filtered_df_age)

    Unnamed: 0 Age Group        Male    Female       Total Sex ratio Percent
1          0.0     0 – 4  18744989.0  17726432    36471421     105.1   14.0%
2          1.0     5 – 9  16566852.0  15705284    32272136     108.8   14.5%
18        17.0    0 – 14  43533720.0  40182776  83 716 496     108.3   40.3%
19        18.0   15 – 64  58778374.0  57478712   116257086     102.3   56.0%


Agregações:

In [66]:
# Calcular a média da coluna 'Masculino' agrupada pela coluna 'Faixa etária'
df_agregado_age = df_age.groupby('Age Group')['Male'].mean().reset_index()

# Mostrar o DataFrame agregado
print(df_agregado_age)


     Age Group        Male
0       0 – 14  43533720.0
1        0 – 4  18744989.0
2      10 – 14  14971914.0
3      15 – 19  12581753.0
4      15 – 64  58778374.0
5      20 – 24  10323755.0
6      25 – 29   8946770.0
7      30 – 34   7730953.0
8      35 – 39   7313967.0
9      40 – 44   6471820.0
10     45 – 49   5095175.0
11       5 – 9  16566852.0
12     50 – 54   4219234.0
13     55 – 59   3455455.0
14     60 – 64   2247341.0
15     65 – 69   1557733.0
16         65+   4027900.0
17     70 – 74   1131916.0
18  75 or more   1338251.0
19   Age Group         NaN
20       Total         NaN


In [75]:
# Calcula a média de coluna1 agrupada por coluna2 - PySpark
from pyspark.sql.functions import avg

df_age_spark = spark.createDataFrame(df_age)

# Calcular a média da coluna 'Masculino' agrupada pela coluna 'Faixa etária'
df_agregado_age_spark = df_age_spark.groupBy("Age Group").agg(avg("Male").alias("media_masculino"))

# Mostrar o DataFrame agregado
df_agregado_age_spark.show()


+---------+---------------+
|Age Group|media_masculino|
+---------+---------------+
|    Total|            NaN|
|  40 – 44|      6471820.0|
|  10 – 14|    1.4971914E7|
|  25 – 29|      8946770.0|
|    0 – 4|    1.8744989E7|
|  30 – 34|      7730953.0|
|  15 – 19|    1.2581753E7|
|    5 – 9|    1.6566852E7|
|  20 – 24|    1.0323755E7|
|  35 – 39|      7313967.0|
|  55 – 59|      3455455.0|
|  15 – 64|    5.8778374E7|
|  45 – 49|      5095175.0|
|  60 – 64|      2247341.0|
|  70 – 74|      1131916.0|
|      65+|      4027900.0|
|Age Group|            NaN|
|  50 – 54|      4219234.0|
|   0 – 14|     4.353372E7|
|  65 – 69|      1557733.0|
+---------+---------------+
only showing top 20 rows



In [91]:
df_selecionado_spark.show(5)
df_agregado_age_spark.show(5)

+-----------+-----------+-----------+
|       Male|     Female|      Total|
+-----------+-----------+-----------+
|123,824,681|116,613,077|240,458,089|
|   18744989|   17726432|   36471421|
|   16566852|   15705284|   32272136|
|   14971914|   13817137|   28790182|
|   12581753|   11569893|   24154118|
+-----------+-----------+-----------+
only showing top 5 rows

+---------+---------------+
|Age Group|media_masculino|
+---------+---------------+
|    Total|            NaN|
|  40 – 44|      6471820.0|
|  10 – 14|    1.4971914E7|
|  25 – 29|      8946770.0|
|    0 – 4|    1.8744989E7|
+---------+---------------+
only showing top 5 rows



Junções (Joins):

In [102]:


# Carregar os dois DataFrames
df1 = pd.read_csv("/root/.cache/kagglehub/datasets/kirahhayatdata/pakistan-demographic-and-population-data/versions/1/Religion_Population_Distribution.csv")
df2 = pd.read_csv("/root/.cache/kagglehub/datasets/kirahhayatdata/pakistan-demographic-and-population-data/versions/1/Population_Age_Distribution.csv")


# Realizar a junção dos dois DataFrames com base na coluna comum
df_juncao = pd.merge(df1, df2, on="Population", how="left")

# Mostrar as primeiras linhas do DataFrame resultante
print(df_juncao.head())


   Unnamed: 0_x          Religion  Population  Unnamed: 0_y  Year  \
0             0           Muslims   231686709           NaN   NaN   
1             1            Hindus     3867729           NaN   NaN   
2             2        Christians     3300788           NaN   NaN   
3             3  Scheduled Castes     1349487           NaN   NaN   
4             4         Ahmadiyya      162684           NaN   NaN   

  % Population aged 0 to 14 % Population aged 15 to 64  \
0                       NaN                        NaN   
1                       NaN                        NaN   
2                       NaN                        NaN   
3                       NaN                        NaN   
4                       NaN                        NaN   

  % Population aged 65 or more  
0                          NaN  
1                          NaN  
2                          NaN  
3                          NaN  
4                          NaN  


In [103]:
# Junção de dois DataFrames PySpark
df1 = spark.read.csv("/root/.cache/kagglehub/datasets/kirahhayatdata/pakistan-demographic-and-population-data/versions/1/Religion_Population_Distribution.csv", header=True, inferSchema=True)
df2 = spark.read.csv("/root/.cache/kagglehub/datasets/kirahhayatdata/pakistan-demographic-and-population-data/versions/1/Population_Age_Distribution.csv", header=True, inferSchema=True)
df_juncao = df1.join(df2, on="Population", how="left")

Criação de Novas Colunas:

In [108]:
# Converter as colunas 'Masculino' e 'Feminino' para numérico, se necessário
df_age['Male'] = pd.to_numeric(df_age['Male'], errors='coerce')
df_age['Female'] = pd.to_numeric(df_age['Female'], errors='coerce')

# Criar uma nova coluna 'nova_coluna' como a soma das colunas 'Masculino' e 'Feminino'
df_age['nova_coluna'] = df_age['Male'] + df_age['Female']

In [109]:
from pyspark.sql.functions import col

# Cria uma nova coluna 'nova_coluna' como a soma de 'coluna1' e 'coluna2'
df_pyspark = df_pyspark.withColumn("nova_coluna", col("Male") + col("Female"))


Ordenação de Dados:

In [110]:
# Ordena o DataFrame pelo 'coluna1' em ordem descendente
df_pandas_ordenado = df_age.sort_values(by='Male', ascending=False)

In [None]:
# Ordena o DataFrame pelo 'coluna1' em ordem descendente
df_pyspark_ordenado = df_pyspark.orderBy(df_pyspark.coluna1.desc())