# **1.Introdução ao Spark e DataFrames**

In [2]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, upper, avg

## Criar uma SparkSession

In [3]:
spark = SparkSession.builder.appName("ExercicioSpark").getOrCreate()

## Ler o arquivo CSV e criar um DataFrame
### Certifique-se de ajustar o caminho do arquivo para o local correto

In [4]:
df = spark.read.csv("dados.csv", header=True, inferSchema=True)

## Exibir as primeiras 5 linhas do DataFrame

In [5]:
print("Primeiras 5 linhas do DataFrame:")
df.show(5)

Primeiras 5 linhas do DataFrame:
+--------------+-----+------------+
|          nome|idade|      cidade|
+--------------+-----+------------+
|     Ana Souza|   28|    Curitiba|
|   Carlos Lima|   35|    Salvador|
| Mariana Alves|   22|   Fortaleza|
|    João Pedro|   41|Porto Alegre|
|Fernanda Rocha|   30|      Recife|
+--------------+-----+------------+
only showing top 5 rows



## Filtrar as pessoas com idade acima de 25

In [6]:
print("Pessoas com idade acima de 25:")
df.filter(col("idade") > 25).show()

Pessoas com idade acima de 25:
+---------------+-----+--------------+
|           nome|idade|        cidade|
+---------------+-----+--------------+
|      Ana Souza|   28|      Curitiba|
|    Carlos Lima|   35|      Salvador|
|     João Pedro|   41|  Porto Alegre|
| Fernanda Rocha|   30|        Recife|
|    Bruno Costa|   27|Belo Horizonte|
|Luciana Martins|   33|Rio de Janeiro|
| Diego Ferreira|   45|      Campinas|
| Isabela Mendes|   26|         Natal|
|Rafael Oliveira|   38|     São Paulo|
+---------------+-----+--------------+



# **2.Transformações e Ações**

## Selecionar apenas as colunas "nome" e "cidade"

In [7]:
df_selecionado = df.select("nome", "cidade")
print("Colunas selecionadas:")
df_selecionado.show()

Colunas selecionadas:
+---------------+--------------+
|           nome|        cidade|
+---------------+--------------+
|      Ana Souza|      Curitiba|
|    Carlos Lima|      Salvador|
|  Mariana Alves|     Fortaleza|
|     João Pedro|  Porto Alegre|
| Fernanda Rocha|        Recife|
|    Bruno Costa|Belo Horizonte|
|Luciana Martins|Rio de Janeiro|
| Diego Ferreira|      Campinas|
| Isabela Mendes|         Natal|
|Rafael Oliveira|     São Paulo|
+---------------+--------------+



## Ordenar os dados pela coluna "idade" em ordem decrescente

In [8]:
df_ordenado = df.orderBy(col("idade").desc())
print("Dados ordenados pela idade (decrescente):")
df_ordenado.show()

Dados ordenados pela idade (decrescente):
+---------------+-----+--------------+
|           nome|idade|        cidade|
+---------------+-----+--------------+
| Diego Ferreira|   45|      Campinas|
|     João Pedro|   41|  Porto Alegre|
|Rafael Oliveira|   38|     São Paulo|
|    Carlos Lima|   35|      Salvador|
|Luciana Martins|   33|Rio de Janeiro|
| Fernanda Rocha|   30|        Recife|
|      Ana Souza|   28|      Curitiba|
|    Bruno Costa|   27|Belo Horizonte|
| Isabela Mendes|   26|         Natal|
|  Mariana Alves|   22|     Fortaleza|
+---------------+-----+--------------+



## Converter os nomes para letras maiúsculas

In [9]:
df_maiusculo = df.withColumn("nome", upper(col("nome")))
print("Nomes em letras maiúsculas:")
df_maiusculo.show()


Nomes em letras maiúsculas:
+---------------+-----+--------------+
|           nome|idade|        cidade|
+---------------+-----+--------------+
|      ANA SOUZA|   28|      Curitiba|
|    CARLOS LIMA|   35|      Salvador|
|  MARIANA ALVES|   22|     Fortaleza|
|     JOÃO PEDRO|   41|  Porto Alegre|
| FERNANDA ROCHA|   30|        Recife|
|    BRUNO COSTA|   27|Belo Horizonte|
|LUCIANA MARTINS|   33|Rio de Janeiro|
| DIEGO FERREIRA|   45|      Campinas|
| ISABELA MENDES|   26|         Natal|
|RAFAEL OLIVEIRA|   38|     São Paulo|
+---------------+-----+--------------+



# **3. Agregações Simples**

## Calcular a idade média das pessoas no DataFrame usando .agg() e avg

In [10]:
idade_media = df.agg(avg("idade").alias("idade_media"))
print("Idade média das pessoas:")
idade_media.show()

Idade média das pessoas:
+-----------+
|idade_media|
+-----------+
|       32.5|
+-----------+



## Contar o número de pessoas por cidade usando .groupBy() e .count()

In [11]:
pessoas_por_cidade = df.groupBy("cidade").count().alias("numero_pessoas")
print("Número de pessoas por cidade:")
pessoas_por_cidade.show()

Número de pessoas por cidade:
+--------------+-----+
|        cidade|count|
+--------------+-----+
|     Fortaleza|    1|
|      Curitiba|    1|
|      Campinas|    1|
|Belo Horizonte|    1|
|      Salvador|    1|
|     São Paulo|    1|
|         Natal|    1|
|        Recife|    1|
|Rio de Janeiro|    1|
|  Porto Alegre|    1|
+--------------+-----+



# **4. Spark SQL**

## Registrar o DataFrame como uma tabela temporária

In [12]:
df.createOrReplaceTempView("tabela_pessoas")

## Escrever uma consulta SQL para selecionar todas as pessoas que moram em uma cidade específica

In [13]:
cidade_especifica = "São Paulo" 

consulta_cidade = f""" 
SELECT *
FROM tabela_pessoas
WHERE cidade = '{cidade_especifica}'
""" 

pessoas_na_cidade = spark.sql(consulta_cidade) 

print(f"Pessoas que moram na cidade '{cidade_especifica}':") 
pessoas_na_cidade.show()

Pessoas que moram na cidade 'São Paulo':
+---------------+-----+---------+
|           nome|idade|   cidade|
+---------------+-----+---------+
|Rafael Oliveira|   38|São Paulo|
+---------------+-----+---------+



## Escrever uma consulta SQL para calcular a soma das idades

In [14]:
consulta_soma_idades = """
SELECT SUM(idade)
AS soma_das_idades
FROM tabela_pessoas 
""" 
soma_idades = spark.sql(consulta_soma_idades) 

print("Soma das idades:") 
soma_idades.show()

Soma das idades:
+---------------+
|soma_das_idades|
+---------------+
|            325|
+---------------+



# **5.Salvar DataFrame**

In [15]:
caminho_parquet = "data"
df.write.mode("overwrite").parquet(caminho_parquet)
print(f"✅ DataFrame salvo como Parquet em: {caminho_parquet}")

Py4JJavaError: An error occurred while calling o69.parquet.
: java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
	at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:735)
	at org.apache.hadoop.util.Shell.getSetPermissionCommand(Shell.java:270)
	at org.apache.hadoop.util.Shell.getSetPermissionCommand(Shell.java:286)
	at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:978)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkOneDirWithMode(RawLocalFileSystem.java:660)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirsWithOptionalPermission(RawLocalFileSystem.java:700)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:672)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirsWithOptionalPermission(RawLocalFileSystem.java:699)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:672)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirsWithOptionalPermission(RawLocalFileSystem.java:699)
	at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:672)
	at org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:788)
	at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.setupJob(FileOutputCommitter.java:356)
	at org.apache.spark.internal.io.HadoopMapReduceCommitProtocol.setupJob(HadoopMapReduceCommitProtocol.scala:188)
	at org.apache.spark.sql.execution.datasources.FileFormatWriter$.writeAndCommit(FileFormatWriter.scala:269)
	at org.apache.spark.sql.execution.datasources.FileFormatWriter$.executeWrite(FileFormatWriter.scala:304)
	at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:190)
	at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:190)
	at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult$lzycompute(commands.scala:113)
	at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult(commands.scala:111)
	at org.apache.spark.sql.execution.command.DataWritingCommandExec.executeCollect(commands.scala:125)
	at org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.$anonfun$applyOrElse$1(QueryExecution.scala:107)
	at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$6(SQLExecution.scala:125)
	at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:201)
	at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:108)
	at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:900)
	at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:66)
	at org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.applyOrElse(QueryExecution.scala:107)
	at org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.applyOrElse(QueryExecution.scala:98)
	at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDownWithPruning$1(TreeNode.scala:461)
	at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(origin.scala:76)
	at org.apache.spark.sql.catalyst.trees.TreeNode.transformDownWithPruning(TreeNode.scala:461)
	at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.org$apache$spark$sql$catalyst$plans$logical$AnalysisHelper$$super$transformDownWithPruning(LogicalPlan.scala:32)
	at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.transformDownWithPruning(AnalysisHelper.scala:267)
	at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.transformDownWithPruning$(AnalysisHelper.scala:263)
	at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.transformDownWithPruning(LogicalPlan.scala:32)
	at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.transformDownWithPruning(LogicalPlan.scala:32)
	at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:437)
	at org.apache.spark.sql.execution.QueryExecution.eagerlyExecuteCommands(QueryExecution.scala:98)
	at org.apache.spark.sql.execution.QueryExecution.commandExecuted$lzycompute(QueryExecution.scala:85)
	at org.apache.spark.sql.execution.QueryExecution.commandExecuted(QueryExecution.scala:83)
	at org.apache.spark.sql.execution.QueryExecution.assertCommandExecuted(QueryExecution.scala:142)
	at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:869)
	at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:391)
	at org.apache.spark.sql.DataFrameWriter.saveInternal(DataFrameWriter.scala:364)
	at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:243)
	at org.apache.spark.sql.DataFrameWriter.parquet(DataFrameWriter.scala:802)
	at java.base/jdk.internal.reflect.DirectMethodHandleAccessor.invoke(DirectMethodHandleAccessor.java:103)
	at java.base/java.lang.reflect.Method.invoke(Method.java:580)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
	at py4j.Gateway.invoke(Gateway.java:282)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
	at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
	at java.base/java.lang.Thread.run(Thread.java:1570)
Caused by: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
	at org.apache.hadoop.util.Shell.fileNotFoundException(Shell.java:547)
	at org.apache.hadoop.util.Shell.getHadoopHomeDir(Shell.java:568)
	at org.apache.hadoop.util.Shell.getQualifiedBin(Shell.java:591)
	at org.apache.hadoop.util.Shell.<clinit>(Shell.java:688)
	at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:79)
	at org.apache.hadoop.conf.Configuration.getTimeDurationHelper(Configuration.java:1907)
	at org.apache.hadoop.conf.Configuration.getTimeDuration(Configuration.java:1867)
	at org.apache.hadoop.conf.Configuration.getTimeDuration(Configuration.java:1840)
	at org.apache.hadoop.util.ShutdownHookManager.getShutdownTimeout(ShutdownHookManager.java:183)
	at org.apache.hadoop.util.ShutdownHookManager$HookEntry.<init>(ShutdownHookManager.java:207)
	at org.apache.hadoop.util.ShutdownHookManager.addShutdownHook(ShutdownHookManager.java:304)
	at org.apache.spark.util.SparkShutdownHookManager.install(ShutdownHookManager.scala:181)
	at org.apache.spark.util.ShutdownHookManager$.shutdownHooks$lzycompute(ShutdownHookManager.scala:50)
	at org.apache.spark.util.ShutdownHookManager$.shutdownHooks(ShutdownHookManager.scala:48)
	at org.apache.spark.util.ShutdownHookManager$.addShutdownHook(ShutdownHookManager.scala:153)
	at org.apache.spark.util.ShutdownHookManager$.<init>(ShutdownHookManager.scala:58)
	at org.apache.spark.util.ShutdownHookManager$.<clinit>(ShutdownHookManager.scala)
	at org.apache.spark.util.Utils$.createTempDir(Utils.scala:242)
	at org.apache.spark.util.SparkFileUtils.createTempDir(SparkFileUtils.scala:103)
	at org.apache.spark.util.SparkFileUtils.createTempDir$(SparkFileUtils.scala:102)
	at org.apache.spark.util.Utils$.createTempDir(Utils.scala:94)
	at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:377)
	at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:969)
	at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:199)
	at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:222)
	at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:91)
	at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1125)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1134)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
	at org.apache.hadoop.util.Shell.checkHadoopHomeInner(Shell.java:467)
	at org.apache.hadoop.util.Shell.checkHadoopHome(Shell.java:438)
	at org.apache.hadoop.util.Shell.<clinit>(Shell.java:515)
	... 25 more
