<a href="https://colab.research.google.com/github/felipeeng23/redes_sociais/blob/main/atividade_01_04_2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Importação da biblioteca pandas
import pandas as pd

In [2]:
# Instalação dos requisitos para o PySpark
!apt-get install openjdk-8-jdk-headless -qq > /dev/null #Instala o OpenJDK 8 (necessário para o Spark rodar no ambiente). A opção -qq reduz a saída do comando, e > /dev/null silencia os logs.
!wget -q http://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz #Baixa a versão 3.1.1 do Apache Spark com suporte ao Hadoop 3.2 do repositório oficial.
!tar xf spark-3.1.1-bin-hadoop3.2.tgz #Descompacta o arquivo .tgz para acesso aos binários do Spark.
!pip install -q findspark #findspark é uma biblioteca que facilita a inicialização do Spark em ambientes como o Google Colab.

In [3]:
# Importa o módulo 'os' para interagir com variáveis de ambiente do sistema operacional
import os

# Define a variável de ambiente JAVA_HOME, indicando o caminho para o Java 8
# O Spark precisa do Java para ser executado, e aqui especificamos onde ele está instalado
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"

# Define a variável de ambiente SPARK_HOME, indicando o caminho de instalação do Spark
# Isso é necessário para que o Python saiba onde encontrar os binários e bibliotecas do Spark
os.environ["SPARK_HOME"] = "/content/spark-3.1.1-bin-hadoop3.2"

# Importa a biblioteca 'findspark', que ajuda a localizar e configurar o Spark no ambiente Python
import findspark

# Inicializa o findspark, permitindo que possamos importar e utilizar o PySpark no código
findspark.init()

In [4]:
# Importa a classe SparkSession do módulo pyspark.sql
# SparkSession é o ponto de entrada principal para trabalhar com DataFrames no PySpark
from pyspark.sql import SparkSession

# Inicializar a SparkSession com suporte ao Hive
spark = SparkSession.builder \
    .appName("Spark with Hive on Colab") \
    .config("spark.sql.catalogImplementation", "hive") \
    .config("spark.sql.warehouse.dir", "/content/spark-warehouse") \
    .config("hive.metastore.warehouse.dir", "/content/spark-warehouse") \
    .enableHiveSupport() \
    .getOrCreate()
# Define o nome da aplicação Spark (aparece nos logs)
# Configura o Spark para usar o catálogo do Hive
# Define o diretório do warehouse para o Hive
# Criar diretório para o warehouse
# Habilita o suporte ao Hive, permitindo consultas SQL compatíveis com Hive
# Cria a SparkSession ou reutiliza uma existente
# Cria o diretório para armazenar os metadados e tabelas gerenciadas pelo Hive
!mkdir -p /content/spark-warehouse

'''
 Por que usar o Hive com Spark?

Permite realizar consultas SQL complexas sobre grandes volumes de dados.
Facilita o gerenciamento de tabelas persistentes no Spark SQL.
Pode armazenar os resultados de consultas em um formato estruturado (como Parquet ou ORC).

'''

'\n Por que usar o Hive com Spark?\n\nPermite realizar consultas SQL complexas sobre grandes volumes de dados.\nFacilita o gerenciamento de tabelas persistentes no Spark SQL.\nPode armazenar os resultados de consultas em um formato estruturado (como Parquet ou ORC).\n\n'

In [5]:
# Verifica o SparkContext
print(spark)

# Exibe a Spark version
print(spark.version)

<pyspark.sql.session.SparkSession object at 0x7c0aa9d23950>
3.1.1


In [6]:
spark.sql('''
CREATE TABLE Users (
  user_id INT,
  name STRING,
  email STRING,
  birth_date DATE,
  city STRING,
  country STRING,
  created_at TIMESTAMP
)
''')

DataFrame[]

## Questao 1: Adicione o banco de dados no pyspark e inserem mais registros no banco de dados.

In [7]:
spark.sql('''
INSERT INTO Users VALUES
(1, 'Alice Souza', 'alice@email.com', DATE('1995-04-23'), 'São Paulo', 'Brasil', TIMESTAMP('2023-01-10 14:30:00')),
(2, 'Bruno Lima', 'bruno@email.com', DATE('1990-06-17'), 'Rio de Janeiro', 'Brasil', TIMESTAMP('2022-11-05 09:15:00')),
(3, 'Carla Mendes', 'carla@email.com', DATE('1998-09-12'), 'Belo Horizonte', 'Brasil', TIMESTAMP('2023-03-22 18:45:00')),
(4, 'Diego Santos', 'diego@email.com', DATE('1992-07-08'), 'Curitiba', 'Brasil', TIMESTAMP('2023-05-14 11:20:00')),
(5, 'Eduarda Ribeiro', 'eduarda@email.com', DATE('2000-01-30'), 'Salvador', 'Brasil', TIMESTAMP('2023-06-25 16:50:00')),
(6, 'Felipe Araújo', 'felipe@email.com', DATE('1988-02-11'), 'Fortaleza', 'Brasil', TIMESTAMP('2023-07-01 08:10:00')),
(7, 'Gabriela Rocha', 'gabriela@email.com', DATE('1996-03-19'), 'Recife', 'Brasil', TIMESTAMP('2023-08-15 14:05:00')),
(8, 'Henrique Silva', 'henrique@email.com', DATE('1993-10-07'), 'Porto Alegre', 'Brasil', TIMESTAMP('2022-12-12 10:00:00')),
(9, 'Isabela Martins', 'isabela@email.com', DATE('1999-12-25'), 'Florianópolis', 'Brasil', TIMESTAMP('2023-09-03 12:45:00')),
(10, 'João Pedro', 'joao@email.com', DATE('1985-05-20'), 'Manaus', 'Brasil', TIMESTAMP('2023-04-10 09:30:00')),
(11, 'Karen Oliveira', 'karen@email.com', DATE('1997-08-15'), 'Natal', 'Brasil', TIMESTAMP('2023-02-27 17:20:00')),
(12, 'Lucas Fernandes', 'lucas@email.com', DATE('1991-11-30'), 'João Pessoa', 'Brasil', TIMESTAMP('2023-03-14 13:10:00')),
(13, 'Mariana Costa', 'mariana@email.com', DATE('1994-06-01'), 'São Luís', 'Brasil', TIMESTAMP('2023-05-29 15:25:00')),
(14, 'Nicolas Teixeira', 'nicolas@email.com', DATE('1990-09-10'), 'Campo Grande', 'Brasil', TIMESTAMP('2023-06-18 10:40:00')),
(15, 'Olívia Almeida', 'olivia@email.com', DATE('1998-04-05'), 'Teresina', 'Brasil', TIMESTAMP('2023-07-07 16:55:00')),
(16, 'Paulo Henrique', 'paulo@email.com', DATE('1992-03-14'), 'Aracaju', 'Brasil', TIMESTAMP('2023-08-02 11:35:00')),
(17, 'Quezia Lima', 'quezia@email.com', DATE('1995-07-27'), 'Maceió', 'Brasil', TIMESTAMP('2023-09-11 13:00:00')),
(18, 'Rafael Nogueira', 'rafael@email.com', DATE('1989-10-18'), 'Belém', 'Brasil', TIMESTAMP('2023-10-20 08:50:00')),
(19, 'Sabrina Farias', 'sabrina@email.com', DATE('1996-12-09'), 'Vitória', 'Brasil', TIMESTAMP('2023-11-25 17:15:00')),
(20, 'Thiago Monteiro', 'thiago@email.com', DATE('1993-01-22'), 'Palmas', 'Brasil', TIMESTAMP('2023-12-05 19:40:00'));
''')

DataFrame[]

In [8]:
Users = spark.sql('''
SELECT * FROM Users;
''')

## Questão 2: Transforme todas as tabelas em DataFrame

In [9]:
Users.show()

+-------+----------------+------------------+----------+--------------+-------+-------------------+
|user_id|            name|             email|birth_date|          city|country|         created_at|
+-------+----------------+------------------+----------+--------------+-------+-------------------+
|     11|  Karen Oliveira|   karen@email.com|1997-08-15|         Natal| Brasil|2023-02-27 17:20:00|
|     12| Lucas Fernandes|   lucas@email.com|1991-11-30|   João Pessoa| Brasil|2023-03-14 13:10:00|
|     13|   Mariana Costa| mariana@email.com|1994-06-01|      São Luís| Brasil|2023-05-29 15:25:00|
|     14|Nicolas Teixeira| nicolas@email.com|1990-09-10|  Campo Grande| Brasil|2023-06-18 10:40:00|
|     15|  Olívia Almeida|  olivia@email.com|1998-04-05|      Teresina| Brasil|2023-07-07 16:55:00|
|     16|  Paulo Henrique|   paulo@email.com|1992-03-14|       Aracaju| Brasil|2023-08-02 11:35:00|
|     17|     Quezia Lima|  quezia@email.com|1995-07-27|        Maceió| Brasil|2023-09-11 13:00:00|


In [10]:
spark.sql('''
CREATE TABLE Posts (
  post_id INT,
  user_id INT,
  content STRING,
  created_at TIMESTAMP
)
''')

DataFrame[]

## Questão 1. Adicione o banco de dados no pyspark e inserem mais registros no banco de dados.


In [11]:
spark.sql('''
INSERT INTO Posts VALUES
(1, 1, 'Adoro programar em PySpark!', TIMESTAMP('2024-02-01 10:00:00')),
(2, 2, 'Hoje foi um dia incrível!', TIMESTAMP('2024-02-02 15:30:00')),
(3, 3, 'Alguém tem recomendações de livros?', TIMESTAMP('2024-02-03 20:45:00')),
(4, 4, 'Explorando novos frameworks de machine learning.', TIMESTAMP('2024-02-04 13:10:00')),
(5, 5, 'Quais são seus podcasts favoritos?', TIMESTAMP('2024-02-05 09:30:00')),
(6, 6, 'O que vocês acham do futuro da inteligência artificial?', TIMESTAMP('2024-02-06 11:45:00')),
(7, 7, 'Estou aprendendo sobre pipelines no PySpark, bem interessante!', TIMESTAMP('2024-02-07 14:20:00')),
(8, 8, 'Como vocês lidam com grandes volumes de dados em tempo real?', TIMESTAMP('2024-02-08 18:30:00')),
(9, 9, 'Alguém tem sugestões de bons cursos sobre Data Science?', TIMESTAMP('2024-02-09 16:00:00')),
(10, 10, 'Estou começando a aprender sobre Hadoop, dicas de onde começar?', TIMESTAMP('2024-02-10 12:05:00')),
(11, 11, 'Quais são as melhores práticas para otimizar consultas no Spark?', TIMESTAMP('2024-02-11 08:50:00')),
(12, 12, 'Eu adoro trabalhar com big data, as possibilidades são infinitas!', TIMESTAMP('2024-02-12 09:40:00')),
(13, 13, 'Estou testando diferentes algoritmos de machine learning, algum favorito?', TIMESTAMP('2024-02-13 17:25:00')),
(14, 14, 'Como vocês estruturam suas bases de dados em ambientes de produção?', TIMESTAMP('2024-02-14 14:10:00')),
(15, 15, 'Alguém já usou o PyArrow? Estou curioso sobre sua performance.', TIMESTAMP('2024-02-15 10:00:00')),
(16, 16, 'Tô experimentando o Apache Kafka para streaming de dados, bem legal!', TIMESTAMP('2024-02-16 13:55:00')),
(17, 17, 'Alguém tem experiências com dados desestruturados? Estou começando a mexer com isso.', TIMESTAMP('2024-02-17 11:15:00')),
(18, 18, 'Como vocês fazem a integração entre bancos NoSQL e Spark?', TIMESTAMP('2024-02-18 16:45:00')),
(19, 19, 'Recentemente li sobre o uso de Data Lakes, alguém já trabalhou com isso?', TIMESTAMP('2024-02-19 12:25:00')),
(20, 20, 'Acho que estou começando a gostar mais de análise de dados do que de programação!', TIMESTAMP('2024-02-20 09:30:00'));
''')

DataFrame[]

In [12]:
Posts = spark.sql('''
SELECT * FROM Posts;
''')

## Questão 2. Transforme todas as tabelas em DataFrame

In [13]:
Posts.show()

+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:00|
|     15|     15|Alguém já usou o ...|2024-02-15 10:00:00|
|     16|     16|Tô experimentando...|2024-02-16 13:55:00|
|     17|     17|Alguém tem experi...|2024-02-17 11:15:00|
|     18|     18|Como vocês fazem ...|2024-02-18 16:45:00|
|     19|     19|Recentemente li s...|2024-02-19 12:25:00|
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...|2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...|2024-02-03 20:45:00|
|      4|      4|Explorando novos ...|2024-02-04 13:10:0

In [14]:
spark.sql('''
CREATE TABLE Comments (
  comment_id INT,
  post_id INT,
  user_id INT,
  content STRING,
  created_at TIMESTAMP
)
''')

DataFrame[]

## Questão 1. Adicione o banco de dados no pyspark e inserem mais registros no banco de dados.


In [15]:
spark.sql('''
INSERT INTO Comments VALUES
(1, 1, 2, 'Muito legal, Alice!', TIMESTAMP('2024-02-01 12:00:00')),
(2, 2, 3, 'Que bom, Bruno!', TIMESTAMP('2024-02-02 16:00:00')),
(3, 3, 1, 'Depende do gênero, Carla!', TIMESTAMP('2024-02-03 21:30:00')),
(4, 4, 5, 'Também estou estudando isso, Diego!', TIMESTAMP('2024-02-04 14:00:00')),
(5, 5, 4, 'Gosto muito de podcasts sobre tecnologia.', TIMESTAMP('2024-02-05 10:00:00')),
(6, 6, 7, 'Você já ouviu falar de Data Science?', TIMESTAMP('2024-02-06 11:30:00')),
(7, 7, 8, 'Sim, adoro trabalhar com aprendizado de máquina!', TIMESTAMP('2024-02-07 13:20:00')),
(8, 8, 9, 'Estou começando com Big Data, muito desafiador.', TIMESTAMP('2024-02-08 14:40:00')),
(9, 9, 10, 'Amo os cursos online de Machine Learning!', TIMESTAMP('2024-02-09 15:10:00')),
(10, 10, 11, 'Como vocês organizam seus projetos de dados?', TIMESTAMP('2024-02-10 12:55:00')),
(11, 11, 12, 'Tenho usado muito o TensorFlow para minhas análises.', TIMESTAMP('2024-02-11 16:30:00')),
(12, 12, 13, 'Acho que aprender Spark é essencial para quem quer trabalhar com dados.', TIMESTAMP('2024-02-12 09:25:00')),
(13, 13, 14, 'Data Lakes parecem muito interessantes, alguém já usou?', TIMESTAMP('2024-02-13 18:00:00')),
(14, 14, 15, 'Alguém tem boas referências de livros sobre estatísticas?', TIMESTAMP('2024-02-14 11:15:00')),
(15, 15, 16, 'Estive lendo sobre Kafka, estou pensando em usar para streaming de dados.', TIMESTAMP('2024-02-15 14:50:00')),
(16, 16, 17, 'Estou planejando migrar meu projeto para o AWS, alguém tem dicas?', TIMESTAMP('2024-02-16 13:00:00')),
(17, 17, 18, 'Recentemente comecei a usar o Apache Flink, estou gostando muito.', TIMESTAMP('2024-02-17 10:30:00')),
(18, 18, 19, 'Quem mais aqui trabalha com análise preditiva?', TIMESTAMP('2024-02-18 17:45:00')),
(19, 19, 20, 'Eu estou testando o uso de Docker nos meus projetos de dados.', TIMESTAMP('2024-02-19 09:50:00')),
(20, 20, 21, 'Adoro trabalhar com dados desestruturados, tem muitas possibilidades.', TIMESTAMP('2024-02-20 14:15:00'));
''')

DataFrame[]

In [16]:
Comments = spark.sql('''
SELECT * FROM Comments;
''')

## Questão 2. Transforme todas as tabelas em DataFrame

In [17]:
Comments.show()

+----------+-------+-------+--------------------+-------------------+
|comment_id|post_id|user_id|             content|         created_at|
+----------+-------+-------+--------------------+-------------------+
|         1|      1|      2| Muito legal, Alice!|2024-02-01 12:00:00|
|         2|      2|      3|     Que bom, Bruno!|2024-02-02 16:00:00|
|         3|      3|      1|Depende do gênero...|2024-02-03 21:30:00|
|         4|      4|      5|Também estou estu...|2024-02-04 14:00:00|
|         5|      5|      4|Gosto muito de po...|2024-02-05 10:00:00|
|         6|      6|      7|Você já ouviu fal...|2024-02-06 11:30:00|
|         7|      7|      8|Sim, adoro trabal...|2024-02-07 13:20:00|
|         8|      8|      9|Estou começando c...|2024-02-08 14:40:00|
|         9|      9|     10|Amo os cursos onl...|2024-02-09 15:10:00|
|        10|     10|     11|Como vocês organi...|2024-02-10 12:55:00|
|        11|     11|     12|Tenho usado muito...|2024-02-11 16:30:00|
|        12|     12|

In [18]:
spark.sql('''
CREATE TABLE Friends (
  user_id1 INT,
  user_id2 INT,
  since DATE
)
''')

DataFrame[]

## Questão 1. Adicione o banco de dados no pyspark e inserem mais registros no banco de dados.


In [19]:
spark.sql('''
INSERT INTO Friends VALUES
(1, 2, DATE('2023-05-10')),
(2, 3, DATE('2023-06-15')),
(1, 3, DATE('2023-07-20')),
(4, 5, DATE('2023-08-30')),
(2, 5, DATE('2023-09-12')),
(6, 7, DATE('2024-01-25')),
(7, 8, DATE('2024-02-01')),
(8, 9, DATE('2024-03-05')),
(9, 10, DATE('2024-04-10')),
(10, 11, DATE('2024-05-15')),
(11, 12, DATE('2024-06-20')),
(12, 13, DATE('2024-07-25')),
(13, 14, DATE('2024-08-01')),
(14, 15, DATE('2024-09-10')),
(15, 16, DATE('2024-10-05')),
(17, 18, DATE('2024-11-12')),
(18, 19, DATE('2024-12-01')),
(19, 20, DATE('2024-12-15')),
(20, 21, DATE('2025-01-05')),
(21, 22, DATE('2025-01-10'));
''')

DataFrame[]

In [20]:
Friends = spark.sql('''
SELECT * FROM Friends;
''')

## Questão 2. Transforme todas as tabelas em DataFrame

In [21]:
Friends.show()

+--------+--------+----------+
|user_id1|user_id2|     since|
+--------+--------+----------+
|      11|      12|2024-06-20|
|      12|      13|2024-07-25|
|      13|      14|2024-08-01|
|      14|      15|2024-09-10|
|      15|      16|2024-10-05|
|      17|      18|2024-11-12|
|      18|      19|2024-12-01|
|      19|      20|2024-12-15|
|      20|      21|2025-01-05|
|      21|      22|2025-01-10|
|       1|       2|2023-05-10|
|       2|       3|2023-06-15|
|       1|       3|2023-07-20|
|       4|       5|2023-08-30|
|       2|       5|2023-09-12|
|       6|       7|2024-01-25|
|       7|       8|2024-02-01|
|       8|       9|2024-03-05|
|       9|      10|2024-04-10|
|      10|      11|2024-05-15|
+--------+--------+----------+



In [22]:
spark.sql('''
CREATE TABLE Reactions (
  reaction_id INT,
  post_id INT,
  user_id INT,
  reaction_type STRING, -- Like, Love, Haha, Wow, Sad, Angry
  created_at TIMESTAMP
)
''')

DataFrame[]

## Questão 1. Adicione o banco de dados no pyspark e inserem mais registros no banco de dados.


In [23]:
spark.sql('''
INSERT INTO Reactions VALUES
(1, 1, 2, 'Like', TIMESTAMP('2024-02-01 12:10:00')),
(2, 2, 3, 'Love', TIMESTAMP('2024-02-02 16:15:00')),
(3, 3, 1, 'Haha', TIMESTAMP('2024-02-03 21:45:00')),
(4, 4, 5, 'Wow', TIMESTAMP('2024-02-04 14:30:00')),
(5, 5, 4, 'Love', TIMESTAMP('2024-02-05 10:15:00')),
(6, 6, 7, 'Like', TIMESTAMP('2024-02-06 11:00:00')),
(7, 7, 8, 'Wow', TIMESTAMP('2024-02-07 13:25:00')),
(8, 8, 9, 'Sad', TIMESTAMP('2024-02-08 15:40:00')),
(9, 9, 10, 'Angry', TIMESTAMP('2024-02-09 17:00:00')),
(10, 10, 11, 'Like', TIMESTAMP('2024-02-10 12:05:00')),
(11, 11, 12, 'Love', TIMESTAMP('2024-02-11 18:10:00')),
(12, 12, 13, 'Wow', TIMESTAMP('2024-02-12 14:30:00')),
(13, 13, 14, 'Haha', TIMESTAMP('2024-02-13 10:50:00')),
(14, 14, 15, 'Sad', TIMESTAMP('2024-02-14 11:30:00')),
(15, 15, 16, 'Angry', TIMESTAMP('2024-02-15 16:00:00')),
(16, 16, 17, 'Love', TIMESTAMP('2024-02-16 09:45:00')),
(17, 17, 18, 'Like', TIMESTAMP('2024-02-17 13:20:00')),
(18, 18, 19, 'Wow', TIMESTAMP('2024-02-18 12:10:00')),
(19, 19, 20, 'Like', TIMESTAMP('2024-02-19 14:50:00')),
(20, 20, 21, 'Love', TIMESTAMP('2024-02-20 09:30:00'));
'''
)

DataFrame[]

In [24]:
Reactions = spark.sql('''
SELECT * FROM Reactions;
''')

## Questão 2. Transforme todas as tabelas em DataFrame

In [25]:
Reactions.show()

+-----------+-------+-------+-------------+-------------------+
|reaction_id|post_id|user_id|reaction_type|         created_at|
+-----------+-------+-------+-------------+-------------------+
|          1|      1|      2|         Like|2024-02-01 12:10:00|
|          2|      2|      3|         Love|2024-02-02 16:15:00|
|          3|      3|      1|         Haha|2024-02-03 21:45:00|
|          4|      4|      5|          Wow|2024-02-04 14:30:00|
|          5|      5|      4|         Love|2024-02-05 10:15:00|
|          6|      6|      7|         Like|2024-02-06 11:00:00|
|          7|      7|      8|          Wow|2024-02-07 13:25:00|
|          8|      8|      9|          Sad|2024-02-08 15:40:00|
|          9|      9|     10|        Angry|2024-02-09 17:00:00|
|         10|     10|     11|         Like|2024-02-10 12:05:00|
|         11|     11|     12|         Love|2024-02-11 18:10:00|
|         12|     12|     13|          Wow|2024-02-12 14:30:00|
|         13|     13|     14|         Ha

## Questão 3. Liste todos da tabela usuarios

In [28]:
Users.show()

+-------+----------------+------------------+----------+--------------+-------+-------------------+
|user_id|            name|             email|birth_date|          city|country|         created_at|
+-------+----------------+------------------+----------+--------------+-------+-------------------+
|     11|  Karen Oliveira|   karen@email.com|1997-08-15|         Natal| Brasil|2023-02-27 17:20:00|
|     12| Lucas Fernandes|   lucas@email.com|1991-11-30|   João Pessoa| Brasil|2023-03-14 13:10:00|
|     13|   Mariana Costa| mariana@email.com|1994-06-01|      São Luís| Brasil|2023-05-29 15:25:00|
|     14|Nicolas Teixeira| nicolas@email.com|1990-09-10|  Campo Grande| Brasil|2023-06-18 10:40:00|
|     15|  Olívia Almeida|  olivia@email.com|1998-04-05|      Teresina| Brasil|2023-07-07 16:55:00|
|     16|  Paulo Henrique|   paulo@email.com|1992-03-14|       Aracaju| Brasil|2023-08-02 11:35:00|
|     17|     Quezia Lima|  quezia@email.com|1995-07-27|        Maceió| Brasil|2023-09-11 13:00:00|


## Questão 4. Liste todos da tabela Posts

In [33]:
Posts.show()

+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:00|
|     15|     15|Alguém já usou o ...|2024-02-15 10:00:00|
|     16|     16|Tô experimentando...|2024-02-16 13:55:00|
|     17|     17|Alguém tem experi...|2024-02-17 11:15:00|
|     18|     18|Como vocês fazem ...|2024-02-18 16:45:00|
|     19|     19|Recentemente li s...|2024-02-19 12:25:00|
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...|2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...|2024-02-03 20:45:00|
|      4|      4|Explorando novos ...|2024-02-04 13:10:0

## Questão 5. Liste todos da tabela comentários

In [34]:
Comments.show()

+----------+-------+-------+--------------------+-------------------+
|comment_id|post_id|user_id|             content|         created_at|
+----------+-------+-------+--------------------+-------------------+
|         1|      1|      2| Muito legal, Alice!|2024-02-01 12:00:00|
|         2|      2|      3|     Que bom, Bruno!|2024-02-02 16:00:00|
|         3|      3|      1|Depende do gênero...|2024-02-03 21:30:00|
|         4|      4|      5|Também estou estu...|2024-02-04 14:00:00|
|         5|      5|      4|Gosto muito de po...|2024-02-05 10:00:00|
|         6|      6|      7|Você já ouviu fal...|2024-02-06 11:30:00|
|         7|      7|      8|Sim, adoro trabal...|2024-02-07 13:20:00|
|         8|      8|      9|Estou começando c...|2024-02-08 14:40:00|
|         9|      9|     10|Amo os cursos onl...|2024-02-09 15:10:00|
|        10|     10|     11|Como vocês organi...|2024-02-10 12:55:00|
|        11|     11|     12|Tenho usado muito...|2024-02-11 16:30:00|
|        12|     12|

## Questão 6. Liste todos da tabela amigos

In [35]:
Friends.show()

+--------+--------+----------+
|user_id1|user_id2|     since|
+--------+--------+----------+
|      11|      12|2024-06-20|
|      12|      13|2024-07-25|
|      13|      14|2024-08-01|
|      14|      15|2024-09-10|
|      15|      16|2024-10-05|
|      17|      18|2024-11-12|
|      18|      19|2024-12-01|
|      19|      20|2024-12-15|
|      20|      21|2025-01-05|
|      21|      22|2025-01-10|
|       1|       2|2023-05-10|
|       2|       3|2023-06-15|
|       1|       3|2023-07-20|
|       4|       5|2023-08-30|
|       2|       5|2023-09-12|
|       6|       7|2024-01-25|
|       7|       8|2024-02-01|
|       8|       9|2024-03-05|
|       9|      10|2024-04-10|
|      10|      11|2024-05-15|
+--------+--------+----------+



## Questão 7. Liste todas da tabela reações

In [36]:
Reactions.show()

+-----------+-------+-------+-------------+-------------------+
|reaction_id|post_id|user_id|reaction_type|         created_at|
+-----------+-------+-------+-------------+-------------------+
|          1|      1|      2|         Like|2024-02-01 12:10:00|
|          2|      2|      3|         Love|2024-02-02 16:15:00|
|          3|      3|      1|         Haha|2024-02-03 21:45:00|
|          4|      4|      5|          Wow|2024-02-04 14:30:00|
|          5|      5|      4|         Love|2024-02-05 10:15:00|
|          6|      6|      7|         Like|2024-02-06 11:00:00|
|          7|      7|      8|          Wow|2024-02-07 13:25:00|
|          8|      8|      9|          Sad|2024-02-08 15:40:00|
|          9|      9|     10|        Angry|2024-02-09 17:00:00|
|         10|     10|     11|         Like|2024-02-10 12:05:00|
|         11|     11|     12|         Love|2024-02-11 18:10:00|
|         12|     12|     13|          Wow|2024-02-12 14:30:00|
|         13|     13|     14|         Ha

## Questão 8. Exiba apenas os nomes e e-mails dos usuários.

In [37]:
# Exibir apenas os nomes e e-mails dos usuários
spark.sql("SELECT name, email FROM Users").show()

+----------------+------------------+
|            name|             email|
+----------------+------------------+
|  Karen Oliveira|   karen@email.com|
| Lucas Fernandes|   lucas@email.com|
|   Mariana Costa| mariana@email.com|
|Nicolas Teixeira| nicolas@email.com|
|  Olívia Almeida|  olivia@email.com|
|  Paulo Henrique|   paulo@email.com|
|     Quezia Lima|  quezia@email.com|
| Rafael Nogueira|  rafael@email.com|
|  Sabrina Farias| sabrina@email.com|
| Thiago Monteiro|  thiago@email.com|
|     Alice Souza|   alice@email.com|
|      Bruno Lima|   bruno@email.com|
|    Carla Mendes|   carla@email.com|
|    Diego Santos|   diego@email.com|
| Eduarda Ribeiro| eduarda@email.com|
|   Felipe Araújo|  felipe@email.com|
|  Gabriela Rocha|gabriela@email.com|
|  Henrique Silva|henrique@email.com|
| Isabela Martins| isabela@email.com|
|      João Pedro|    joao@email.com|
+----------------+------------------+



## 9. Selecione os posts com seu respectivo usuário.

In [38]:
# Selecionar os posts com o respectivo usuário
spark.sql("""
SELECT p.post_id, p.content, u.name, u.email
FROM Posts p
JOIN Users u ON p.user_id = u.user_id
""").show()


+-------+--------------------+----------------+------------------+
|post_id|             content|            name|             email|
+-------+--------------------+----------------+------------------+
|     11|Quais são as melh...|  Karen Oliveira|   karen@email.com|
|     12|Eu adoro trabalha...| Lucas Fernandes|   lucas@email.com|
|     13|Estou testando di...|   Mariana Costa| mariana@email.com|
|     14|Como vocês estrut...|Nicolas Teixeira| nicolas@email.com|
|     15|Alguém já usou o ...|  Olívia Almeida|  olivia@email.com|
|     16|Tô experimentando...|  Paulo Henrique|   paulo@email.com|
|     17|Alguém tem experi...|     Quezia Lima|  quezia@email.com|
|     18|Como vocês fazem ...| Rafael Nogueira|  rafael@email.com|
|     19|Recentemente li s...|  Sabrina Farias| sabrina@email.com|
|     20|Acho que estou co...| Thiago Monteiro|  thiago@email.com|
|      1|Adoro programar e...|     Alice Souza|   alice@email.com|
|      2|Hoje foi um dia i...|      Bruno Lima|   bruno@email.

## 10. Liste todas as cidades únicas dos usuários.


In [39]:
# Selecionar as cidades únicas dos usuários
spark.sql("SELECT DISTINCT city FROM Users").show()

+--------------+
|          city|
+--------------+
|     Fortaleza|
|      Curitiba|
|  Campo Grande|
|      São Luís|
|        Palmas|
|       Aracaju|
|   João Pessoa|
|Belo Horizonte|
|         Belém|
| Florianópolis|
|      Teresina|
|      Salvador|
|     São Paulo|
|         Natal|
|        Maceió|
|        Recife|
|        Manaus|
|Rio de Janeiro|
|  Porto Alegre|
|       Vitória|
+--------------+



## 11. Filtre os usuários que moram no Brasil.


In [40]:
# Filtrar os usuários que moram no Brasil
spark.sql("SELECT * FROM Users WHERE country = 'Brasil'").show()


+-------+----------------+------------------+----------+--------------+-------+-------------------+
|user_id|            name|             email|birth_date|          city|country|         created_at|
+-------+----------------+------------------+----------+--------------+-------+-------------------+
|     11|  Karen Oliveira|   karen@email.com|1997-08-15|         Natal| Brasil|2023-02-27 17:20:00|
|     12| Lucas Fernandes|   lucas@email.com|1991-11-30|   João Pessoa| Brasil|2023-03-14 13:10:00|
|     13|   Mariana Costa| mariana@email.com|1994-06-01|      São Luís| Brasil|2023-05-29 15:25:00|
|     14|Nicolas Teixeira| nicolas@email.com|1990-09-10|  Campo Grande| Brasil|2023-06-18 10:40:00|
|     15|  Olívia Almeida|  olivia@email.com|1998-04-05|      Teresina| Brasil|2023-07-07 16:55:00|
|     16|  Paulo Henrique|   paulo@email.com|1992-03-14|       Aracaju| Brasil|2023-08-02 11:35:00|
|     17|     Quezia Lima|  quezia@email.com|1995-07-27|        Maceió| Brasil|2023-09-11 13:00:00|


## 12. Exiba os posts criados após 01/02/2024.

In [41]:
# Exibir posts criados após 01/02/2024
spark.sql("SELECT * FROM Posts WHERE created_at > '2024-02-01'").show()

+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:00|
|     15|     15|Alguém já usou o ...|2024-02-15 10:00:00|
|     16|     16|Tô experimentando...|2024-02-16 13:55:00|
|     17|     17|Alguém tem experi...|2024-02-17 11:15:00|
|     18|     18|Como vocês fazem ...|2024-02-18 16:45:00|
|     19|     19|Recentemente li s...|2024-02-19 12:25:00|
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...|2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...|2024-02-03 20:45:00|
|      4|      4|Explorando novos ...|2024-02-04 13:10:0

In [42]:
# Exibir posts criados após 01/02/2024 em ordem crescente pela data de criação
spark.sql("SELECT * FROM Posts WHERE created_at > '2024-02-01' ORDER BY created_at ASC").show()


+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...|2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...|2024-02-03 20:45:00|
|      4|      4|Explorando novos ...|2024-02-04 13:10:00|
|      5|      5|Quais são seus po...|2024-02-05 09:30:00|
|      6|      6|O que vocês acham...|2024-02-06 11:45:00|
|      7|      7|Estou aprendendo ...|2024-02-07 14:20:00|
|      8|      8|Como vocês lidam ...|2024-02-08 18:30:00|
|      9|      9|Alguém tem sugest...|2024-02-09 16:00:00|
|     10|     10|Estou começando a...|2024-02-10 12:05:00|
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:0

In [44]:
# Exibir posts criados após 01/02/2024 em ordem decrescente pela data de criação
spark.sql("SELECT * FROM Posts WHERE created_at > '2024-02-01' ORDER BY created_at DESC").show()


+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|
|     19|     19|Recentemente li s...|2024-02-19 12:25:00|
|     18|     18|Como vocês fazem ...|2024-02-18 16:45:00|
|     17|     17|Alguém tem experi...|2024-02-17 11:15:00|
|     16|     16|Tô experimentando...|2024-02-16 13:55:00|
|     15|     15|Alguém já usou o ...|2024-02-15 10:00:00|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:00|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|
|     10|     10|Estou começando a...|2024-02-10 12:05:00|
|      9|      9|Alguém tem sugest...|2024-02-09 16:00:00|
|      8|      8|Como vocês lidam ...|2024-02-08 18:30:00|
|      7|      7|Estou aprendendo ...|2024-02-07 14:20:0

## 13. Liste os comentários feitos pelo usuário de ID 1.

In [45]:
# Listar os comentários feitos pelo usuário com ID 1
spark.sql("SELECT * FROM Comments WHERE user_id = 1").show()

+----------+-------+-------+--------------------+-------------------+
|comment_id|post_id|user_id|             content|         created_at|
+----------+-------+-------+--------------------+-------------------+
|         3|      3|      1|Depende do gênero...|2024-02-03 21:30:00|
+----------+-------+-------+--------------------+-------------------+



## 14. Liste os usuários ordenados pelo nome.

In [46]:
# Listar os usuários ordenados pelo nome em ordem alfabética
spark.sql("SELECT * FROM Users ORDER BY name ASC").show()

+-------+----------------+------------------+----------+--------------+-------+-------------------+
|user_id|            name|             email|birth_date|          city|country|         created_at|
+-------+----------------+------------------+----------+--------------+-------+-------------------+
|      1|     Alice Souza|   alice@email.com|1995-04-23|     São Paulo| Brasil|2023-01-10 14:30:00|
|      2|      Bruno Lima|   bruno@email.com|1990-06-17|Rio de Janeiro| Brasil|2022-11-05 09:15:00|
|      3|    Carla Mendes|   carla@email.com|1998-09-12|Belo Horizonte| Brasil|2023-03-22 18:45:00|
|      4|    Diego Santos|   diego@email.com|1992-07-08|      Curitiba| Brasil|2023-05-14 11:20:00|
|      5| Eduarda Ribeiro| eduarda@email.com|2000-01-30|      Salvador| Brasil|2023-06-25 16:50:00|
|      6|   Felipe Araújo|  felipe@email.com|1988-02-11|     Fortaleza| Brasil|2023-07-01 08:10:00|
|      7|  Gabriela Rocha|gabriela@email.com|1996-03-19|        Recife| Brasil|2023-08-15 14:05:00|


## 15. Exiba os posts em ordem decrescente de data.


In [47]:
# Exibir posts em ordem decrescente de data
spark.sql("SELECT * FROM Posts ORDER BY created_at DESC").show()

+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|
|     19|     19|Recentemente li s...|2024-02-19 12:25:00|
|     18|     18|Como vocês fazem ...|2024-02-18 16:45:00|
|     17|     17|Alguém tem experi...|2024-02-17 11:15:00|
|     16|     16|Tô experimentando...|2024-02-16 13:55:00|
|     15|     15|Alguém já usou o ...|2024-02-15 10:00:00|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:00|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|
|     10|     10|Estou começando a...|2024-02-10 12:05:00|
|      9|      9|Alguém tem sugest...|2024-02-09 16:00:00|
|      8|      8|Como vocês lidam ...|2024-02-08 18:30:00|
|      7|      7|Estou aprendendo ...|2024-02-07 14:20:0

## 16. Conte quantos usuários existem por cidade.

In [48]:
# Contar quantos usuários existem por cidade
spark.sql("SELECT city, COUNT(*) as user_count FROM Users GROUP BY city").show()

+--------------+----------+
|          city|user_count|
+--------------+----------+
|     Fortaleza|         1|
|      Curitiba|         1|
|  Campo Grande|         1|
|      São Luís|         1|
|        Palmas|         1|
|       Aracaju|         1|
|   João Pessoa|         1|
|Belo Horizonte|         1|
|         Belém|         1|
| Florianópolis|         1|
|      Teresina|         1|
|      Salvador|         1|
|     São Paulo|         1|
|         Natal|         1|
|        Maceió|         1|
|        Recife|         1|
|        Manaus|         1|
|Rio de Janeiro|         1|
|  Porto Alegre|         1|
|       Vitória|         1|
+--------------+----------+



## 17. Qual a reação mais comum nos posts?

In [49]:
# Contar as reações mais comuns nos posts
spark.sql("""
SELECT reaction_type, COUNT(*) as reaction_count
FROM Reactions
GROUP BY reaction_type
ORDER BY reaction_count DESC
LIMIT 1
""").show()

+-------------+--------------+
|reaction_type|reaction_count|
+-------------+--------------+
|         Love|             5|
+-------------+--------------+



##18. Crie uma coluna que classifica os usuários como "Adulto" se tiverem mais de 18 anos e "Menor" caso contrário.

In [50]:
# Criar uma coluna 'classificacao' com base na idade dos usuários
spark.sql("""
SELECT user_id, name, birth_date,
       CASE
           WHEN DATEDIFF(current_date(), TO_DATE(birth_date)) / 365 > 18 THEN 'Adulto'
           ELSE 'Menor'
       END AS classificacao
FROM Users
""").show()


+-------+----------------+----------+-------------+
|user_id|            name|birth_date|classificacao|
+-------+----------------+----------+-------------+
|     11|  Karen Oliveira|1997-08-15|       Adulto|
|     12| Lucas Fernandes|1991-11-30|       Adulto|
|     13|   Mariana Costa|1994-06-01|       Adulto|
|     14|Nicolas Teixeira|1990-09-10|       Adulto|
|     15|  Olívia Almeida|1998-04-05|       Adulto|
|     16|  Paulo Henrique|1992-03-14|       Adulto|
|     17|     Quezia Lima|1995-07-27|       Adulto|
|     18| Rafael Nogueira|1989-10-18|       Adulto|
|     19|  Sabrina Farias|1996-12-09|       Adulto|
|     20| Thiago Monteiro|1993-01-22|       Adulto|
|      1|     Alice Souza|1995-04-23|       Adulto|
|      2|      Bruno Lima|1990-06-17|       Adulto|
|      3|    Carla Mendes|1998-09-12|       Adulto|
|      4|    Diego Santos|1992-07-08|       Adulto|
|      5| Eduarda Ribeiro|2000-01-30|       Adulto|
|      6|   Felipe Araújo|1988-02-11|       Adulto|
|      7|  G

## 19. Adicione uma coluna indicando se o post contém uma pergunta.

In [51]:
# Adicionar uma coluna indicando se o post contém uma pergunta
spark.sql("""
SELECT post_id, user_id, content, created_at,
       CASE
           WHEN content LIKE '%?' THEN 'Sim'
           ELSE 'Não'
       END AS contains_question
FROM Posts
""").show()

+-------+-------+--------------------+-------------------+-----------------+
|post_id|user_id|             content|         created_at|contains_question|
+-------+-------+--------------------+-------------------+-----------------+
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|              Sim|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|              Não|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|              Sim|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:00|              Sim|
|     15|     15|Alguém já usou o ...|2024-02-15 10:00:00|              Não|
|     16|     16|Tô experimentando...|2024-02-16 13:55:00|              Não|
|     17|     17|Alguém tem experi...|2024-02-17 11:15:00|              Não|
|     18|     18|Como vocês fazem ...|2024-02-18 16:45:00|              Sim|
|     19|     19|Recentemente li s...|2024-02-19 12:25:00|              Sim|
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|              Não|

In [52]:
# Adicionar uma coluna indicando se o post contém uma pergunta e ordenar em ordem crescente
spark.sql("""
SELECT post_id, user_id, content, created_at,
       CASE
           WHEN content LIKE '%?' THEN 'Sim'
           ELSE 'Não'
       END AS contains_question
FROM Posts
ORDER BY created_at ASC
""").show()

+-------+-------+--------------------+-------------------+-----------------+
|post_id|user_id|             content|         created_at|contains_question|
+-------+-------+--------------------+-------------------+-----------------+
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|              Não|
|      2|      2|Hoje foi um dia i...|2024-02-02 15:30:00|              Não|
|      3|      3|Alguém tem recome...|2024-02-03 20:45:00|              Sim|
|      4|      4|Explorando novos ...|2024-02-04 13:10:00|              Não|
|      5|      5|Quais são seus po...|2024-02-05 09:30:00|              Sim|
|      6|      6|O que vocês acham...|2024-02-06 11:45:00|              Sim|
|      7|      7|Estou aprendendo ...|2024-02-07 14:20:00|              Não|
|      8|      8|Como vocês lidam ...|2024-02-08 18:30:00|              Sim|
|      9|      9|Alguém tem sugest...|2024-02-09 16:00:00|              Sim|
|     10|     10|Estou começando a...|2024-02-10 12:05:00|              Sim|

In [53]:
# Adicionar uma coluna indicando se o post contém uma pergunta e ordenar em ordem crescente
spark.sql("""
SELECT post_id, user_id, content, created_at,
       CASE
           WHEN content LIKE '%?' THEN 'Sim'
           ELSE 'Não'
       END AS contains_question
FROM Posts
ORDER BY created_at DESC
""").show()


+-------+-------+--------------------+-------------------+-----------------+
|post_id|user_id|             content|         created_at|contains_question|
+-------+-------+--------------------+-------------------+-----------------+
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|              Não|
|     19|     19|Recentemente li s...|2024-02-19 12:25:00|              Sim|
|     18|     18|Como vocês fazem ...|2024-02-18 16:45:00|              Sim|
|     17|     17|Alguém tem experi...|2024-02-17 11:15:00|              Não|
|     16|     16|Tô experimentando...|2024-02-16 13:55:00|              Não|
|     15|     15|Alguém já usou o ...|2024-02-15 10:00:00|              Não|
|     14|     14|Como vocês estrut...|2024-02-14 14:10:00|              Sim|
|     13|     13|Estou testando di...|2024-02-13 17:25:00|              Sim|
|     12|     12|Eu adoro trabalha...|2024-02-12 09:40:00|              Não|
|     11|     11|Quais são as melh...|2024-02-11 08:50:00|              Sim|

## 20. Converta a coluna created_at de string para Timestamp.

In [54]:
# Converter a coluna 'created_at' de string para Timestamp
spark.sql("""
SELECT post_id, user_id, content,
       CAST(created_at AS TIMESTAMP) AS created_at_converted
FROM Posts
""").show()

+-------+-------+--------------------+--------------------+
|post_id|user_id|             content|created_at_converted|
+-------+-------+--------------------+--------------------+
|     11|     11|Quais são as melh...| 2024-02-11 08:50:00|
|     12|     12|Eu adoro trabalha...| 2024-02-12 09:40:00|
|     13|     13|Estou testando di...| 2024-02-13 17:25:00|
|     14|     14|Como vocês estrut...| 2024-02-14 14:10:00|
|     15|     15|Alguém já usou o ...| 2024-02-15 10:00:00|
|     16|     16|Tô experimentando...| 2024-02-16 13:55:00|
|     17|     17|Alguém tem experi...| 2024-02-17 11:15:00|
|     18|     18|Como vocês fazem ...| 2024-02-18 16:45:00|
|     19|     19|Recentemente li s...| 2024-02-19 12:25:00|
|     20|     20|Acho que estou co...| 2024-02-20 09:30:00|
|      1|      1|Adoro programar e...| 2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...| 2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...| 2024-02-03 20:45:00|
|      4|      4|Explorando novos ...| 2

In [55]:
# Caso o formato seja específico, use TO_TIMESTAMP com formato customizado
spark.sql("""
SELECT post_id, user_id, content,
       TO_TIMESTAMP(created_at, 'yyyy-MM-dd HH:mm:ss') AS created_at_converted
FROM Posts
""").show()

+-------+-------+--------------------+--------------------+
|post_id|user_id|             content|created_at_converted|
+-------+-------+--------------------+--------------------+
|     11|     11|Quais são as melh...| 2024-02-11 08:50:00|
|     12|     12|Eu adoro trabalha...| 2024-02-12 09:40:00|
|     13|     13|Estou testando di...| 2024-02-13 17:25:00|
|     14|     14|Como vocês estrut...| 2024-02-14 14:10:00|
|     15|     15|Alguém já usou o ...| 2024-02-15 10:00:00|
|     16|     16|Tô experimentando...| 2024-02-16 13:55:00|
|     17|     17|Alguém tem experi...| 2024-02-17 11:15:00|
|     18|     18|Como vocês fazem ...| 2024-02-18 16:45:00|
|     19|     19|Recentemente li s...| 2024-02-19 12:25:00|
|     20|     20|Acho que estou co...| 2024-02-20 09:30:00|
|      1|      1|Adoro programar e...| 2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...| 2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...| 2024-02-03 20:45:00|
|      4|      4|Explorando novos ...| 2

## 21. Crie uma nova coluna user_info combinando nome e cidade.

In [56]:
# Criar uma nova coluna 'user_info' combinando nome e cidade
spark.sql("""
SELECT user_id, name, city,
       CONCAT(name, ' - ', city) AS user_info
FROM Users
""").show()

+-------+----------------+--------------+--------------------+
|user_id|            name|          city|           user_info|
+-------+----------------+--------------+--------------------+
|     11|  Karen Oliveira|         Natal|Karen Oliveira - ...|
|     12| Lucas Fernandes|   João Pessoa|Lucas Fernandes -...|
|     13|   Mariana Costa|      São Luís|Mariana Costa - S...|
|     14|Nicolas Teixeira|  Campo Grande|Nicolas Teixeira ...|
|     15|  Olívia Almeida|      Teresina|Olívia Almeida - ...|
|     16|  Paulo Henrique|       Aracaju|Paulo Henrique - ...|
|     17|     Quezia Lima|        Maceió|Quezia Lima - Maceió|
|     18| Rafael Nogueira|         Belém|Rafael Nogueira -...|
|     19|  Sabrina Farias|       Vitória|Sabrina Farias - ...|
|     20| Thiago Monteiro|        Palmas|Thiago Monteiro -...|
|      1|     Alice Souza|     São Paulo|Alice Souza - São...|
|      2|      Bruno Lima|Rio de Janeiro|Bruno Lima - Rio ...|
|      3|    Carla Mendes|Belo Horizonte|Carla Mendes -

## 22. Liste os posts junto com os nomes dos autores.

In [57]:
# Listar os posts junto com os nomes dos autores
spark.sql("""
SELECT p.post_id, p.content, u.name AS author_name
FROM Posts p
JOIN Users u ON p.user_id = u.user_id
""").show()

+-------+--------------------+----------------+
|post_id|             content|     author_name|
+-------+--------------------+----------------+
|     11|Quais são as melh...|  Karen Oliveira|
|     12|Eu adoro trabalha...| Lucas Fernandes|
|     13|Estou testando di...|   Mariana Costa|
|     14|Como vocês estrut...|Nicolas Teixeira|
|     15|Alguém já usou o ...|  Olívia Almeida|
|     16|Tô experimentando...|  Paulo Henrique|
|     17|Alguém tem experi...|     Quezia Lima|
|     18|Como vocês fazem ...| Rafael Nogueira|
|     19|Recentemente li s...|  Sabrina Farias|
|     20|Acho que estou co...| Thiago Monteiro|
|      1|Adoro programar e...|     Alice Souza|
|      2|Hoje foi um dia i...|      Bruno Lima|
|      3|Alguém tem recome...|    Carla Mendes|
|      4|Explorando novos ...|    Diego Santos|
|      5|Quais são seus po...| Eduarda Ribeiro|
|      6|O que vocês acham...|   Felipe Araújo|
|      7|Estou aprendendo ...|  Gabriela Rocha|
|      8|Como vocês lidam ...|  Henrique

## 23. Liste os amigos de cada usuário.


In [60]:
# Listar os amigos de cada usuário
spark.sql("""
SELECT
    u1.user_id AS user_id,
    u1.name AS user_name,
    u2.user_id AS friend_id,
    u2.name AS friend_name
FROM Friends f
JOIN Users u1 ON f.user_id1 = u1.user_id
JOIN Users u2 ON f.user_id2 = u2.user_id
""").show()

+-------+----------------+---------+----------------+
|user_id|       user_name|friend_id|     friend_name|
+-------+----------------+---------+----------------+
|     11|  Karen Oliveira|       12| Lucas Fernandes|
|     12| Lucas Fernandes|       13|   Mariana Costa|
|     13|   Mariana Costa|       14|Nicolas Teixeira|
|     14|Nicolas Teixeira|       15|  Olívia Almeida|
|     15|  Olívia Almeida|       16|  Paulo Henrique|
|     17|     Quezia Lima|       18| Rafael Nogueira|
|     18| Rafael Nogueira|       19|  Sabrina Farias|
|     19|  Sabrina Farias|       20| Thiago Monteiro|
|      1|     Alice Souza|        3|    Carla Mendes|
|      1|     Alice Souza|        2|      Bruno Lima|
|      2|      Bruno Lima|        5| Eduarda Ribeiro|
|      2|      Bruno Lima|        3|    Carla Mendes|
|      4|    Diego Santos|        5| Eduarda Ribeiro|
|      6|   Felipe Araújo|        7|  Gabriela Rocha|
|      7|  Gabriela Rocha|        8|  Henrique Silva|
|      8|  Henrique Silva|  

## 24. Quem são os usuários que comentaram no próprio post?

In [59]:
# Encontrar os usuários que comentaram em seus próprios posts
spark.sql("""
SELECT c.comment_id, c.post_id, c.user_id, c.content
FROM Comments c
JOIN Posts p ON c.post_id = p.post_id
WHERE c.user_id = p.user_id
""").show()


+----------+-------+-------+-------+
|comment_id|post_id|user_id|content|
+----------+-------+-------+-------+
+----------+-------+-------+-------+



## 25. Qual usuário recebeu mais curtidas?

In [61]:
# Contar as reações de tipo 'Like' e determinar o usuário com mais curtidas
spark.sql("""
SELECT user_id, COUNT(*) AS like_count
FROM Reactions
WHERE reaction_type = 'Like'
GROUP BY user_id
ORDER BY like_count DESC
LIMIT 1
""").show()


+-------+----------+
|user_id|like_count|
+-------+----------+
|     20|         1|
+-------+----------+



## 26. Quem tem mais amigos?

In [62]:
# Contar o número de amigos para cada usuário e determinar quem tem mais amigos
spark.sql("""
SELECT user_id, COUNT(*) AS friend_count
FROM (
    SELECT user_id1 AS user_id FROM Friends
    UNION ALL
    SELECT user_id2 AS user_id FROM Friends
) AS all_friends
GROUP BY user_id
ORDER BY friend_count DESC
LIMIT 1
""").show()

+-------+------------+
|user_id|friend_count|
+-------+------------+
|      2|           3|
+-------+------------+



## 27. Quantos posts cada usuário fez?

In [63]:
# Contar o número de posts feitos por cada usuário
spark.sql("""
SELECT user_id, COUNT(*) AS post_count
FROM Posts
GROUP BY user_id
ORDER BY post_count DESC
""").show()

+-------+----------+
|user_id|post_count|
+-------+----------+
|     12|         1|
|      1|         1|
|     16|         1|
|      6|         1|
|     13|         1|
|      3|         1|
|     20|         1|
|      5|         1|
|     19|         1|
|     15|         1|
|     17|         1|
|      9|         1|
|      4|         1|
|      8|         1|
|      7|         1|
|     11|         1|
|     10|         1|
|      2|         1|
|     14|         1|
|     18|         1|
+-------+----------+



## 28. Quem fez o maior número de comentários?

In [64]:
# Contar o número de comentários feitos por cada usuário e determinar quem fez o maior número
spark.sql("""
SELECT user_id, COUNT(*) AS comment_count
FROM Comments
GROUP BY user_id
ORDER BY comment_count DESC
LIMIT 1
""").show()


+-------+-------------+
|user_id|comment_count|
+-------+-------------+
|     12|            1|
+-------+-------------+



## 29. Qual o tempo médio entre a criação de um usuário e seu primeiro post?
FUNÇÕES DE DATA


In [65]:
# Calcular o tempo médio entre a criação de um usuário e seu primeiro post
spark.sql("""
WITH FirstPost AS (
    SELECT user_id, MIN(created_at) AS first_post_date
    FROM Posts
    GROUP BY user_id
),
UserCreation AS (
    SELECT user_id, created_at AS user_creation_date
    FROM Users
)
SELECT AVG(DATEDIFF(fp.first_post_date, uc.user_creation_date)) AS avg_time_to_first_post
FROM FirstPost fp
JOIN UserCreation uc ON fp.user_id = uc.user_id
""").show()

+----------------------+
|avg_time_to_first_post|
+----------------------+
|                249.15|
+----------------------+



## 30. Quantos posts foram criados por mês?

In [66]:
# Contar quantos posts foram criados por mês
spark.sql("""
SELECT YEAR(created_at) AS year, MONTH(created_at) AS month, COUNT(*) AS post_count
FROM Posts
GROUP BY YEAR(created_at), MONTH(created_at)
ORDER BY year DESC, month DESC
""").show()

+----+-----+----------+
|year|month|post_count|
+----+-----+----------+
|2024|    2|        20|
+----+-----+----------+



## 31. Quantos usuários se cadastraram no último ano?

In [67]:
# Contar quantos usuários se cadastraram no último ano
spark.sql("""
SELECT COUNT(*) AS users_registered_last_year
FROM Users
WHERE YEAR(created_at) = YEAR(CURRENT_DATE()) - 1
""").show()

+--------------------------+
|users_registered_last_year|
+--------------------------+
|                         0|
+--------------------------+



## 32. Qual é a idade média dos usuários?

In [68]:
# Calcular a idade média dos usuários
spark.sql("""
SELECT AVG(DATEDIFF(CURRENT_DATE(), TO_DATE(birth_date)) / 365.25) AS avg_age
FROM Users
""").show()

+-------------+
|      avg_age|
+-------------+
|31.1997262000|
+-------------+



## 33. Liste os usuários cujo nome começa com "A".


In [69]:
# Listar os usuários cujo nome começa com "A"
spark.sql("SELECT * FROM Users WHERE name LIKE 'A%'").show()

+-------+-----------+---------------+----------+---------+-------+-------------------+
|user_id|       name|          email|birth_date|     city|country|         created_at|
+-------+-----------+---------------+----------+---------+-------+-------------------+
|      1|Alice Souza|alice@email.com|1995-04-23|São Paulo| Brasil|2023-01-10 14:30:00|
+-------+-----------+---------------+----------+---------+-------+-------------------+



## 34. Encontre todos os posts que mencionam "PySpark".

In [70]:
# Encontrar posts que mencionam "PySpark"
spark.sql("SELECT * FROM Posts WHERE content LIKE '%PySpark%'").show()

+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
|      7|      7|Estou aprendendo ...|2024-02-07 14:20:00|
+-------+-------+--------------------+-------------------+



## 35. Liste os e-mails que pertencem ao domínio "email.com".


In [71]:
# Listar e-mails que pertencem ao domínio "email.com"
spark.sql("SELECT email FROM Users WHERE email LIKE '%@email.com'").show()

+------------------+
|             email|
+------------------+
|   karen@email.com|
|   lucas@email.com|
| mariana@email.com|
| nicolas@email.com|
|  olivia@email.com|
|   paulo@email.com|
|  quezia@email.com|
|  rafael@email.com|
| sabrina@email.com|
|  thiago@email.com|
|   alice@email.com|
|   bruno@email.com|
|   carla@email.com|
|   diego@email.com|
| eduarda@email.com|
|  felipe@email.com|
|gabriela@email.com|
|henrique@email.com|
| isabela@email.com|
|    joao@email.com|
+------------------+



## 36. Qual usuário fez mais posts no mesmo dia?

In [72]:
# Encontrar o usuário que fez mais posts no mesmo dia
spark.sql("""
SELECT user_id, DATE(created_at) AS post_date, COUNT(*) AS post_count
FROM Posts
GROUP BY user_id, post_date
ORDER BY post_count DESC
LIMIT 1
""").show()

+-------+----------+----------+
|user_id| post_date|post_count|
+-------+----------+----------+
|      9|2024-02-09|         1|
+-------+----------+----------+



## 37. Qual post recebeu mais reações?

In [73]:
# Encontrar o post que recebeu mais reações
spark.sql("""
SELECT post_id, COUNT(*) AS reaction_count
FROM Reactions
GROUP BY post_id
ORDER BY reaction_count DESC
LIMIT 1
""").show()

+-------+--------------+
|post_id|reaction_count|
+-------+--------------+
|     12|             1|
+-------+--------------+



## 38. Qual usuário recebeu mais "Love" em seus posts?

In [74]:
# Encontrar o usuário que recebeu mais reações de "Love" em seus posts
spark.sql("""
SELECT p.user_id, COUNT(*) AS love_count
FROM Reactions r
JOIN Posts p ON r.post_id = p.post_id
WHERE r.reaction_type = 'Love'
GROUP BY p.user_id
ORDER BY love_count DESC
LIMIT 1
""").show()

+-------+----------+
|user_id|love_count|
+-------+----------+
|     16|         1|
+-------+----------+



## 39. Quantos amigos cada usuário tem?

In [75]:
# Contar quantos amigos cada usuário tem
spark.sql("""
SELECT user_id, COUNT(*) AS friend_count
FROM (
    SELECT user_id1 AS user_id FROM Friends
    UNION ALL
    SELECT user_id2 AS user_id FROM Friends
) AS all_friends
GROUP BY user_id
ORDER BY friend_count DESC
""").show()

+-------+------------+
|user_id|friend_count|
+-------+------------+
|      2|           3|
|     18|           2|
|     13|           2|
|     12|           2|
|      3|           2|
|     20|           2|
|      5|           2|
|     15|           2|
|     19|           2|
|      1|           2|
|      9|           2|
|      8|           2|
|      7|           2|
|     21|           2|
|     10|           2|
|     11|           2|
|     14|           2|
|      6|           1|
|     16|           1|
|      4|           1|
+-------+------------+
only showing top 20 rows



## 40. Quem tem mais amigos em comum com outro usuário?

In [76]:
# Encontrar quem tem mais amigos em comum com outro usuário
spark.sql("""
WITH CommonFriends AS (
    SELECT f1.user_id1 AS user1, f1.user_id2 AS friend1, f2.user_id2 AS friend2
    FROM Friends f1
    JOIN Friends f2 ON f1.user_id2 = f2.user_id1
    WHERE f1.user_id1 < f2.user_id1  -- Evita duplicatas de amizade (A, B) e (B, A)
)
SELECT user1, friend1, friend2, COUNT(*) AS common_friends_count
FROM CommonFriends
GROUP BY user1, friend1, friend2
ORDER BY common_friends_count DESC
LIMIT 1
""").show()


+-----+-------+-------+--------------------+
|user1|friend1|friend2|common_friends_count|
+-----+-------+-------+--------------------+
|    8|      9|     10|                   1|
+-----+-------+-------+--------------------+



## 41. Encontre pares de usuários que são amigos entre si.

In [78]:
# Encontrar pares de usuários que são amigos entre si
spark.sql("""
SELECT
    LEAST(f1.user_id1, f1.user_id2) AS user1,
    GREATEST(f1.user_id1, f1.user_id2) AS user2
FROM Friends f1
JOIN Friends f2
    ON f1.user_id1 = f2.user_id2
    AND f1.user_id2 = f2.user_id1
""").show()



+-----+-----+
|user1|user2|
+-----+-----+
+-----+-----+



## 42. Liste os usuários que não postaram nada.


In [79]:
# Listar usuários que não postaram nada
spark.sql("""
SELECT u.user_id, u.name
FROM Users u
LEFT JOIN Posts p ON u.user_id = p.user_id
WHERE p.user_id IS NULL
""").show()

+-------+----+
|user_id|name|
+-------+----+
+-------+----+



## 43. Liste os usuários que nunca receberam curtidas.

In [80]:
# Listar usuários que nunca receberam curtidas ("Like")
spark.sql("""
SELECT u.user_id, u.name
FROM Users u
LEFT JOIN Posts p ON u.user_id = p.user_id
LEFT JOIN Reactions r ON p.post_id = r.post_id AND r.reaction_type = 'Like'
WHERE r.reaction_type IS NULL
""").show()

+-------+----------------+
|user_id|            name|
+-------+----------------+
|     11|  Karen Oliveira|
|     12| Lucas Fernandes|
|     13|   Mariana Costa|
|     14|Nicolas Teixeira|
|     15|  Olívia Almeida|
|     16|  Paulo Henrique|
|     18| Rafael Nogueira|
|     20| Thiago Monteiro|
|      2|      Bruno Lima|
|      3|    Carla Mendes|
|      4|    Diego Santos|
|      5| Eduarda Ribeiro|
|      7|  Gabriela Rocha|
|      8|  Henrique Silva|
|      9| Isabela Martins|
+-------+----------------+



## 44. Qual porcentagem de posts recebeu ao menos um comentário?

In [81]:
# Calcular a porcentagem de posts que receberam ao menos um comentário
spark.sql("""
WITH PostComments AS (
    SELECT DISTINCT post_id
    FROM Comments
)
SELECT
    (COUNT(pc.post_id) / (SELECT COUNT(*) FROM Posts)) * 100 AS percentage
FROM PostComments pc
""").show()

+----------+
|percentage|
+----------+
|     100.0|
+----------+



In [82]:
# Calcular a porcentagem de posts que receberam mais de um comentário
spark.sql("""
WITH PostCommentCounts AS (
    SELECT post_id, COUNT(*) AS comment_count
    FROM Comments
    GROUP BY post_id
)
SELECT
    (COUNT(pc.post_id) / (SELECT COUNT(*) FROM Posts)) * 100 AS percentage
FROM PostCommentCounts pc
WHERE pc.comment_count > 1
""").show()


+----------+
|percentage|
+----------+
|       0.0|
+----------+



## 45. Qual foi o post mais antigo da plataforma?

In [83]:
# Encontrar o post mais antigo
spark.sql("""
SELECT post_id, user_id, content, created_at
FROM Posts
ORDER BY created_at ASC
LIMIT 1
""").show()


+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
+-------+-------+--------------------+-------------------+



In [84]:
# Encontrar o post mais recente
spark.sql("""
SELECT post_id, user_id, content, created_at
FROM Posts
ORDER BY created_at DESC
LIMIT 1
""").show()


+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|     20|     20|Acho que estou co...|2024-02-20 09:30:00|
+-------+-------+--------------------+-------------------+



In [85]:
# Encontrar os 5 posts mais antigos
spark.sql("""
SELECT post_id, user_id, content, created_at
FROM Posts
ORDER BY created_at ASC
LIMIT 5
""").show()


+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...|2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...|2024-02-03 20:45:00|
|      4|      4|Explorando novos ...|2024-02-04 13:10:00|
|      5|      5|Quais são seus po...|2024-02-05 09:30:00|
+-------+-------+--------------------+-------------------+



In [86]:
# Encontrar os 5 posts mais antigos
spark.sql("""
SELECT post_id, user_id, content, created_at
FROM Posts
ORDER BY created_at ASC
LIMIT 5
""").show()


+-------+-------+--------------------+-------------------+
|post_id|user_id|             content|         created_at|
+-------+-------+--------------------+-------------------+
|      1|      1|Adoro programar e...|2024-02-01 10:00:00|
|      2|      2|Hoje foi um dia i...|2024-02-02 15:30:00|
|      3|      3|Alguém tem recome...|2024-02-03 20:45:00|
|      4|      4|Explorando novos ...|2024-02-04 13:10:00|
|      5|      5|Quais são seus po...|2024-02-05 09:30:00|
+-------+-------+--------------------+-------------------+

