# Comandos para realização do trabalho da matéria de Big Data com uso da biblioteca PySpark.

## <font color=red>Observação importante:</font>

<font color=yellow>Trabalho realizado com uso da biblioteca pandas não será aceito!</font>

## Upload do arquivo `imdb-reviews-pt-br.csv` para dentro do Google Colab

In [1]:
!wget https://raw.githubusercontent.com/N-CPUninter/Big_Data/main/data/imdb-reviews-pt-br.zip -O imdb-reviews-pt-br.zip
!unzip imdb-reviews-pt-br.zip
!rm imdb-reviews-pt-br.zip

--2025-09-17 09:28:24--  https://raw.githubusercontent.com/N-CPUninter/Big_Data/main/data/imdb-reviews-pt-br.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 49549692 (47M) [application/zip]
Saving to: ‘imdb-reviews-pt-br.zip’


2025-09-17 09:28:24 (204 MB/s) - ‘imdb-reviews-pt-br.zip’ saved [49549692/49549692]

Archive:  imdb-reviews-pt-br.zip
  inflating: imdb-reviews-pt-br.csv  


## Instalação manual das dependências para uso do pyspark no Google Colab

In [2]:
!pip install pyspark



## Importar, instanciar e criar a SparkSession

In [3]:
from pyspark.sql import SparkSession

appName = "PySpark Trabalho de Big Data"
master = "local"

spark = SparkSession.builder.appName(appName).master(master).getOrCreate()

## Criar spark dataframe do CSV utilizando o método read.csv do spark

In [4]:
imdb_df = spark.read.csv('imdb-reviews-pt-br.csv',
                         header=True,
                         quote="\"",
                         escape="\"",
                         encoding="UTF-8")

# Questão 1

## Criar funções de MAP:
- Criar função para mapear o "sentiment" como chave e o "id" como valor do tipo inteiro

In [5]:
def map1(x):
  if x['sentiment'] == 'neg':
    return ('neg', int(x['id']))
  else:
    return ('other', 0)

## Cria funções de REDUCE:

- Criar função de reduce para somar os IDs por "sentiment".

In [6]:
def reduceByKey1(x,y):
  return x + y

## Aplicação do map/reduce e visualização do resultado

In [7]:
ru = 0000000
rdd = imdb_df.rdd

# Aplicando a função de map
mapped_rdd = rdd.map(map1)

# Filtrando apenas os sentimentos negativos
negative_rdd = mapped_rdd.filter(lambda x: x[0] == 'neg')

# Aplicando a função de reduce
result = negative_rdd.map(lambda x: x[1]).reduce(reduceByKey1)

# Visualizando o resultado
result_df = spark.createDataFrame([(result,ru)], ["Soma dos IDs Negativos", "RU"])
result_df.show()

+----------------------+---+
|Soma dos IDs Negativos| RU|
+----------------------+---+
|             459568555|  0|
+----------------------+---+



In [9]:
##VERIFICACAO DO RESULTADO EM PYTHON
import pandas as pd

def soma_ids_negativos(csv_file):
    # Carregar o arquivo CSV
    df = pd.read_csv('imdb-reviews-pt-br.csv')

    # Filtrar os filmes com avaliação negativa
    negativos = df[df['sentiment'] == 'neg']

    # Somar os valores da coluna 'id'
    soma_ids = negativos['id'].sum()

    return soma_ids

# Exemplo de uso
csv_file = 'imdb-reviews-pt-br.csv'
resultado = soma_ids_negativos(csv_file)
print(f"A soma dos IDs dos filmes classificados como negativos é: {resultado}")


A soma dos IDs dos filmes classificados como negativos é: 459568555


# Questão 2:

## Criar funções de MAP:
- Criar função para mapear o "sentiment" como chave e
uma tupla com a soma das palavras de cada texto como valor.

In [10]:
def map2(row):
  if row['sentiment'] == 'neg':
    words_count_pt = len(re.findall(r'\w+', row['text_pt']))
    words_count_en = len(re.findall(r'\w+', row['text_en']))
    return ('neg', (words_count_en, words_count_pt))
  else:
    return ('other', (0,0))

## Cria funções de REDUCE:

- Criar função de reduce para somar o numero de palavras de cada texto português e inglês por "sentiment".

In [11]:
def reduceByKey2(x,y):
  # x e y são tuplas no formato ('sentiment', (words_count_pt, words_count_en))
  #sentiment = x[0]
  total_words_pt = x[0] + y[0]
  total_words_en = x[1] + y[1]
  return (total_words_pt, total_words_en)

## Aplicação do map/reduce e visualização do resultado

1. Aplicar o map/reduce no seu dataframe spark e realizar o collect() ao final
2. Selecionar os dados referentes aos textos negativos para realizar a subtração.
3. Realizar a subtração das contagens de palavras dos textos negativos para obter o resultado final

In [12]:
# Coloque aqui suas linhas de código final
# "id","text_en","text_pt","sentiment" colunas do csv

import re # Import the regular expression module
rdd2 = imdb_df.rdd
ru = 0000000

# Aplicando a função de map
mapped_rdd2 = rdd2.map(lambda row: map2(row.asDict()))

# Filtrando apenas os sentimentos negativos
negative_rdd2 = mapped_rdd2.filter(lambda x: x[0] == 'neg')

# Aplicando a função de reduce
reduced_rdd2 = negative_rdd2.map(lambda x: x[1]).reduce(reduceByKey2)

# Coletando e visualizando o resultado
total_words_pt, total_words_en = reduced_rdd2

# Calculando a diferença entre palavras em português e inglês
difference = total_words_pt - total_words_en

# Visualizando o resultado
result_df = spark.createDataFrame([(difference,ru)], ["Diferença de palavras (português - inglês):", "RU"])
result_df.show()

+-------------------------------------------+---+
|Diferença de palavras (português - inglês):| RU|
+-------------------------------------------+---+
|                                      34971|  0|
+-------------------------------------------+---+

