<a href="https://colab.research.google.com/github/joaovictor-1/collab/blob/main/trabalho_big_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Comandos para realização do trabalho da matéria de Big Data com uso da biblioteca PySpark.

Este notebook foi projetado para guiar os alunos na realização das práticas de Big Data utilizando PySpark. Certifique-se de seguir cada etapa cuidadosamente para garantir a correta execução das atividades.

Seu trabalho começará na célula 5. Execute as 4 primeiras células para iniciar a atividade.

## <font color=red>Observação importante:</font>

<font color=yellow>Trabalho realizado com uso da biblioteca pandas não será aceito!</font>

## Upload do arquivo `imdb-reviews-pt-br.csv` para dentro do Google Colab

Aqui, você fará o download do dataset necessário para as atividades. Certifique-se de que o arquivo foi descompactado corretamente antes de prosseguir.

In [1]:
!wget https://raw.githubusercontent.com/N-CPUninter/Big_Data/main/data/imdb-reviews-pt-br.zip -O imdb-reviews-pt-br.zip
!unzip imdb-reviews-pt-br.zip
!rm imdb-reviews-pt-br.zip

--2024-12-07 22:58:56--  https://raw.githubusercontent.com/N-CPUninter/Big_Data/main/data/imdb-reviews-pt-br.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 49549692 (47M) [application/zip]
Saving to: ‘imdb-reviews-pt-br.zip’


2024-12-07 22:58:57 (197 MB/s) - ‘imdb-reviews-pt-br.zip’ saved [49549692/49549692]

Archive:  imdb-reviews-pt-br.zip
  inflating: imdb-reviews-pt-br.csv  


## Instalação manual das dependências para uso do pyspark no Google Colab

Esta etapa garante que todas as bibliotecas necessárias para o PySpark sejam instaladas no Google Colab.

In [2]:
!pip install pyspark



## Importar, instanciar e criar a SparkSession

A SparkSession é o ponto de entrada para usar o PySpark. Certifique-se de configurar corretamente o nome do aplicativo e o master.

In [3]:
from pyspark.sql import SparkSession

appName = "PySpark Trabalho de Big Data"
master = "local"

spark = SparkSession.builder.appName(appName).master(master).getOrCreate()

## Criar spark dataframe do CSV utilizando o método read.csv do spark

Não altere este código e use o dataframe imdb_df criado aqui em todo o seu trabalho. A criação de um dataframe diferente deste poderá causar erros na coluna sentiment e isso refletirá em erros de resposta das questões.

In [4]:
imdb_df = spark.read.csv('imdb-reviews-pt-br.csv',
                         header=True,
                         quote="\"",
                         escape="\"",
                         encoding="UTF-8")

In [5]:
from pyspark.sql import SparkSession


In [6]:
spark = SparkSession.builder.appName("CalculatingNegativeSentiments").getOrCreate()

In [44]:
negative_df = df.filter(df.sentiment == "neg")

In [15]:
total_sum = negative_df.selectExpr("sum(id)").collect()[0][0]


In [17]:
print("João Victor, RU: 4538676, coonsegui chegar no resultado da soma dos 'id' dos filmes classificados como negativos em:", total_sum)


João Victor, RU: 4538676, coonsegui chegar no resultado da soma dos 'id' dos filmes classificados como negativos em: 247015948


In [18]:
def map_sentiment_id(row):
    sentiment = row.sentiment
    id_value = int(row.id)
    return (sentiment, id_value)

In [19]:
spark = SparkSession.builder.appName("MapSentimentId").getOrCreate()

In [20]:
df = spark.read.csv("/content/imdb-reviews-pt-br.csv", header=True, inferSchema=True)

In [40]:
sentiment_id_rdd = df.rdd.map(map_sentiment_id)

In [41]:
print(sentiment_id_rdd.take(10))

[('neg', 1), ('neg', 2), (' exceto Paxton e o sem-teto e todos recebem o que merecem. Os dois únicos negros que podem atuar são o sem-teto e o viciado', 3), ('neg', 4), ('neg', 5), (' excuse me', 6), ('neg', 7), (' forcedly so', 8), (' and more talk. Youll get to see the less than stellar cast of three as they talk on the bus', 9), ('neg', 10)]


In [43]:
print("Resultado do mapeamento:")
print("João Victor RU:4538676")
for result in sentiment_id_rdd.take(10):
    print("Sentiment:", result[0], "ID:", result[1])

Resultado do mapeamento:
João Victor RU:4538676
Sentiment: neg ID: 1
Sentiment: neg ID: 2
Sentiment:  exceto Paxton e o sem-teto e todos recebem o que merecem. Os dois únicos negros que podem atuar são o sem-teto e o viciado ID: 3
Sentiment: neg ID: 4
Sentiment: neg ID: 5
Sentiment:  excuse me ID: 6
Sentiment: neg ID: 7
Sentiment:  forcedly so ID: 8
Sentiment:  and more talk. Youll get to see the less than stellar cast of three as they talk on the bus ID: 9
Sentiment: neg ID: 10


# Questão 1

Nesta questão, você irá calcular a soma dos IDs para entradas onde o sentimento ('sentiment') é 'neg'.

### Objetivo:
- Usar a coluna 'sentiment' como chave e somar os valores da coluna 'id'.

## Criar funções de MAP:
- Criar função para mapear o "sentiment" como chave e o "id" como valor do tipo inteiro

A função map irá transformar cada linha do dataframe em uma **tupla** (chave-valor), onde:
- Chave: coluna 'sentiment'
- Valor: coluna 'id' convertida para inteiro.

In [8]:
from pyspark.sql import SparkSession

In [9]:
spark = SparkSession.builder.appName("WordCount").getOrCreate()

In [10]:
df = spark.read.csv("/content/imdb-reviews-pt-br.csv", header=True, inferSchema=True)

In [12]:
negative_df = df.filter(df.sentiment == "neg")

In [13]:
def map_function(row):
    text = row["text_pt"]
    words = text.split()
    return [(word, 1) for word in words]


## Cria funções de REDUCE:

- Criar função de reduce para somar os IDs por "sentiment".

A função reduce irá somar os valores dos IDs agrupados por chave ('sentiment').

In [21]:
def reduce_function(count1, count2):
    return count1 + count2

## Aplicação do map/reduce e visualização do resultado

Aqui, você aplicará as funções de map e reduce ao dataframe Spark para calcular os resultados. Não se esqueça de usar o método `.collect()` para visualizar os resultados.

In [22]:
word_counts = negative_df.rdd.flatMap(map_function).reduceByKey(reduce_function)


In [23]:
#testar contagem
result = word_counts.collect()
for word, count in result:
    print(f"Palavra: {word}, Contagem: {count}")

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
Palavra: tinha?, Contagem: 1
Palavra: 38?, Contagem: 1
Palavra: trabalhistas, Contagem: 1
Palavra: PESSOAS., Contagem: 1
Palavra: almoçar., Contagem: 1
Palavra: Benigni., Contagem: 1
Palavra: Roger,, Contagem: 1
Palavra: UM,, Contagem: 1
Palavra: anormais., Contagem: 1
Palavra: um.Caso, Contagem: 1
Palavra: precárias,, Contagem: 1
Palavra: estrangeiros.Roberto,, Contagem: 1
Palavra: Ebert;, Contagem: 1
Palavra: profusivamente, Contagem: 1
Palavra: Eberts., Contagem: 1
Palavra: Torrences., Contagem: 1
Palavra: Wendy., Contagem: 1
Palavra: pontiagudas,, Contagem: 1
Palavra: droney.2., Contagem: 1
Palavra: excluídas,, Contagem: 1
Palavra: incorretamente., Contagem: 1
Palavra: hedge,, Contagem: 1
Palavra: malho, Contagem: 2
Palavra: roque,, Contagem: 1
Palavra: irritado.3., Contagem: 1
Palavra: Halorann, Contagem: 1
Palavra: Overlook, Contagem: 1
Palavra: Hallorann, Contagem: 1
Palavra: roque., Contagem: 1
Palavra: ro

In [24]:
total_word_count = word_counts.map(lambda x: x[1]).reduce(reduce_function)

In [25]:
print("João Victor, RU: 4538676, E o total de palavras nos textos negativos:", total_word_count)

João Victor, RU: 4538676, E o total de palavras nos textos negativos: 2415179


# Questão 2:

Nesta questão, você irá calcular a diferença no número total de palavras entre textos negativos em português e inglês.

### Objetivo:
- Contar as palavras em cada idioma (colunas 'text_pt' e 'text_en') para entradas onde o sentimento ('sentiment') é 'neg'.
- Subtrair o total de palavras em inglês do total em português.

## Criar funções de MAP:
- Criar função para mapear o "sentiment" como chave de uma tupla principal e como valor uma outra tupla com a soma das palavras de cada idioma como valor.

A função map irá transformar cada linha do dataframe em uma tupla (chave-valor), onde:
- Chave: coluna 'sentiment'
- Valor: Nova tupla com:
  - Elemento 0: soma das palavras da coluna 'text_en'
  - Elemento 1: soma das palavras da coluna 'text_pt'

OU
- Chave: coluna 'sentiment'
- Valor: (soma das palavras da coluna 'text_pt') - (soma das palavras da coluna 'text_en')
  

Para contar as palavras deve-se primeiro separar os textos em uma lista de palavras para então descobrir o tamanho desta lista.
Dicas:

1. Use o método .split() e não .split(" ") de string para separar as palavras em uma lista ou use a função split(coluna de texto, regex) do pyspark com o regex igual à "[ ]+" ou "\s+"
2. Use len() para descobrir o tamanho da lista de palavras.

In [26]:
from pyspark.sql import SparkSession

In [27]:
spark = SparkSession.builder.appName("CountingWords").getOrCreate()

In [28]:
df = spark.read.csv("/content/imdb-reviews-pt-br.csv", header=True, inferSchema=True)

In [29]:
negative_df = df.filter(df.sentiment == "neg")

In [30]:
def count_words(text):
    return len(text.split())


In [31]:
def map_function(row):
    sentiment = row.sentiment
    pt_count = count_words(row.text_pt)
    en_count = count_words(row.text_en)
    return (sentiment, (pt_count, en_count))


## Cria funções de REDUCE:

- Criar função de reduce para somar o numero de palavras de cada texto português e inglês por "sentiment" (dependerá de como você optou por fazer sua função map2).

A função reduce irá somar os valores das quantidades de palavras agrupados por chave ('sentiment').

In [32]:
def reduce_function(x, y):
    pt_count = x[0] + y[0]
    en_count = x[1] + y[1]
    return (pt_count, en_count)

## Aplicação do map/reduce e visualização do resultado

1. Aplicar o map/reduce no seu dataframe spark e realizar o collect() ao final
2. Selecionar os dados referentes aos textos negativos para realizar a subtração.
3. Realizar a subtração das contagens de palavras dos textos negativos para obter o resultado final

In [33]:
word_counts = negative_df.rdd.map(map_function).reduceByKey(reduce_function)


In [34]:
result = word_counts.collect()

In [36]:
for sentiment, (pt_count, en_count) in result:
    print(f"RU 45386760 e o Sentimento é: {sentiment}, e as Contagens de Palavras em Português e Inglês são: {pt_count} - {en_count}")


RU 45386760 e o Sentimento é: neg, e as Contagens de Palavras em Português e Inglês são: 2415179 - 2399150


In [37]:
pt_count = next((pt_count for sentiment, (pt_count, en_count) in result if sentiment == "neg"), 0)
en_count = next((en_count for sentiment, (pt_count, en_count) in result if sentiment == "neg"), 0)

In [38]:
difference = pt_count - en_count

In [39]:
from pyspark.sql import SparkSession

# Inicializar a sessão Spark
spark = SparkSession.builder.appName("WordCountDifference").getOrCreate()

# Ler o arquivo CSV como um DataFrame
df = spark.read.csv("/content/imdb-reviews-pt-br.csv", header=True, inferSchema=True)

# Filtrar linhas com sentimento negativo
negative_df = df.filter(df.sentiment == "neg")

# Função de MAP para contar palavras
def map_function(row):
    sentiment = row["sentiment"]
    text = row["text_pt" if sentiment == "neg" else "text_en"]
    words = text.split()
    return (sentiment, len(words))

# Função de REDUCE para somar contagens de palavras
def reduce_function(count1, count2):
    return count1 + count2

# Aplicar a função de MAP e REDUCE
word_counts = negative_df.rdd.map(map_function).reduceByKey(reduce_function)

# Filtrar contagem de palavras para textos em português e inglês
pt_count = word_counts.filter(lambda x: x[0] == "neg").map(lambda x: x[1]).collect()[0]
en_count = word_counts.filter(lambda x: x[0] == "neg_en").map(lambda x: x[1]).collect()

# Verificar se há contagem de palavras em inglês e calcular a diferença
difference = pt_count - en_count[0] if en_count else pt_count

# Imprimir o resultado da diferença
print("João Victor, RU: 4538676, Diferença no total de palavras entre português e inglês:", difference)

João Victor, RU: 4538676, Diferença no total de palavras entre português e inglês: 2415179
