# Projeto BIG DATA I

## Objetivo de projeto

Como queremos demostrar que de fato a solução proposta traz uma melhora, foi solicitado implementar uma análise comparativa de resultados usando a antiga abordagem (usando pandas) e usando a nova proposta de solução (pyspark). Para isso, tome em consideração o seguinte:

1. Escolha dois conjuntos de dados interessantes, sendo que um deles é pequeno (menos de 10.000 linhas) e o outro bem maior (acima de 1.000.000 linhas).

2. Aplique todas as etapas de ETL nos dois conjuntos de dados usando pandas y pyspark. As etapas incluem: (1) Extração dos dados, por exemplo de um csv, (2) Tratamento dos dados (limpeza, alteração de nomes de colunas, criação de mais tabelas, transformação nas colunas, etc.), e, (3) Carregamento dos dados (salvar a transformação feita sobre os dados).

3. Lembre que cada etapa tem que ser feita usando unicamente pandas ou pyspark.

4. Como o objetivo é fazer uma análise comparativa, tome em consideração o tempo que demora cada etapa, para depois facilitar as comparações.

Boa sorte e divirta-se!!

## Importando Bibliotecas

In [1]:
import pandas as pd
from pyspark.sql import SparkSession
import timeit

## Importando arquivo csv

In [22]:
# Iniciando a sessão do Spark
spark = SparkSession.builder.appName("Pandas vs PySpark").getOrCreate()

# Lendo os datasets csv usando pandas
df_Netflix_pandas = pd.read_csv("datasets/Netflix_movies.csv")
df_Fraud_pandas = pd.read_csv("datasets/Fraudulent_Transactions_Data.csv")

# Lendo os datasets csv usando PySpark
df_Netflix_spark = spark.read.csv("datasets/Netflix_movies.csv", header=True, inferSchema=True)
df_Fraud_spark = spark.read.csv("datasets/Fraudulent_Transactions_Data.csv", header=True, inferSchema=True)

## Comparar o tempo de execução de algumas operações comuns usando pandas e PySpark

In [30]:
# Função para calcular o tempo
def print_time_difference(pandas_time, spark_time):
    """
    Calcula a diferença percentual entre os tempos de execução do Pandas e do PySpark e imprime o resultado.

    Args:
    pandas_time (float): Tempo de execução do Pandas.
    spark_time (float): Tempo de execução do PySpark.

    Returns:
    None
    """
    percentual_diff = (pandas_time - spark_time) / pandas_time * 100

    print("Tempo de execução (Pandas): ", pandas_time)
    print("Tempo de execução (PySpark): ", spark_time)
    print("Diferença percentual: ", percentual_diff, "%")

    if pandas_time < spark_time:
        print("Pandas foi mais rápido.")
    else:
        print("PySpark foi mais rápido.")

In [24]:
# Operação de contar a quantidade de linhas do dataset Netflix usando pandas
start = timeit.default_timer()
df_Netflix_pandas_lines = df_Netflix_pandas.count()[0]
pandas_time = timeit.default_timer() - start

# Operação de contar a quantidade de linhas do dataset Netflix usando PySpark
start = timeit.default_timer()
df_Netflix_spark_lines = df_Netflix_spark.count()
spark_time = timeit.default_timer() - start

print("Quantidade de linhas (Pandas): ", df_Netflix_pandas_lines)
print("Quantidade de linhas (PySpark): ", df_Netflix_spark_lines)
print_time_difference(pandas_time, spark_time)

Quantidade de linhas (Pandas):  3323
Quantidade de linhas (PySpark):  3323
Tempo de execução (Pandas):  0.004980199970304966
Tempo de execução (PySpark):  0.06663289992138743
Diferença percentual:  -1237.9563133748447 %
Pandas foi mais rápido.


In [25]:
# Operação de contar a quantidade de linhas do dataset Fraude usando pandas
start = timeit.default_timer()
df_Fraud_pandas_lines = df_Fraud_pandas.count()[0]
pandas_time = timeit.default_timer() - start

# Operação de contar a quantidade de linhas do dataset Fraude usando PySpark
start = timeit.default_timer()
df_Fraud_spark_lines = df_Fraud_spark.count()
spark_time = timeit.default_timer() - start

print("Quantidade de linhas (Pandas): ", df_Fraud_pandas_lines)
print("Quantidade de linhas (PySpark): ", df_Fraud_spark_lines)
print_time_difference(pandas_time, spark_time)

Quantidade de linhas (Pandas):  6362620
Quantidade de linhas (PySpark):  6362620
Tempo de execução (Pandas):  1.728370700031519
Tempo de execução (PySpark):  0.42230560001917183
Diferença percentual:  75.56626017720211 %
PySpark foi mais rápido.


In [26]:

# Contar Distintos - Netflix

# Descoberta de uma Coluna com um valor de distintos alto
print(list(df_Netflix_pandas.columns))

# Operação de contar a quantidade de distintos na coluna Actors do Netflix usando Pandas

start = timeit.default_timer()
df_Netflix_pandas_unique = df_Netflix_pandas["actors"].unique()
pandas_time = timeit.default_timer() - start

# Operação de contar a quantidade de distintos na coluna Actors do Netflix usando PySpark
start = timeit.default_timer()
df_Netflix_spark_unique = df_Netflix_spark.select("actors").distinct().count()
spark_time = timeit.default_timer() - start

print_time_difference(pandas_time, spark_time)

['Unnamed: 0', 'movie_name', 'Duration', 'year', 'genre', 'director', 'actors', 'country', 'rating', 'enter_in_netflix']
Tempo de execução (Pandas):  0.0012341999681666493
Tempo de execução (PySpark):  0.20459259999915957
Diferença percentual:  -16476.9409557734 %
Pandas foi mais rápido.


In [27]:

# Contar Distintos - Fraude

# Descoberta de uma Coluna com um valor de distintos alto
print(list(df_Fraud_pandas.columns))

# Realizar distintos na coluna "nameOrig"
start = timeit.default_timer()
df_Fraud_pandas_lines = df_Fraud_pandas["nameOrig"].unique()
pandas_time = timeit.default_timer() - start

# Operação de contar a quantidade de distintos do dataset Netflix usando PySpark

start = timeit.default_timer()
df_Fraud_spark_lines = df_Fraud_spark.select("nameOrig").distinct()
spark_time = timeit.default_timer() - start

print_time_difference(pandas_time, spark_time)

['step', 'type', 'amount', 'nameOrig', 'oldbalanceOrg', 'newbalanceOrig', 'nameDest', 'oldbalanceDest', 'newbalanceDest', 'isFraud', 'isFlaggedFraud']
Tempo de execução (Pandas):  2.038435299997218
Tempo de execução (PySpark):  0.0064168000826612115
Diferença percentual:  99.68520952896223 %
PySpark foi mais rápido.


In [28]:
# Mudança do nome das Colunas para portugues - Pandas

new_columns = ["passo", "tipo", "quantidade", 
                "nome_origem", "balanço_antigo_origem", "balanço_novo_origem", 
                "nome_destino", "balanço_antigo_destino", "balanço_novo_destino", 
                "e_fraude", "flag_de_fraude"]

print("Colunas Antigas: " + str(list(df_Fraud_pandas.columns)))
start = timeit.default_timer()
df_Fraud_pandas.columns = new_columns
pandas_time = timeit.default_timer() - start

print("Novas colunas: " + str(list(df_Fraud_pandas.columns)))

# Mudança do nome das Colunas para portugues - PySpark

print("\nColunas Antigas: " + str(list(df_Fraud_spark.columns)))
start = timeit.default_timer()
df_Fraud_spark = df_Fraud_spark.toDF(*new_columns)
spark_time = timeit.default_timer() - start
print("Novas colunas: " + str(list(df_Fraud_spark.columns)))

print("\n")
print_time_difference(pandas_time, spark_time)

Colunas Antigas: ['step', 'type', 'amount', 'nameOrig', 'oldbalanceOrg', 'newbalanceOrig', 'nameDest', 'oldbalanceDest', 'newbalanceDest', 'isFraud', 'isFlaggedFraud']
Novas colunas: ['passo', 'tipo', 'quantidade', 'nome_origem', 'balanço_antigo_origem', 'balanço_novo_origem', 'nome_destino', 'balanço_antigo_destino', 'balanço_novo_destino', 'e_fraude', 'flag_de_fraude']

Colunas Antigas: ['step', 'type', 'amount', 'nameOrig', 'oldbalanceOrg', 'newbalanceOrig', 'nameDest', 'oldbalanceDest', 'newbalanceDest', 'isFraud', 'isFlaggedFraud']
Novas colunas: ['passo', 'tipo', 'quantidade', 'nome_origem', 'balanço_antigo_origem', 'balanço_novo_origem', 'nome_destino', 'balanço_antigo_destino', 'balanço_novo_destino', 'e_fraude', 'flag_de_fraude']


Tempo de execução (Pandas):  0.0002367000561207533
Tempo de execução (PySpark):  0.004725900012999773
Diferença percentual:  -1896.577478878518 %
Pandas foi mais rápido.


In [29]:
# Contagem de frequência de cada valor em uma determinada coluna:
# Realizar a contagem de frequência de cada valor na coluna "country" do dataset Netflix

start = timeit.default_timer()
value_counts = df_Netflix_pandas["country"].value_counts()
pandas_time = timeit.default_timer() - start

start = timeit.default_timer()
value_counts = df_Netflix_spark.groupBy("country").count()
spark_time = timeit.default_timer() - start

print("Contagem de frequência de cada valor na coluna 'country' do dataset Netflix")
print_time_difference(pandas_time, spark_time)

# Realizar a contagem de frequência de cada valor na coluna "nome_destino" do dataset Fraude

start = timeit.default_timer()
value_counts = df_Fraud_pandas["nome_destino"].value_counts()
pandas_time = timeit.default_timer() - start

start = timeit.default_timer()
value_counts = df_Fraud_spark.groupBy("nome_destino").count()
spark_time = timeit.default_timer() - start

print("\nContagem de frequência de cada valor na coluna 'nome_destino' do dataset Fraude")
print_time_difference(pandas_time, spark_time)

Contagem de frequência de cada valor na coluna 'country' do dataset Netflix
Tempo de execução (Pandas):  0.0009373000357300043
Tempo de execução (PySpark):  0.00794579996727407
Diferença percentual:  -747.7328138673956 %
Pandas foi mais rápido.

Contagem de frequência de cada valor na coluna 'nome_destino' do dataset Fraude
Tempo de execução (Pandas):  2.9998164999997243
Tempo de execução (PySpark):  0.029606400057673454
Diferença percentual:  99.01305963022484 %
PySpark foi mais rápido.
