In [20]:
from pyspark.sql import SparkSession
# Inicialize a sessão Spark
spark = SparkSession.builder \
    .appName("Separate Authors") \
    .getOrCreate()


import pyspark.sql.functions as F
from pyspark.sql.functions import explode, split, trim, col, regexp_replace #selecionar ou manipular colunas em operações de transformação e modificar dados de uma coluna
import requests #biblioteca para trazer dados de uma URL
import json #biblioteca para ler json
from sqlalchemy import create_engine #criar sessão no postgres

In [21]:
df = spark.read.json("/home/naum/studies/bases/books.json")
df.printSchema()
df.show()

root
 |-- _id: string (nullable = true)
 |-- authors: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- categories: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- isbn: string (nullable = true)
 |-- longDescription: string (nullable = true)
 |-- pageCount: long (nullable = true)
 |-- publishedDate: struct (nullable = true)
 |    |-- $date: string (nullable = true)
 |-- shortDescription: string (nullable = true)
 |-- status: string (nullable = true)
 |-- thumbnailUrl: string (nullable = true)
 |-- title: string (nullable = true)

+---+--------------------+--------------------+----------+--------------------+---------+--------------------+--------------------+-------+--------------------+--------------------+
|_id|             authors|          categories|      isbn|     longDescription|pageCount|       publishedDate|    shortDescription| status|        thumbnailUrl|               title|
+---+--------------------+------------------

In [22]:
# Read JSON file into dataframe
df = spark.read.format('org.apache.spark.sql.json') \
        .load("/home/naum/studies/bases/books.json")
        
# Changing datatypes
df = df.withColumn("authors", F.col("authors").cast("string")) \
       .withColumn("categories", F.col("categories").cast("string")) \
       .withColumn("publishedDate", F.col("publishedDate").cast("string")) \
       .withColumn("pageCount", F.col("pageCount").cast("float")) \
       .withColumn("_id", F.col("_id").cast("float"))        
       
# Removing [, ], { and }       
df = df.withColumn("authors", regexp_replace(F.col("authors"), "[\[\]]", "")) \
        .withColumn("categories", regexp_replace(F.col("categories"), "[\[\]]", "")) \
        .withColumn("publishedDate", regexp_replace(F.col("publishedDate"), "[{}]", ""))

# Remover espaços em branco no início e no final da coluna 'authors'
df = df.withColumn('authors', trim(df['authors']))

In [23]:
#FILTRAR OBRAS COM MENOS OU IGUAL A 200 PAGINAS 
df.filter((col('pageCount') <= 200) & (col('pageCount') > 0)).show()


+-----+--------------------+--------------------+----------+--------------------+---------+--------------------+--------------------+-------+--------------------+--------------------+
|  _id|             authors|          categories|      isbn|     longDescription|pageCount|       publishedDate|    shortDescription| status|        thumbnailUrl|               title|
+-----+--------------------+--------------------+----------+--------------------+---------+--------------------+--------------------+-------+--------------------+--------------------+
|176.0|Timothy D. Korson...|Object-Technology...| 132612313|Object Technology...|    200.0|1996-06-01T00:00:...|Object Technology...|PUBLISH|https://s3.amazon...|Object Technology...|
|275.0|Jothy Rosenberg, ...|            Internet|1935182528|                NULL|    200.0|2010-11-22T00:00:...|                NULL|PUBLISH|https://s3.amazon...|The Cloud at Your...|
|293.0|Bruce Simpson, Jo...|      Java, Business| 132632942|The meteoric rise...

In [24]:
# Crie um DataFrame com os autores separados
df_autores_separados = df.withColumn("authors", explode(split("authors", ",")))\
                            .withColumn("categories", explode(split("categories", ",")))\
                            .withColumn("authors", explode(split("authors", "with")))    

# Mostre o DataFrame resultante
df_autores_separados.show()

+---+-----------------+--------------------+----------+--------------------+---------+--------------------+--------------------+-------+--------------------+--------------------+
|_id|          authors|          categories|      isbn|     longDescription|pageCount|       publishedDate|    shortDescription| status|        thumbnailUrl|               title|
+---+-----------------+--------------------+----------+--------------------+---------+--------------------+--------------------+-------+--------------------+--------------------+
|1.0| W. Frank Ableson|         Open Source|1933988673|Android is an ope...|    416.0|2009-04-01T00:00:...|Unlocking Android...|PUBLISH|https://s3.amazon...|   Unlocking Android|
|1.0| W. Frank Ableson|              Mobile|1933988673|Android is an ope...|    416.0|2009-04-01T00:00:...|Unlocking Android...|PUBLISH|https://s3.amazon...|   Unlocking Android|
|1.0|  Charlie Collins|         Open Source|1933988673|Android is an ope...|    416.0|2009-04-01T00:00:..

In [25]:
#Limpando o campo authors e _id, tirando valores nulos e removendo duplicatas
df_normalizados = df_autores_separados
df_novo = (
df_normalizados
    .filter(
        (F.isnotnull('_id'))
    )
.dropDuplicates(['_id', 'authors'])
.withColumn('authors', F.when((df_normalizados['authors'].like('% ')) | (F.trim(df_normalizados['authors']) == ''), 'Desconhecido').otherwise(df_normalizados['authors']))
.withColumn('authors', trim(col('authors')))  # Remove espaços em branco extras
.na.fill({'publishedDate': 'Desconhecido'})
.na.fill({'longDescription': 'Desconhecido'})
.na.fill({'shortDescription': 'Desconhecido'})
.withColumn('categories', F.when(df_normalizados['categories'] == '', 'Desconhecido').otherwise(df_normalizados['categories']))


)

#Travando em ordem desc
df_novo = df_novo.orderBy(col('_id').desc(), col('authors').desc())

# Mostrar o DataFrame resultante
df_novo.show()


+-----+--------------------+------------+----------+---------------+---------+--------------------+----------------+-------+--------------------+--------------------+
|  _id|             authors|  categories|      isbn|longDescription|pageCount|       publishedDate|shortDescription| status|        thumbnailUrl|               title|
+-----+--------------------+------------+----------+---------------+---------+--------------------+----------------+-------+--------------------+--------------------+
|796.0|                 Jr.|Desconhecido|1617292435|   Desconhecido|      0.0|        Desconhecido|    Desconhecido|   MEAP|https://s3.amazon...|  Understanding SPAs|
|796.0|      Emmit A. Scott|Desconhecido|1617292435|   Desconhecido|      0.0|        Desconhecido|    Desconhecido|   MEAP|https://s3.amazon...|  Understanding SPAs|
|795.0|          Rick Umali|Desconhecido|1617292419|   Desconhecido|      0.0|        Desconhecido|    Desconhecido|   MEAP|https://s3.amazon...|Learn Git in a Mo...

In [26]:
csv_file_path = "/home/naum/studies/bases/books_separados.csv"
df_novo.write.csv(csv_file_path, header=True, mode="overwrite")
df_novo.show()

+-----+--------------------+------------+----------+---------------+---------+--------------------+----------------+-------+--------------------+--------------------+
|  _id|             authors|  categories|      isbn|longDescription|pageCount|       publishedDate|shortDescription| status|        thumbnailUrl|               title|
+-----+--------------------+------------+----------+---------------+---------+--------------------+----------------+-------+--------------------+--------------------+
|796.0|                 Jr.|Desconhecido|1617292435|   Desconhecido|      0.0|        Desconhecido|    Desconhecido|   MEAP|https://s3.amazon...|  Understanding SPAs|
|796.0|      Emmit A. Scott|Desconhecido|1617292435|   Desconhecido|      0.0|        Desconhecido|    Desconhecido|   MEAP|https://s3.amazon...|  Understanding SPAs|
|795.0|          Rick Umali|Desconhecido|1617292419|   Desconhecido|      0.0|        Desconhecido|    Desconhecido|   MEAP|https://s3.amazon...|Learn Git in a Mo...

In [27]:
# Converter DataFrame do PySpark para DataFrame do pandas
df_pandas = df_novo.toPandas()

# Configurações de conexão com o banco de dados PostgreSQL
engine = create_engine('postgresql://postgres:changeme@localhost:5432/postgres')

# Escrever DataFrame do pandas no banco de dados PostgreSQL
# 'books' é o nome da tabela em que você deseja salvar os dados
df_pandas.to_sql("books", con=engine, if_exists="append", index=False)

OperationalError: (psycopg2.OperationalError) connection to server at "localhost" (127.0.0.1), port 5432 failed: Connection refused
	Is the server running on that host and accepting TCP/IP connections?

(Background on this error at: https://sqlalche.me/e/20/e3q8)

In [None]:
#Filtrando valores com mais de uma condição
subset = (
    df_autores_separados
    .filter(
        (F.col('shortDescription').isNull()) &
        (F.col('authors') == 'Tariq Ahmed') &
        (F.col('pageCount') == 600)
    )
    .select('isbn', 'authors', 'shortDescription', 'pageCount')
).show()



+----------+-----------+----------------+---------+
|      isbn|    authors|shortDescription|pageCount|
+----------+-----------+----------------+---------+
|1935182420|Tariq Ahmed|            NULL|    600.0|
+----------+-----------+----------------+---------+



In [None]:
#Usando o LIKE do SQL

def like(df, col_name, pattern):

    return

df_novo.filter(col('authors').like('Desconheci%')).show()


+-----+------------+------------+----------+--------------------+---------+--------------------+--------------------+-------+--------------------+--------------------+
|  _id|     authors|  categories|      isbn|     longDescription|pageCount|       publishedDate|    shortDescription| status|        thumbnailUrl|               title|
+-----+------------+------------+----------+--------------------+---------+--------------------+--------------------+-------+--------------------+--------------------+
|777.0|Desconhecido|Desconhecido|1617292184|        Desconhecido|      0.0|        Desconhecido|        Desconhecido|   MEAP|https://s3.amazon...|PowerShell in Dep...|
|774.0|Desconhecido|Desconhecido|1617292192|        Desconhecido|      0.0|        Desconhecido|        Desconhecido|   MEAP|https://s3.amazon...|Oculus Rift in Ac...|
|761.0|Desconhecido|Desconhecido|1617292079|        Desconhecido|      0.0|        Desconhecido|        Desconhecido|   MEAP|https://s3.amazon...|jQuery in Acti