In [1]:
# # instalar as dependências
# try:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
#   !wget -q https://archive.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
#   !tar xf spark-2.4.4-bin-hadoop2.7.tgz
#   !pip install -q findspark
# except:
#   pass

In [3]:
# Install pyspark
!pip install pyspark
# Import SparkSession
from pyspark.sql import SparkSession
# Create a Spark Session
spark = SparkSession.builder.master("local[*]").getOrCreate()
# Check Spark Session Information
spark
# Import a Spark function from library
from pyspark.sql.functions import col, regexp_extract, regexp_replace

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [4]:
# download do http para arquivo local
!wget --quiet --show-progress -O netflix.zip "https://storage.googleapis.com/kaggle-data-sets/434238/2654038/compressed/netflix_titles.csv.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20230220%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20230220T180741Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=0a67a4185955969eb475037a330f3f19d1b30bd9e91ecd3dba3b78463ad9a99d94d1fb6a41287861a35b6c05ff2f4e16ae521a0838d8bf246992ebbeaf838781c88fb8ed19f60d6f3a215e611677cc67373d78f7ceef6007b76409a50bcbc83ec34d8d0adb177ed82b632b8112ac2c8510dca0aa129f7a1921d38b1bccda5c0aed118a5b43a00117d1695176397ee5747c3edf02117326d1b7afff055aab1b0344780ec53fa419e56ac36f980be0ed08781f690e30404571f109d0c5a24947b50d5eb3fb035467ed323b2c08d823accdd237b918e42e99626d0129debc9f1eb23a808df0869fba3d303a8e0d3f6008fb501f74bb16531a4289976c572e25d139"
!unzip netflix.zip


Archive:  netflix.zip
replace netflix_titles.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: y
  inflating: netflix_titles.csv      


In [5]:
from pyspark.sql.types import *
import pyspark.sql.functions as F
import re

In [6]:
# carregando dados da Netflix e transformando em Spark Dataframe
netflix_df01 = spark.read.csv("./netflix_titles.csv", inferSchema=True, header=True)
# visualizando os tipos de dados de cada coluna
netflix_df01.printSchema()

root
 |-- show_id: string (nullable = true)
 |-- type: string (nullable = true)
 |-- title: string (nullable = true)
 |-- director: string (nullable = true)
 |-- cast: string (nullable = true)
 |-- country: string (nullable = true)
 |-- date_added: string (nullable = true)
 |-- release_year: string (nullable = true)
 |-- rating: string (nullable = true)
 |-- duration: string (nullable = true)
 |-- listed_in: string (nullable = true)
 |-- description: string (nullable = true)



In [7]:
# visualizando 5 primeiras linhas 
netflix_df01.show(5)

+-------+-------+--------------------+---------------+--------------------+-------------+------------------+------------+------+---------+--------------------+--------------------+
|show_id|   type|               title|       director|                cast|      country|        date_added|release_year|rating| duration|           listed_in|         description|
+-------+-------+--------------------+---------------+--------------------+-------------+------------------+------------+------+---------+--------------------+--------------------+
|     s1|  Movie|Dick Johnson Is Dead|Kirsten Johnson|                null|United States|September 25, 2021|        2020| PG-13|   90 min|       Documentaries|As her father nea...|
|     s2|TV Show|       Blood & Water|           null|Ama Qamata, Khosi...| South Africa|September 24, 2021|        2021| TV-MA|2 Seasons|International TV ...|After crossing pa...|
|     s3|TV Show|           Ganglands|Julien Leclercq|Sami Bouajila, Tr...|         null|Septem

#### Verificando quantidade de linhas da tabela

In [8]:
netflix_df01.count()

8809

#### Alterando o tipo de dado da coluna "date_added" de String para Date e da coluna "release_year" de String para Integer

In [9]:
netflix_df01 = netflix_df01.withColumn("date_added", F.to_date(F.col("date_added"), "MMMM dd, yyyy")) \
    .withColumn("release_year",netflix_df01["release_year"].cast(IntegerType()))

#### Verificando tipos de dados

In [10]:
netflix_df01.dtypes

[('show_id', 'string'),
 ('type', 'string'),
 ('title', 'string'),
 ('director', 'string'),
 ('cast', 'string'),
 ('country', 'string'),
 ('date_added', 'date'),
 ('release_year', 'int'),
 ('rating', 'string'),
 ('duration', 'string'),
 ('listed_in', 'string'),
 ('description', 'string')]

## Limpando colunas individualmente

##### Usando função distinct para visualizar valores únicos da coluna 'type'

In [11]:
netflix_df01.select('type').distinct().show()

+-------------+
|         type|
+-------------+
|         null|
|      TV Show|
|        Movie|
|William Wyler|
+-------------+



Verificando se a coluna "release_year" contém apenas números

In [12]:
# definindo a expressão regular para extrair linhas com apenas números
regex_pattern_numbers = r"^\d+$"

# extraindo as linhas com apenas números da coluna "title"
numbers_only = netflix_df01.filter(regexp_extract(col("release_year"), regex_pattern_numbers, 0) != "")

if numbers_only.count() == 0:
    print("A coluna 'release_year' não possui linhas com apenas números.")
else:
    print(f"A coluna 'release_year' possui {numbers_only.count()} linhas com apenas números")

A coluna 'release_year' possui 8787 linhas com apenas números


In [13]:
# executando consulta SQL para contar as linhas em branco na coluna "release_year"
netflix_df01.createOrReplaceTempView("netflix_df01")
sql_query = """
SELECT COUNT(*)
FROM netflix_df01
WHERE `release_year` IS NULL OR `release_year` = ''
"""
result = spark.sql(sql_query)
result.show()

+--------+
|count(1)|
+--------+
|      22|
+--------+



Pode-se concluir que a coluna "release_year" possui apenas dados numéricos ou em branco, que serão substituídos no final do notebook por "non_informed".
Agora faremos a verificação da coluna "title"

In [14]:
# definindo a expressão regular para extrair linhas com apenas números
regex_pattern_numbers = r"^\d+$"

# extraindo as linhas com apenas números da coluna "title"
numbers_only = netflix_df01.filter(regexp_extract(col("title"), regex_pattern_numbers, 0) != "")

if numbers_only.count() == 0:
    print("A coluna 'title' não possui linhas com apenas números.")
else:
    print(f"A coluna 'title' possui {numbers_only.count()} linhas com apenas números:")

A coluna 'title' possui 13 linhas com apenas números:


In [15]:
# substituindo as linhas com valores apenas numéricos por "non_informed" utilizando regex
netflix_df01 = netflix_df01.withColumn("title", regexp_replace(col("title"), regex_pattern_numbers, "non_informed"))


In [16]:
# verificando se a substituição foi bem sucedida através de sql query
netflix_df01.createOrReplaceTempView("netflix_df01")
spark.sql("select title from netflix_df01 where title='non_informed'").count()

13

Checando os dados da coluna 'duration' podemos verificar a presença de dados inválidos

In [17]:
# extraindo as linhas com apenas números da coluna "duration"
filtered_rows = netflix_df01.filter(regexp_extract(col("duration"), regex_pattern_numbers, 0) != "")

if filtered_rows.count() == 0:
    print("A coluna 'duration' não possui linhas com apenas números.")
else:
    print(f"A coluna 'duration' possui {filtered_rows.count()} linhas com apenas números")
    filtered_rows.show(truncate=False)

A coluna 'duration' possui 1 linhas com apenas números
+-------+-----+-------------------+----------------+-------------------------------------------------------------------------------------------------------+------------------+----------+------------+----------------+--------+---------+-----------+
|show_id|type |title              |director        |cast                                                                                                   |country           |date_added|release_year|rating          |duration|listed_in|description|
+-------+-----+-------------------+----------------+-------------------------------------------------------------------------------------------------------+------------------+----------+------------+----------------+--------+---------+-----------+
|s1769  |Movie|The Next Karate Kid|Christopher Cain|"Pat Morita, Hilary Swank, Michael Ironside, Constance Towers, Chris Conrad, Arsenio ""Sonny"" Trinidad| Michael Cavalieri|null      |null        |No

In [18]:
# extraindo as linhas com apenas números da coluna "description"
filtered_rows = netflix_df01.filter(regexp_extract(col("description"), regex_pattern_numbers, 0) != "")

if filtered_rows.count() == 0:
    print("A coluna 'description' não possui linhas com apenas números.")
else:
    print(f"A coluna 'description' possui {filtered_rows.count()} linhas com apenas números")
    filtered_rows.show(truncate=False)

A coluna 'description' possui 3 linhas com apenas números
+-------+-----+--------------------+------------------+------------------------------------------------------------------------------------------------+----------------+----------+------------+----------------+-------------+----------------+-----------+
|show_id|type |title               |director          |cast                                                                                            |country         |date_added|release_year|rating          |duration     |listed_in       |description|
+-------+-----+--------------------+------------------+------------------------------------------------------------------------------------------------+----------------+----------+------------+----------------+-------------+----------------+-----------+
|s5892  |Movie|Beasts of No Nation |Cary Joji Fukunaga|"Idris Elba, Abraham Attah, Kurt Egyiawan, Jude Akuwudike, Emmanuel ""King Kong"" Nii Adom Quaye| Ama K. Abebrese|null      |

In [19]:
#Excluindo as linhas encontradas acima

rows_to_discard = ["s1769", "s5892", "s6210", "s6840"]
netflix_df01 = netflix_df01.filter(~col("show_id").isin(rows_to_discard))

In [20]:
# Criando uma nova linha com os valores corretos para cada coluna
karate_kid_row = spark.createDataFrame([("s1769", "Movie", "The Next Karate Kid", "Christopher Cain", "Pat Morita, Hilary Swank, Michael Ironside, Constance Towers, Chris Conrad, Arsenio Sonny Trinidad, Michael Cavalieri", "", "2020-11-01", "1994", "PG", "107 min", "", "")],
                                ["show_id", "type", "title", "director", "cast", "country", "date_added", "release_year", "rating", "duration", "listed_in", "description"])

beasts_row = spark.createDataFrame([("s5892", "Movie", "Beasts of No Nation", "Cary Joji Fukunaga", "Idris Elba, Abraham Attah, Kurt Egyiawan, Jude Akuwudike, Emmanuel ""King Kong"" Nii Adom Quaye, Ama K. Abebrese, Richard Pepple", "United States", "2015-10-16", "2015", "", "", "", "")],
                                ["show_id", "type", "title", "director", "cast", "country", "date_added", "release_year", "rating", "duration", "listed_in", "description"])


backfire_row = spark.createDataFrame([("s6210", "Movie", "Backfire", "Dave Patten", "Black Deniro, Byron ""Squally"" Vinson, Dominic Costa, Jowharah Jones", "United States", "2019-04-05", "2019", "", "", "", "")],
                                ["show_id", "type", "title", "director", "cast", "country", "date_added", "release_year", "rating", "duration", "listed_in", "description"])

greek_row = spark.createDataFrame([("s6840", "Movie", "Get Him to the Greek", "Nicholas Stoller", "Jonah Hill, Russell Brand, Elisabeth Moss, Rose Byrne, Colm Meaney, Sean ""P. Diddy"" Combs, Aziz Ansari, Kristen Schaal", "United States", "2020-01-16", "2010", "", "", "", "")],
                                ["show_id", "type", "title", "director", "cast", "country", "date_added", "release_year", "rating", "duration", "listed_in", "description"])

# Adicionando as novas linhas ao DataFrame original
netflix_df01 = netflix_df01.union(karate_kid_row)
netflix_df01 = netflix_df01.union(beasts_row)
netflix_df01 = netflix_df01.union(backfire_row)
netflix_df01 = netflix_df01.union(greek_row)

In [21]:
#Verificando exclusão das linhas que possuiam dados em colunas não correspondentes.
netflix_df01.createOrReplaceTempView("netflix_df01")
sql_query = """
SELECT *
FROM netflix_df01
WHERE `title` = 'Backfire'
"""
result = spark.sql(sql_query)
result.show()

+-------+-----+--------+-----------+--------------------+-------------+----------+------------+------+--------+---------+-----------+
|show_id| type|   title|   director|                cast|      country|date_added|release_year|rating|duration|listed_in|description|
+-------+-----+--------+-----------+--------------------+-------------+----------+------------+------+--------+---------+-----------+
|  s6210|Movie|Backfire|Dave Patten|Black Deniro, Byr...|United States|2019-04-05|        2019|      |        |         |           |
+-------+-----+--------+-----------+--------------------+-------------+----------+------------+------+--------+---------+-----------+



Verificando se existem mais linhas com show_id incorreto

In [22]:
# Selecionando as linhas da coluna "show_id" que não começam com a letra "s"
rows_to_discard2 = netflix_df01.filter(~col("show_id").startswith("s"))
rows_to_discard2.show(truncate=False)


+--------------------+-------------+-----+-------------+--------------+-------+----------+------------+-----------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+---------+-----------+
|show_id             |type         |title|director     |cast          |country|date_added|release_year|rating                       |duration                                                                                                                                          |listed_in|description|
+--------------------+-------------+-----+-------------+--------------+-------+----------+------------+-----------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------+---------+-----------+
| and probably will."|null         |null |null         |null          |null   |null      |n

In [23]:
# #Excluindo as duas linhas encontradas acima
rows_to_discard2 = [' and probably will."', 'Flying Fortress"']
netflix_df01 = netflix_df01.filter(~col("show_id").isin(rows_to_discard2))

Criando uma nova linha devidamente organizada para a obra "Flying Fortress" e atribuindo um id. Como a obra não possuía um id, o código sempre define seu id como sendo a última linha do dataframe + 1, garantindo qie tal linha fique sempre no final da tabela, mesmo quando o dataframe receber atualizações.

In [24]:
from pyspark.sql.functions import lit
rows_nbr_updated = netflix_df01.count()
new_show_id = "s" + str(rows_nbr_updated+1)

# Criando uma nova linha com os valores corretos para cada coluna
flying_fortress_row = spark.createDataFrame([(new_show_id, "", "Flying Fortress", "William Wyler", "", "United States", "2017-03-31", "1944", "", "", "Classic Movies, Documentaries", "This documentary centers on the crew of the B-17 Flying Fortress Memphis Belle as it prepares to execute a strategic bombing mission over Germany")],
                                ["show_id", "type", "title", "director", "cast", "country", "date_added", "release_year", "rating", "duration", "listed_in", "description"])

# Adicionando a nova linha ao DataFrame original
netflix_df01 = netflix_df01.union(flying_fortress_row)


In [25]:
#Verificando a criação com id correto da linha e verificando exclusão da que possuía dados em colunas não correspondentes.
netflix_df01.createOrReplaceTempView("netflix_df01")
sql_query = """
SELECT *
FROM netflix_df01
WHERE `title` = 'Flying Fortress'
"""
result = spark.sql(sql_query)
result.show()

+-------+----+---------------+-------------+----+-------------+----------+------------+------+--------+--------------------+--------------------+
|show_id|type|          title|     director|cast|      country|date_added|release_year|rating|duration|           listed_in|         description|
+-------+----+---------------+-------------+----+-------------+----------+------------+------+--------+--------------------+--------------------+
|  s8808|    |Flying Fortress|William Wyler|    |United States|2017-03-31|        1944|      |        |Classic Movies, D...|This documentary ...|
+-------+----+---------------+-------------+----+-------------+----------+------------+------+--------+--------------------+--------------------+



In [26]:
netflix_df01.show(7)

+-------+-------+--------------------+--------------------+--------------------+-------------+----------+------------+------+---------+--------------------+--------------------+
|show_id|   type|               title|            director|                cast|      country|date_added|release_year|rating| duration|           listed_in|         description|
+-------+-------+--------------------+--------------------+--------------------+-------------+----------+------------+------+---------+--------------------+--------------------+
|     s1|  Movie|Dick Johnson Is Dead|     Kirsten Johnson|                null|United States|2021-09-25|        2020| PG-13|   90 min|       Documentaries|As her father nea...|
|     s2|TV Show|       Blood & Water|                null|Ama Qamata, Khosi...| South Africa|2021-09-24|        2021| TV-MA|2 Seasons|International TV ...|After crossing pa...|
|     s3|TV Show|           Ganglands|     Julien Leclercq|Sami Bouajila, Tr...|         null|2021-09-24|     

Alterando novamente o tipo de dado da coluna "date_added" de String para Date e da coluna "release_year" de String para Integer

In [27]:
netflix_df01 = netflix_df01.withColumn("date_added", F.to_date(F.col("date_added"), "MMMM dd, yyyy")) \
    .withColumn("release_year",netflix_df01["release_year"].cast(IntegerType()))

Limpando dados inválidos restantes da coluna 'duration' e substituindo-os por non_informed

In [28]:
netflix_df01 = netflix_df01.withColumn("duration", F.when((col("duration").like("%min")) | (col("duration").like("%Seasons")) | (col("duration").like("%Season")),
                                                        col("duration")).otherwise("non_informed"))

In [29]:
netflix_df01.select('duration').distinct().collect()

[Row(duration='100 min'),
 Row(duration='153 min'),
 Row(duration='71 min'),
 Row(duration='56 min'),
 Row(duration='13 min'),
 Row(duration='119 min'),
 Row(duration='33 min'),
 Row(duration='165 min'),
 Row(duration='10 Seasons'),
 Row(duration='12 min'),
 Row(duration='204 min'),
 Row(duration='142 min'),
 Row(duration='173 min'),
 Row(duration='27 min'),
 Row(duration='157 min'),
 Row(duration='30 min'),
 Row(duration='39 min'),
 Row(duration='8 Seasons'),
 Row(duration='82 min'),
 Row(duration='21 min'),
 Row(duration='138 min'),
 Row(duration='40 min'),
 Row(duration='133 min'),
 Row(duration='24 min'),
 Row(duration='312 min'),
 Row(duration='25 min'),
 Row(duration='11 Seasons'),
 Row(duration='167 min'),
 Row(duration='124 min'),
 Row(duration='4 Seasons'),
 Row(duration='80 min'),
 Row(duration='13 Seasons'),
 Row(duration='102 min'),
 Row(duration='113 min'),
 Row(duration='77 min'),
 Row(duration='67 min'),
 Row(duration='141 min'),
 Row(duration='168 min'),
 Row(duration='

Limpando a coluna "director"

In [30]:
# extraindo as linhas com apenas números da coluna "director"
numbers_only = netflix_df01.filter(regexp_extract(col("director"), regex_pattern_numbers, 0) != "")

if numbers_only.count() == 0:
    print("A coluna 'director' não possui linhas com apenas números.")
else:
    print(f"A coluna 'director' possui {numbers_only.count()} linhas com apenas números")

A coluna 'director' não possui linhas com apenas números.


Limpando a coluna "Cast"

In [31]:
# extraindo as linhas com apenas números da coluna "cast"
numbers_only = netflix_df01.filter(regexp_extract(col("cast"), regex_pattern_numbers, 0) != "")

if numbers_only.count() == 0:
    print("A coluna 'cast' não possui linhas com apenas números.")
else:
    print(f"A coluna 'cast' possui {numbers_only.count()} linhas com apenas números")

A coluna 'cast' não possui linhas com apenas números.


Limpando a coluna "country"

In [32]:
# extraindo as linhas com apenas números da coluna "country"
numbers_only = netflix_df01.filter(regexp_extract(col("country"), regex_pattern_numbers, 0) != "")

if numbers_only.count() == 0:
    print("A coluna 'country' não possui linhas com apenas números.")
else:
    print(f"A coluna 'country' possui {numbers_only.count()} linhas com apenas números")
    numbers_only.show(truncate=False)

A coluna 'country' não possui linhas com apenas números.


In [33]:
# extraindo as linhas com apenas números da coluna "listed_in"
numbers_only = netflix_df01.filter(regexp_extract(col("listed_in"), regex_pattern_numbers, 0) != "")

if numbers_only.count() == 0:
    print("A coluna 'listed_in' não possui linhas com apenas números.")
else:
    print(f"A coluna 'listed_in' possui {numbers_only.count()} linhas com apenas números")
    numbers_only.show()

A coluna 'listed_in' não possui linhas com apenas números.


In [34]:
# extraindo as linhas com apenas números da coluna "description"
numbers_only = netflix_df01.filter(regexp_extract(col("description"), regex_pattern_numbers, 0) != "")

if numbers_only.count() == 0:
    print("A coluna 'description' não possui linhas com apenas números.")
else:
    print(f"A coluna 'description' possui {numbers_only.count()} linhas com apenas números")
    numbers_only.show()

A coluna 'description' não possui linhas com apenas números.
