# CONTEXTO

Como foco no aprendizado do PySpark, faremos uma análise de dados passando por etapas de limpeza, estatistica e analise exploratória com o objetivo de adquirir conhecimento sobre a ferramenta e colocar o aprendizado em prática.

Usaremos o PySpark para analisar os dados da Netflix.

# 0.0 IMPORTAÇÕES

In [3]:
from pyspark.sql import SparkSession  # importação para iniciar a sessão do pyspark
from pyspark.sql.functions import *   # importação de funções para manipulação
from pyspark.sql.types     import *   # impotação para mudar tipo de dados

## 0.1 Criar Sessão PySpark

In [4]:
# criando sessão
spark = (
    SparkSession.builder
    .master('local')              # local em que está rodando
    .appName('Tutorial-Pyspark')  # nome da sessão
    .getOrCreate()                # se já tiver sessão criada, reinicia ela. Caso não, cria a sessão
)

## 0.2 Carregamento de Dados

In [7]:
# lendo dados
data = spark.read.csv(
    '/../data/titles.csv',  # caminho do arquivo csv
    header=True,             # True: usar a primeira linha como cabeçalho
    inferSchema=True         # True: pyspark automaticamente indentificará os tipos de dados nas colunas
)

data.show(5) # mostra as 5 primeiras colunas 

+--------+--------------------+-----+--------------------+------------+-----------------+-------+--------------------+--------------------+-------+---------+----------+----------+---------------+----------+
|      id|               title| type|         description|release_year|age_certification|runtime|              genres|production_countries|seasons|  imdb_id|imdb_score|imdb_votes|tmdb_popularity|tmdb_score|
+--------+--------------------+-----+--------------------+------------+-----------------+-------+--------------------+--------------------+-------+---------+----------+----------+---------------+----------+
|ts300399|Five Came Back: T...| SHOW|"This collection ...|        1945|            TV-MA|     48|   ['documentation']|              ['US']|    1.0|     null|      null|      null|            0.6|      null|
| tm84618|         Taxi Driver|MOVIE|A mentally unstab...|        1976|                R|    113|  ['crime', 'drama']|              ['US']|   null|tt0075314|       8.3|  79

# 1.0 DESCRIÇÃO DE DADOS

## 1.1 Dimensão de Dados

In [9]:
colunas = len(data.columns)    # contando a quantidade de colunas
linhas  = data.count()         # contando a quantidade de linhas

# mostrando resultado com o print
print('Quantidade de colunas:', colunas)
print('Quantidade de linhas :', linhas)

Quantidade de colunas: 15
Quantidade de linhas : 5894


## 1.1 Tipo de Dados

In [10]:
data.printSchema() # mostra o tipo de dado que o pyspark indetificou para cada coluna

root
 |-- id: string (nullable = true)
 |-- title: string (nullable = true)
 |-- type: string (nullable = true)
 |-- description: string (nullable = true)
 |-- release_year: string (nullable = true)
 |-- age_certification: string (nullable = true)
 |-- runtime: string (nullable = true)
 |-- genres: string (nullable = true)
 |-- production_countries: string (nullable = true)
 |-- seasons: string (nullable = true)
 |-- imdb_id: string (nullable = true)
 |-- imdb_score: string (nullable = true)
 |-- imdb_votes: string (nullable = true)
 |-- tmdb_popularity: string (nullable = true)
 |-- tmdb_score: string (nullable = true)



## 1.2 Dados Faltantes

O método **filter** é usado para selecionar colunas especificas.

In [17]:
# percorrendo as colunas com loop for
for col in data.columns:
    print(col, data.filter(data[col].isNull()).count()) # filtra a coluna, verifica se há nulos e conta

id 0
title 3
type 18
description 42
release_year 78
age_certification 2593
runtime 127
genres 103
production_countries 106
seasons 3707
imdb_id 592
imdb_score 626
imdb_votes 652
tmdb_popularity 234
tmdb_score 436


## 1.3 Estatistica Descritiva

### 1.3.1 Atributos Numéricos

### 1.3.2 Atributos Categóricos