# Reading Data

Pode-se utilizar o Pandas com o PandasAPI para converter para o PySpark, mas também pode utilizar diretamente o Spark para fazer a leitura de dados.

In [None]:
# Exemplo com o Pandas

import pandas as pd
from pyspark.sql import SparkSession

arquivo = "brasil/states.csv"
df = pd.read_csv(arquivo)

spark = SparkSession.builder.getOrCreate()

dataframe = spark.createDataFrame(df)

print(df.columns)

In [None]:
# Exemplo com o PySpark

csv_file = 'data/stocks_price_final.csv'
df = spark.read.csv(csv_file)

# Reading JSON file

json_file = 'data/stocks_price_final.json'
data = spark.read.json(json_file)


## Visualização dos Data Frames 

Algumas funções para visualizar coisas do dataframe

<b>data.printSchema ou data.schema</b>

Printar o schema dos dados, informando o tipo, nome e etc (pode conter alguns bugs)

<b>data.dtypes</b>

Informa os tipos de cada variável

<b>data.head(n)</b>

Para retornar as primeiras N linhas como uma lista, o head dos dataframes

<b>data.show(n)</b>

Retorna os primeiros 20 por default, ou os primeiros N

<b>data.first()</b>

Retorna a primeira linha

<b>data.describe()</b>

Summary do R, vai retornar coisas como a média, desvio padrão, minimo e maximo

<b>data.columns</b>

Retorna a lista de coluna

<b>data.distinct</b>

Retorna a quantidade de linhas diferentes



# Manipulando o Dataframe

<b> data.withColumn("novaColuna",dadosNova) </b>

Para se adicionar novas colunas no DF

<b>data.withColumnRenamed('antigo','novo')</b>

Vai trocar o nome da coluna antiga por um novo

<b>data.drop('nome')</b>

Vai deletar a coluna espeficada

<b>data.na.replace(old_value, new_vallue)</b>

Troca valores por novos valores


### Missing Values

Variações: NaN, espaços em brancos, placeholder (#NULO#) e etc

Algumas opções:

<ul>
    <li>Remover os campos</li>
    <li>Predizer de acordo com a media</li>
    <li>Predizer com os valores mais frequentes</li>
    <li>Predizer por meio de KNN</li>
</ul>

    

In [None]:
# Remove Rows with Missing Values

data.na.drop()

# Replacing Missing Values with Mean

data.na.fill(data.select(f.mean(data['open'])).collect()[0][0])

# Replacing Missing Values with new values

data.na.replace(old_value, new_vallue)

# Querying Data

__Select -> data.select('single') or ([list])__

O select normal, onde vai retornar os campos selecionados



In [None]:
## Selecting Single Column

data.select('sector').show(5)

## Selecting Multiple columns

data.select(['open', 'close', 'adjusted']).show(5)

__Filter -> data.filter(parametros)__

Filtro dos dados, podendo usar operacionais como ~ (NOT), & (AND) e | (or)


In [None]:
from pyspark.sql.functions import col, lit

data.filter( (col('data') >= lit('2020-01-01')) & (col('data') <= lit('2020-01-31')) ).show(5)

# Filter com a condição de que MatchID do dataframe Fifa_DF seja == 1096
fifa_df.filter(fifa_df.MatchID=='1096').show() 

# FIlter com multiplos parametros

fifa_df.filter((fifa_df.Position=='C') && (fifa_df.Event=="G40'")).show()

__Between -> data.between__

Retorna True ou False se os valores estiverem entre os parametros, e também retorna os valores se usado dentro de um Filter.

In [None]:
## fetch the data where the adjusted value is between 100.0 and 500.0

data.filter(data.adjusted.between(100.0, 500.0)).show()

__When -> f.when()__

returna 0 ou 1 dependendo da condição.

# Pesquisar mais sobre isso aqui que tá estranho

In [None]:
data.select('open', 'close', 
            f.when(data.adjusted >= 200.0, 1).otherwise(0)
           ).show(5)