## Limpeza de dados Cartola ano 2015

In [5]:
from pyspark.sql import HiveContext
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import lower, col, lit, regexp_replace
import pandas as pd
import json
import requests

## Jogadores

In [None]:
#Carrega arquivo CSV
jogadores_2015_df = spark.read.csv("/cartola/data/2015/2015_jogadores.csv", header=True)
sorted_jogadores_2015_df = jogadores_2015_df.sort(jogadores_2015_df.ID.desc())


In [None]:
#Adiciona coluna ANO = 2015
#Clube ID está como NA????
jogadores_2015_ano = sorted_jogadores_2015_df.withColumn('ano', lit(2015))
jogadores_2015_ano.show()

In [None]:
jogadores_2015_ano.write.partitionBy('ano').parquet('/cartola/2015/clean/jogadores')

In [None]:
#transforma arquivo em parquet
jogadores_2015_parquet = spark.read.parquet('/cartola/2015/clean/jogadores')

In [None]:
jogadores_2015_parquet.show()
jogadores_2015_parquet.schema


In [None]:
#Alterar ID para int.(está string)
jogadores_2015_parquet = jogadores_2015_parquet.withColumn("ID", jogadores_2015_parquet["ID"].cast(IntegerType()))
jogadores_2015_parquet = jogadores_2015_parquet.withColumn("ClubeID", jogadores_2015_parquet["ClubeID"].cast(IntegerType()))
jogadores_2015_parquet = jogadores_2015_parquet.withColumn("PosicaoID", jogadores_2015_parquet["PosicaoID"].cast(IntegerType()))

In [None]:
jogadores_2015_parquet.schema

In [None]:
jogadores_2015_parquet.show()

print(jogadores_2015_parquet.count())

## Partidas_IDS (temos partidas como NA)

In [6]:
partidas_ids_2015_df = spark.read.csv("/cartola/data/2015/2015_partidas_ids.csv", header=True)

In [7]:
partidas_ids_2015_ano = partidas_ids_2015_df.withColumn('ano', lit(2015))

In [8]:
partidas_ids_2015_ano.show(1000)

+------+------+------+-----------+----------+---------------+---------+----+
|    ID|Rodada|CasaID|VisitanteID|PlacarCasa|PlacarVisitante|Resultado| ano|
+------+------+------+-----------+----------+---------------+---------+----+
|190053|     1|   276|        262|         2|              1|     Casa|2015|
|190054|     1|   275|        282|         2|              2|   Empate|2015|
|190055|     1|   266|        317|         1|              0|     Casa|2015|
|190056|     1|   267|        290|         0|              0|   Empate|2015|
|190057|     1|   284|        303|         3|              3|   Empate|2015|
|190058|     1|   283|        264|         0|              1|Visitante|2015|
|190059|     1|   314|        277|         1|              1|   Empate|2015|
|190060|     1|   293|        285|         3|              0|     Casa|2015|
|190061|     1|   292|        316|         4|              1|     Casa|2015|
|190062|     1|   315|        294|         2|              1|     Casa|2015|

In [None]:
partidas_ids_2015_ano.write.partitionBy('ano').parquet('/cartola/2015/clean/2015_partidas_ids')

In [None]:
partidas_ids_2015_parquet = spark.read.parquet('/cartola/2015/clean/2015_partidas_ids')

In [None]:
partidas_ids_2015_parquet.show(10000)
partidas_ids_2015_parquet.schema

In [None]:
partidas_ids_2015_parquet = partidas_ids_2015_parquet.withColumn("ID", partidas_ids_2015_parquet["ID"].cast(IntegerType()))
partidas_ids_2015_parquet = partidas_ids_2015_parquet.withColumn("Rodada", partidas_ids_2015_parquet["Rodada"].cast(IntegerType()))
partidas_ids_2015_parquet = partidas_ids_2015_parquet.withColumn("CasaID", partidas_ids_2015_parquet["CasaID"].cast(IntegerType()))
partidas_ids_2015_parquet = partidas_ids_2015_parquet.withColumn("VisitanteID", partidas_ids_2015_parquet["VisitanteID"].cast(IntegerType()))
partidas_ids_2015_parquet = partidas_ids_2015_parquet.withColumn("PlacarCasa", partidas_ids_2015_parquet["PlacarVisitante"].cast(IntegerType()))
partidas_ids_2015_parquet = partidas_ids_2015_parquet.withColumn("PlacarVisitante", partidas_ids_2015_parquet["PlacarVisitante"].cast(IntegerType()))

In [None]:
partidas_ids_2015_parquet.show()

print(partidas_ids_2015_parquet.count())

## scouts_raw

In [None]:
scouts_raw_2015_df = spark.read.csv("/cartola/data/2015/2015_scouts_raw.csv", header=True)

In [None]:
scouts_raw_2015_ano = scouts_raw_2015_df.withColumn('ano', lit(2015))

In [None]:
scouts_raw_2015_ano.show(1000)

In [None]:
# remove todas as linhas com rodada == 0
scouts_raw_2015_ano_clean = scouts_raw_2015_ano[scouts_raw_2015_ano['Rodada'] > 0]

In [None]:
scouts_raw_2015_ano_clean.show(10000)

In [None]:
scouts_raw_2015_ano_clean.write.partitionBy('ano').parquet('/cartola/2015/clean/scouts_raw_2015')

In [None]:
scouts_raw_2015_parquet = spark.read.parquet('/cartola/2015/clean/scouts_raw_2015')

In [None]:
scouts_raw_2015_parquet.show(10000)
scouts_raw_2015_parquet.schema

In [None]:
#deve-se converter valores em BigDecimal?
scouts_raw_2015_parquet = scouts_raw_2015_parquet.withColumn("Rodada", scouts_raw_2015_parquet["Rodada"].cast(IntegerType()))
scouts_raw_2015_parquet = scouts_raw_2015_parquet.withColumn("ClubeID", scouts_raw_2015_parquet["ClubeID"].cast(IntegerType()))
scouts_raw_2015_parquet = scouts_raw_2015_parquet.withColumn("AtletaID", scouts_raw_2015_parquet["AtletaID"].cast(IntegerType()))
scouts_raw_2015_parquet = scouts_raw_2015_parquet.withColumn("Jogos", scouts_raw_2015_parquet["Jogos"].cast(IntegerType()))

In [None]:
scouts_raw_2015_parquet.show()

print(scouts_raw_2015_parquet.count())

## Times

In [None]:
times_2015_df = spark.read.csv("/cartola/data/2015/2015_times.csv", header=True)

In [None]:
sorted_times_2015_df = times_2015_df.sort(times_2015_df.ID.desc())

In [None]:
times_2015_ano = sorted_times_2015_df.withColumn('ano', lit(2015))
times_2015_ano.show()

In [None]:
times_2015_ano.write.partitionBy('ano').parquet('/cartola/2015/clean/times')

In [None]:
times_2015_parquet = spark.read.parquet("/cartola/2015/clean/times")

In [None]:
times_2015_parquet.show()
times_2015_parquet.schema

#Alterar ID para int.(está string)

In [None]:
times_2015_parquet = times_2015_parquet.withColumn("ID", times_2015_parquet["ID"].cast(IntegerType()))

In [None]:
times_2015_parquet.schema

In [None]:
times_2015_parquet.show()

print(times_2015_parquet.count())

## DEMONSTRAÇÃO

In [None]:
partidas_2014_df = spark.read.csv("/cartola/data/2014/2014_jogadores.csv", header=True)
partidas_2014_ct = partidas_2014_df.withColumn('time', regexp_replace('home_team', ' - RJ', ''))
final_partidas = partidas_2014_ct.withColumn('time_low', lower(col('time'))).show(truncate=False)

In [None]:
with_ano_partidas = partidas_2014_ct.withColumn('ano', lit(2014)).show(truncate=False)
with_ano_partidas.show()