In [210]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, expr, to_timestamp, month, year, to_date, sum, avg, floor, round
from pyspark.sql.window import Window
spark = SparkSession.builder \
            .master("local[*]") \
            .appName("airflow_prod") \
            .config('spark.executor.memory', '6g') \
            .config('spark.driver.memory', '6g') \
            .config("spark.driver.maxResultSize", "1048MB") \
            .config("spark.port.maxRetries", "100") \
            .getOrCreate()

In [64]:
def realiza_pivot(df, tipo):
    # separa as colunas datas para realizar pivot
    colunas = df.columns[4:]

    # coleta numero de colunas
    n = len(colunas)
    
    #expressao para realizar o pivot
    expr = "stack({}, {}) as (data, {})".format(n, ", ".join(["'{}', `{}`".format(col, col) for col in colunas]),tipo)
    
    #realiza pivot
    df = df.selectExpr("estado", "pais", "latitude", "longitude", expr)
    return df

In [60]:
def renomea_colunas(df):
    df = df.withColumnRenamed("Province/State", "estado") \
        .withColumnRenamed("Country/Region", "pais") \
        .withColumnRenamed("Lat", "latitude") \
        .withColumnRenamed("Long", "longitude")
    return df

In [148]:
def trunca_colunas(df):
    #flor retorna o valor inteiro da multiplicação longitudade * 100 e após divido por 100 para ficar com 2 casas decimais
    df = df.withColumn("longitude", floor(df["longitude"] * 100) / 100).withColumn("latitude", floor(df["latitude"] * 100) / 100)
    return df

In [150]:
### recuperados dados e renomea colunas
df_recovered = spark.read.options(header='true',inferSchema=True).csv('/home/jovyan/work/dados/covid19/time_series_covid19_recovered_global.csv')
df_recovered = renomea_colunas(df_recovered)
df_recovered = trunca_colunas(df_recovered) # algumas colunas lat e long estavam com incosistencia nos decimais

df_confirmed = spark.read.options(header='true',inferSchema=True).csv('/home/jovyan/work/dados/covid19/time_series_covid19_confirmed_global.csv')
df_confirmed = renomea_colunas(df_confirmed)
df_confirmed = trunca_colunas(df_confirmed)

df_deaths = spark.read.options(header='true',inferSchema=True).csv('/home/jovyan/work/dados/covid19/time_series_covid19_deaths_global.csv')
df_deaths = renomea_colunas(df_deaths)
df_deaths = trunca_colunas(df_deaths)

In [152]:
#realiza pivot de todas as tabelas
recovered = realiza_pivot(df_recovered, "quantidade_recuperados")

confirmed = realiza_pivot(df_confirmed, "quantidade_confirmados")

deaths = realiza_pivot(df_deaths, "quantidade_mortes")

In [154]:
#recovered.count()

In [155]:
# inner join entre a tabela deaths e confirmed
join = confirmed.join( deaths,((confirmed.latitude == deaths.latitude) & (confirmed.longitude == deaths.longitude)  & (confirmed.data == deaths.data) & (confirmed.pais == deaths.pais)), "inner" ) \
    .select(deaths["*"], confirmed["quantidade_confirmados"])


In [242]:
#join.count()

In [157]:
# right join entre a tabela join e recovered
join2 = recovered.join(join,((recovered.latitude == join.latitude) & (recovered.longitude == join.longitude)  & (recovered.data == join.data) & (recovered.pais == join.pais)), "right" ) \
    .select(join["*"], recovered["quantidade_recuperados"])

In [158]:
# altera os tipos de dados
trusted = join2.withColumn("data", to_timestamp(col("data"), "M/d/yy")) \
    .withColumn("quantidade_mortes", col("quantidade_mortes").cast("long")) \
    .withColumn("quantidade_confirmados", col("quantidade_confirmados").cast("long")) \
    .withColumn("quantidade_recuperados", col("quantidade_recuperados").cast("long")) \
    .withColumn("mes", month("data")) \
    .withColumn("ano", year("data"))

In [159]:
trusted

DataFrame[estado: string, pais: string, latitude: double, longitude: double, data: timestamp, quantidade_mortes: bigint, quantidade_confirmados: bigint, quantidade_recuperados: bigint, mes: int, ano: int]

In [161]:
# grava o dado em um unico arquivo particionado por ano e mes no formato parquet
#trusted.repartition(1).write.format("parquet").option("header", "true").mode("overwrite").partitionBy("ano","mes").save("/home/jovyan/work/dados/Trusted")

In [160]:
agg = trusted.select("pais","data", "quantidade_confirmados", "quantidade_mortes", "quantidade_recuperados", "ano")

In [171]:
#df_recovered.filter(df_recovered["pais"]=='Mozambique').orderBy(col("data").desc()).show(10)
#recovered.filter(recovered["pais"]=='Mozambique').show()

In [165]:
#agregação dos dados por pais e data
agg = refined.groupBy("pais","data","ano").agg(sum("quantidade_confirmados"), sum("quantidade_mortes"), sum("quantidade_recuperados")).orderBy("data")

In [172]:
#agg.filter(agg["pais"]=='Cambodia').orderBy(col("data").desc()).show(10)

In [204]:
agg.show(10)

+-------------------+-------------------+----+---------------------------+----------------------+---------------------------+
|               pais|               data| ano|sum(quantidade_confirmados)|sum(quantidade_mortes)|sum(quantidade_recuperados)|
+-------------------+-------------------+----+---------------------------+----------------------+---------------------------+
|    Solomon Islands|2020-01-22 00:00:00|2020|                          0|                     0|                          0|
|Congo (Brazzaville)|2020-01-22 00:00:00|2020|                          0|                     0|                          0|
|           Holy See|2020-01-22 00:00:00|2020|                          0|                     0|                          0|
|                 US|2020-01-22 00:00:00|2020|                          1|                     0|                          0|
|               Mali|2020-01-22 00:00:00|2020|                          0|                     0|                     

In [238]:
# cria janela particionada por pais e ordenada por data com intervalo de 7 valores
window = Window.partitionBy("pais").orderBy("data").rowsBetween(-6, 0)

# cria coluna media movel e faz o arredondamente para duas casa decimais
refined_media_movel = agg.withColumn("media_movel_mortes", round(avg(col("sum(quantidade_mortes)")).over(window), 2)) \
    .withColumn("media_movel_confirmados", round(avg(col("sum(quantidade_confirmados)")).over(window), 2)) \
    .withColumn("media_movel_recuperados", round(avg(col("sum(quantidade_recuperados)")).over(window), 2))

In [239]:
# selecão de colunas e cast das colunas para long
refined = refined_media_movel .select("pais","data","media_movel_confirmados", "media_movel_mortes","media_movel_recuperados", "ano") \
    .withColumn("media_movel_mortes", col("media_movel_mortes").cast("long")) \
    .withColumn("media_movel_confirmados", col("media_movel_confirmados").cast("long")) \
    .withColumn("media_movel_recuperados", col("media_movel_recuperados").cast("long"))

In [241]:
refined.show()

+-----------+-------------------+-----------------------+------------------+-----------------------+----+
|       pais|               data|media_movel_confirmados|media_movel_mortes|media_movel_recuperados| ano|
+-----------+-------------------+-----------------------+------------------+-----------------------+----+
|Afghanistan|2020-01-22 00:00:00|                      0|                 0|                      0|2020|
|Afghanistan|2020-01-23 00:00:00|                      0|                 0|                      0|2020|
|Afghanistan|2020-01-24 00:00:00|                      0|                 0|                      0|2020|
|Afghanistan|2020-01-25 00:00:00|                      0|                 0|                      0|2020|
|Afghanistan|2020-01-26 00:00:00|                      0|                 0|                      0|2020|
|Afghanistan|2020-01-27 00:00:00|                      0|                 0|                      0|2020|
|Afghanistan|2020-01-28 00:00:00|             

In [240]:
refined

DataFrame[pais: string, data: timestamp, media_movel_confirmados: bigint, media_movel_mortes: bigint, media_movel_recuperados: bigint, ano: int]

In [None]:
refined.repartition(1).write.format("parquet").option("header", "true").mode("overwrite").partitionBy("ano").save("/home/jovyan/work/dados/Refined")

In [237]:
#refined_media_movel.filter((refined["pais"] == "Armenia")).orderBy(col("data").desc()).show()

In [228]:
#refined.filter((refined["sum(quantidade_mortes)"]>0) & (refined["pais"] == "Armenia")).show()

In [207]:
#refined.show(10)

In [201]:
#refined.repartition(1).write.format("parquet").option("header", "true").mode("overwrite").partitionBy("ano").save("/home/jovyan/work/dados/Refined")

pyspark.sql.window.WindowSpec

In [202]:
#movel.filter((agg["sum(quantidade_mortes)"]>0) & (agg["pais"] == "Armenia")).show()