In [1]:
# Importar pacotes
import pandas as pd
import pyspark.sql.functions as F
from pyspark.sql.types import *
from pyspark.sql import Window

In [2]:
# Leitura do linkage
read_path = '/home/tatiane/Downloads/exemplo_linkage_cases-brazil-cities-time.csv/tmp/exemplo_linkage_cases-brazil-cities-time.csv' 
df = spark.read.csv(read_path, sep = ",", multiLine = True, header=True) 

In [3]:
#Observar como está o linkage, se o separador está correto, se tem ou não cabeçalho
df.limit(5).toPandas()

Unnamed: 0,00,01,São Paulo/SP2,São Paulo/SP3,São Paulo4,São Paulo5,3550306,3550307,202002258,202002259,910,911,1.0
0,2,2,São Paulo/SP,São Paulo/SP,São Paulo,São Paulo,355030,355030,20200226,20200226,9,9,1.0
1,4,4,São Paulo/SP,São Paulo/SP,São Paulo,São Paulo,355030,355030,20200227,20200227,9,9,1.0
2,6,6,São Paulo/SP,São Paulo/SP,São Paulo,São Paulo,355030,355030,20200228,20200228,9,9,1.0
3,1,1,TOTAL,TOTAL,,,0,0,20200225,20200225,9,9,0.7237569060773481
4,5,5,TOTAL,TOTAL,,,0,0,20200227,20200227,9,9,0.7237569060773481


In [4]:
#renomeando colunas
header = ["id1", "id2", "city1", "city2", "regiao_saude1", "regiao_saude2", "codmun1", "codmun2", "date1", "date2", "epi_week1", "epi_week2", "score"]

for nome_antigo, novo_nome in zip(df.columns, header):
    df = df.withColumnRenamed(nome_antigo, novo_nome)

In [5]:
# Lista das variáveis da base
df.printSchema()

root
 |-- id1: string (nullable = true)
 |-- id2: string (nullable = true)
 |-- city1: string (nullable = true)
 |-- city2: string (nullable = true)
 |-- regiao_saude1: string (nullable = true)
 |-- regiao_saude2: string (nullable = true)
 |-- codmun1: string (nullable = true)
 |-- codmun2: string (nullable = true)
 |-- date1: string (nullable = true)
 |-- date2: string (nullable = true)
 |-- epi_week1: string (nullable = true)
 |-- epi_week2: string (nullable = true)
 |-- score: string (nullable = true)



In [6]:
#tamanho da base
df.count()

2248976

In [7]:
# Converter o score para o tipo correto
df = df.withColumn('score', F.col('score').cast(DoubleType()))

In [8]:
# Checando dados da coluna score
df.select('score').summary().toPandas().set_index('summary')

Unnamed: 0_level_0,score
summary,Unnamed: 1_level_1
count,2243799.0
mean,0.9604942529147876
stddev,0.0738695892263493
min,0.5165745856353592
25%,1.0
50%,1.0
75%,1.0
max,1.0


In [9]:
# Analisar distribuição dos scores por faixas (0.0, 0.1, 0.2, 0.3, ..., 0.9, 1.0), informar o count e a porcentagens
df.groupBy(F.substring('score', 1, 3).alias('faixa_score')).count().show()

+-----------+-------+
|faixa_score|  count|
+-----------+-------+
|        1.0|1727047|
|        0.7|   8606|
|       null|   5177|
|        0.8| 489104|
|        0.5|   2290|
|        0.9|  16674|
|        0.6|     78|
+-----------+-------+



In [20]:
# Analisar distribuição dos scores por faixas (0.0, 0.1, 0.2, 0.3, ..., 0.9, 1.0), informar o count e a porcentagens
df.groupBy(F.round('score', 1)).count().withColumn(' % ', F.round(F.col('count')/df.count(),3)).show()

+---------------+-------+-----+
|round(score, 1)|  count|   % |
+---------------+-------+-----+
|            0.7|   8684|0.004|
|           null|   5177|0.002|
|            1.0|1738163|0.773|
|            0.6|   2288|0.001|
|            0.8| 489104|0.217|
|            0.5|      2|  0.0|
|            0.9|   5558|0.002|
+---------------+-------+-----+



In [13]:
# Analisar quantos scores são maiores que 1 e menores que 0, informar o count e porcentagens
valores_maiores = df.filter(F.col('score') > 1).count()
print('Quantidade de score maior que 1: {}'.format(valores_maiores))

valores_menores = df.filter(F.col('score') < 0).count()
print('Quantidade de score menor que 0: {}'.format(valores_menores))

Quantidade de score maior que 1: 0
Quantidade de score menor que 0: 0


In [14]:
# Analisando se existe scores nulos 
df.groupBy('score').count().show()

+------------------+-------+
|             score|  count|
+------------------+-------+
|0.9654696132596685|  11116|
|0.5511049723756907|   2288|
|0.6892265193370166|     52|
|              null|   5177|
|               1.0|1727047|
|0.7237569060773481|   8606|
| 0.930939226519337|   5558|
|0.8273480662983426| 489104|
|0.6546961325966851|     26|
|0.5165745856353592|      2|
+------------------+-------+



In [15]:
#Comparando colunas para realizar as demais atividades

df_new = df.withColumn('city', F.when(F.col('city1') == F.col('city2'), 1).otherwise(0))
df_new = df_new.withColumn('regiao_saude', F.when(F.col('regiao_saude1') == F.col('regiao_saude2'), 1).otherwise(0))
df_new = df_new.withColumn('date', F.when(F.col('date1') == F.col('date2'), 1).otherwise(0))
df_new = df_new.withColumn('epi_week', F.when(F.col('epi_week1') == F.col('epi_week2'), 1).otherwise(0))
df_new = df_new.withColumn('codmun', F.when(F.col('codmun1') == F.col('codmun2'), 1).otherwise(0))

In [16]:
# Analisando se existem casos onde todas as colunas são iguais e o score é diferente de 1
df_new.filter((F.col('city') == 1) & (F.col('regiao_saude') == 1) & (F.col('date') == 1) & (F.col('epi_week') == 1) & (F.col('codmun') == 1) & (F.col('score') != 1)).count()

0

In [17]:
# Analisando se existe alguma coluna diferente e o score igual de 1
df_new.filter((F.col('score') == 1) & ((F.col('city1') != F.col('city2')) | (F.col('regiao_saude1') != F.col('regiao_saude2')) | (F.col('date1') != F.col('date2')) | (F.col('epi_week1') != F.col('epi_week2')) | (F.col('codmun1') != F.col('codmun2')))).count()

0