In [1]:
# raw_cid10
# Este notebook cria a camada raw das 4 bases do CID10

In [31]:
%run ../spark-default.py

In [32]:
spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic")

In [34]:
cid10_capitulos = spark.read.option("header", True).option("sep", ";").option("encoding", "ISO-8859-1").csv("s3a://datalake/input/cid10_capitulos/")

cid10_capitulos.printSchema()

cid10_capitulos = cid10_capitulos.select(
    col("NUMCAP").alias("numero_capitulo"),
    col("CATINIC").alias("categoria_inicio"),
    col("CATFIM").alias("categoria_fim"),
    col("DESCRICAO").alias("descricao"),
    col("DESCRABREV").alias("descricao_abreviada")
)

print(cid10_capitulos.count())

cid10_capitulos.show(999)

root
 |-- NUMCAP: string (nullable = true)
 |-- CATINIC: string (nullable = true)
 |-- CATFIM: string (nullable = true)
 |-- DESCRICAO: string (nullable = true)
 |-- DESCRABREV: string (nullable = true)
 |-- _c5: string (nullable = true)

22
+---------------+----------------+-------------+--------------------+--------------------+
|numero_capitulo|categoria_inicio|categoria_fim|           descricao| descricao_abreviada|
+---------------+----------------+-------------+--------------------+--------------------+
|              1|             A00|          B99|Capítulo I - Algu...|I.   Algumas doen...|
|              2|             C00|          D48|Capítulo II - Neo...|II.  Neoplasias (...|
|              3|             D50|          D89|Capítulo III  - D...|III. Doenças sang...|
|              4|             E00|          E90|Capítulo IV - Doe...|IV.  Doenças endó...|
|              5|             F00|          F99|Capítulo V - Tran...|V.   Transtornos ...|
|              6|             

In [35]:
cid10_capitulos.write.parquet("s3a://datalake/raw/cid10_capitulos/")

In [36]:
cid10_categorias = spark.read.option("header", True).option("sep", ";").option("encoding", "ISO-8859-1").csv("s3a://datalake/input/cid10_categorias/")

cid10_categorias.printSchema()

cid10_categorias = cid10_categorias.select(
    col("CAT").alias("categoria"),
    col("CLASSIF").alias("classificacao"),
    col("DESCRICAO").alias("descricao"),
    col("DESCRABREV").alias("descricao_abreviada"),
    col("REFER").alias("referencia")
)

print(cid10_categorias.count())

cid10_categorias.show()

root
 |-- CAT: string (nullable = true)
 |-- CLASSIF: string (nullable = true)
 |-- DESCRICAO: string (nullable = true)
 |-- DESCRABREV: string (nullable = true)
 |-- REFER: string (nullable = true)
 |-- EXCLUIDOS: string (nullable = true)
 |-- _c6: string (nullable = true)

2045
+---------+-------------+--------------------+--------------------+----------+
|categoria|classificacao|           descricao| descricao_abreviada|referencia|
+---------+-------------+--------------------+--------------------+----------+
|      A00|         null|              Cólera|        A00   Colera|      null|
|      A01|         null|Febres tifóide e ...|A01   Febres tifo...|      null|
|      A02|         null|Outras infecções ...|A02   Outr infecc...|      null|
|      A03|         null|          Shiguelose|    A03   Shiguelose|      null|
|      A04|         null|Outras infecções ...|A04   Outr infecc...|      null|
|      A05|         null|Outras intoxicaçõ...|A05   Outr intox ...|      null|
|      A

In [37]:
cid10_categorias.write.parquet("s3a://datalake/raw/cid10_categorias/")

In [38]:
cid10_grupos = spark.read.option("header", True).option("sep", ";").option("encoding", "ISO-8859-1").csv("s3a://datalake/input/cid10_grupos/")

cid10_grupos.printSchema()

cid10_grupos = cid10_grupos.select(
    col("CATINIC").alias("categoria_inicio"),
    col("CATFIM").alias("categoria_fim"),
    col("DESCRICAO").alias("descricao"),
    col("DESCRABREV").alias("descricao_abreviada")
)

print(cid10_grupos.count())

cid10_grupos.show()

root
 |-- CATINIC: string (nullable = true)
 |-- CATFIM: string (nullable = true)
 |-- DESCRICAO: string (nullable = true)
 |-- DESCRABREV: string (nullable = true)
 |-- _c4: string (nullable = true)

275
+----------------+-------------+--------------------+--------------------+
|categoria_inicio|categoria_fim|           descricao| descricao_abreviada|
+----------------+-------------+--------------------+--------------------+
|             A00|          A09|Doenças infeccios...|Doenças infeccios...|
|             A15|          A19|         Tuberculose|         Tuberculose|
|             A20|          A28|Algumas doenças b...|Algumas doenças b...|
|             A30|          A49|Outras doenças ba...|Outras doenças ba...|
|             A50|          A64|Infecções de tran...|Infecções de tran...|
|             A65|          A69|Outras doenças po...|Outras doenças po...|
|             A70|          A74|Outras doenças ca...|Outras doenças ca...|
|             A75|          A79|       Ricket

In [39]:
cid10_grupos.write.parquet("s3a://datalake/raw/cid10_grupos/")

In [40]:
cid10_subcategorias = spark.read.option("header", True).option("sep", ";").option("encoding", "ISO-8859-1").csv("s3a://datalake/input/cid10_subcategorias/")

cid10_subcategorias.printSchema()

cid10_subcategorias = cid10_subcategorias.select(
    col("SUBCAT").alias("sub_categoria"),
    col("CLASSIF").alias("classificacao"),
    col("RESTRSEXO").alias("restringido_sexo"),
    col("CAUSAOBITO").alias("causa_obito"),
    col("DESCRICAO").alias("descricao"),
    col("DESCRABREV").alias("descricao_abreviada"),
    col("REFER").alias("referencia"),
    col("EXCLUIDOS").alias("excluidos")
)

print(cid10_subcategorias.count())

cid10_subcategorias.show()

root
 |-- SUBCAT: string (nullable = true)
 |-- CLASSIF: string (nullable = true)
 |-- RESTRSEXO: string (nullable = true)
 |-- CAUSAOBITO: string (nullable = true)
 |-- DESCRICAO: string (nullable = true)
 |-- DESCRABREV: string (nullable = true)
 |-- REFER: string (nullable = true)
 |-- EXCLUIDOS: string (nullable = true)
 |-- _c8: string (nullable = true)

12451
+-------------+-------------+----------------+-----------+--------------------+--------------------+----------+---------+
|sub_categoria|classificacao|restringido_sexo|causa_obito|           descricao| descricao_abreviada|referencia|excluidos|
+-------------+-------------+----------------+-----------+--------------------+--------------------+----------+---------+
|         A000|         null|            null|       null|Cólera devida a V...|A00.0 Colera dev ...|      null|     null|
|         A001|         null|            null|       null|Cólera devida a V...|A00.1 Colera dev ...|      null|     null|
|         A009|       

In [41]:
cid10_subcategorias.write.parquet("s3a://datalake/raw/cid10_subcategorias/")

In [42]:
spark.stop()