# Convertento arquivo csv em parquet

-  **spark.read.format("csv")  Definindo o formato para leitura**
-  **.option("header", "True") Defindo cabeçalho** 
-    **.option("delimiter", ";")  Definir separador de colunas no arquivo** 
-    **.option("inferSchema", "True")  Inferir de forma automatica o tipo de dado de cada coluna**
-    **.load("/FileStore/tables/siconv_etapa_crono_fisico.csv")  Carregar arquivo e especificar o caminho** 

In [0]:
# Lendo arquivos csv do dbfs com Spark 
df = (
    spark.read.format("csv")\
    .option("header", "True")\
    .option("delimiter", ";")\
    .option("inferSchema", "True")\
    .load("/FileStore/tables/siconv_etapa_crono_fisico.csv") 
)

In [0]:
# Verificando o Schema do dataframe
df.printSchema()

root
 |-- ID_META: string (nullable = true)
 |-- ID_ETAPA: integer (nullable = true)
 |-- NR_ETAPA: integer (nullable = true)
 |-- DESC_ETAPA: string (nullable = true)
 |-- DATA_INICIO_ETAPA: string (nullable = true)
 |-- DATA_FIM_ETAPA: string (nullable = true)
 |-- UF_ETAPA: string (nullable = true)
 |-- MUNICIPIO_ETAPA: string (nullable = true)
 |-- ENDERECO_ETAPA: string (nullable = true)
 |-- CEP_ETAPA: string (nullable = true)
 |-- QTD_ETAPA: string (nullable = true)
 |-- UND_FORNECIMENTO_ETAPA: string (nullable = true)
 |-- VL_ETAPA: string (nullable = true)



In [0]:
# Verificar as 10 primeiras linhas
display(df.show(10))

+-------+--------+--------+--------------------+-----------------+--------------+--------+---------------+--------------------+---------+---------+----------------------+--------+
|ID_META|ID_ETAPA|NR_ETAPA|          DESC_ETAPA|DATA_INICIO_ETAPA|DATA_FIM_ETAPA|UF_ETAPA|MUNICIPIO_ETAPA|      ENDERECO_ETAPA|CEP_ETAPA|QTD_ETAPA|UND_FORNECIMENTO_ETAPA|VL_ETAPA|
+-------+--------+--------+--------------------+-----------------+--------------+--------+---------------+--------------------+---------+---------+----------------------+--------+
|   1230|    1109|       1|Ampliação do Barr...|       05/08/2008|    08/12/2008|      PR|      PARANAVAI|Rua Getulio Varga...|87702-000|     null|                  null|  160000|
|   1233|    1112|       1|Ampliação de 103 ...|       05/08/2008|    08/12/2008|      PR|      PARANAVAI|Rua Pioneiro Fran...|87700-000|     null|                  null|  150000|
|   1234|    1111|       1|palestras educativas|       18/08/2008|    24/11/2008|      PR|      PARA

In [0]:
# Contando a quantidade de linhas 
df.count()

Out[23]: 3011901

### Leva os dados convertidos para Processing Zone

- **df.write.format("parquet") Define o formato de saída do arquivo**
- **.mode("overwrite") Especifica o modo de gravação e sobrescrever os arquivo no diretório**
- **.save("/FileStore/tables/csv to parquet") Define o caminho onde os arquivos serão salvos**

In [0]:
# Converte para o formato parquet
df.write.format("parquet")\
.mode("overwrite")\
.save("/FileStore/tables/csv to parquet") 

- **df_parquet = spark.read.format("parquet")\ Definindo um novo DataFrame** 
- **.load("/FileStore/tables/csv to parquet"  Define o caminho onde sera carregado** 

In [0]:
# Lendo arquivos parquet
df_parquet = spark.read.format("parquet")\
.load("/FileStore/tables/csv to parquet")

In [0]:
# conta a quantidade de linhas 
df_parquet.count()

Out[29]: 3011901

In [0]:
display(df_parquet.head(10))

ID_META,ID_ETAPA,NR_ETAPA,DESC_ETAPA,DATA_INICIO_ETAPA,DATA_FIM_ETAPA,UF_ETAPA,MUNICIPIO_ETAPA,ENDERECO_ETAPA,CEP_ETAPA,QTD_ETAPA,UND_FORNECIMENTO_ETAPA,VL_ETAPA
220655,754000,6,Mini Rack - tipo sobrepor,01/03/2010,30/03/2010,SP,MAGDA,Rua 7 de Setembro 981,15310-000,1,unidade,178564
220655,753993,7,Nobreak Senoidal 1.4 Va,01/03/2010,30/03/2010,SP,MAGDA,Rua 7 de Setembro 981,15310-000,2,unidade,319328
220655,753959,8,"Servidor ultiprocessado 64 Bits, 2 GB RAM DR2,HD SATA2 160 GB, 3 interfaces de Rede",01/03/2010,30/03/2010,SP,MAGDA,Rua 7 de Setembro 981,15310-000,2,unidade,2857143
220655,754012,9,Switch 08 portas,01/03/2010,30/03/2010,SP,MAGDA,Rua 7 de Setembro 981,15310-000,2,unidade,67227
220655,753870,10,Torre Estaiada,01/03/2010,30/03/2010,SP,MAGDA,Rua 7 de Setembro 981,15310-000,36,metros,310084
220655,753921,11,"Transceptor de Rádio Frequência Outdoor 1 interface de 5,8 GHz NanoStation 5.8 Ghz",01/03/2010,30/03/2010,SP,MAGDA,Rua 7 de Setembro 981,15310-000,10,unidade,1218487
220655,753910,12,Transceptor de Rádio Frequência Outdoor 3 interfaces de 5.8GHz,01/03/2010,30/03/2010,SP,MAGDA,Rua 7 de Setembro 981,15310-000,3,unidade,674622
220658,562068,1,Tornozeleira 1 kg,20/01/2010,20/02/2010,ES,CARIACICA,"Rua João Rodrigues Filho,425",29156-270,1,Fisioeletro Ltda,36
220662,549017,1,Contratar consultores p/ apoio ao seminário,13/05/2011,15/05/2011,,,,,4,Consultores,2600
220662,549030,2,Convocar participantes,13/05/2011,15/05/2011,,,,,1,Convocações,500
