Projeto_Final_Spark_Semantix

Leitura da doc de instalação do docker
Leitura da doc de instalação do docker-compose
Leitura da documentação do projeto
Anotações durante o curso Anotações de Comandos

1 ) Criar diretorio do cluster big data nomeado "spark1"

mkdir /home/ronnan/spark1

2 ) Montando imagens dos containers docker e criar cluster bigdata

docker-compose -f docker-compose-parcial.yml up -d (montar as imagens e iniciar os containers)
docker-compose -f docker-compose-parcial.yml stop (caso seja necessario)

2.1 ) Verificar se os containers estão rodando e ativos

docker ps

docker ps -a (caso queria verificar os inativos)

3 ) Copiando o arquivo jars para dentro do container spark, dependencia necessaria

3.1) Copiar o jars pra dentro da pasta do jupyter

docker cp parquet-hadoop-bundle-1.6.0.jar jupyter-spark:/opt/spark/jars

3.2) Verificar se o jars está dentro da pasta

docker exec -it jupyter-spark ls /opt/spark/jars | grep 'parquet-hadoop-bundle'

4 ) Link para baixar os arquivos que iremos trabalhar

https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/04bd3419b22b9cc5c6efac2c6528100d_HIST_PAINEL_COVIDBR_06jul2021.rar

4.1) Fazer donwload do arquivo dentro do cluster no terminal

/home/ronnan/spark1/input/data_covid

curl -O https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/04bd3419b22b9cc5c6efac2c6528100d_HIST_PAINEL_COVIDBR_06jul2021.rar

4.2) Extrair os arquivos para em seguia importa-los para dentro do HDFS

unrar x 04bd3419b22b9cc5c6efac2c6528100d_HIST_PAINEL_COVIDBR_06jul2021.rar

4.3) Enviar os dados para o HDFS

hdfs dfs -put input/data_covid/*csv /user/ronnan/data/data_covid

5 ) Para o projeto utilizamos os containers e comandos para acessar-los

docker exec -it namenode bash
docker exec -it hive-server bash
docker exec -it jupyter-spark bash

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
anotacoes_comandos		anotacoes_comandos
arquivos_docker		arquivos_docker
data_covid_baixados_compactados		data_covid_baixados_compactados
documentacao_projeto		documentacao_projeto
Projeto_final_spark.ipynb		Projeto_final_spark.ipynb
README.md		README.md
containers_rodando.png		containers_rodando.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

anotacoes_comandos

anotacoes_comandos

arquivos_docker

arquivos_docker

data_covid_baixados_compactados

data_covid_baixados_compactados

documentacao_projeto

documentacao_projeto

Projeto_final_spark.ipynb

Projeto_final_spark.ipynb

README.md

README.md

containers_rodando.png

containers_rodando.png

Repository files navigation

Projeto_Final_Spark_Semantix

1 ) Criar diretorio do cluster big data nomeado "spark1"

2 ) Montando imagens dos containers docker e criar cluster bigdata

2.1 ) Verificar se os containers estão rodando e ativos

3 ) Copiando o arquivo jars para dentro do container spark, dependencia necessaria

3.1) Copiar o jars pra dentro da pasta do jupyter

3.2) Verificar se o jars está dentro da pasta

4 ) Link para baixar os arquivos que iremos trabalhar

4.1) Fazer donwload do arquivo dentro do cluster no terminal

4.2) Extrair os arquivos para em seguia importa-los para dentro do HDFS

4.3) Enviar os dados para o HDFS

5 ) Para o projeto utilizamos os containers e comandos para acessar-los

6 ) Abrir o projeto dentro do container do jupyter-spark, atráves do navedador pelo endereço

https://localhost:8889

Abrir o arquivo ----> Projeto_final_spark.ipynb

About

Releases

Packages

Languages

ronnanlimadataeng/Projeto_completo_docker_Pyspark_containers

Folders and files

Latest commit

History

Repository files navigation

Projeto_Final_Spark_Semantix

1 ) Criar diretorio do cluster big data nomeado "spark1"

2 ) Montando imagens dos containers docker e criar cluster bigdata

2.1 ) Verificar se os containers estão rodando e ativos

3 ) Copiando o arquivo jars para dentro do container spark, dependencia necessaria

3.1) Copiar o jars pra dentro da pasta do jupyter

3.2) Verificar se o jars está dentro da pasta

4 ) Link para baixar os arquivos que iremos trabalhar

4.1) Fazer donwload do arquivo dentro do cluster no terminal

4.2) Extrair os arquivos para em seguia importa-los para dentro do HDFS

4.3) Enviar os dados para o HDFS

5 ) Para o projeto utilizamos os containers e comandos para acessar-los

6 ) Abrir o projeto dentro do container do jupyter-spark, atráves do navedador pelo endereço

Abrir o arquivo ----> Projeto_final_spark.ipynb

About

Resources

Stars

Watchers

Forks

Languages