Capgemini - Aceleração PySpark 2022

Este projeto é parte do Programa de Aceleração PySpark da Capgemini Brasil.

Sobre

Este projeto consiste em realizar tarefas que buscam garantir a qualidade dos dados para responder perguntas de negócio a fim de gerar relatórios de forma assertiva. As tarefas são essencialmente apontar inconsistências nos dados originais, e realizar transformações que permitam tratar as inconsistências e enriquecer os dados. Em resumo, o projeto está organizado em três módulos: (1) qualidade, (2) transformação, e (3) relatório.

Dependências

Para executar os Jupyter Notebooks deste repositório é necessário ter o Spark instalado localmente e também as seguintes dependências:

pip install pyspark findspark

Para executar scripts deste repositório é necessário ter o Spark instalado localmente e também um OS contendo ubuntu configurado para spark e pyspark:8080

Estrutura de diretórios

├── LICENSE
├── README.md
├── csv                       <- Diretório contendo os dados brutos.
│   ├── airports.csv
│   ├── planes.csv
│   ├── flights.csv
│   │
│   ├── census-income.csv
│   │   ├── census-income.NAMES
│   │
│   ├── communities.csv
│   │   ├── communities.NAMES
│   │
│   ├── online-retail.csv
│   │   ├── online-retail.NAMES
│
├── semana_1.ipynb          <- Contém apontamentos de dados inconsistêntes.
├── semana_2.ipynb   <- Contem tratamentos dos dados.
├── semana_3.ipynb           <- Contém respostas de negócio baseadas em dados.
│
├── python scripts
├── Semana_5.py              <- Perguntas para Census Income
├── Semana_6.py              <- Perguntas para Communities and Crime
├── Semana_7.py              <- Perguntas para Online Retail

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
csv		csv
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
Semana 2.ipynb		Semana 2.ipynb
Semana 3.ipynb		Semana 3.ipynb
Semana 4.ipynb		Semana 4.ipynb
Semana 5.py		Semana 5.py
Semana 6.py		Semana 6.py
Semana 7.py		Semana 7.py
perguntas.txt		perguntas.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Capgemini - Aceleração PySpark 2022

Sobre

Dependências

Estrutura de diretórios

About

Releases

Packages

Contributors 2

Languages

License

eduastra/capgemini-aceleracao-pyspark

Folders and files

Latest commit

History

Repository files navigation

Capgemini - Aceleração PySpark 2022

Sobre

Dependências

Estrutura de diretórios

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages