Repositório com scripts e notebooks utilizando Python 3 e bancos de dados relacionais e não-relacionais (Oracle, MongoDB, Redis, Neo4J) como estudo para a Pós-Graduação em Data Science & Big Data pela Pontifícia Universidade Católica de Minas Gerais (PUC-MG)
- Python 3
- NumPy
- Pandas
- Microsoft Power BI
- SQL: Oracle Database (Apex)
- NoSQL: MongoDB
- NoSQL: Redis
- NoSQL: Neo4j
- Tableau Desktop
- Java 11
- Apache Spark
- Hadoop
- Docker e Docker-Compose
- 01 - Banco de Dados Relacionais e Não Relacionais
- 02 - Linguagens de Programação para Ciência de Dados
- 03 - Visualização de Dados
- 04 - Data Discovery e Analytics
- 05 - Integração e Processamento de Fluxo Contínuo de Dados
- 06 - Processamento Paralelo e Distribuído de Dados
- 07 - Estatística Geral - Teoria e aplicações (não há conteúdos dessa disciplina neste repositório pois foram cálculos estatísticos feitos em caderno)
- 08 - Recuperação da Informação na Web e Redes Sociais
- 09 - Modelos Estatísticos
- 10 - Machine Learning
- 11 - Redes Neurais e Aprendizagem Profunda
- 12 - Dataops e Implantação de Sistemas de Machine Learning
Início: 03/2020 Conclusão aproximada: 08/2021
Durante os conteúdos da Pós, foram desenvolvidos Notebooks integrando bancos de dados NoSQL à linguagem Python, foram também criado Notebooks contendo o uso da ferramenta Pandas e NumPy para tratamento e análise avanada de dados. E também foram desenvolvidas dashboards com o Microsoft Power BI para visualização de dados, Analytics e Data Discovery.
Integração do MongoDB ao Python usando a biblioteca PyMongo:
Integração do Redis ao Python com a biblioteca redis, criando conexão e inserindo documentos:
Utilização do DataFrame do Pandas para transformar dados:
Utilização da biblioteca NumPy e teste de benchmarking com funções de cálculos:
Dashboard analisando casos de feminicídio no Brasil no ano de 2015.
Dashboard analisando casos de reclamação do Procon entre os anos de 2014 a 2017
Dashboard analisando casos de dengue no Brasil entre os anos de 1991 a 2014
Dashboard analisando os casos de acidentes da Prefeitura de Belo Horizonte por regional, bairros, períodos e dia da semana
Dashboard analisando os casos de acidentes da Prefeitura de Belo Horizonte por perfil do condutor, habilitação, embriaguez, sexo e feixa de idade
Plotagem de um modelo de regressão linear múltipla utilizando Scikit-Learn, Matplotlib e Seaborn.
Modelo de regressão logística para analisar sobreviventes por sexo utilizando Scikit-Learn, Matplotlib e Seaborn.
Modelo de algoritmo de Média Móvel Simples (MMS) para realização de forecast de séries temporais
Modelo de treino e teste para algoritmo de Árvores de Decisão do dataset Iris da Scikit-Learn
Modelo de algoritmo de Árvore de Decisão do dataset Iris da Scikit-Learn com a biblioteca DTreeViz para visualização