- Módulo 1 - Perspectivas de Carreira
- Módulo 2 - Metodologia
- Módulo 3 - Elementos básicos de Python e Numpy - Parte I
- Módulo 3 - Elementos básicos de Python e Numpy - Parte II
- Módulo 4 - Introdução ao Pandas e carga de dados
- Módulo 5 - Limpeza e preparação de dados
- Módulo 6 - Descritiva I
- Módulo 7 - Árvores I
- Módulo 8 - Git / GitHub - Controle de versionamento
- Módulo 9 - TdD III - Agregações e operações em grupos
- Módulo 10 - Descritiva II - Análise descritiva para resposta contínua
- Módulo 11 - Árvores II (Parte I: árvore de regressão)
- Módulo 12 - Regressão I
- Módulo 13 - Regressão II
- Módulo 14 - Scripting
- Módulo 15 - Streamlit I
- Módulo 16 - TdD IV - Pandas avançado
- Módulo 17 - Árvores II (Parte II: árvore de classificação)
- Módulo 18 - Regressão Logística I
- Módulo 19 - Streamlit II
- Módulo 20 - Markdown / Terminal
- Módulo 21 - TdD V - SQL
- Módulo 22 - Descritiva III - Gráficos interativos - Plotly
- Módulo 23 - Combinação de modelos I
- Módulo 24 - Combinação de modelos II
- Módulo 25 - Cálculo
- Módulo 26 - Algelin
- Módulo 27 - PCA
- Módulo 28 - Streamlit III, IV
- Módulo 29 - K-means
- Módulo 30 - Hierárquicos / aglomerativos
- Módulo 31 - Streamlit V
- Módulo 32 - Probabilidade
- Módulo 33 - Inferência
- Módulo 34 - Regressão III
- Módulo 35 - Regressão IV
- Módulo 36 - Descritiva IV - Visualização de dados categorizados
- Módulo 37 - Regressão Logística II
- Módulo 38 - Streamlit VI e Pycaret
--- Python versão 3.10
- Python/Anaconda https://www.anaconda.com/
- SQL/PostgreSQL https://www.postgresql.org/
- numpy
- pandas
- plotly
- matplotlib
- seaborn
- tabula
- scikit-learn
- Streamlit
- Domínio do Python
- Linguagem SQL/postgresql
- Árvore de decisão na prática
- Big Data e Machine Learning
- Competências/Ferramentas
- Visualização de dados
- Padronizações
- Resolução de problemas com base em dados
https://www.w3schools.com/python/numpy/default.asp
As matrizes NumPy são armazenadas em um local contínuo na memória, ao contrário das listas, para que os processos possam acessá-las e manipulá-las com muita eficiência.
Esse comportamento é chamado de localidade de referência em ciência da computação.
Esta é a principal razão pela qual o NumPy é mais rápido do que as listas. Também é otimizado para trabalhar com as mais recentes arquiteturas de CPU.
- NumPy fornece um grande conjunto de funções e operações de biblioteca que ajudam os programadores a executar facilmente cálculos numéricos.(Modelos Machine Learning, Processamento de Imagem e Computação Gráfica e Tarefas matemáticas
https://www.w3schools.com/python/pandas/default.asp
Existe uma correlação entre duas ou mais colunas? O que é valor médio?Valor máximo?Valor mínimo? Os pandas também podem excluir linhas que não são relevantes ou que contêm informações erradas valores, como valores vazios ou NULL. Isso é chamado de limpeza dos dados.
- Plotar gráficos interativos e dinamicos
https://www.w3schools.com/python/matplotlib_intro.asp
- Matplotlib é uma biblioteca de plotagem de gráficos de baixo nível em python que serve como um utilitário de visualização.
- O Streamlit é uma biblioteca Python de código aberto que facilita a criação e o compartilhamento de aplicativos da Web bonitos e personalizados para aprendizado de máquina e ciência de dados. Em apenas alguns minutos, você pode criar e implantar aplicativos de dados poderosos.
- Seaborn é uma biblioteca de visualização de dados Python baseada em matplotlib. Ele fornece uma interface de alto nível para o desenho gráficos estatísticos atraentes e informativos.
https://scikit-learn.org/stable/index.html
-
Classificação Identificar a qual categoria um objeto pertence. Aplicativos: Detecção de spam, reconhecimento de imagem.
-
Regressão Prevendo um atributo de valor contínuo associado a um objeto. Aplicativos: Resposta a medicamentos, Preços das ações.
-
Clustering Agrupamento automático de objetos semelhantes em conjuntos. Aplicativos: Segmentação de clientes, Agrupamento de resultados de experimentos
-
Redução da dimensionalidade Reduzir o número de variáveis aleatórias a serem consideradas. Aplicativos: Visualização, Algoritmos de maior eficiência
-
Seleção de modelo Comparar, validar e escolher parâmetros e modelos. Aplicativos: Precisão melhorada através de algoritmos de ajuste de afinação
-
Pré-processamento Extração e normalização de recursos. Aplicativos: Transformar dados de entrada, como texto, para uso com algoritmos de aprendizado de máquina.
Ferramentas simples e eficientes para análise preditiva de dados Acessível a todos e reutilizável em vários contextos Construído em NumPy, SciPy e matplotlib Código aberto, comercialmente utilizável - licença BSD
- O JupyterLab é o mais recente ambiente de desenvolvimento interativo baseado na Web para notebooks, código e dados. Sua interface flexível permite que os usuários configurem e organizem fluxos de trabalho em ciência de dados, computação científica, jornalismo computacional e aprendizado de máquina. Um design modular convida as extensões a expandir e enriquecer a funcionalidade.
Anaconda Tecnologia de ciência de dados para pesquisa inovadora.uma vantagem competitiva.um mundo melhor.
- A Anaconda oferece a maneira mais fácil de executar ciência de dados Python / R e aprendizado de máquina em uma única máquina. Comece a trabalhar com milhares de pacotes e bibliotecas de código aberto hoje mesmo.
- O PostgreSQL é um poderoso sistema de banco de dados objeto-relacional de código aberto com mais de 35 anos de desenvolvimento ativo que lhe valeu uma forte reputação de confiabilidade, robustez de recursos e desempenho.
-
Gráfico de barras : comparar frequência entre categorias
-
Gráfico de linhas : tendência ao longo do tempo
-
Gráfico de dispersão : mostra relação entre variáveis
-
Gráfico de pizza : distribuição proporcional de diferentes categorias
-
Mapa : visualização de dados geoespaciais