Este é um curso para aqueles estudantes que acabam de iniciar a jornada em busca de uma carreira de cientista de dados.
- Windows 11
- Python 3.8.6
- Objetos da linguagem Python
- Condicionais, repetição, funções, classes e bibliotecas
- Análise exploratória de dados com Pandas
- Análise exploratória de dados com Matplotlib e Seaborn
- Gráfico de barra
- Gráfico de dispersão
- Boxplot
- Histograma
- Gráfico de pizza
- Estudo de caso: ENEM 2017
- Gerenciando memória em conjuntos muito grandes
- Viés de sobrevivência
- Estudo de caso: SRAG de 2020 a 2022 (Atividade avaliativa)
- Bancos relacionais
- SQLite 3 CRUD
- SQLite 3 relacionamentos
- SQLite 3 agrupamentos e joins
- Processos de ETL
- Estudo de caso: Olist dataset (Atividade prática)
- Problemas de regressão supervisionada (Parte 1)
- Exploração de dados
- Preparação dos dados
- Preenchimento de nulos
- Codificação de variáveis categóricas
- Transformações
- Criando conjuntos de treino e teste
- Modelagem
- Avaliação do modelo
- Estudo de caso: House Prices (Aula prática)
- Problemas de regressão supervisionada (Parte 2)
- Exploração de dados
- Preparação dos dados
- Preenchimento de nulos
- Codificação de variáveis categóricas
- Transformações
- Criando conjuntos de treino e teste
- Seleção de modelos*
- Modelagem
- Avaliação do modelo
- Stacking*
- Estudo de caso: Gemstone (Atividade avaliativa)
- Classificação binária supervisionada (Estudo de caso: Titanic)
- Exploração de dados
- Preparação dos dados
- Preenchimento de nulos
- Codificação de variáveis categóricas
- Transformações
- Criação de variáveis de negócio*
- Processamento de strings*
- Criando conjuntos de treino e teste
- Seleção de modelos*
- Modelagem
- Tunagem de hiperparâmetros*
- Avaliação do modelo
- Stacking
- Classificação multiclasses supervisionada (Estudo de caso: Vinhos)
- Importância de variáveis
- Sobreajuste (overfitting) e subajuste (underfitting)
- Seleção de modelos através de teste de hipóteses
- Tunagem por técnicas de otimização com Hyperopt
- Agrupamentos (clustering)
- Aplicações
- K-means
- DBSCAN
- Hierárquico
- Detecção de anomalias com DBSCAN
- Criando variáveis para classicação e regressão supervisionadas com K-means
- Métodos Elbow e Silhouete para definir número de clusterings
- Utilizando clustering para segmentação de imagens
- Redimensionamento
- Seleção de variáveis
- Variance Threshold
- KBest
- Seleção por modelo
- Outros métodos
- Transformações
- PCA
- PCA Kernel
- Outros métodos
- Novas variáveis
- Componentes do PCA
- Polinomiais
- Cluster (visto na aula passada)
- Outros métodos
- Geração de dados sintéticos
- Problema de classes desbalanceadas
- SMOTE
- Outros métodos
- Estudo de caso: Cobb Douglas
- Regressão linear com variáveis polinomiais bivariado
- Sobreajuste de modelo de regressão linear bivariado
- Visualização de modelos de regressão linear bivariado
- Seleção de variáveis
- Modelagem para séries temporais
- Exemplo de série temporal
- Índice com datas
- Agrupamento por intervalo de data e agregação
- Visualizando séries temporais
- Visualizando séries temporais com Pandas
- Visualizando séries temporais com Sktime
- Filtro por intervalo de data
- Janelas de tempos com shift
- Séries temporais como regressão supervisionada
- Média móvel
- Horizonte de previsão com Sktime
- Modelagem com Sktime
- Auto ARIMA
- Exponencial Smoothing
- Prophet (Facebook)
- Modelagem com Sktime e variáveis exôgeneas
- Auto Arima com variáveis exôgenas
- Separação de treino e teste com Sktime
- Modelos de regressão do Sklearn com Sktime
- Gradient boosting apenas com a endogênea
- Gradient boosting com exôgeneas
- Transformações e testes em séries temporais
- Variância e transformação logarítmica
- Tendência e ajuste de curvas
- Sazonalidade e diferenciação aditiva e multiplicativa
- Estacionariedade
- Teste Augmented Dickey-Fuller (ADF)
- Teste Kwiatkowski-Phillips-Schmidt-Shin (KPSS)
- Ruído branco
- Teste Ljung-Box
- Normalidade
- Teste Shapiro Wilk
- QQplot
- Histograma
- Teste Kolmogorov-Smirnov
- Estratégias de normalização
- Gráfico da função de auto correlação
- Modelo auto-regressivo (AR)
- Gráfico da função de auto correlação parcial
- Modelo de média móvel (MA)
- Modelo auto-regressivo de média móvel (ARMA)
- Modelo auto-regressivo de média móvel com diferenciação (ARIMA)
- Modelo SARIMAX
- Métricas
- SMAPE
- MAPE
- EVS
- Estudo de caso Godaddy
- Transformações inversas
- Boas práticas e pipelines
- Princípio DRY e funções
- Documentando funções
- Tipando funções
- PEP8 e flake
- Vs Code extensions
- Bracket Pair Colorizer
- Path Intellisense
- Python Dockstring. generator
- Python Indent
- Python Type Hint
- TODO Tree
- Pylance
- Pipelines
- Pipelines personalizados
- Tunando pipelines
- ATIVIDADE AVALIATIVA e Estudo de caso: Previsão de dados Climáticos
- Baixando dados de clima do Inmet
- Prevendo a máxima temperatura diária para 14 dias com AutoARIMA e sem variáveis exôgeneas
- Prevendo a máxima temperatura diária para 14 dias com AutoARIMA e com variáveis exôgeneas
- Classificação supervisionada com redes neurais Perceptrons e Convolucionais
- Arquitetura de uma rede neural
- Camadas:
- Dense
- Flatten
- Dropout
- Conv2D
- MaxPooling*
- Funções de ativação
- ReLu
- Softmax
- Camadas:
- Foward Propagation
- Função de perda
- log loss*
- Otimizador
- Back Propagation
- Épocas
- Estudo de caso: Iris dataset
- Experimento 1: Dense(2)+Relu -> Dense(3)+ReLu -> Dense(3)+Softmax com 20 épocas
- Experimento 2: Dense(20)+Relu -> Dense(30)+ReLu -> Dense(3)+Softmax com 20 épocas
- Experimento 3: Dense(20)+Relu -> Dense(30)+ReLu -> Dense(3)+Softmax com 200 épocas
- Estudo de caso: MNIST dataset
- Preparando imagens
- Batch size*
- Data augmentation
- Usando GPU no Google Colab
- Arquitetura de uma rede neural
- Acelerando treinamento de redes neurais com modelos pré-treinados e tensorflow com GPU
- Ganhando desempenho com Tensorflow e GPU's
- Salvando e carregando modelos de redes neurais pré-treinados
- Extendendo modelos de redes neurais
- Estudo de caso: Classificando imagens com VGG16
- Gerando conversas e classificando sentimentos com redes neurais recorrentes
- Revisão de redes neurais profundas (DFF)
- Exemplo de DFF com Iris dataset
- Conjunto de treino, de teste e de validação!
- Otimizando o número de épocas para evitar overfitting
- Problema do desaparecimento do gradiente
- Entendendo o que são redes neurais recorrentes
- Fazendo seu próprio gerador de textos usando Lusíadas de Luís Vaz de Camões
- Análise de sentimentos com redes neurais recorrentes
- Estudo de caso: Avaliando reviews de filmes (IMDB)
- Word embeedings e LSTM
- Limpeza de dados textuais
- Gerenciamento de memória
- Vetorização com TF-IDF
- Classificador Naive Bayes para modelos Bernoulli multivariados
- Vetorização OneHot
- Keras Embeeding
- LSTM para previsão de séries temporais
- Estudo de caso: Previsão do valor de fechamento de ações da bolsa
- Sistemas de recomendação
- Filtragem colaborativa
- Medidas de similaridade
- Filtragem baseada em conteúdo
- Apriori
- Métricas do Apriori: Support, Confidence, Lift, Leverage, Conviction
- Estudos de casos: Sistema de recomendação de Músicas, Filmes, Textos e Jogos de tabuleiro
- Biblioteca surprise
- Recomendações com SVD
- Recomendações com KNN
- Extração de tópicos com TF-IDF e NMF
- Estudo de caso: recomendação de jogos de tabuleiro com extração de dados de API com resposta em XML
- Processamento natural de linguagem
- Biblioteca spacy
- Documentos, tokens e spans
- Propriedades dos tokens
- Dependências universais
- Spacy Matcher
- Aplicação em pré-processamento de dados textuais
- Extração e classificação de entidades no texto
- Transformers pré-treinados (modelos BERT)
- Classificação multi-task de textos
- Outras aplicações com Difusers e interfaces web para protótipos de modelos aprendizado de máquina
- Texto para imagem
- Imagem para texto
- Texto para vídeo
- Imagem para Imagem (Pix2Pix)
- Interfaces gráficas com Gradio