Curso de Python básico para cientistas de dados

Este é um curso para aqueles estudantes que acabam de iniciar a jornada em busca de uma carreira de cientista de dados.

Configuração

Windows 11
Python 3.8.6

Sumário

Objetos da linguagem Python
Condicionais, repetição, funções, classes e bibliotecas
Análise exploratória de dados com Pandas
Análise exploratória de dados com Matplotlib e Seaborn
- Gráfico de barra
- Gráfico de dispersão
- Boxplot
- Histograma
- Gráfico de pizza
Estudo de caso: ENEM 2017
- Gerenciando memória em conjuntos muito grandes
- Viés de sobrevivência
Estudo de caso: SRAG de 2020 a 2022 (Atividade avaliativa)
Bancos relacionais
- SQLite 3 CRUD
- SQLite 3 relacionamentos
- SQLite 3 agrupamentos e joins
- Processos de ETL
Estudo de caso: Olist dataset (Atividade prática)
Problemas de regressão supervisionada (Parte 1)
- Exploração de dados
- Preparação dos dados
  - Preenchimento de nulos
  - Codificação de variáveis categóricas
  - Transformações
- Criando conjuntos de treino e teste
- Modelagem
- Avaliação do modelo
Estudo de caso: House Prices (Aula prática)
Problemas de regressão supervisionada (Parte 2)
- Exploração de dados
- Preparação dos dados
  - Preenchimento de nulos
  - Codificação de variáveis categóricas
  - Transformações
- Criando conjuntos de treino e teste
- Seleção de modelos*
- Modelagem
- Avaliação do modelo
- Stacking*
Estudo de caso: Gemstone (Atividade avaliativa)
Classificação binária supervisionada (Estudo de caso: Titanic)
- Exploração de dados
- Preparação dos dados
  - Preenchimento de nulos
  - Codificação de variáveis categóricas
  - Transformações
  - Criação de variáveis de negócio*
  - Processamento de strings*
- Criando conjuntos de treino e teste
- Seleção de modelos*
- Modelagem
- Tunagem de hiperparâmetros*
- Avaliação do modelo
- Stacking
Classificação multiclasses supervisionada (Estudo de caso: Vinhos)
- Importância de variáveis
- Sobreajuste (overfitting) e subajuste (underfitting)
- Seleção de modelos através de teste de hipóteses
- Tunagem por técnicas de otimização com Hyperopt
Agrupamentos (clustering)
- Aplicações
- K-means
- DBSCAN
- Hierárquico
- Detecção de anomalias com DBSCAN
- Criando variáveis para classicação e regressão supervisionadas com K-means
- Métodos Elbow e Silhouete para definir número de clusterings
- Utilizando clustering para segmentação de imagens
Redimensionamento
- Seleção de variáveis
  - Variance Threshold
  - KBest
  - Seleção por modelo
  - Outros métodos
- Transformações
  - PCA
  - PCA Kernel
  - Outros métodos
- Novas variáveis
  - Componentes do PCA
  - Polinomiais
  - Cluster (visto na aula passada)
  - Outros métodos
- Geração de dados sintéticos
  - Problema de classes desbalanceadas
  - SMOTE
  - Outros métodos
- Estudo de caso: Cobb Douglas
  - Regressão linear com variáveis polinomiais bivariado
  - Sobreajuste de modelo de regressão linear bivariado
  - Visualização de modelos de regressão linear bivariado
Modelagem para séries temporais
- Exemplo de série temporal
- Índice com datas
- Agrupamento por intervalo de data e agregação
- Visualizando séries temporais
  - Visualizando séries temporais com Pandas
  - Visualizando séries temporais com Sktime
- Filtro por intervalo de data
- Janelas de tempos com shift
- Séries temporais como regressão supervisionada
  - Média móvel
- Horizonte de previsão com Sktime
- Modelagem com Sktime
  - Auto ARIMA
  - Exponencial Smoothing
  - Prophet (Facebook)
- Modelagem com Sktime e variáveis exôgeneas
  - Auto Arima com variáveis exôgenas
- Separação de treino e teste com Sktime
- Modelos de regressão do Sklearn com Sktime
  - Gradient boosting apenas com a endogênea
  - Gradient boosting com exôgeneas
Transformações e testes em séries temporais
- Variância e transformação logarítmica
- Tendência e ajuste de curvas
- Sazonalidade e diferenciação aditiva e multiplicativa
- Estacionariedade
  - Teste Augmented Dickey-Fuller (ADF)
  - Teste Kwiatkowski-Phillips-Schmidt-Shin (KPSS)
- Ruído branco
  - Teste Ljung-Box
- Normalidade
  - Teste Shapiro Wilk
  - QQplot
  - Histograma
  - Teste Kolmogorov-Smirnov
  - Estratégias de normalização
- Gráfico da função de auto correlação
- Modelo auto-regressivo (AR)
- Gráfico da função de auto correlação parcial
- Modelo de média móvel (MA)
- Modelo auto-regressivo de média móvel (ARMA)
- Modelo auto-regressivo de média móvel com diferenciação (ARIMA)
- Modelo SARIMAX
- Métricas
  - SMAPE
  - MAPE
  - EVS
- Estudo de caso Godaddy
- Transformações inversas
Boas práticas e pipelines
- Princípio DRY e funções
- Documentando funções
- Tipando funções
- PEP8 e flake
- Vs Code extensions
  - Bracket Pair Colorizer
  - Path Intellisense
  - Python Dockstring. generator
  - Python Indent
  - Python Type Hint
  - TODO Tree
  - Pylance
- Pipelines
- Pipelines personalizados
- Tunando pipelines
ATIVIDADE AVALIATIVA e Estudo de caso: Previsão de dados Climáticos
- Baixando dados de clima do Inmet
- Prevendo a máxima temperatura diária para 14 dias com AutoARIMA e sem variáveis exôgeneas
- Prevendo a máxima temperatura diária para 14 dias com AutoARIMA e com variáveis exôgeneas
Classificação supervisionada com redes neurais Perceptrons e Convolucionais
- Arquitetura de uma rede neural
  - Camadas:
    - Dense
    - Flatten
    - Dropout
    - Conv2D
    - MaxPooling*
  - Funções de ativação
    - ReLu
    - Softmax
- Foward Propagation
- Função de perda
  - log loss*
- Otimizador
- Back Propagation
- Épocas
- Estudo de caso: Iris dataset
  - Experimento 1: Dense(2)+Relu -> Dense(3)+ReLu -> Dense(3)+Softmax com 20 épocas
  - Experimento 2: Dense(20)+Relu -> Dense(30)+ReLu -> Dense(3)+Softmax com 20 épocas
  - Experimento 3: Dense(20)+Relu -> Dense(30)+ReLu -> Dense(3)+Softmax com 200 épocas
- Estudo de caso: MNIST dataset
  - Preparando imagens
  - Batch size*
  - Data augmentation
- Usando GPU no Google Colab
Acelerando treinamento de redes neurais com modelos pré-treinados e tensorflow com GPU
- Ganhando desempenho com Tensorflow e GPU's
- Salvando e carregando modelos de redes neurais pré-treinados
- Extendendo modelos de redes neurais
- Estudo de caso: Classificando imagens com VGG16
Gerando conversas e classificando sentimentos com redes neurais recorrentes
- Revisão de redes neurais profundas (DFF)
- Exemplo de DFF com Iris dataset
- Conjunto de treino, de teste e de validação!
- Otimizando o número de épocas para evitar overfitting
- Problema do desaparecimento do gradiente
- Entendendo o que são redes neurais recorrentes
- Fazendo seu próprio gerador de textos usando Lusíadas de Luís Vaz de Camões
- Análise de sentimentos com redes neurais recorrentes
- Estudo de caso: Avaliando reviews de filmes (IMDB)
Word embeedings e LSTM
- Limpeza de dados textuais
- Gerenciamento de memória
- Vetorização com TF-IDF
- Classificador Naive Bayes para modelos Bernoulli multivariados
- Vetorização OneHot
- Keras Embeeding
- LSTM para previsão de séries temporais
- Estudo de caso: Previsão do valor de fechamento de ações da bolsa
Sistemas de recomendação
- Filtragem colaborativa
- Medidas de similaridade
- Filtragem baseada em conteúdo
- Apriori
- Métricas do Apriori: Support, Confidence, Lift, Leverage, Conviction
Estudos de casos: Sistema de recomendação de Músicas, Filmes, Textos e Jogos de tabuleiro
- Biblioteca surprise
- Recomendações com SVD
- Recomendações com KNN
- Extração de tópicos com TF-IDF e NMF
- Estudo de caso: recomendação de jogos de tabuleiro com extração de dados de API com resposta em XML
Processamento natural de linguagem
- Biblioteca spacy
- Documentos, tokens e spans
- Propriedades dos tokens
- Dependências universais
- Spacy Matcher
- Aplicação em pré-processamento de dados textuais
- Extração e classificação de entidades no texto
- Transformers pré-treinados (modelos BERT)
- Classificação multi-task de textos
Outras aplicações com Difusers e interfaces web para protótipos de modelos aprendizado de máquina
- Texto para imagem
- Imagem para texto
- Texto para vídeo
- Imagem para Imagem (Pix2Pix)
- Interfaces gráficas com Gradio

Name		Name	Last commit message	Last commit date
Latest commit History 108 Commits
.vscode		.vscode
assets		assets
aulas		aulas
cronogramas		cronogramas
duvidas		duvidas
extras		extras
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Curso de Python básico para cientistas de dados

Configuração

Sumário

About

Releases

Packages

Languages

leandrocl2005/Curso-basico-de-Python-para-cientistas-de-dados

Folders and files

Latest commit

History

Repository files navigation

Curso de Python básico para cientistas de dados

Configuração

Sumário

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages