Skip to content

leandrocl2005/Curso-basico-de-Python-para-cientistas-de-dados

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Curso de Python básico para cientistas de dados

Este é um curso para aqueles estudantes que acabam de iniciar a jornada em busca de uma carreira de cientista de dados.

Configuração

  • Windows 11
  • Python 3.8.6

Sumário

  • Objetos da linguagem Python
  • Condicionais, repetição, funções, classes e bibliotecas
  • Análise exploratória de dados com Pandas
  • Análise exploratória de dados com Matplotlib e Seaborn
    • Gráfico de barra
    • Gráfico de dispersão
    • Boxplot
    • Histograma
    • Gráfico de pizza
  • Estudo de caso: ENEM 2017
    • Gerenciando memória em conjuntos muito grandes
    • Viés de sobrevivência
  • Estudo de caso: SRAG de 2020 a 2022 (Atividade avaliativa)
  • Bancos relacionais
    • SQLite 3 CRUD
    • SQLite 3 relacionamentos
    • SQLite 3 agrupamentos e joins
    • Processos de ETL
  • Estudo de caso: Olist dataset (Atividade prática)
  • Problemas de regressão supervisionada (Parte 1)
    • Exploração de dados
    • Preparação dos dados
      • Preenchimento de nulos
      • Codificação de variáveis categóricas
      • Transformações
    • Criando conjuntos de treino e teste
    • Modelagem
    • Avaliação do modelo
  • Estudo de caso: House Prices (Aula prática)
  • Problemas de regressão supervisionada (Parte 2)
    • Exploração de dados
    • Preparação dos dados
      • Preenchimento de nulos
      • Codificação de variáveis categóricas
      • Transformações
    • Criando conjuntos de treino e teste
    • Seleção de modelos*
    • Modelagem
    • Avaliação do modelo
    • Stacking*
  • Estudo de caso: Gemstone (Atividade avaliativa)
  • Classificação binária supervisionada (Estudo de caso: Titanic)
    • Exploração de dados
    • Preparação dos dados
      • Preenchimento de nulos
      • Codificação de variáveis categóricas
      • Transformações
      • Criação de variáveis de negócio*
      • Processamento de strings*
    • Criando conjuntos de treino e teste
    • Seleção de modelos*
    • Modelagem
    • Tunagem de hiperparâmetros*
    • Avaliação do modelo
    • Stacking
  • Classificação multiclasses supervisionada (Estudo de caso: Vinhos)
    • Importância de variáveis
    • Sobreajuste (overfitting) e subajuste (underfitting)
    • Seleção de modelos através de teste de hipóteses
    • Tunagem por técnicas de otimização com Hyperopt
  • Agrupamentos (clustering)
    • Aplicações
    • K-means
    • DBSCAN
    • Hierárquico
    • Detecção de anomalias com DBSCAN
    • Criando variáveis para classicação e regressão supervisionadas com K-means
    • Métodos Elbow e Silhouete para definir número de clusterings
    • Utilizando clustering para segmentação de imagens
  • Redimensionamento
    • Seleção de variáveis
      • Variance Threshold
      • KBest
      • Seleção por modelo
      • Outros métodos
    • Transformações
      • PCA
      • PCA Kernel
      • Outros métodos
    • Novas variáveis
      • Componentes do PCA
      • Polinomiais
      • Cluster (visto na aula passada)
      • Outros métodos
    • Geração de dados sintéticos
      • Problema de classes desbalanceadas
      • SMOTE
      • Outros métodos
    • Estudo de caso: Cobb Douglas
      • Regressão linear com variáveis polinomiais bivariado
      • Sobreajuste de modelo de regressão linear bivariado
      • Visualização de modelos de regressão linear bivariado
  • Modelagem para séries temporais
    • Exemplo de série temporal
    • Índice com datas
    • Agrupamento por intervalo de data e agregação
    • Visualizando séries temporais
      • Visualizando séries temporais com Pandas
      • Visualizando séries temporais com Sktime
    • Filtro por intervalo de data
    • Janelas de tempos com shift
    • Séries temporais como regressão supervisionada
      • Média móvel
    • Horizonte de previsão com Sktime
    • Modelagem com Sktime
      • Auto ARIMA
      • Exponencial Smoothing
      • Prophet (Facebook)
    • Modelagem com Sktime e variáveis exôgeneas
      • Auto Arima com variáveis exôgenas
    • Separação de treino e teste com Sktime
    • Modelos de regressão do Sklearn com Sktime
      • Gradient boosting apenas com a endogênea
      • Gradient boosting com exôgeneas
  • Transformações e testes em séries temporais
    • Variância e transformação logarítmica
    • Tendência e ajuste de curvas
    • Sazonalidade e diferenciação aditiva e multiplicativa
    • Estacionariedade
      • Teste Augmented Dickey-Fuller (ADF)
      • Teste Kwiatkowski-Phillips-Schmidt-Shin (KPSS)
    • Ruído branco
      • Teste Ljung-Box
    • Normalidade
      • Teste Shapiro Wilk
      • QQplot
      • Histograma
      • Teste Kolmogorov-Smirnov
      • Estratégias de normalização
    • Gráfico da função de auto correlação
    • Modelo auto-regressivo (AR)
    • Gráfico da função de auto correlação parcial
    • Modelo de média móvel (MA)
    • Modelo auto-regressivo de média móvel (ARMA)
    • Modelo auto-regressivo de média móvel com diferenciação (ARIMA)
    • Modelo SARIMAX
    • Métricas
      • SMAPE
      • MAPE
      • EVS
    • Estudo de caso Godaddy
    • Transformações inversas
  • Boas práticas e pipelines
    • Princípio DRY e funções
    • Documentando funções
    • Tipando funções
    • PEP8 e flake
    • Vs Code extensions
      • Bracket Pair Colorizer
      • Path Intellisense
      • Python Dockstring. generator
      • Python Indent
      • Python Type Hint
      • TODO Tree
      • Pylance
    • Pipelines
    • Pipelines personalizados
    • Tunando pipelines
  • ATIVIDADE AVALIATIVA e Estudo de caso: Previsão de dados Climáticos
    • Baixando dados de clima do Inmet
    • Prevendo a máxima temperatura diária para 14 dias com AutoARIMA e sem variáveis exôgeneas
    • Prevendo a máxima temperatura diária para 14 dias com AutoARIMA e com variáveis exôgeneas
  • Classificação supervisionada com redes neurais Perceptrons e Convolucionais
    • Arquitetura de uma rede neural
      • Camadas:
        • Dense
        • Flatten
        • Dropout
        • Conv2D
        • MaxPooling*
      • Funções de ativação
        • ReLu
        • Softmax
    • Foward Propagation
    • Função de perda
      • log loss*
    • Otimizador
    • Back Propagation
    • Épocas
    • Estudo de caso: Iris dataset
      • Experimento 1: Dense(2)+Relu -> Dense(3)+ReLu -> Dense(3)+Softmax com 20 épocas
      • Experimento 2: Dense(20)+Relu -> Dense(30)+ReLu -> Dense(3)+Softmax com 20 épocas
      • Experimento 3: Dense(20)+Relu -> Dense(30)+ReLu -> Dense(3)+Softmax com 200 épocas
    • Estudo de caso: MNIST dataset
      • Preparando imagens
      • Batch size*
      • Data augmentation
    • Usando GPU no Google Colab
  • Acelerando treinamento de redes neurais com modelos pré-treinados e tensorflow com GPU
    • Ganhando desempenho com Tensorflow e GPU's
    • Salvando e carregando modelos de redes neurais pré-treinados
    • Extendendo modelos de redes neurais
    • Estudo de caso: Classificando imagens com VGG16
  • Gerando conversas e classificando sentimentos com redes neurais recorrentes
    • Revisão de redes neurais profundas (DFF)
    • Exemplo de DFF com Iris dataset
    • Conjunto de treino, de teste e de validação!
    • Otimizando o número de épocas para evitar overfitting
    • Problema do desaparecimento do gradiente
    • Entendendo o que são redes neurais recorrentes
    • Fazendo seu próprio gerador de textos usando Lusíadas de Luís Vaz de Camões
    • Análise de sentimentos com redes neurais recorrentes
    • Estudo de caso: Avaliando reviews de filmes (IMDB)
  • Word embeedings e LSTM
    • Limpeza de dados textuais
    • Gerenciamento de memória
    • Vetorização com TF-IDF
    • Classificador Naive Bayes para modelos Bernoulli multivariados
    • Vetorização OneHot
    • Keras Embeeding
    • LSTM para previsão de séries temporais
    • Estudo de caso: Previsão do valor de fechamento de ações da bolsa
  • Sistemas de recomendação
    • Filtragem colaborativa
    • Medidas de similaridade
    • Filtragem baseada em conteúdo
    • Apriori
    • Métricas do Apriori: Support, Confidence, Lift, Leverage, Conviction
  • Estudos de casos: Sistema de recomendação de Músicas, Filmes, Textos e Jogos de tabuleiro
    • Biblioteca surprise
    • Recomendações com SVD
    • Recomendações com KNN
    • Extração de tópicos com TF-IDF e NMF
    • Estudo de caso: recomendação de jogos de tabuleiro com extração de dados de API com resposta em XML
  • Processamento natural de linguagem
    • Biblioteca spacy
    • Documentos, tokens e spans
    • Propriedades dos tokens
    • Dependências universais
    • Spacy Matcher
    • Aplicação em pré-processamento de dados textuais
    • Extração e classificação de entidades no texto
    • Transformers pré-treinados (modelos BERT)
    • Classificação multi-task de textos
  • Outras aplicações com Difusers e interfaces web para protótipos de modelos aprendizado de máquina
    • Texto para imagem
    • Imagem para texto
    • Texto para vídeo
    • Imagem para Imagem (Pix2Pix)
    • Interfaces gráficas com Gradio

About

Curso introdutório de Python para cientistas de dados

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published