Skip to content

ML usando a biblioteca Scikit-Learn no Jupyter Notebook.

Notifications You must be signed in to change notification settings

Gregory-JP/Scikit-Learn

Repository files navigation

Scikit-Learn

Projetos de ML usando a biblioteca Scikit-Learn no Jupyter Notebook. Alguns algoritmos de previsões que desenvolvi usando as funcionalidades da biblioteca. Todos os códigos usam a mesma base de dados, que pode ser encontrada no repositório de Pre-Processamento.

O que é o Scikit-Learn?

O scikit-learn é uma biblioteca da linguagem Python desenvolvida especificamente para aplicação prática de machine learning. Esta biblioteca dispõe de ferramentas simples e eficientes para análise preditiva de dados, é reutilizável em diferentes situações, possui código aberto, sendo acessível a todos e foi construída sobre os pacotes NumPy, SciPy e matplotilib.

Principais aplicações

O sklearn está organizado em muitos módulos, cada um desenvolvido para uma finalidade específica. Nestes módulos encontraremos funções para as mais diferentes aplicações. Analisando estas diferentes aplicações entenderemos a organização da biblioteca, e como encontrar o que buscamos.

  • Pré-processamento – normalmente esta é a etapa mais trabalhosa no desenvolvimento de um modelo de machine learning. O NumPy e o Pandas são largamente utilizados nesta etapa, mas também teremos funções para esta finalidade no sklearn, pensadas especialmente para tratamento de dados que alimentarão algoritmos de machine learning.

  • Classificação – desenvolvimento de modelos capazes de detectar a qual categoria pré-determinada um elemento pertence. Podemos identificar se um aluno foi reprovado ou aprovado, se uma pessoa possui ou não determinada doença, ou ainda qual doença uma pessoa pode ter dentre várias possíveis, dentre muitas outras possibilidades.

  • Regressão – desenvolvimento de modelos que podem atribuir um valor contínuo a um elemento. Podemos prever o preço de um imóvel, altura de uma pessoa, quantidade de vendas de um produto, e assim por diante.

  • Clusterização – desenvolvimento de modelos para detecção automática de grupos com características similares em seus integrantes. Podemos identificar clientes com comportamentos parecidos, grupos de risco de determinada doença, verificar padrões entre moradores de uma cidade, e muitos outros agrupamentos.

  • Redução de dimensionalidade – reduzir o número de variáveis em um problema. Com esta redução podemos diminuir consideravelmente a quantidade de cálculos necessários em um modelo, aumentando a eficiência, com uma perde mínima de assertividade.

  • Ajuste de parâmetros – comparar, validar e escolher parâmetros e modelos, de maneira automatizada. Podemos facilmente comparar diferentes parâmetros no ajuste de um modelo, encontrando assim a melhor configuração para a aplicação em questão.

Você vai encontrar muito mais informações na documentação.

About

ML usando a biblioteca Scikit-Learn no Jupyter Notebook.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published