Skip to content

Data Science : Youtube Vídeo Recommender on Python with youtube-dl. Predictive models with: DecisionTreeClassifier, RandomForestClassifier, TfidfVectorizer.

License

Notifications You must be signed in to change notification settings

claudineien/youtube-recommender-machine-learning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PROJETO OBJETIVO TIPO DE DADOS TIPO MACHINE LEARNING
Recomendador de vídeos do youtube Entender Ciência de dados na prática Time Series Supervisionado
LinkedIn : https://www.linkedin.com/in/claudineien/
CIÊNCIA DE DADOS NA RECOMENDAÇÃO DE VÍDEOS DO YOUTUBE

Através deste projeto recomendador de vídeos do youtube nós entenderemos na prática uma parte da tarefa de um Cientista de Dados utilizando inteligência artificial.

Utilizaremos :

  • linguagem de programação python 3.7
  • plataforma de desenvolvimento jupyter notebook
  • sistema operacional Windows Professional 64bits processador x64 com 8g memória RAM
  • processador Intel (R) Corel (TM) i7-2640M CPU @ 2.80GHZ 2.80GHz

TÉCNICAS QUE APRENDEREMOS Para um melhor entendimento devemos ler e seguir ordenamente os documentos a seguir :

No documento 0-ciclo-de-vida.md aprenderemos sobre o ciclo de vida de um projeto Data Science e através desta técnica desenvolveremos o modelo machine learning para recomendar vídeos do youtube.

No documento 1-dataset-collect-clean.md aprenderemos sobre a coleta de dados e preparação dos dados para aplicar a técnica de labelling

No documento 2-Decision-Tree-Classifier.md aprenderemos sobre o labelling, como aplicar algumas técnicas de adequação do dataset e melhorar o modelo machine learning com o algorítmo DecisionTreeClassifier.

No documento 3-Random-Forest-Classifier-Active-Learning.md iniciaremos o entendimento de algumas técnicas para identificar o modelo machine learning mais eficiente. Neste momento vamos comparar o DecisionTreeClassifier e RandomForestClassifier.
Vamos comparar as métricas, continuaremos com as adequações no dataset, aplicaremos a técnica Active Learning, utilizararemos o algorítimo TfidfVectorizer e trabalharemos com matriz esparsa, para melhorar a predição.

No documento 4-Resultado-Active-Learning.md nós vamos entender o resultado que Active Learning traz ao nosso projeto, através das novas métricas resultantes dos algorítmos DecisionTreeClassifier e RandomForestClassifier.

Durante o processo nós encontraremos respostas à algumas perguntas como :

  1. Qual é o problema a resolver ?
  2. Qual será a melhor solução ?
  3. Qual será nossa a baseline dentro no dataset ?
  4. Qual será nossa a baseline no modelo machine learning ?
  5. O dataset está com ótima qualidade para o modelo machine learning ?
  6. Qual é o erro do modelo machine learning ?
  7. Qual é o melhor algorítimo machine learning para resulver o problema ?
  8. Quais ações executar para melhorar o modelo ?
  9. Como está a probabilidade de acerto ?
  10. Quais métricas de avaliação, validação aplicar sobre modelo machine learning para melhora-lo ?
  11. Esta sendo utilizado a limpeza adequada no dataset ?
  12. O average_precision_score esta melhorando ?
  13. O roc_auc_score esta melhorando ?

MENSAGEM DO AUTOR

A tarefa de um Data Scientist é árdua (causa cansaço/fadiga), porém muito recompensadora quando o resultado é melhorar a vida das pessoas envolvidas diretamente e indiretamente pelo processo que utiliza a inteligência arficial para eliminar problemas.

FONTES DE ESTUDO Nota :
Durante o curso consultei outras diversar fontes de informação.
AGRADECIMENTOS

*Ser agradecido para mim é a atitude que torna as pessoas seres melhores*

Agradeço a mulher mais importante da minha vida, a minha mãe sra Rosalita Borges Evangelista por ter sido uma lutadora incansável, lutando por mim, para mim e comigo e também com meus irmãos. Minha mãe é o motivo de eu me tornar um ser humano honrado.

Agradeço aos meus dois irmãos que me ajudaram nos momentos em que mais precisei.

Agradeço à minha esposa e às minhas duas filhas por serem minha razão, emoção e inspiração e por me apoiar em todos os momentos.

Agradeço aos criadores do computador, da internet, das linguagens de programação computacional, inteligência artificial e tecnologias em geral.

Agradeço ao sr Mario Filho por disponibilizar a um investimento acessível um pouco de sua experiência, através de um curso que nos instrui a identificar o problema, preparar os dados, otimizar o modelo machine learning e implantar o produto desenvolvido em machine learning.



Muito obrigado a todos 😉


Desejo muito sucesso a todas estas incríveis personagens !