* Conceitos primordiais:
- O que é ciência de dados:
# Área que estuda os dados e todo o seu ciclo de vida;
# Dados sempre vem acompanhados pelos conceitos de segurança e privacidade;
# Geralmente esses dados são governados pelas políticas e procedimentos da instituição;
- Estrutura básica:
# Dados -> Fatos bruto coletados
# Informação -> Dados analisados com algum significado
# Conhecimento -> Informação interpretada e aplicada;
* BI & BA
- BI (Business Intelligence)
# Tarefa Descritiva -> Entender o que aconteceu;
# Extração de informação, Geração de gráfios -> Construir benefícios;
- BA (Business Analytics)
# Tarefa Preditiva -> Analisar o que pode ocorrer;
# Coleta de historicos, uso de métodos estatísticos -> Descobrir as próximas tendências;
* Passos Fundamentais em um Projetos:
* Aquisição / Produção / Coleta dos dados:
1. Sensores -> Automaticos
2. Formularios / Questões -> Manuais
3. Extração(Requisição) de bancos / WebSites já desenvolvidos;
* Armazenar os dados;
1. Banco de dados;
2. Softwares (Excel);
* Processamento / Transformação:
1. Seleção dos dados essenciais para o objetivo;
2. Filtragem dos dados (Remoção de lixo e outliers);
* Análise / visualização / Descrição:
1. A partir das métricas alcançadas pelos métodos de apredizgem de maquina avaliar a aplicação (caracteristicas superfiais);
2. Esses resultados podem ser considerados uma informação -> Podendo ser usados para tomada de decisão;
* Descarte:
1. A definição de quanto tempo esse dado será util e consequentemente mantido pelo sistema;
* Fonte: https://www.youtube.com/watch?v=PGR3RfTSnWU&ab_channel=HashtagPrograma%C3%A7%C3%A3o
* Kaggle = https://www.kaggle.com/datasets
* OpenML = https://www.openml.org/home
* UCI = https://archive.ics.uci.edu/ml/index.php
* Open Image = https://archive.ics.uci.edu/ml/index.php
* Plataforma Sucupira = https://sucupira.capes.gov.br/sucupira/public/index.xhtml
* Outras fontes = https://www.aquare.la/datasets-o-que-sao-e-como-utiliza-los/
* numpy = https://numpy.org/doc/stable/user/whatisnumpy.html
* pandas = https://pandas.pydata.org/docs/getting_started/overview.html
* Matplotlib = https://matplotlib.org/stable/tutorials/index
* seaborn = https://seaborn.pydata.org/introduction.html
* math = https://docs.python.org/3/library/math.html
* scipy = https://scipy.github.io/devdocs/tutorial/general.html
* CV2 = https://docs.opencv.org/4.2.0/d6/d00/tutorial_py_root.html
* https://github.com/josenalde/datascience
* https://github.com/lauraemmanuella/DataScience
* https://github.com/programacaodinamica/analise-dados
* https://github.com/programacaodinamica/dicas-pandas
* Notas de Aulas - https://drive.google.com/file/d/1YfSi-_2ESn3OfpLF1BPdMsFh-nAganr6/view?usp=sharing
* Apostila Estatística - UFSM - https://drive.google.com/file/d/1KvmFeuG2QM_E4gF_Qj1kuoin1hPXIZT_/view?usp=sharing
* Livro: Metodologia Científica - "A.L. Cervo" e "P.A. Bervian"