Skip to content

Estudos MachineLearning/DataScience/IA... 💸🌐📈🔨🔧👷

License

Notifications You must be signed in to change notification settings

harleiaki/DataScience-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Cientista de Dados

badge badge badge badge badge badge badge badge

  • Módulo 1 - Perspectivas de Carreira
  • Módulo 2 - Metodologia
  • Módulo 3 - Elementos básicos de Python e Numpy - Parte I
  • Módulo 3 - Elementos básicos de Python e Numpy - Parte II
  • Módulo 4 - Introdução ao Pandas e carga de dados
  • Módulo 5 - Limpeza e preparação de dados
  • Módulo 6 - Descritiva I
  • Módulo 7 - Árvores I
  • Módulo 8 - Git / GitHub - Controle de versionamento
  • Módulo 9 - TdD III - Agregações e operações em grupos
  • Módulo 10 - Descritiva II - Análise descritiva para resposta contínua
  • Módulo 11 - Árvores II (Parte I: árvore de regressão)
  • Módulo 12 - Regressão I
  • Módulo 13 - Regressão II
  • Módulo 14 - Scripting
  • Módulo 15 - Streamlit I
  • Módulo 16 - TdD IV - Pandas avançado
  • Módulo 17 - Árvores II (Parte II: árvore de classificação)
  • Módulo 18 - Regressão Logística I
  • Módulo 19 - Streamlit II
  • Módulo 20 - Markdown / Terminal
  • Módulo 21 - TdD V - SQL
  • Módulo 22 - Descritiva III - Gráficos interativos - Plotly
  • Módulo 23 - Combinação de modelos I
  • Módulo 24 - Combinação de modelos II
  • Módulo 25 - Cálculo
  • Módulo 26 - Algelin
  • Módulo 27 - PCA
  • Módulo 28 - Streamlit III, IV
  • Módulo 29 - K-means
  • Módulo 30 - Hierárquicos / aglomerativos
  • Módulo 31 - Streamlit V
  • Módulo 32 - Probabilidade
  • Módulo 33 - Inferência
  • Módulo 34 - Regressão III
  • Módulo 35 - Regressão IV
  • Módulo 36 - Descritiva IV - Visualização de dados categorizados
  • Módulo 37 - Regressão Logística II
  • Módulo 38 - Streamlit VI e Pycaret

DataScience - EBAC

--- Python versão 3.10

Linguagem


Bibliotecas

  • numpy
  • pandas
  • plotly
  • matplotlib
  • seaborn
  • tabula
  • scikit-learn
  • Streamlit

Habilidades

  • Domínio do Python
  • Linguagem SQL/postgresql
  • Árvore de decisão na prática
  • Big Data e Machine Learning
  • Competências/Ferramentas
  • Visualização de dados
  • Padronizações
  • Resolução de problemas com base em dados

NumPy

https://www.w3schools.com/python/numpy/default.asp

As matrizes NumPy são armazenadas em um local contínuo na memória, ao contrário das listas, para que os processos possam acessá-las e manipulá-las com muita eficiência.

Esse comportamento é chamado de localidade de referência em ciência da computação.

Esta é a principal razão pela qual o NumPy é mais rápido do que as listas. Também é otimizado para trabalhar com as mais recentes arquiteturas de CPU.

  • NumPy fornece um grande conjunto de funções e operações de biblioteca que ajudam os programadores a executar facilmente cálculos numéricos.(Modelos Machine Learning, Processamento de Imagem e Computação Gráfica e Tarefas matemáticas

Pandas

https://www.w3schools.com/python/pandas/default.asp

Existe uma correlação entre duas ou mais colunas? O que é valor médio?Valor máximo?Valor mínimo? Os pandas também podem excluir linhas que não são relevantes ou que contêm informações erradas valores, como valores vazios ou NULL. Isso é chamado de limpeza dos dados.

  • Utilizada para exploração de dados, manipulação e análise: usado para estruturas de dados e funções para carregar dados em CSV, manipular estrutura tabular.

Plotly

https://plotly.com/python/

  • Plotar gráficos interativos e dinamicos

Matplotlib

https://www.w3schools.com/python/matplotlib_intro.asp

  • Matplotlib é uma biblioteca de plotagem de gráficos de baixo nível em python que serve como um utilitário de visualização.

Streamlit

https://streamlit.io/

  • O Streamlit é uma biblioteca Python de código aberto que facilita a criação e o compartilhamento de aplicativos da Web bonitos e personalizados para aprendizado de máquina e ciência de dados. Em apenas alguns minutos, você pode criar e implantar aplicativos de dados poderosos.

seaborn

https://seaborn.pydata.org/

  • Seaborn é uma biblioteca de visualização de dados Python baseada em matplotlib. Ele fornece uma interface de alto nível para o desenho gráficos estatísticos atraentes e informativos.

scikit-learn

https://scikit-learn.org/stable/index.html

  • Classificação Identificar a qual categoria um objeto pertence. Aplicativos: Detecção de spam, reconhecimento de imagem.

  • Regressão Prevendo um atributo de valor contínuo associado a um objeto. Aplicativos: Resposta a medicamentos, Preços das ações.

  • Clustering Agrupamento automático de objetos semelhantes em conjuntos. Aplicativos: Segmentação de clientes, Agrupamento de resultados de experimentos

  • Redução da dimensionalidade Reduzir o número de variáveis aleatórias a serem consideradas. Aplicativos: Visualização, Algoritmos de maior eficiência

  • Seleção de modelo Comparar, validar e escolher parâmetros e modelos. Aplicativos: Precisão melhorada através de algoritmos de ajuste de afinação

  • Pré-processamento Extração e normalização de recursos. Aplicativos: Transformar dados de entrada, como texto, para uso com algoritmos de aprendizado de máquina.

Ferramentas simples e eficientes para análise preditiva de dados Acessível a todos e reutilizável em vários contextos Construído em NumPy, SciPy e matplotlib Código aberto, comercialmente utilizável - licença BSD

JupyterLab: Uma interface de notebook de última geração

https://jupyter.org/

  • O JupyterLab é o mais recente ambiente de desenvolvimento interativo baseado na Web para notebooks, código e dados. Sua interface flexível permite que os usuários configurem e organizem fluxos de trabalho em ciência de dados, computação científica, jornalismo computacional e aprendizado de máquina. Um design modular convida as extensões a expandir e enriquecer a funcionalidade.

Anaconda Tecnologia de ciência de dados para pesquisa inovadora.uma vantagem competitiva.um mundo melhor.

https://www.anaconda.com/

  • A Anaconda oferece a maneira mais fácil de executar ciência de dados Python / R e aprendizado de máquina em uma única máquina. Comece a trabalhar com milhares de pacotes e bibliotecas de código aberto hoje mesmo.

PostgreSQL

https://www.postgresql.org/

  • O PostgreSQL é um poderoso sistema de banco de dados objeto-relacional de código aberto com mais de 35 anos de desenvolvimento ativo que lhe valeu uma forte reputação de confiabilidade, robustez de recursos e desempenho.

Tipos de Gráficos.

  • Gráfico de barras : comparar frequência entre categorias

  • barras

  • Gráfico de linhas : tendência ao longo do tempo

  • linhas

  • Gráfico de dispersão : mostra relação entre variáveis

  • dispercao

  • Gráfico de pizza : distribuição proporcional de diferentes categorias

  • pizza

  • Mapa : visualização de dados geoespaciais

  • mapa