Skip to content
Ciência de dados antes da programação
Jupyter Notebook
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.

README.md

Ciência de dados antes da programação

Este repositório foi pensado para quem não sabe programar, mas trabalha ou quer trabalhar com ciência de dados 🙃

Outro repositório bem legal pra isso é o ds-zero 👍

Se você já programa e quer um repo em um ritmo acelerado, dê uma olhada nesse aqui 😎

Disclaimer

Este é um repositório colaborativo, criado pelos alunos do Instituto Metrópole Digital da UFRN.

O autor de cada material está devidamente creditado e agradecido 😉

Escolhendo a ferramenta

Existem várias ferramentas disponíveis pensadas para este perfil.

Em geral, elas se dividem entre ferramentas GUI e ferramentas CLI:

  • GUI (interface gráfica de usuário): Toda a interação com o usuário é feita de forma gráfica. São programas como o Google Spreadsheets e o Orange3.
  • CLI (interface de linha de comando): A interação com o usuário é feita através de uma linguagem de programação. As principais linguagens gratuitas usadas em ciência de dados são Python, R e Julia.

Um alternativa bem legal que combina um pouco dos dois mundos são os notebooks interativos, originalmente do projeto Jupyter e atualmente suportados também pelo Google Colaboratory.

Esse post traz uma discussão sobre as principais linguagens suportadas.

Neste repo, usaremos notebooks com o ecossistema Python e sua biblioteca principal, o Pandas.

Todo o material foi pensado para que você não precise aprender a programar, mas se você quiser aprender, dê uma olhada nesse repositório.

Conhecendo o Pandas

[jonathanjalles] Primeiros passos

Open In Colab Binder

[natanlimas] Dataframes como bancos de dados

Open In Colab Binder

[kallil12] Análise e apresentação de dados

Open In Colab Binder

[mildo] Extração, transformação e carga de dados (ETL)

Open In Colab Binder

Os notebooks acima foram originalmente criados pelos autores indicados e posteriormente revisados com a adição de conteúdos de múltiplos autores deste repositório.

Trabalhando com múltiplas bases de dados

Uma das possibilidades que ferramentas CLI abre é trabalhar com múltiplas bases de dados ao mesmo tempo.

Os notebooks abaixo são alguns exemplos de análises que agregam informações espalhadas em múltiplas bases.

[leobezerra] Unindo informações de múltiplas bases

Open In Colab Binder

[leobezerra] Cruzando informações de múltiplas bases

Open In Colab Binder

Explorando seus dados

Uma parte essencial do processo de ciência de dado é investigar de forma exploratória os seus dados.

Os notebooks a seguir apresentam conceitos importantes sobre distribuições, relações entre dados e redução de dimensionalidade.

[kallil12] Visualizando e identificando distribuições

Open In Colab Binder

[mildo] Relações entre características

Open In Colab Binder

You can’t perform that action at this time.