# <center>Curso de Modelagem de Dados para IA - PARTE 1</center>

<img src="image.jpg" alt="Drawing" style="width: 300px;"/>


## Introdução
Este tutorial tem como objetivo introduzir as técnicas e ferramentas para a manipulação e posterior modelagem de diferentes fontes de dados para uso em tarefas e modelos de Aprendizado de Máquina. No decorrer do mesmo serão disponibilizados links para informações mais detalhadas que poderão ser obtidas em outros sites, juntamente com alguns exemplos concretos de como essas ferramentas podem ser usadas em vários aplicativos de ciência de dados.

Com a disponibilidade de um número cada vez maior de conjuntos de dados de alta escala e com vários níveis de detalhes nas mais diferentes áreas como ciências físicas, biológicas, tecnológicas e humanas deu-se origem a um grande interesse em **Ciência de Dados**, uma seara de ferramentas e técnicas da ciência computacional, estatística, aprendizado de máquina e outros campos, com o objetivo de entender conjuntos de dados complexos e construir modelos preditivos a partir desses dados.

A linguagem de programação a ser adotada nos exemplos será Python, que surgiu como uma das tecnologias críticas de apoio à ciência de dados, tanto porque sua sintaxe expressiva permite o desenvolvimento rápido de algoritmos complexos e pipelines de análise de dados, quanto pela grande comunidade de usuários que contribuíram para um rico ecossistema de ferramentas e bibliotecas para facilitar os fluxos de trabalho de pesquisa e produção em ciência de dados. Muitas bibliotecas diferentes são integradas ao ecossistema Python para ciência de dados, suportando acesso e manipulação de dados, modelagem numérica, operações estatísticas, aprendizado de máquina e visualização de dados.


Nesta Parte 1, será abordado:

- Identificação da estrutura dos dados
- Limpeza, filtragem, reorganização, imputação, aumento e agregação dos dados
- Visualização de dados
- Análise, estatísticas e modelagem
- Uso de técnicas de Aprendizado de máquina
- Montagem de pipelines de processamento de dados para vincular essas etapas

## Python
<img src="python.png" alt="Drawing" style="width: 300px;"/>


Em sua essência, Python é uma linguagem de programação com uma sintaxe e especificação definidas. Python é uma linguagem de uso geral, o que significa que ela foi desenvolvida para oferecer suporte a um amplo espectro de aplicações, não apenas aquelas em ciência de dados ou áreas relacionadas à computação estatística e numérica. Python é interpretado, permitindo a prototipagem rápida de algoritmos para compreensão de conjuntos de dados, facilitada por meio de uma sintaxe expressiva e uma variedade de tipos de dados integrados de alto nível. E o Python também é orientado a objetos, fornecendo suporte para definir novos tipos de dados e comportamentos associados; como tal, é útil para capturar abstrações úteis necessárias em aplicações científicas e numéricas complexas.

Python também oferece suporte para definir bibliotecas externas que podem ser importadas e chamadas de dentro de programas Python existentes, incluindo bibliotecas escritas em outras linguagens de programação. Grande parte do poder do Python para domínios de aplicativos específicos, como ciência de dados, vem dessas bibliotecas externas de terceiros, que aproveitam a experiência de desenvolvedores de diversas áreas. Bibliotecas externas escritas em linguagens compiladas como C/C++ e Fortran permitem kernels computacionais numericamente eficientes que podem ser acessados de dentro do interpretador python, fornecendo controle em alto nível e desempenho no nível mais baixo. A comunidade de computação científica foi uma das primeiras e maiores entusiastas adeptas do Python, o que impulsionou o desenvolvimento de uma ampla gama de ferramentas e pacotes para dar suporte à computação numérica e à ciência de dados.

Os principais pacotes e ferramentas do Python para uso em ciência de dados estão listados neste tutorial logo abaixo. Informações sobre a instalação e configuração de distribuições do Python, muitas das quais são voltadas para ciência de dados e vêm com esses pacotes pré-instalados, são fornecidas também abaixo na seção Distribuições do Python.

### Instalações e Distribuições Python
Python é instalada por padrão em muitas distribuições de SOs e é usada para muitas atividades de administração de sistemas. Portanto, geralmente é aconselhável deixar a instalação padrão do Python **em paz**, especialmente porque essa versão padrão pode não ser atualizada com a frequência que os usuários desejam. Felizmente, várias instalações do Python podem coexistir em um único sistema, pois cada instalação pode acompanhar quais bibliotecas estão instaladas para uso com essa versão. Com uma instalação alternativa do Python, você pode configurar o sistema com bibliotecas adicionais necessárias para dar suporte à sua pesquisa.

A funcionalidade mais específica adaptada para computação numérica e ciência de dados é codificada em bibliotecas de terceiros. O número e a funcionalidade dos pacotes disponíveis para ciência de dados em Python continuam crescendo a uma taxa impressionante. A desvantagem disso são as possíveis dores de cabeça associadas à instalação de pacotes adicionais e ao gerenciamento de dependências entre eles. Felizmente, várias ferramentas e utilitários foram desenvolvidos para auxiliar nesse tipo de gerenciamento de pacotes.

Melhor ainda, várias distribuições Python disponíveis gratuitamente estão disponíveis e agrupam a maioria, se não todos, os pacotes que podem ser necessários para realizar alguma computação científica e análise de interesse. Isso inclui distribuições Python produzidas pela <a href="https://www.anaconda.com/products/individual">Anaconda</a>, <a href="https://www.activestate.com/products/python/">Active State</a> e <a href="https://www.intel.com/content/www/us/en/developer/tools/oneapi/distribution-for-python.html">Intel</a>. Além de fornecer suporte conveniente para instalação do ecosistema de computação científica Python, muitas dessas distribuições são vinculadas a bibliotecas numéricas altamente otimizadas, como a <font color=blue>Intel MKL (Math Kernel Library)</font>. Portanto, se você deseja instalar seu próprio ecossistema, comece com uma dessas distribuições ao invés de criar um ambiente de deenvolvimento python e bibliotecas associadas do zero.

#### sys.path
Qualquer instalação do Python saberá onde suas bibliotecas padrão e de terceiros associadas estão instaladas e adicionará esses locais à variável sys.path que o interpretador do Python consulta ao procurar módulos para importar. sys.path pode conter uma mistura de diretórios que armazenam bibliotecas Python destinadas a todos os usuários do sistema e bibliotecas específicas do usuário (normalmente armazenadas no próprio espaço de diretório do usuário). A biblioteca padrão do Python é normalmente armazenada em ***\\${PREFIX}/lib/pythonX.Y***, onde ***\\${PREFIX}\\$*** se refere à raiz da instalação do Python e ***X.Y*** se refere aos números de versão principal e secundária da instalação. Bibliotecas de terceiros destinadas a todos os usuários do sistema são normalmente instaladas em ***\\${PREFIX}/lib/pythonX.Y/site-packages***. Algumas instalações fornecem um diretório local padrão para bibliotecas específicas do usuário, mas os usuários sempre podem definir uma variável de ambiente *PYTHONPATH* que especifica uma lista de diretórios adicionais que são adicionados a *sys.path*.

#### pip e conda
<img src="pip.png" alt="Drawing" style="width: 100px;"/>
<img src="conda.png" alt="Drawing" style="width: 100px;"/>


pip é uma ferramenta para instalar pacotes Python adicionais que não fazem parte da instalação que está sendo usada. Dentro da distribuição Anaconda Python, a ferramenta *conda* funciona como a principal ferramenta de gerenciamento de pacotes, embora o Anaconda também forneça uma versão do *pip* para instalar pacotes que não fazem parte do ecossistema Anaconda. Com permissões suficientes, *pip* e *conda* normalmente serão instalados em ***\\${PREFIX}/lib/pythonX.Y/site-packages***; mas sem essas permissões, os usuários podem instalar em seu espaço de diretório local (em ***\\$HOME/.local***) com um comando como *pip install newpackage --user*, onde *newpackage* é o nome de um novo pacote que se deseja instalar. O <a href="https://pypi.org/">Python Package Index</a> é um repositório centralizado de software desenvolvido e compartilhado pela comunidade Python, e é aqui que o *pip* procura pacotes por padrão.


#### setup.py
Pacotes não instaláveis via *pip* podem fornecer suporte para instalação por meio de um arquivo chamado *setup.py* no diretório do pacote. Comandos típicos para construir e instalar um pacote via setup.py podem se parecer com:

<div class="alert alert-block alert-info">
<span style="font-family:Courier">
    # first, cd to package directory<br>
    python setup.py build<br>
    python setup.py install --user                 # install to \\$HOME/.local<br>
</span>
</div>

<div class="alert alert-block alert-info">
<span style="font-family:Courier">
    # or, alternatively, install to a custom location<br>
    # first, cd to package directory<br>
    python setup.py build<br>
    python setup.py install --prefix=$INSTALLDIR   # custom location; add to PYTHONPATH<br>
</span>
</div>

Existem vários pacotes disponíveis que coordenam a configuração e compilação de outros pacotes Python. O padrão antigo é o *distutils*, que está incluído na biblioteca padrão do Python e é usado secretamente pelo *setup.py* em uma ampla variedade de pacotes legados. Um padrão mais recente é o *setuptools*, no qual o *pip* normalmente depende para a configuração do pacote. Ambos *distutils* e *setuptools* fornecem suporte, por exemplo, para especificar diferentes opções de compilador e vinculador, se necessário.

#### virtualenv
Embora várias instalações do Python possam coexistir alegremente em um único sistema, essa felicidade pode começar a se dissolver se houver outras dependências que precisam ser mantidas separadas. Por exemplo, as versões dos pacotes que você instalou em ***\\$HOME/.local*** podem entrar em conflito, ou você pode precisar manter várias versões simultaneamente para recriar e/ou comparar os resultados produzidos por diferentes versões. O pacote <a href="https://pypi.python.org/pypi/virtualenv">virtualenv</a> pode ajudar com esses problemas criando um ou mais ambientes Python locais em seu diretório inicial para instalar os pacotes necessários. Então, se você executar um trabalho em lote, por exemplo, o script em lote pode escolher as versões de pacotes que deseja usando virtualenv. Você pode até mesmo transferir seus ambientes virtualenv ou compartilhá-los com colegas. A qualquer momento, um ambiente virtual estará ativo (mas essa versão pode ser desativada a qualquer momento, com outro ativo).

Ao instalar novos pacotes, os pacotes instalados irão para qualquer diretório virtualenv que tenha sido ativado, em vez de tentar instalar em um local típico em ***\\$HOME/.local***. Mais tarde, se você quiser compartilhar o ambiente virtual e seus pacotes, basta copiar a árvore de diretórios para o diretório pessoal de outra pessoa.

## Pacotes essenciais para Ciência de Dados

Existem várias bibliotecas importantes no ecossistema Python para ciência de dados. As bibliotecas que destacamos neste tutorial são NumPy, Pandas, NetworkX, sqlalchemy, matplotlib, seaborn, bokeh, SciPy, statsmodels e Scikit-learn.

### Fundamentos
- **<a href="https://www.python.org/">python.org</a>**: site principal do Python
- **<a href="https://docs.python.org/3/">Documentação do Python</a>**
- **<a href="https://pypi.org/">Python Package Index (PyPI)</a>**: repositório de pacotes

### Distribuições Python "Baterias Incluídas"
- **<a href="https://www.anaconda.com/distribution/">Anaconda</a>**
- **<a href="https://www.enthought.com/enthought-deployment-manager/">Enthought</a>**
- **<a href="https://www.activestate.com/activepython">Active State</a>**
- **<a href="https://software.intel.com/en-us/distribution-for-python">Intel</a>**

### Estruturas de dados e algoritmos
- **<a href="https://docs.python.org/3/library/">A biblioteca padrão do Python</a>** (selecione a versão específica nessa página)
- **<a href="https://www.numpy.org/">NumPy</a>**: arrays multidimensionais, operações matemáticas em nível de array, álgebra linear, números aleatórios, etc.
- **<a href="https://www.scipy.org/">SciPy</a>**: um ecossistema baseado em Python de software de código aberto para matemática, ciências e engenharia
- **<a href="https://pandas.pydata.org/">Pandas</a>**: dataframes e séries para representar dados tabulares e um rico conjunto de operações para analisar esses dados
- **<a href="https://www.h5py.org/">H5py</a>**: suporte para arquivos de dados formatados em HDF5
- **<a href="https://dask.org/">Dask</a>**: arrays e dataframes distribuídos, agendamento de fluxos de trabalho distribuídos
- **<a href="https://www.sympy.org/en/index.html">Sympy</a>**: matemática simbólica
- **<a href="https://networkx.github.io/">NetworkX</a>**: criação, manipulação e estudo da estrutura, dinâmica e funções de redes complexas
- **<a href="https://igraph.org/">igraph</a>**: uma biblioteca de análise de rede, escrita em C++, com front-ends em Python, R, Mathematica

### Intérpretes, Notebooks e Ambientes de Desenvolvimento
- **<a href="https://ipython.org/">IPython</a>**: poderoso shell interativo do Python
- **<a href="https://jupyter.org/">Jupyter</a>**: notebooks interativos integrando código, resultados, gráficos e documentação
- **<a href="https://www.spyder-ide.org/">Spyder</a>**: ambiente de desenvolvimento integrado (IDE) combinando edição, análise, depuração e funcionalidade de criação de perfil

### Visualização de dados
- **<a href="https://matplotlib.org/">Matplotlib</a>**: biblioteca de plotagem 2D que torna as coisas fáceis fáceis e as difíceis possíveis
- **<a href="https://seaborn.pydata.org/">Seaborn</a>**: biblioteca de visualização de dados baseada em matplotlib, fornecendo uma interface de alto nível para gráficos estatísticos informativos
- **<a href="https://bokeh.pydata.org/en/latest/">Bokeh</a>**: biblioteca de visualização interativa que visa navegadores modernos para apresentação

### Bancos de dados relacionais
- **<a href="https://www.sqlalchemy.org/">sqlalchemy</a>**: Python SQL toolkit e Object Relational Mapper, fornecendo acesso a bancos de dados SQL
- **<a href="https://docs.python.org/3/library/sqlite3.html#module-sqlite3">sqlite3</a>**: interface Python para SQLite, uma biblioteca C que fornece um banco de dados SQL baseado em disco leve

### Computação Científica e Estatística
- **<a href="https://www.statsmodels.org/stable/index.html">Statsmodels</a>**: classes e funções para a estimação de modelos estatísticos, realização de testes estatísticos e exploração de dados estatísticos
- **<a href="https://www.scipy.org/scikits.html">Scikits</a>**: pacotes complementares para SciPy, hospedados e desenvolvidos separadamente e independentemente da distribuição principal do SciPy

### Aprendizado de máquina
- **<a href="https://scikit-learn.org/stable/">Scikit-learn</a>**: muitos métodos diferentes de aprendizado de máquina em Python
- **<a href="https://www.tensorflow.org/">Tensorflow</a>**: Deep Learning in Python (uma plataforma de código aberto de ponta a ponta para aprendizado de máquina)
- **<a href="https://caffe.berkeleyvision.org/">Caffe</a>**: framework de aprendizado profundo feito com expressão, velocidade e modularidade em mente
- **<a href="https://pytorch.org/">PyTorch</a>**: estrutura de aprendizado de máquina de código aberto que acelera o caminho da prototipagem de pesquisa à implantação de produção
- **<a href="https://keras.io/">Keras</a>**: API de redes neurais de alto nível, escrita em Python e capaz de rodar sobre TensorFlow, CNTK ou Theano

### Processamento de imagem
- **<a href="https://scikit-image.org/">Scikit-image</a>**: coleção de algoritmos para processamento de imagens
- **<a href="https://pillow.readthedocs.io/en/stable/">Pillow</a>**: um fork do PIL, uma biblioteca para manipulação de imagens do Python

### Processamento de linguagem natural
- **<a href="https://www.nltk.org/">Natural Language Toolkit (NLTK)</a>**: plataforma para construir programas Python para trabalhar com dados de linguagem humana
- **<a href="https://spacy.io/">Spacy</a>**: processamento de linguagem natural de força industrial em Python
- **<a href="https://textblob.readthedocs.io/en/dev/">Textblob</a>**: biblioteca Python para processamento de dados textuais
- **<a href="https://pypi.org/project/python-Levenshtein/">python-Levenshtein</a>**: para calcular semelhanças de strings e editar distâncias

### APIs específicas do aplicativo
- **<a href="https://www.tweepy.org/">Tweepy</a>**: biblioteca Python para acessar a API do Twitter

### Sistemas para Big Data
- **<a href="https://spark.apache.org/docs/latest/api/python/index.html">PySpark</a>**: interface Python para o modelo de programação Spark