# Python para Análise de Dados

O Python evoluiu para ser uma ótima plataforma para análise de dados. Existe todo um 'ecossistema' ou pilha de pacotes que juntos fornecem um kit de ferramentas abrangente para a maioria dos tipos de análise de dados.

<img src="pydata_stack.png" width="1500" height="250" align="center"/> 

Observe que na base da pilha estão Python e IPython.

## Os blocos de construção básicos

O verdadeiro poder do Python para análise de dados surge quando subimos uma fila. 

* NumPy 
    * Fornece matrizes numéricas N-dimensionais
    * Álgebra linear 
    * Transformadas de Fourier. 
 

* SciPy 
    * Baseia-se no NumPy
    * Fornece métodos numéricos mais avançados, integração, solucionadores de equações diferenciais ordinárias (ODE)
    * Se você se deparar com as chamadas  ‘Numerical Recipes’ reservadas, há uma boa chance de encontrar esses algoritmos implementados em SciPy.

    
* Matplotlib 
    * A principal biblioteca de plotar gráficos do Python. 
    * A documentação no site Matplotlib é boa, especialmente a galeria. 

    
* JuPyter 
    * Em vez de usar a linha de comando interativa do IPython
    * Use o Python no estilo 'notebook' de dentro do seu navegador da web.
    * Que mantém seus comandos e suas saídas juntos em um único documento que você pode reabrir mais tarde. 
    * Particularmente vale a pena investigar se você faz muitas estatísticas.

# Analisando e Manipulando Seus Dados

O uso isolado ou conjutamente dos seguintes pacotes são essenciais para o trabalho diário de um cientista de dados.

* Pandas 
    * A ferramenta número um mais importante para a ciência de dados. 
    * Estruturas de dados de alto desempenho e ferramentas de análise de dados. 
    * Elimina toda a complexidade do carregamento de dados tabulares no Python para análise. 
    * Especialmente arquivos CSV, arquivos Excel, bancos de dados SQL. 
    * Documentar bem seus dados com títulos e índices de colunas. 
    * Faz muitas estatísticas básicas e oferece recursos de plotagem para examinar rapidamente seus dados. 
    * Particularmente bom se você tiver que trabalhar com dados de séries temporais. 


* xarray 
    * Inspirado no Pandas
    * Mas projetado especialmente para trabalhar com dados N-dimensionais, como os fornecidos pelos modelos climáticos. 
    * Essencialmente, uma representação na memória de um arquivo NetCDF, se você os encontrar. 
    * Oferece estatísticas e plotagens integradas para explorar rapidamente seus dados. 


* scikit-learn 
    * Ferramentas de aprendizado de máquina para Python. 
    * Cada vez mais popular, contém todos os principais algoritmos usados neste campo, como o cluster K-means


* scikit-image 
    * Várias funcionalidades para análise de imagens, inclusive para imagens de satélite.

## Estatísticas avançadas

* Statsmodels  
    * Fornece implementações de todos os principais algoritmos estatísticos. 
    * Trabalha preferencialmente com os DataFrames do Pandas. 
    * Tem a opção de usar sintaxe do tipo R, da qual você provavelmente gostará se estiver familiarizado com R.


* seaborn
    * Um conjunto de ferramentas de plotagem estatística. 
    * As parcelas parecem muito elegantes. 
    * Vale a pena olhar se você faz muito trabalho estatístico. 
    * Toma os Pandas DataFrames como padrão.

## Por que esses pacotes são separados em 'níveis'?


* Em geral, os níveis mais altos da pilha de pacotes dependem dos pacotes mais baixos para fazê-los funcionar. 
* Por exemplo, os usos marítimos capturam os DataFrames do Pandas e usam o Matplotlib 'under the hood' para sua plotagem.
* Isso também significa que você geralmente deve começar com as ferramentas ou pacotes no topo desta pilha. 
* Se você não conseguir encontrar a função desejada, mova um nível abaixo da pilha e procure por ela lá. 
* Se você chegar ao fundo da pilha, ou seja, Python/IPython, provavelmente precisará escrever sua própria função. 
* Mas é melhor ver se alguém já fez isso por você primeiro, então faça um pouco de pesquisa no Google antes comprometendo-se a isso.

## Última nota

Essa seleção de pacotes não é exaustiva. Está disponível uma variedade de outros pacotes especializados, dependendo do seu trabalho - por exemplo:

* Spectral Python - para detecção remota hiperespectral
* AstroPy - para astronomia
* PyTables - para trabalhar diretamente com arquivos HDF (observe que o Pandas faz isso muito bem na maior parte)
* Bokeh - para plotagem interativa
* Cartopia - para plotagem geográfica
* Mapa base do Matplotlib - para plotagem geográfica
* GDAL e OGR - transformações geográficas e deformação. Fantástico e o padrão ouro, se você conseguir fazê-lo funcionar, espere um pouco de luta, mas vale a pena.
* PySAL - Biblioteca de Análise Espacial. Particularmente bom em econometria espacial, modelagem de localização