# Python - Livro de mão para Ciência de Dados (Data Science) <a id='home'></a>

*Jake VanderPlas*

![Book Cover](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover.png?raw=true)

Esta é a versão do notebook Jupyter do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [no GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), e o código é lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!

## Tabela de conteúdos <a id='index'></a>

### [Capa](#home)
### [Prefácio](#preface)

### [1. IPython: Além do Python normal](#ipython)
- [Ajuda e Documentação no IPython](#help_documentation)
- [Atalhos de teclado no IPython Shell](#shortcuts)
- [Comandos mágicos do IPython](#magic)
- [Histórico de Input e Output](#history_in_out)
- [Comandos Shell e IPython](#ipython_shell_commmands)
- [Erros e Depuração](#erros)
- [Código para criar perfis e cronômetrar](#time_profile)
- [Mais recursos do IPython](#more_resources)

### [2. Introduction to NumPy]
- [Understanding Data Types in Python]
- [The Basics of NumPy Arrays]
- [Computation on NumPy Arrays: Universal Functions]
- [Aggregations: Min, Max, and Everything In Between]
- [Computation on Arrays: Broadcasting]
- [Comparisons, Masks, and Boolean Logic]
- [Fancy Indexing]
- [Sorting Arrays]
- [Structured Data: NumPy's Structured Arrays]

### [3. Data Manipulation with Pandas]
- [Introducing Pandas Objects]
- [Data Indexing and Selection]
- [Operating on Data in Pandas]
- [Handling Missing Data]
- [Hierarchical Indexing]
- [Combining Datasets: Concat and Append]
- [Combining Datasets: Merge and Join]
- [Aggregation and Grouping]
- [Pivot Tables]
- [Vectorized String Operations]
- [Working with Time Series]
- [High-Performance Pandas: eval() and query()]
- [Further Resources]

### [4. Visualization with Matplotlib]
- [Simple Line Plots]
- [Simple Scatter Plots]
- [Visualizing Errors]
- [Density and Contour Plots]
- [Histograms, Binnings, and Density]
- [Customizing Plot Legends]
- [Customizing Colorbars]
- [Multiple Subplots]
- [Text and Annotation]
- [Customizing Ticks]
- [Customizing Matplotlib: Configurations and Stylesheets]
- [Three-Dimensional Plotting in Matplotlib]
- [Geographic Data with Basemap]
- [Visualization with Seaborn]
- [Further Resources]

### [5. Machine Learning](#machine_learning)
- [What Is Machine Learning?](#whats_ml)
- [Introducing Scikit-Learn](#scikit_learn)
- [Hyperparameters and Model Validation]
- [Feature Engineering]
- [In Depth: Naive Bayes Classification]
- [In Depth: Linear Regression]
- [In-Depth: Support Vector Machines]
- [In-Depth: Decision Trees and Random Forests]
- [In Depth: Principal Component Analysis]
- [In-Depth: Manifold Learning]
- [In Depth: k-Means Clustering]
- [In Depth: Gaussian Mixture Models]
- [In-Depth: Kernel Density Estimation]
- [Application: A Face Detection Pipeline]
- [Further Machine Learning Resources]

### [Appendix: Figure Code]

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

# Prefácio <a id='preface'></a>

<!--NAVIGATION-->
| [Índice](#index) | [IPython: Além do Python normal](#ipython) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/00.00-Preface.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

## O que é Data Science?
Este é um livro sobre como fazer ciência de dados com Python, o que imediatamente levanta a questão: o que é ciência de dados? É uma definição surpreendentemente difícil de definir, especialmente considerando o quão onipresente o termo se tornou. Os críticos vocais têm rejeitado o termo de várias maneiras como um rótulo supérfluo (afinal, que ciência não envolve dados?) Ou um chavão simples que só existe para salgar currículos e chamar a atenção de recrutadores de tecnologia excessivamente zelosos.

Em minha mente, essas críticas deixam passar algo importante. A ciência de dados, apesar de seu verniz carregado de expectativa, é talvez o melhor rótulo que temos para o conjunto interdisciplinar de habilidades que estão se tornando cada vez mais importantes em muitas aplicações na indústria e na academia. Esta peça interdisciplinar é a chave: em minha opinião, a melhor definição existente de ciência de dados é ilustrada pelo Diagrama de Venn de Ciência de Dados de Drew Conway, publicado pela primeira vez em seu blog em setembro de 2010:

![Data Science Venn Diagram](https://images.squarespace-cdn.com/content/v1/5150aec6e4b0e340ec52710a/1364352051365-HZAS3CLBF7ABLE3F5OBY/Data_Science_VD.png?format=750w)

<small>(Source: [Drew Conway](http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram). Used by permission.)</small>

Embora alguns dos rótulos de interseção sejam um tanto irônicos, este diagrama captura a essência do que eu acho que as pessoas querem dizer quando dizem "ciência de dados": é fundamentalmente um assunto interdisciplinar. A ciência de dados compreende três áreas distintas e sobrepostas: as habilidades de um estatístico que sabe como modelar e resumir conjuntos de dados (que estão cada vez maiores); as habilidades de um cientista da computação que pode projetar e usar algoritmos para armazenar, processar e visualizar esses dados com eficiência; e o domínio da <i>expertise</i> - o que podemos pensar como treinamento "clássico" em um assunto - necessária tanto para formular as perguntas certas quanto para colocar suas respostas no contexto.

Com isso em mente, eu o encorajaria a pensar em ciência de dados não como um novo domínio de conhecimento a ser aprendido, mas um novo conjunto de habilidades que você pode aplicar em sua área de especialização atual. Esteja você relatando resultados eleitorais, prevendo retornos de ações, otimizando cliques em anúncios online, identificando microorganismos em fotos de microscópio, buscando novas classes de objetos astronômicos ou trabalhando com dados em qualquer outro campo, o objetivo deste livro é fornecer a você a capacidade de pergunte e responda novas perguntas sobre a área de assunto escolhida.

## Para quem é este livro?

Em minhas aulas na Universidade de Washington e em várias conferências e encontros com foco em tecnologia, uma das perguntas mais comuns que ouvi é esta: "como devo aprender Python?"
As pessoas que perguntam isso são geralmente estudantes, desenvolvedores ou pesquisadores com mentalidade técnica, muitas vezes com uma sólida experiência em escrever códigos e usar ferramentas computacionais e numéricas.
A maioria dessas pessoas não querem aprender Python *por si só*, mas querem aprender a linguagem com o objetivo de usá-la como uma ferramenta para uso intensivo de dados e ciência computacional.
Embora uma grande colcha de retalhos de vídeos, postagens em blogs e tutoriais para esse público esteja disponível online, há muito tempo fico frustrado com a falta de uma única resposta adequada para essa pergunta; foi isso que inspirou este livro.

O livro não pretende ser uma introdução ao Python ou à programação em geral; Presumo que o leitor tenha familiaridade com a linguagem Python, incluindo definição de funções, atribuição de variáveis, chamada de métodos de objetos, controle do fluxo de um programa e outras tarefas básicas.
Em vez disso, destina-se a ajudar os usuários de Python a aprender a usar as bibliotecas de pilha de ciência de dados do Python, como IPython, NumPy, Pandas, Matplotlib, Scikit-Learn e ferramentas relacionadas - para armazenar, manipular e obter informações de dados de maneira eficaz.

## Por que Python?

Python surgiu nas últimas décadas como uma ferramenta de primeira classe para tarefas de computação científica, incluindo a análise e visualização de grandes conjuntos de dados.
Isso pode ter sido uma surpresa para os criadores da linguagem Python: a linguagem em si não foi projetada especificamente para a análise de dados ou computação científica.
A utilidade do Python para a ciência de dados deriva principalmente do grande e ativo ecossistema de pacotes de terceiros: *NumPy* para manipulação de dados homogêneos baseados em array (matrizes), *Pandas* para manipulação de dados heterogêneos e rotulados, *SciPy* para dados científicos comuns tarefas de computação, *Matplotlib* para visualização de dados com qualidade de publicação, *IPython* para execução interativa e compartilhamento de código, *Scikit-Learn* para aprendizado de máquina e muitas outras ferramentas que serão mencionadas nas páginas a seguir.

Se você está procurando um guia para a linguagem Python em si, sugiro o projeto irmão deste livro, "[Um tour rápido pela linguagem Python](https://jakevdp.github.io/WhirlwindTourOfPython)".
Este breve relatório fornece um tour pelos recursos essenciais da linguagem Python, voltado para cientistas de dados que já estão familiarizados com uma ou mais outras linguagens de programação.

### Python 2 vs Python 3

Este livro usa a sintaxe do Python 3, que contém aprimoramentos de linguagem que não são compatíveis com a série 2.x do Python.
Embora o Python 3.0 tenha sido lançado pela primeira vez em 2008, a adoção tem sido relativamente lenta, particularmente nas comunidades científica e de desenvolvimento da web.
Isso ocorre principalmente porque levou algum tempo para que muitos dos pacotes e kits de ferramentas essenciais de terceiros se tornassem compatíveis com as novas linguagens internas.
Desde o início de 2014, no entanto, as versões estáveis das ferramentas mais importantes no ecossistema de ciência de dados são totalmente compatíveis com Python 2 e 3 e, portanto, este livro usará a sintaxe Python 3 mais recente.
No entanto, a grande maioria dos fragmentos de código neste livro também funcionará sem modificação no Python 2: nos casos em que uma sintaxe incompatível com Py2 for usada, farei todo o possível para observá-la explicitamente.

## Esboço do livro

Cada capítulo deste livro enfoca um pacote ou ferramenta particular que contribui com uma parte fundamental da história do Python Data Science.

1. IPython e Jupyter: esses pacotes fornecem o ambiente computacional no qual trabalham muitos cientistas de dados que usam Python.
2. NumPy: esta biblioteca fornece o `` ndarray`` para armazenamento e manipulação eficientes de matrizes de dados densos em Python.
3. Pandas: esta biblioteca fornece o `` DataFrame`` para armazenamento e manipulação eficientes de dados rotulados / colunares em Python.
4. Matplotlib: esta biblioteca fornece recursos para uma gama flexível de visualizações de dados em Python.
5. Scikit-Learn: esta biblioteca fornece implementações Python eficientes e limpas dos algoritmos de aprendizado de máquina mais importantes e estabelecidos.

O mundo PyData é certamente muito maior do que esses cinco pacotes e está crescendo a cada dia.
Com isso em mente, faço todas as tentativas dessas páginas para fornecer referências a outros esforços, projetos e pacotes interessantes que estão ultrapassando os limites do que pode ser feito em Python.
No entanto, esses cinco são atualmente fundamentais para grande parte do trabalho que está sendo feito no espaço da ciência de dados Python, e espero que continuem importantes mesmo que o ecossistema continue crescendo ao seu redor.

## Usando exemplos de código

O material complementar (exemplos de código, figuras, etc.) está disponível para download em http://github.com/jakevdp/PythonDataScienceHandbook/. Este livro está aqui para ajudá-lo a realizar seu trabalho. Em geral, se o código de exemplo é oferecido com este livro, você pode usá-lo em seus programas e documentação. Você não precisa entrar em contato conosco para obter permissão, a menos que esteja reproduzindo uma parte significativa do código. Por exemplo, escrever um programa que usa vários pedaços de código deste livro não requer permissão. Vender ou distribuir um CD-ROM de exemplos de livros O’Reilly requer permissão. Responder a uma pergunta citando este livro e citando um código de exemplo não requer permissão. Incorporar uma quantidade significativa de código de exemplo deste livro na documentação do seu produto requer permissão.

Agradecemos, mas não exigimos atribuição. Uma atribuição geralmente inclui o título, autor, editora e ISBN. Por exemplo:

> *The Python Data Science Handbook* por Jake VanderPlas (O’Reilly). Copyright 2016 Jake VanderPlas, 978-1-491-91205-8.

Se você acha que o uso de exemplos de código está fora do uso justo ou da permissão fornecida acima, sinta-se à vontade para nos contatar em permissions@oreilly.com.

# 1. IPython: além do Python normal <a id='ipython'></a>

<!--NAVIGATION-->
< [Prefácio](#preface) | [Índice](#index) | [Ajuda e Documentação do IPhyton](#help_documentation) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.00-IPython-Beyond-Normal-Python.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


Existem muitas opções para ambientes de desenvolvimento para Python, e muitas vezes me perguntam qual eu uso em meu próprio trabalho.
Minha resposta às vezes surpreende as pessoas: meu ambiente preferido é [IPython](http://ipython.org/) e mais um editor de texto (no meu caso, Emacs ou Atom dependendo do meu humor).
IPython (abreviação de *Interactive Python*) foi iniciado em 2001 por Fernando Perez como um interpretador Python aprimorado e, desde então, se tornou um projeto com o objetivo de fornecer, nas palavras de Perez, "Ferramentas para todo o ciclo de vida da computação de pesquisa."
Se Python é o motor de nossa tarefa de ciência de dados, você pode pensar em IPython como o painel de controle interativo.

Além de ser uma interface interativa útil para Python, o IPython também fornece uma série de adições sintáticas úteis para a linguagem; vamos cobrir as mais úteis dessas adições aqui.
Além disso, o IPython está intimamente ligado ao [projeto Jupyter](http://jupyter.org), que fornece um bloco de notas baseado em navegador que é útil para desenvolvimento, colaboração, compartilhamento e até publicação de resultados de ciência de dados.
O bloco de notas IPython é na verdade um caso especial da estrutura de bloco de notas Jupyter (*Jupyter Notebook*) mais ampla, que abrange blocos de notas para Julia, R e outras linguagens de programação.
Como exemplo da utilidade do formato de *notebook*, basta olhar para a página que você está lendo: todo o manuscrito deste livro foi composto como um conjunto de blocos de notas IPython.

IPython é sobre como usar Python efetivamente para computação científica interativa e com uso intensivo de dados.
Este capítulo começará percorrendo alguns dos recursos do IPython que são úteis para a prática da ciência de dados, focando especialmente na sintaxe que oferece além dos recursos padrão do Python.
A seguir, vamos nos aprofundar um pouco mais em alguns dos "comandos mágicos" (*Magic Tools*) mais úteis que podem acelerar tarefas comuns na criação e no uso de código de ciência de dados.
Por fim, abordaremos alguns dos recursos do bloco de notas que o tornam útil na compreensão de dados e no compartilhamento de resultados.

## Shell ou Notebook?

Existem dois meios principais de usar IPython que discutiremos neste capítulo: o IPython shell e o IPython notebook.
A maior parte do material neste capítulo é relevante para ambos, e os exemplos irão alternar entre eles dependendo do que for mais conveniente.
Nas poucas seções que são relevantes apenas para um ou outro, declararemos explicitamente esse fato.
Antes de começar, algumas palavras sobre como iniciar o IPython shell e o IPython notebook.

### Lançando o IPython Shell

Este capítulo, como a maior parte deste livro, não foi projetado para ser absorvido passivamente.
Recomendo que, ao lê-lo, você acompanhe e experimente as ferramentas e a sintaxe que abordamos: a memória muscular que você constrói ao fazer isso será muito mais útil do que o simples ato de ler sobre ela.
Comece iniciando o interpretador IPython digitando **``ipython``** na linha de comando; alternativamente, se você instalou uma distribuição como Anaconda ou EPD, pode haver um inicializador específico para seu sistema (discutiremos isso mais detalhadamente em [Ajuda e documentação em IPython](#help_documentation)

Depois de fazer isso, você verá um prompt como o seguinte:
```ipython
IPython 4.0.1 - Um Python interativo aprimorado.
? -> Introdução e visão geral dos recursos do IPython.
% quickref -> Referência rápida.
help -> O próprio sistema de ajuda do Python.
object? -> Detalhes sobre 'objeto', use 'objeto ??' para detalhes extras.
In [1]:
```
<p>
Com isso, você está pronto para seguir em frente.

### Lançando o Jupyter Notebook

O notebook Jupyter é uma interface gráfica baseada em navegador para o IPython shell e se baseia em um rico conjunto de recursos de exibição dinâmica.
Além de executar instruções Python / IPython, o notebook permite ao usuário incluir texto formatado, visualizações estáticas e dinâmicas, equações matemáticas, widgets JavaScript e muito mais.
Além disso, esses documentos podem ser salvos de forma que outras pessoas os abram e executem o código em seus próprios sistemas.

Embora o bloco de notas IPython seja visualizado e editado por meio da janela do navegador da web, ele deve se conectar a um processo Python em execução para executar o código.
Esse processo (conhecido como "kernel") pode ser iniciado executando o seguinte comando no shell do sistema:

```ipython
$ jupyter notebook
```

Este comando irá lançar um servidor web local que ficará visível para o seu navegador.
Ele imediatamente cospe um registro mostrando o que está fazendo; esse registro será semelhante a este:

```ipython
$ jupyter notebook
[NotebookApp] Serving notebooks from local directory: /Users/jakevdp/PythonDataScienceHandbook
[NotebookApp] 0 active kernels
[NotebookApp] The IPython Notebook is running at: http://localhost:8888/
[NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
```

Ao emitir o comando, seu navegador padrão deve abrir automaticamente e navegar para o URL local listado;
o endereço exato dependerá do seu sistema.
Se o navegador não abrir automaticamente, você pode abrir uma janela e abrir manualmente este endereço (*http://localhost:8888/* neste exemplo).

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

## 1.1 Ajuda e documentação no IPython <a id='help_documentation'></a>

<!--NAVIGATION-->
< [IPython: Além do Python Normal](#ipython) | [Índice](#index) | [Atalhos de teclado no IPython Shell](#shortcuts) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.01-Help-And-Documentation.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

Se você não leu nenhuma outra seção neste capítulo, leia esta: Acho que as ferramentas discutidas aqui são as contribuições mais transformadoras do IPython para meu fluxo de trabalho diário.

Quando uma pessoa com mentalidade tecnológica é solicitada a ajudar um amigo, parente ou colega com um problema de computador, na maioria das vezes é menos uma questão de saber a resposta do que de saber como encontrar rapidamente uma resposta desconhecida.
Na ciência de dados é o mesmo: recursos pesquisáveis ​​da web, como documentação online, tópicos de listas de discussão e respostas StackOverflow contêm uma riqueza de informações, mesmo (especialmente?) Se for um tópico que você já pesquisou antes.
Ser um praticante eficaz da ciência de dados é menos sobre memorizar a ferramenta ou comando que você deve usar para todas as situações possíveis, e mais sobre aprender a encontrar efetivamente as informações que você não conhece, seja por meio de um mecanismo de pesquisa na web ou outro meio.

Uma das funções mais úteis do IPython / Jupyter é reduzir a lacuna entre o usuário e o tipo de documentação e pesquisa que o ajudará a fazer seu trabalho com eficácia.
Embora as pesquisas na web ainda desempenhem um papel na resposta a perguntas complicadas, uma quantidade incrível de informações pode ser encontrada apenas por meio do IPython.
Alguns exemplos das perguntas que o IPython pode ajudar a responder com apenas alguns toques de tecla:

- Como faço para chamar essa função? Que argumentos e opções ele tem?
- Qual é a aparência do código-fonte deste objeto Python?
- O que tem nesse pacote que importei? Quais atributos ou métodos este objeto possui?

Aqui, discutiremos as ferramentas do IPython para acessar rapidamente essas informações, nomeadamente o caractere ``? `` Para explorar a documentação, os caracteres `` ?? `` para explorar o código-fonte e a tecla Tab para autocompletar.

## Acessando a documentação com ``? ``

A linguagem Python e seu ecossistema de ciência de dados são construídos com o usuário em mente, e uma grande parte disso é o acesso à documentação.
Cada objeto Python contém a referência a uma string, conhecida como * doc string *, que na maioria dos casos conterá um resumo conciso do objeto e como usá-lo.
Python tem uma função `` help () `` embutida que pode acessar essas informações e imprimir os resultados.
Por exemplo, para ver a documentação da função incorporada `` len``, você pode fazer o seguinte:

```ipython
In [1]: help(len)
Help on built-in function len in module builtins:

len(...)
    len(object) -> integer
    
    Return the number of items of a sequence or mapping.
```
Dependendo do seu intérprete, essas informações podem ser exibidas como texto embutido ou em alguma janela pop-up separada.

**Insira seu código abaixo:**

Como encontrar ajuda em um objeto é tão comum e útil, o IPython apresenta o caractere ``? `` Como um atalho para acessar esta documentação e outras informações relevantes:

```ipython
In [2]: len?
Type:        builtin_function_or_method
String form: <built-in function len>
Namespace:   Python builtin
Docstring:
len(object) -> integer

Return the number of items of a sequence or mapping.
```

**Insira seu código abaixo:**

Essa notação funciona para quase tudo, incluindo métodos de objeto:

```ipython
In [3]: L = [1, 2, 3]
In [4]: L.insert?
Type:        builtin_function_or_method
String form: <built-in method insert of list object at 0x1024b8ea8>
Docstring:   L.insert(index, object) -- insert object before index
```

ou ainda os próprios objetos, com a documentação de seu tipo:

```ipython
In [5]: L?
Type:        list
String form: [1, 2, 3]
Length:      3
Docstring:
list() -> new empty list
list(iterable) -> new list initialized from iterable's items
```

**Insira seu código abaixo:**

É importante ressaltar que isso funcionará até mesmo para funções ou outros objetos que você mesmo criar! Aqui definiremos uma pequena função com uma docstring:

```ipython
In [6]: def square(a):
  ....:     """Return the square of a."""
  ....:     return a ** 2
  ....:
```
Observe que, para criar uma docstring para nossa função, simplesmente colocamos uma string literal na primeira linha. Como as strings de doc geralmente têm várias linhas, por convenção usamos a notação de aspas triplas do Python para strings de várias linhas.

**Insira seu código abaixo:**

Agora usaremos a marca ``? `` Para encontrar esta string doc:

```ipython
In [7]: square?
Type:        function
String form: <function square at 0x103713cb0>
Definition:  square(a)
Docstring:   Return the square of a.
```

Este acesso rápido à documentação por meio de docstrings é uma razão pela qual você deve adquirir o hábito de sempre adicionar tal documentação embutida ao código que você escreve!

**Insira seu código abaixo:**

## Acessando o código-fonte com `` ?? `` 
Como a linguagem Python é facilmente legível, outro nível de percepção geralmente pode ser obtido lendo o código-fonte do objeto sobre o qual você está curioso. IPython fornece um atalho para o código-fonte com o ponto de interrogação duplo (``??``):

```ipython
In [8]: square??
Type:        function
String form: <function square at 0x103713cb0>
Definition:  square(a)
Source:
def square(a):
    "Return the square of a"
    return a ** 2
```

Para funções simples como essa, o ponto de interrogação duplo pode fornecer uma visão rápida dos detalhes sob o capô.

**Insira seu código abaixo:**

Se você brincar com isso, você notará que às vezes o sufixo `` ?? `` não exibe nenhum código-fonte: isso geralmente ocorre porque o objeto em questão não é implementado em Python, mas em C ou algum outro compilado linguagem de extensão. Se for este o caso, o sufixo `` ?? `` dá a mesma saída que o sufixo ``? ``. Você encontrará isso particularmente com muitos dos objetos e tipos integrados do Python, por exemplo, `` len`` acima:


```ipython
In [9]: len??
Type:        builtin_function_or_method
String form: <built-in function len>
Namespace:   Python builtin
Docstring:
len(object) -> integer

Return the number of items of a sequence or mapping.
```

Usar ``? `` E / ou `` ?? `` fornece uma interface poderosa e rápida para encontrar informações sobre o que qualquer função ou módulo Python faz.

**Insira seu código abaixo:**

## Explorando Módulos com Completamento de Aba 
A outra interface útil do IPython é o uso da tecla tab para autocompletar e explorar o conteúdo de objetos, módulos e espaços de nomes. Nos exemplos a seguir, usaremos `` <TAB> `` para indicar quando a tecla Tab deve ser pressionada.

### Preenchimento do conteúdo do objeto com tabulação

Cada objeto Python possui vários atributos e métodos associados a ele. Como com a função `` help`` discutida antes, Python tem uma função `` dir`` embutida que retorna uma lista delas, mas a interface de preenchimento de tabulação é muito mais fácil de usar na prática. Para ver uma lista de todos os atributos disponíveis de um objeto, você pode digitar o nome do objeto seguido por um ponto ("``.``") e a tecla Tab:


```ipython
In [10]: L.<TAB>
L.append   L.copy     L.extend   L.insert   L.remove   L.sort     
L.clear    L.count    L.index    L.pop      L.reverse  
```

Para restringir a lista, você pode digitar o primeiro caractere ou vários caracteres do nome e a tecla Tab encontrará os atributos e métodos correspondentes:


```ipython
In [10]: L.c<TAB>
L.clear  L.copy   L.count  

In [10]: L.co<TAB>
L.copy   L.count 
```

Se houver apenas uma opção, pressione a tecla Tab para completar a linha para você. Por exemplo, o seguinte será instantaneamente substituído por `` L.count``:

```ipython
In [10]: L.cou<TAB>

```

Embora o Python não tenha uma distinção estritamente imposta entre atributos públicos / externos e atributos privados / internos, por convenção, um sublinhado anterior é usado para denotar tais métodos. Para maior clareza, esses métodos privados e métodos especiais são omitidos da lista por padrão, mas é possível listá-los digitando explicitamente o sublinhado:

```ipython
In [10]: L._<TAB>
L.__add__           L.__gt__            L.__reduce__
L.__class__         L.__hash__          L.__reduce_ex__
```

Para resumir, mostramos apenas as primeiras linhas da saída. A maioria deles são métodos especiais de sublinhado duplo do Python (freqüentemente apelidados de métodos "dunder").

**Insira seu código abaixo:**

### Preenchimento de tabulação quando importar

O preenchimento de tabulação também é útil ao importar objetos de pacotes. Aqui, vamos usá-lo para encontrar todas as importações possíveis no pacote `` itertools`` que começam com `` co``:
```
In [10]: from itertools import co<TAB>
combinations                   compress
combinations_with_replacement  count
```
Da mesma forma, você pode usar o preenchimento com tab para ver quais importações estão disponíveis em seu sistema (isso mudará dependendo de quais scripts e módulos de terceiros estão visíveis para sua sessão Python):
```
In [10]: import <TAB>
Display all 399 possibilities? (y or n)
Crypto              dis                 py_compile
Cython              distutils           pyclbr
...                 ...                 ...
difflib             pwd                 zmq

In [10]: import h<TAB>
hashlib             hmac                http         
heapq               html                husl         
```
(Observe que, para resumir, não imprimi aqui todos os 399 pacotes e módulos importáveis ​​em meu sistema.)

**Insira seu código abaixo:**

### Além do preenchimento da guia: correspondência de curinga

O preenchimento com tabulação é útil se você conhece os primeiros caracteres do objeto ou atributo que está procurando, mas não ajuda muito se desejar combinar caracteres no meio ou no final da palavra. Para este caso de uso, o IPython fornece um meio de correspondência curinga para nomes usando o caractere `` * ``.

Por exemplo, podemos usar isso para listar todos os objetos no namespace que termina com `` Warning``:

```ipython
In [10]: *Warning?
BytesWarning                  RuntimeWarning
DeprecationWarning            SyntaxWarning
FutureWarning                 UnicodeWarning
ImportWarning                 UserWarning
PendingDeprecationWarning     Warning
ResourceWarning
```

Observe que o caractere `` * `` corresponde a qualquer string, incluindo a string vazia.

Da forma similar, suponha que estejamos procurando um método string que contenha a palavra `` find`` em algum lugar em seu nome. Podemos pesquisar desta forma:

```ipython
In [10]: str.*find*?
str.find
str.rfind
```

Acho que esse tipo de pesquisa de curinga flexível pode ser muito útil para encontrar um comando específico quando estiver conhecendo um novo pacote ou me familiarizando com um outro.

**Insira seu código abaixo:**

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

## 1.2 Atalhos de teclado no IPython Shell <a id='shortcuts'></a>

<!--NAVIGATION-->
< [Ajuda e documentação no IPython](#help_documentation) | [Índice](#index) | [IPython Magic Commands](#magic) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.02-Shell-Keyboard-Shortcuts.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


Se você passa algum tempo no computador, provavelmente encontrou um uso para atalhos de teclado em seu fluxo de trabalho.
Mais familiares talvez sejam o Cmd-C e o Cmd-V (ou Ctrl-C e Ctrl-V) para copiar e colar em uma ampla variedade de programas e sistemas.
Usuários avançados tendem a ir ainda mais longe: editores de texto populares como Emacs, Vim e outros fornecem aos usuários uma gama incrível de operações por meio de combinações intrincadas de pressionamentos de tecla.

O shell IPython não vai tão longe, mas fornece uma série de atalhos de teclado para navegação rápida enquanto digita comandos.
Esses atalhos não são de fato fornecidos pelo próprio IPython, mas por meio de sua dependência da biblioteca GNU Readline: como tal, alguns dos seguintes atalhos podem ser diferentes dependendo da configuração do seu sistema.
Além disso, embora alguns desses atalhos funcionem no bloco de notas baseado em navegador, esta seção é principalmente sobre atalhos no shell IPython.

Depois de se acostumar com eles, eles podem ser muito úteis para executar rapidamente certos comandos sem mover as mãos da posição "inicial" do teclado.
Se você for um usuário Emacs ou se tiver experiência com shells do estilo Linux, o seguinte será bastante familiar.
Agruparemos esses atalhos dentro de algumas categorias: *atalhos de navegação*, *atalhos de entrada de texto*, *atalhos de histórico de comando*, and *Atalhos diversos*


## Atalhos de navegação


Embora o uso das teclas de seta esquerda e direita para mover para trás e para frente na linha seja bastante óbvio, existem outras opções que não requerem mover suas mãos da posição "inicial" do teclado:

| Pressionamento de tecla                   | Ação                                       |
|-------------------------------------------|--------------------------------------------|
| ``Ctrl-a``                                | Move o cursor para o início da linha       |
| ``Ctrl-e``                                | Move o cursor para o final da linha        |
| ``Ctrl-b`` ou tecla de seta para esquerda | Move o cursor um caractere para trás       |
| ``Ctrl-f`` ou tecla de seta para direita  | Move o cursor um caractere para frente     |


## Atalhos de entrada de texto

Embora todos estejam familiarizados com o uso da tecla Backspace para excluir o caractere anterior, alcançar a tecla geralmente requer uma pequena ginástica com os dedos e apenas exclui um único caractere por vez. No IPython, existem vários atalhos para remover parte do texto que você está digitando. Os mais úteis imediatamente são os comandos para excluir linhas inteiras de texto. Você saberá que eles se tornaram uma segunda natureza se você estiver usando uma combinação de Ctrl-b e Ctrl-d em vez de usar a tecla Backspace para excluir o caractere anterior!

| Pressionamento de tecla       | Ação                                                            |
|-------------------------------|-----------------------------------------------------------------|
| tecla Backspace               | Deleta caractere anterior na linha                              |
| ``Ctrl-d``                    | Deleta próximo caractere na linha                               |
| ``Ctrl-k``                    | Corta o texto de um cursor para o final da linha                |
| ``Ctrl-u``                    | Corta o texto do início da linha até o cursor                   |
| ``Ctrl-y``                    | Arrancar (ou seja, colar) o texto que foi cortado anteriormente |
| ``Ctrl-t``                    | Transpor (ou seja, trocar) os dois caracteres anteriores        |


## Atalhos do histórico de comandos 

Talvez os atalhos mais impactantes discutidos aqui sejam aqueles que o IPython fornece para navegar no histórico de comandos. Este histórico de comando vai além de sua sessão IPython atual: todo o seu histórico de comando é armazenado em um banco de dados SQLite no diretório de perfil IPython. A maneira mais direta de acessá-los é com as teclas de seta para cima e para baixo para percorrer o histórico, mas também existem outras opções:

| Pressionamento de tecla                   | Ação                                       |
|-------------------------------------------|--------------------------------------------|
| ``Ctrl-p`` (ou a tecla de seta para cima) | Acesse o comando anterior no histórico     |
| ``Ctrl-n`` (ou a tecla de seta para baixo)| Acesse o próximo comando no histórico      |
| ``Ctrl-r``                                | Pesquisa reversa no histórico de comandos  |


A busca reversa pode ser particularmente útil. Lembre-se de que na seção anterior definimos uma função chamada ``square``. Vamos fazer uma busca reversa em nosso histórico Python a partir de um novo shell IPython e encontrar essa definição novamente. Ao pressionar Ctrl-r no terminal IPython, você verá o seguinte prompt:


```ipython
In [1]:
(reverse-i-search)`': 
```

Se você começar a digitar caracteres neste prompt, o IPython preencherá automaticamente o comando mais recente, se houver, que corresponda a esses caracteres:


```ipython
In [1]: 
(reverse-i-search)`sqa': square??
```

A qualquer momento, você pode adicionar mais caracteres para refinar a pesquisa ou pressionar Ctrl-r novamente para pesquisar outro comando que corresponda à consulta. Se você acompanhou a seção anterior, pressionar Ctrl-r mais duas vezes dá:


```ipython
In [1]: 
(reverse-i-search)`sqa': def square(a):
    """Return the square of a"""
    return a ** 2
```

Depois de encontrar o comando que está procurando, pressione Return e a pesquisa será encerrada. Podemos então usar o comando recuperado e continuar com nossa sessão:


```ipython
In [1]: def square(a):
    """Return the square of a"""
    return a ** 2

In [2]: square(2)
Out[2]: 4
```

Observe que Ctrl-p / Ctrl-n ou as teclas de seta para cima / para baixo também podem ser usadas para pesquisar no histórico, mas apenas combinando caracteres no início da linha. Ou seja, se você digitar **``def``** e pressionar Ctrl-p, ele encontrará o comando mais recente (se houver) em seu histórico que começa com os caracteres ``def``.


**Insira seu código abaixo:**

## Atalhos diversos

Finalmente, existem alguns atalhos diversos que não se encaixam em nenhuma das categorias anteriores, mas são úteis saber:

| Pressionamento de tecla       | Ação                                       |
|-------------------------------|--------------------------------------------|
| ``Ctrl-l``                    | Limpar a tela do terminal                  |
| ``Ctrl-c``                    | Interromper o comando Python atual         |
| ``Ctrl-d``                    | Sair da sessão IPython                     |

O Ctrl-c em particular pode ser útil quando você inicia inadvertidamente um trabalho de execução muito longa.

Embora alguns dos atalhos discutidos aqui possam parecer um pouco enfadonhos no início, eles rapidamente se tornam automáticos com a prática. Depois de desenvolver essa memória muscular, suspeito que você até desejará que eles estivessem disponíveis em outros contextos.

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

## 1.3 Comandos mágicos do IPython <a id='magic'></a>

<!--NAVIGATION-->
< [Atalhos de teclado no IPython Shell](#shortcuts) | [Índice](#index) | [Histórico de Input e Output](#history_in_out) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.02-Shell-Keyboard-Shortcuts.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

As duas seções anteriores mostraram como o IPython permite que você use e explore o Python de maneira eficiente e interativa. Aqui, começaremos a discutir alguns dos aprimoramentos que o IPython adiciona à sintaxe normal do Python. Eles são conhecidos no IPython como *comandos mágicos* e são prefixados pelo caractere ``% ``. Esses comandos mágicos são projetados para resolver sucintamente vários problemas comuns na análise de dados padrão. Os comandos mágicos vêm em dois sabores: *line magics*, que são denotados por um único prefixo ``% `` e operam em uma única linha de entrada, e *cell magics*, que são denotados por um duplo ``%%`` prefixar e operar em várias linhas de entrada. Demonstraremos e discutiremos alguns breves exemplos aqui e voltaremos a uma discussão mais focada de vários comandos mágicos úteis posteriormente neste capítulo.


## Colando Blocos de Código: ``%paste`` e ``%cpaste``

Ao trabalhar no interpretador IPython, uma pegadinha comum é que colar blocos de código de várias linhas pode levar a erros inesperados, especialmente quando marcadores de indentação e de interpretador estão envolvidos. Um caso comum é encontrar algum código de exemplo em um site e desejar colá-lo em seu interpretador. Considere a seguinte função simples:


``` python
>>> def donothing(x):
...     return x

```
O código é formatado como apareceria no interpretador Python e, se você copiar e colar isso diretamente no IPython, obterá um erro:


```ipython
In [2]: >>> def donothing(x):
   ...:     ...     return x
   ...:     
  File "<ipython-input-20-5a66c8964687>", line 2
    ...     return x
                 ^
SyntaxError: invalid syntax
```

Na colagem direta, o interpretador fica confuso com os caracteres adicionais de prompt. Mas não se preocupe - a função mágica ``%paste`` do IPython foi projetada para lidar com este tipo exato de entrada marcada com várias linhas:


```ipython
In [3]: %paste
>>> def donothing(x):
...     return x

## -- End pasted text --
```

O comando ``%paste`` insere e executa o código, então agora a função está pronta para ser usada:

```ipython
In [4]: donothing(10)
Out[4]: 10
```

Um comando com uma intenção semelhante é ``%cpaste``, que abre um prompt multilinha interativo no qual você pode colar um ou mais pedaços de código para serem executados em um lote:


```ipython
In [5]: %cpaste
Pasting code; enter '--' alone on the line to stop or use Ctrl-D.
:>>> def donothing(x):
:...     return x
:--
```

Esses comandos mágicos, como outros que veremos, disponibilizam funcionalidades que seriam difíceis ou impossíveis em um interpretador Python padrão.

**Insira seu código abaixo:**

## Executando Código Externo: ``%run``
Conforme você começa a desenvolver um código mais extenso, provavelmente se verá trabalhando tanto em IPython para exploração interativa quanto em um editor de texto para armazenar o código que deseja reutilizar. 
Em vez de executar esse código em uma nova janela, pode ser conveniente executá-lo em sua sessão IPython. Isso pode ser feito com a mágica ``%run``.


Por exemplo, imagine que você criou um arquivo ``myscript.py`` com o seguinte conteúdo:


```python
#-------------------------------------
# file: myscript.py

def square(x):
    """square a number"""
    return x ** 2

for N in range(1, 4):
    print(N, "squared is", square(N))
```

Você pode executar isso a partir de sua sessão IPython da seguinte maneira:

```ipython
In [6]: %run myscript.py
1 squared is 1
2 squared is 4
3 squared is 9
```

Observe também que, depois de executar este script, todas as funções definidas nele estarão disponíveis para uso em sua sessão IPython:

```ipython
In [7]: square(5)
Out[7]: 25
```

Existem várias opções para ajustar como seu código é executado; você pode ver a documentação da maneira normal, digitando **``%run?``** no interpretador IPython.

**Insira seu código abaixo:**

## Execução do código de tempo: ``%timeit``
Outro exemplo de função mágica útil é ``%timeit``, que determinará automaticamente o tempo de execução da instrução Python de uma linha que a segue.
Por exemplo, podemos querer verificar o desempenho da compreensão de uma lista:

```ipython
In [8]: %timeit L = [n ** 2 for n in range(1000)]
1000 loops, best of 3: 325 µs per loop
```

O benefício do ``% timeit`` é que para comandos curtos, ele executa automaticamente várias execuções para obter resultados mais robustos.
Para instruções de várias linhas, adicionar um segundo sinal de ``% `` transformará isso em uma *magic cell* que pode lidar com várias linhas de entrada.
Por exemplo, aqui está a construção equivalente com um -loop ``for``:


```ipython
In [9]: %%timeit
   ...: L = []
   ...: for n in range(1000):
   ...:     L.append(n ** 2)
   ...: 
1000 loops, best of 3: 373 µs per loop
```

Podemos ver imediatamente que as compreensões de lista são cerca de 10% mais rápidas do que a construção do -loop ``for`` equivalente neste caso.
Exploraremos o ``%timeit`` e outras abordagens para cronometrar e criar perfis de código em [Código para criar perfis e cronômetrar](#time_profile).

**Insira seu código abaixo:**

## Ajuda sobre funções mágicas: ``?``, ``%magic``, e ``%lsmagic``

Como as funções normais do Python, as funções mágicas do IPython têm docstrings, e isso é útil a documentação pode ser acessada da maneira padrão. 
Então, por exemplo, para ler a documentação da mágica ``%timeit`` simplesmente digite isto:

```ipython
In [10]: %timeit?
```

A documentação para outras funções pode ser acessada de forma semelhante. 
Para acessar uma descrição geral das funções mágicas disponíveis, incluindo alguns exemplos, você pode digitar isto:


```ipython
In [11]: %magic
```

Para obter uma lista rápida e simples de todas as funções mágicas disponíveis, digite o seguinte:


```ipython
In [12]: %lsmagic
```

Finalmente, mencionarei que é bastante simples definir suas próprias funções mágicas, se desejar.
Não discutiremos isso aqui, mas se você estiver interessado, consulte as referências listadas em [Mais recursos do IPython](#more_resources).


**Insira seu código abaixo:**

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

## 1.4 Histórico de Input e Output <a id='history_in_out'></a>

<!--NAVIGATION-->
< [Comandos Mágicos do IPython](#magic) | [Índice](#index) | [Comandos Shell e IPython](#ipython_shell_commmands) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.04-Input-Output-History.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

Anteriormente, vimos que o shell IPython permite que você acesse os comandos anteriores com as teclas de seta para cima e para baixo ou, de forma equivalente, os atalhos Ctrl-p / Ctrl-n.
Além disso, tanto no shell quanto no notebook, o IPython expõe várias maneiras de obter a saída de comandos anteriores, bem como versões de string dos próprios comandos. Vamos explorá-los aqui.

## Objetos `` In`` e `` Out`` do IPython

Agora eu imagino que você esteja bem familiarizado com os prompts do estilo ``In [1]:``/``Out [1]:`` usados pelo IPython.
Mas acontece que não são apenas uma decoração bonita: eles dão uma pista de como você pode acessar entradas e saídas anteriores em sua sessão atual.
Imagine que você inicia uma sessão semelhante a esta:

```ipython
In [1]: import math

In [2]: math.sin(2)
Out[2]: 0.9092974268256817

In [3]: math.cos(2)
Out[3]: -0.4161468365471424
```


**Insira seu código abaixo:**

Importamos o pacote ``math`` embutido e, em seguida, calculamos o seno e o cosseno do número 2. Essas entradas e saídas são exibidas no shell com rótulos ``In``/`` Out``, mas há mais o IPython na verdade cria algumas variáveis Python chamadas ``In`` e ``Out`` que são automaticamente atualizadas para refletem esta história:


```ipython
In [4]: print(In)
['', 'import math', 'math.sin(2)', 'math.cos(2)', 'print(In)']

In [5]: Out
Out[5]: {2: 0.9092974268256817, 3: -0.4161468365471424}
```

**Insira seu código abaixo:**


O objeto ``In`` é uma lista, que mantém o controle dos comandos em ordem (o primeiro item da lista é um marcador de posição para que ``In [1]`` possa se referir ao primeiro comando):


```ipython
In [6]: print(In[1])
import math
```

O objeto ``Out`` não é uma lista, mas um dicionário mapeando os números de entrada para suas saídas (se houver):

```ipython
In [7]: print(Out[2])
0.9092974268256817
```

Observe que nem todas as operações têm saídas: por exemplo, as instruções ``import`` e ``print`` não afetam a saída.
O último pode ser surpreendente, mas faz sentido se você considerar que `` print`` é uma função que retorna ``None``; para resumir, qualquer comando que retorne ``None`` não é adicionado a ``Out``.

Isso pode ser útil se você quiser interagir com resultados anteriores.
Por exemplo, vamos verificar a soma de ``sin (2) ** 2`` e ``cos (2) ** 2`` usando os resultados calculados anteriormente:

```ipython
In [8]: Out[2] ** 2 + Out[3] ** 2
Out[8]: 1.0
```

O resultado é ``1.0`` como esperaríamos da conhecida identidade trigonométrica.
Neste caso, usar esses resultados anteriores provavelmente não é necessário, mas pode se tornar muito útil se você executar um cálculo muito caro e quiser reutilizar o resultado!

**Insira seu código abaixo:**

## Atalhos de sublinhado e saídas anteriores

O shell Python padrão contém apenas um atalho simples para acessar a saída anterior; a variável ``_`` (ou seja, um único sublinhado) é mantida atualizada com a saída anterior; isso também funciona no IPython:


```ipython
In [9]: print(_)
1.0
```

Mas o IPython leva isso um pouco mais longe - você pode usar um sublinhado duplo para acessar a penúltima saída e um sublinhado triplo para acessar a penúltima saída (pulando quaisquer comandos sem saída):


```ipython
In [10]: print(__)
-0.4161468365471424

In [11]: print(___)
0.9092974268256817
```

O IPython para por aí: mais de três sublinhados começa a ficar um pouco difícil de contar e, nesse ponto, é mais fácil referir-se à saída por número de linha. 

Há mais um atalho que devemos mencionar, no entanto um atalho para ``Out [X]`` é ``_X`` (ou seja, um único sublinhado seguido pelo número da linha):

```ipython
In [12]: Out[2]
Out[12]: 0.9092974268256817

In [13]: _2
Out[13]: 0.9092974268256817
```

**Insira seu código abaixo:**

## Supressão de saída 
Às vezes, você pode desejar suprimir a saída de uma instrução (isso talvez seja mais comum com os comandos de plotagem que exploraremos em [Introdução ao Matplotlib] (#matplotlib)).
Ou talvez o comando que você está executando produza um resultado que você prefere não armazenar em seu histórico de saída, talvez para que possa ser desalocado quando outras referências forem removidas.
A maneira mais fácil de suprimir a saída de um comando é adicionar um ponto e vírgula ao final da linha:


```ipython
In [14]: math.sin(2) + math.cos(2);
```

Note that the result is computed silently, and the output is neither displayed on the screen or stored in the ``Out`` dictionary:

```ipython
In [15]: 14 in Out
Out[15]: False
```

**Insira seu código abaixo:**

## Comandos mágicos relacionados
Para acessar um lote de entradas anteriores de uma vez, o comando mágico ``%history`` é muito útil. Aqui está como você pode imprimir as primeiras quatro entradas:


```ipython
In [16]: %history -n 1-4
   1: import math
   2: math.sin(2)
   3: math.cos(2)
   4: print(In)
```

Como de costume, você pode digitar ``%history?`` Para obter mais informações e uma descrição das opções disponíveis. 
Outros comandos mágicos semelhantes são ``%rerun`` (que irá reexecutar parte do histórico de comandos) e ``% save`` (que salva algum conjunto do histórico de comandos em um arquivo).
Para obter mais informações, sugiro explorá-los usando a funcionalidade de ajuda ``?`` Discutida em [Ajuda e documentação em IPython](#help_documentation).


**Insira seu código abaixo:**

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

# 1.5 Comandos Shell e IPython <a id='ipython_shell_commmands'></a>

<!--NAVIGATION-->
< [Histórico de Input e Output](#history_in_out) | [Índice](#index) | [Errors and Debugging](#errors) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.05-IPython-And-Shell-Commands.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


Ao trabalhar interativamente com o interpretador Python padrão, uma das frustrações é a necessidade de alternar entre várias janelas para acessar as ferramentas Python e as ferramentas de linha de comando do sistema. O IPython preenche essa lacuna e fornece uma sintaxe para a execução de comandos shell diretamente de dentro do terminal IPython.
A mágica acontece com o ponto de exclamação: qualquer coisa que apareça após ``!`` Em uma linha será executada não pelo kernel Python, mas pela linha de comando do sistema.

O seguinte assume que você está em um sistema semelhante ao Unix, como Linux ou Mac OSX. Alguns dos exemplos a seguir falharão no Windows, que usa um tipo diferente de shell por padrão (embora com o anúncio de 2016 de shells Bash nativos no Windows, em breve isso pode não ser mais um problema!).
Se você não estiver familiarizado com os comandos do shell, sugiro revisar o [Tutorial do Shell](http://swcarpentry.github.io/shell-novice/) elaborado pela sempre excelente Software Carpentry Foundation.


## Quick Introduction to the Shell

A full intro to using the shell/terminal/command-line is well beyond the scope of this chapter, but for the uninitiated we will offer a quick introduction here.
The shell is a way to interact textually with your computer.
Ever since the mid 1980s, when Microsoft and Apple introduced the first versions of their now ubiquitous graphical operating systems, most computer users have interacted with their operating system through familiar clicking of menus and drag-and-drop movements.
But operating systems existed long before these graphical user interfaces, and were primarily controlled through sequences of text input: at the prompt, the user would type a command, and the computer would do what the user told it to.
Those early prompt systems are the precursors of the shells and terminals that most active data scientists still use today.

Someone unfamiliar with the shell might ask why you would bother with this, when many results can be accomplished by simply clicking on icons and menus.
A shell user might reply with another question: why hunt icons and click menus when you can accomplish things much more easily by typing?
While it might sound like a typical tech preference impasse, when moving beyond basic tasks it quickly becomes clear that the shell offers much more control of advanced tasks, though admittedly the learning curve can intimidate the average computer user.

As an example, here is a sample of a Linux/OSX shell session where a user explores, creates, and modifies directories and files on their system (``osx:~ $`` is the prompt, and everything after the ``$`` sign is the typed command; text that is preceded by a ``#`` is meant just as description, rather than something you would actually type in):


## Introdução rápida ao Shell

Uma introdução completa sobre o uso do shell / terminal / linha de comando está bem além do escopo deste capítulo, mas para os não iniciados, ofereceremos uma introdução rápida aqui.
O shell é uma forma de interagir textualmente com seu computador.
Desde meados da década de 1980, quando a Microsoft e a Apple introduziram as primeiras versões de seus agora onipresentes sistemas operacionais gráficos, a maioria dos usuários de computador interagiu com seu sistema operacional por meio de cliques familiares em menus e movimentos de arrastar e soltar.
Mas os sistemas operacionais já existiam muito antes dessas interfaces gráficas de usuário e eram controlados principalmente por meio de sequências de entrada de texto: no prompt, o usuário digitava um comando e o computador fazia o que o usuário mandava.
Esses primeiros sistemas de prompt são os precursores das conchas e terminais que a maioria dos cientistas de dados ativos ainda usa hoje.

Alguém não familiarizado com o shell pode perguntar por que você se preocuparia com isso, quando muitos resultados podem ser obtidos simplesmente clicando nos ícones e menus.
Um usuário shell pode responder com outra pergunta: por que procurar ícones e clicar em menus quando você pode realizar coisas com muito mais facilidade digitando? Embora possa soar como um impasse típico de preferência tecnológica, ao ir além das tarefas básicas, rapidamente se torna claro que o shell oferece muito mais controle de tarefas avançadas, embora a curva de aprendizado possa intimidar o usuário médio de computador.

Como exemplo, aqui está um exemplo de uma sessão de shell Linux / OSX onde um usuário explora, cria e modifica diretórios e arquivos em seu sistema (``osx: ~ $`` é o prompt, e tudo após o ``$`` sinal é o comando digitado; o texto que é precedido por um ``#`` serve apenas como uma descrição, ao invés de algo que você realmente digitaria):



```bash
osx:~ $ echo "hello world"             # echo é como a função de impressão do Python
hello world

osx:~ $ pwd                            # pwd = imprimir diretório de trabalho
/home/jake                             # este é o "caminho" em que estamos sentados

osx:~ $ ls                             # ls = lista o conteúdo do diretório de trabalho
notebooks  projects 

osx:~ $ cd projects/                   # cd = muda de diretório(change directory)

osx:projects $ pwd
/home/jake/projects

osx:projects $ ls
datasci_book   mpld3   myproject.txt

osx:projects $ mkdir myproject          # mkdir = fazer novo diretório(make new directory)

osx:projects $ cd myproject/

osx:myproject $ mv ../myproject.txt ./  # mv = mover arquivo(move file). Aqui estamos movendo o
                                        # arquivo myproject.txt de um diretório
                                        # acima (../) para o diretório atual (./)
osx:myproject $ ls
myproject.txt
```

Observe que tudo isso é apenas uma forma compacta de fazer operações familiares (navegar em uma estrutura de diretório, criar um diretório, mover um arquivo, etc.) digitando comandos em vez de clicar em ícones e menus.

Observe que com apenas alguns comandos (``pwd``, ``ls``, ``cd``, `` mkdir`` e ``cp``) você pode fazer muitas das operações de arquivo mais comuns. É quando você vai além desses princípios básicos que a abordagem shell se torna realmente poderosa.


**Insira seu código abaixo:**

## Shell Commands in IPython

Qualquer comando que funcione na linha de comando pode ser usado no IPython prefixando-o com o caractere ``!``.

Por exemplo, os comandos ``ls``, ``pwd`` e ``echo`` podem ser executados da seguinte forma:


```ipython
In [1]: !ls
myproject.txt

In [2]: !pwd
/home/jake/projects/myproject

In [3]: !echo "printing from the shell"
printing from the shell
```

**Insira seu código abaixo:**

## Passando valores de e para o Shell
Os comandos do shell não só podem ser chamados de IPython, mas também podem interagir com o namespace IPython.
Por exemplo, você pode salvar a saída de qualquer comando shell em uma lista Python usando o operador de atribuição:


```ipython
In [4]: contents = !ls

In [5]: print(contents)
['myproject.txt']

In [6]: directory = !pwd

In [7]: print(directory)
['/Users/jakevdp/notebooks/tmp/myproject']
```

Observe que esses resultados não são retornados como listas, mas como um tipo de retorno de shell especial definido em IPython:

```ipython
In [8]: type(directory)
IPython.utils.text.SList
```

Isso se parece e age muito como uma lista Python, mas tem funcionalidades adicionais, como os métodos ``grep`` e ``fields`` e as propriedades ``s``, ``n`` e ``p`` que permitem pesquisar, filtrar e exibir os resultados de maneiras convenientes. Para obter mais informações sobre isso, você pode usar os recursos de ajuda integrados do IPython.

**Insira seu código abaixo:**


# Comandos mágicos relacionados ao shell

Se você brincar com os comandos shell do IPython por um tempo, poderá notar que não pode usar ``!Cd`` para navegar no sistema de arquivos:


```ipython
In [11]: !pwd
/home/jake/projects/myproject

In [12]: !cd ..

In [13]: !pwd
/home/jake/projects/myproject
```

O motivo é que os comandos do shell no notebook são executados em um subshell temporário. Se você gostaria de mudar o diretório de trabalho de uma forma mais duradoura, você pode usar o comando mágico ``%cd``:

```ipython
In [14]: %cd ..
/home/jake/projects
```

Na verdade, por padrão, você pode até usar isso sem o sinal ``%``:

```ipython
In [15]: cd myproject
/home/jake/projects/myproject
```

Isso é conhecido como função ``automagic``, e este comportamento pode ser alternado com a função mágica ``%automagic``

Além de ``%cd``, outras funções mágicas semelhantes a shell disponíveis são ``%cat``, ``%cp``, ``%env``, ``%ls``, ``%man`` , ``%mkdir``, ``%more``, ``%mv``, ``%pwd``, ``%rm`` e ``%rmdir``, qualquer um dos quais pode ser usado sem o sinal ``%`` se ``automagic`` estiver ligado. Isso faz com que você quase possa tratar o prompt IPython como se fosse um shell normal:


```ipython
In [16]: mkdir tmp

In [17]: ls
myproject.txt  tmp/

In [18]: cp myproject.txt tmp/

In [19]: ls tmp
myproject.txt

In [20]: rm -r tmp
```

Esse acesso ao shell de dentro da mesma janela do terminal que sua sessão Python significa que há muito menos alternância entre o interpretador e o shell conforme você escreve seu código Python.

**Insira seu código abaixo:**

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

## 1.6 Erros e Depuração<a id='errors'></a>

<!--NAVIGATION-->
< [Comandos Shell e IPython](#ipython_shell_commmands) | [Índice](#index) | [Código para criar perfis e cronômetrar](#time_profile) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.06-Errors-and-Debugging.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


O desenvolvimento de código e a análise de dados sempre exigem um pouco de tentativa e erro, e o IPython contém ferramentas para agilizar esse processo.
Esta seção cobrirá brevemente algumas opções para controlar o relatório de exceção do Python, seguido pela exploração de ferramentas para depurar erros no código.


## Exceções de controle: ``% xmode``

Na maioria das vezes, quando um script Python falha, ele gera uma exceção.
Quando o interpretador atinge uma dessas exceções, as informações sobre a causa do erro podem ser encontradas no *traceback*, que pode ser acessado de dentro do Python.
Com a função mágica ``%xmode``, IPython permite que você controle a quantidade de informação impressa quando a exceção é levantada. Considere o seguinte código:


In [None]:
def func1(a, b):
    return a / b

def func2(x):
    a = x
    b = x - 1
    return func1(a, b)

In [None]:
func2(1)

Chamar ``func2`` resulta em um erro, e ler o traço impresso nos permite ver exatamente o que aconteceu.
Por padrão, esse rastreamento inclui várias linhas que mostram o contexto de cada etapa que levou ao erro.
Usando a função mágica ``%xmode`` (abreviação de *Modo de exceção*), podemos alterar quais informações são impressas.

``%xmode`` recebe um único argumento, o modo, e há três possibilidades: ``Plain``, ``Context`` e ``Verbose``.
O padrão é ``Context``, e fornece uma saída como a mostrada anteriormente.
``Plain`` é mais compacto e fornece menos informações:


In [None]:
%xmode Plain

In [None]:
func2(1)

In [None]:
%xmode Verbose

In [None]:
func2(1)

Essas informações extras podem ajudar a definir por que a exceção está sendo gerada.
Então, por que não usar o modo ``Verbose`` o tempo todo?
Conforme o código se complica, esse tipo de rastreamento pode ficar extremamente longo.
Dependendo do contexto, às vezes a brevidade do modo `` Default`` é mais fácil de trabalhar.


## Depuração: Ler Tracebacks não é o suficiente

A ferramenta Python padrão para depuração interativa é ``pdb``, o depurador Python.
Esse depurador permite que o usuário percorra o código linha por linha para ver o que pode estar causando um erro mais difícil.
A versão aprimorada por IPython disso é ``ipdb``, o depurador IPython.

Existem muitas maneiras de iniciar e usar esses depuradores; não os cobriremos totalmente aqui. Consulte a documentação online desses dois utilitários para saber mais.

Em IPython, talvez a interface mais conveniente para depuração seja o comando mágico ``% debug``.
Se você chamá-lo depois de atingir uma exceção, ele abrirá automaticamente um prompt de depuração interativo no ponto da exceção.
O prompt ``ipdb`` permite que você explore o estado atual da pilha, explore as variáveis disponíveis e até mesmo execute comandos Python!

Vejamos a exceção mais recente e, em seguida, faça algumas tarefas básicas - imprima os valores de ``a`` e ``b`` e digite ``quit`` para sair da sessão de depuração:


In [None]:
%debug

O depurador interativo permite muito mais do que isso - podemos até subir e descer na pilha e explorar os valores das variáveis lá:

In [None]:
%debug

Isso permite que você descubra rapidamente não apenas o que causou o erro, mas também quais chamadas de função levaram ao erro.

Se quiser que o depurador seja iniciado automaticamente sempre que uma exceção for levantada, você pode usar a função mágica ``%pdb`` para ativar este comportamento automático:


In [None]:
%xmode Plain
%pdb on
func2(1)

Finalmente, se você tiver um script que gostaria de executar desde o início no modo interativo, pode executá-lo com o comando ``%run -d`` e usar o comando ``next`` para percorrer o linhas de código interativamente.


### Lista parcial de comandos de depuração

Existem muitos mais comandos disponíveis para depuração interativa do que listamos aqui; a tabela a seguir contém uma descrição de alguns dos mais comuns e úteis:


| Comando         |  Descrição                                                                |
|-----------------|---------------------------------------------------------------------------|
| ``list``        | Mostra a localização atual no arquivo                                     |
| ``h(elp)``      | Mostre uma lista de comandos ou encontre ajuda sobre um comando específico|
| ``q(uit)``      | Saia do depurador e do programa                                           |
| ``c(ontinue)``  | Saia do depurador e continue no programa                                  |
| ``n(ext)``      | Vá para a próxima etapa do programa                                       |
| ``<enter>``     | Repita o comando anterior                                                 |
| ``p(rint)``     | Imprima as variáveis                                                      |
| ``s(tep)``      | Entrar em uma sub-rotina                                                  |
| ``r(eturn)``    | Retornar de uma sub-rotina                                                |

Para obter mais informações, use o comando ``help`` no depurador, ou dê uma olhada na [documentação online](https://github.com/gotcha/ipdb) do ``ipdb``.

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

## 1.7 Código para criar perfis e cronômetrar <a id='time_profile'></a>

<!--NAVIGATION-->
< [Erros e depuração](#errors) | [Índice](#index) | [Mais recursos do IPython](#more_resources) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.07-Timing-and-Profiling.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


No processo de desenvolvimento de código e criação de pipelines de processamento de dados, geralmente há trocas que você pode fazer entre as várias implementações.
No início do desenvolvimento de seu algoritmo, pode ser contraproducente se preocupar com essas coisas. Como Donald Knuth ficou famoso, "Devemos esquecer as pequenas eficiências, digamos, cerca de 97% das vezes: a otimização prematura é a raiz de todos os males."

Mas, depois de ter seu código funcionando, pode ser útil explorar um pouco sua eficiência.
Às vezes, é útil verificar o tempo de execução de um determinado comando ou conjunto de comandos; outras vezes, é útil mergulhar em um processo de várias linhas e determinar onde está o gargalo em algumas séries complicadas de operações.
O IPython fornece acesso a uma ampla gama de funcionalidades para esse tipo de sincronização e criação de perfil de código.
Aqui, discutiremos os seguintes comandos mágicos de IPython:


- ``%time``: Cronometrar a execução de uma única instrução
- ``%timeit``: Execução repetida de tempo de uma única instrução para mais precisão
- ``%prun``: Execute o código com o criador de perfil
- ``%lprun``: Execute o código com o criador de perfil linha por linha
- ``%memit``: Meça o uso de memória de uma única instrução
- ``%mprun``: Execute o código com o criador de perfil de memória linha por linha

Os últimos quatro comandos não estão incluídos no IPython - você precisará obter as extensões ``line_profiler`` e ``memory_profiler``, que discutiremos nas seções seguintes.

## Snippets de código de tempo: ``%timeit`` e ``%time``
Vimos a magia da linha ``%timeit`` e a magia da célula ``%%timeit`` na introdução às funções mágicas em [Comandos mágicos do IPython](#magic); pode ser usado para cronometrar a execução repetida de trechos de código:



In [None]:
%timeit sum(range(100))

Observe que, como essa operação é tão rápida, ``%timeit`` automaticamente faz um grande número de repetições.
Para comandos mais lentos, ``%timeit`` irá ajustar automaticamente e realizar menos repetições:


In [None]:
%%timeit
total = 0
for i in range(1000):
    for j in range(1000):
        total += i * (-1) ** j


Às vezes, repetir uma operação não é a melhor opção.
Por exemplo, se tivermos uma lista que gostaríamos de classificar, podemos ser enganados por uma operação repetida.
Classificar uma lista pré-classificada é muito mais rápido do que classificar uma lista não classificada, portanto, a repetição distorcerá o resultado:


In [None]:
import random
L = [random.random() for i in range(100000)]
%timeit L.sort()

Para isso, a função mágica ``%time`` pode ser uma escolha melhor. Também é uma boa escolha para comandos de execução mais longa, quando é improvável que atrasos curtos relacionados ao sistema afetem o resultado. Vamos cronometrar a classificação de uma lista não classificada e uma lista pré-classificada:

In [None]:
import random
L = [random.random() for i in range(100000)]
print("sorting an unsorted list:")
%time L.sort()

In [None]:
print("sorting an already sorted list:")
%time L.sort()

Observe como a lista pré-ordenada é mais rápida para classificar, mas observe também quanto mais tempo leva o tempo com ``%time`` versus ``%timeit``, mesmo para a lista pré-ordenada!
Isso é resultado do fato de que ``%timeit`` faz algumas coisas inteligentes nos bastidores para evitar que as chamadas do sistema interfiram no tempo.
Por exemplo, ele evita a limpeza de objetos Python não usados (conhecidos como *coleta de lixo*) que podem afetar o tempo.
Por esta razão, os resultados de ``%timeit`` são geralmente notavelmente mais rápidos do que os resultados de ``%time``.

Para ``%time`` como com ``%timeit``, usar a sintaxe mágica de célula de duplo sinal de porcentagem permite o tempo de scripts de várias linhas:


In [None]:
%%time
total = 0
for i in range(1000):
    for j in range(1000):
        total += i * (-1) ** j

Para mais informações sobre ``%time`` e ``%timeit``, bem como suas opções disponíveis, use a funcionalidade de ajuda do IPython (ou seja, digite ``%time? `` No prompt do IPython).


## Criação de perfis de scripts completos: ``%prun``

Um programa é feito de muitas instruções únicas e, às vezes, cronometrar essas instruções no contexto é mais importante do que cronometrá-las sozinhas.
Python contém um criador de perfil de código embutido (sobre o qual você pode ler na documentação do Python), mas o IPython oferece uma maneira muito mais conveniente de usar este criador de perfil, na forma da função mágica ``%prun``.

A título de exemplo, definiremos uma função simples que faz alguns cálculos:


In [None]:
def sum_of_lists(N):
    total = 0
    for i in range(5):
        L = [j ^ (j >> i) for j in range(N)]
        total += sum(L)
    return total

Agora podemos chamar ``%prun`` com uma chamada de função para ver os resultados do perfil:

In [None]:
%prun sum_of_lists(1000000)

No bloco de notas, a saída é impressa no pager e se parece com isto:

```
14 function calls in 0.714 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        5    0.599    0.120    0.599    0.120 <ipython-input-19>:4(<listcomp>)
        5    0.064    0.013    0.064    0.013 {built-in method sum}
        1    0.036    0.036    0.699    0.699 <ipython-input-19>:1(sum_of_lists)
        1    0.014    0.014    0.714    0.714 <string>:1(<module>)
        1    0.000    0.000    0.714    0.714 {built-in method exec}
```
O resultado é uma tabela que indica, em ordem de tempo total em cada chamada de função, onde a execução está demorando mais. Neste caso, a maior parte do tempo de execução está na compreensão da lista dentro de ``sum_of_lists``. A partir daqui, podemos começar a pensar sobre quais mudanças podemos fazer para melhorar o desempenho do algoritmo.

Para obter mais informações sobre ``%prun``, bem como suas opções disponíveis, use a funcionalidade de ajuda do IPython (ou seja, digite ``%prun? `` No prompt do IPython).


## Criação de perfil linha a linha com ``%lprun``

O perfil de função por função de ``%prun`` é útil, mas às vezes é mais conveniente ter um relatório de perfil linha por linha.
Isso não está embutido em Python ou IPython, mas há um pacote ``line_profiler`` disponível para instalação que pode fazer isso.
Comece usando a ferramenta de empacotamento do Python, ``pip``, para instalar o pacote ``line_profiler``:


```
$ pip install line_profiler
```

Em seguida, você pode usar IPython para carregar a extensão ``line_profiler`` IPython, oferecida como parte deste pacote:


In [None]:
pip install line_profiler

In [None]:
%load_ext line_profiler

Agora, o comando ``%lprun`` fará um perfil linha por linha de qualquer função - neste caso, precisamos dizer explicitamente quais funções estamos interessados ​​em criar perfil:


In [None]:
%lprun -f sum_of_lists sum_of_lists(5000)

Como antes, o bloco de notas envia o resultado para o pager, mas é mais ou menos assim:

```
Timer unit: 1e-06 s

Total time: 0.009382 s
File: <ipython-input-19-fa2be176cc3e>
Function: sum_of_lists at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
     1                                           def sum_of_lists(N):
     2         1            2      2.0      0.0      total = 0
     3         6            8      1.3      0.1      for i in range(5):
     4         5         9001   1800.2     95.9          L = [j ^ (j >> i) for j in range(N)]
     5         5          371     74.2      4.0          total += sum(L)
     6         1            0      0.0      0.0      return total
```

As informações no topo nos fornecem a chave para a leitura dos resultados: o tempo é relatado em microssegundos e podemos ver onde o programa está gastando mais tempo.
Neste ponto, podemos ser capazes de usar essas informações para modificar aspectos do script e torná-lo melhor para nosso caso de uso desejado.


Para obter mais informações sobre ``%lprun``, bem como suas opções disponíveis, use a funcionalidade de ajuda do IPython (ou seja, digite ``%lprun?`` No prompt do IPython).


## Profiling Memory Use: ``%memit`` e ``%mprun``

Outro aspecto da criação de perfil é a quantidade de memória que uma operação usa.
Isso pode ser avaliado com outra extensão IPython, o `` memory_profiler``.
Tal como acontece com o `` line_profiler``, começamos por `` pip``-instalando a extensão:


```
$ pip install memory_profiler
```

Então, podemos usar IPython para carregar a extensão:

In [None]:
pip install memory_profiler

In [None]:
%load_ext memory_profiler

A extensão do gerenciador de perfis de memória contém duas funções mágicas úteis: a mágica ``%memit`` (que oferece um equivalente de medição de memória de ``%timeit``) e a função ``%mprun`` (que oferece uma medição de memória equivalente a ``%lprun``).
A função ``%memit`` pode ser usada de forma bastante simples:


In [None]:
%memit sum_of_lists(1000000)

Vemos que esta função usa cerca de 100 MB de memória. Para uma descrição linha a linha do uso da memória, podemos usar a magia ``%mprun``.
Infelizmente, essa mágica funciona apenas para funções definidas em módulos separados ao invés do próprio notebook, então vamos começar usando a mágica ``%%file`` para criar um módulo simples chamado ``mprun_demo.py``, que contém nossa função ``sum_of_lists``, com uma adição que tornará nossos resultados de perfil de memória mais claros:


In [None]:
%%file mprun_demo.py
def sum_of_lists(N):
    total = 0
    for i in range(5):
        L = [j ^ (j >> i) for j in range(N)]
        total += sum(L)
        del L # remove reference to L
    return total

Agora podemos importar a nova versão desta função e executar o criador de perfil de linha de memória:

In [None]:
from mprun_demo import sum_of_lists
%mprun -f sum_of_lists sum_of_lists(1000000)

O resultado, impresso no pager, nos dá um resumo do uso de memória da função e se parece com isto:

```
Filename: ./mprun_demo.py

Line #    Mem usage    Increment   Line Contents
================================================
     4     71.9 MiB      0.0 MiB           L = [j ^ (j >> i) for j in range(N)]


Filename: ./mprun_demo.py

Line #    Mem usage    Increment   Line Contents
================================================
     1     39.0 MiB      0.0 MiB   def sum_of_lists(N):
     2     39.0 MiB      0.0 MiB       total = 0
     3     46.5 MiB      7.5 MiB       for i in range(5):
     4     71.9 MiB     25.4 MiB           L = [j ^ (j >> i) for j in range(N)]
     5     71.9 MiB      0.0 MiB           total += sum(L)
     6     46.5 MiB    -25.4 MiB           del L # remove reference to L
     7     39.1 MiB     -7.4 MiB       return total
```
Aqui, a coluna ``Incremento`` nos diz o quanto cada linha afeta o orçamento total de memória: observe que quando criamos e excluímos a lista ``L``, estamos adicionando cerca de 25 MB de uso de memória.
Isso se soma ao uso de memória em segundo plano do próprio interpretador Python.

Para mais informações sobre ``%memit`` e ``%mprun``, bem como suas opções disponíveis, use a funcionalidade de ajuda do IPython (ou seja, digite ``%memit?`` No prompt do IPython).


<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

## 1.8 Mais recursos do IPython <a id='more_resources'></a>

<!--NAVIGATION-->
< [Código para criar perfis e cronômetrar](#time_profile) | [Índice](#index) | [Introduction to NumPy] () >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.08-More-IPython-Resources.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


Neste capítulo, apenas arranhamos a superfície do uso de IPython para habilitar tarefas de ciência de dados. Muito mais informações estão disponíveis na versão impressa e na Web, e aqui listaremos alguns outros recursos que podem ser úteis para você.


## Recursos da Web

- [O site IPython](http://ipython.org): os links do site IPython para documentação, exemplos, tutoriais e uma variedade de outros recursos. 
- [O site nbviewer](http://nbviewer.jupyter.org/): Este site mostra renderizações estáticas de qualquer notebook IPython disponível na Internet. A página inicial apresenta alguns exemplos de notebooks que você pode navegar para ver para que outras pessoas estão usando o IPython!
- [Uma galeria de Jupyter Notebooks interessantes](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks/): Esta lista cada vez maior de notebooks, alimentado por nbviewer, mostra a profundidade e amplitude da análise numérica que você pode fazer com IPython. Inclui de tudo, desde pequenos exemplos e tutoriais a cursos completos e livros compostos no formato de caderno! 
- Tutoriais em vídeo: pesquisando na Internet, você encontrará muitos tutoriais gravados em vídeo sobre IPython. Eu recomendo especialmente procurar tutoriais dos conferenes PyCon, SciPy e PyData de Fernando Perez e Brian Granger, dois dos principais criadores e mantenedores do IPython e Jupyter.



## Livros

- [*Python for Data Analysis*](http://shop.oreilly.com/product/0636920023784.do): O livro de Wes McKinney inclui um capítulo que cobre o uso de IPython como cientista de dados. Embora muito do material se sobreponha ao que discutimos aqui, outra perspectiva é sempre útil.
- [*Learning IPython for Interactive Computing and Data Visualization*](https://www.packtpub.com/big-data-and-business-intelligence/learning-ipython-interactive-computing-and-data-visualization): Este O pequeno livro de Cyrille Rossant oferece uma boa introdução ao uso do IPython para análise de dados.
- [*IPython Interactive Computing and Visualization Cookbook*](https://www.packtpub.com/big-data-and-business-intelligence/ipython-interactive-computing-and-visualization-cookbook): Também por Cyrille Rossant, este livro é um tratamento mais longo e avançado do uso de IPython para ciência de dados. Apesar do nome, não se trata apenas de IPython - ele também se aprofunda em uma ampla gama de tópicos de ciência de dados.

Finalmente, um lembrete de que você pode encontrar ajuda por conta própria: a funcionalidade de ajuda baseada em ``?`` Do IPython (discutida em [Ajuda e documentação no IPython](#help_documentation)) pode ser muito útil se você o usa bem e com frequência. Conforme você analisa os exemplos aqui e em outros lugares, isso pode ser usado para se familiarizar com todas as ferramentas que o IPython tem a oferecer.


<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

# 5. Machine Learning<a id='machine_learning'></a>

<!--NAVIGATION-->
< [Further Resources] (04.15-Further-Resources.ipynb) | [Índice](#index) | [O que é Machine Learning?](#whats_ml) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/05.00-Machine-Learning.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>



De muitas maneiras, o aprendizado de máquina é o principal meio pelo qual a ciência de dados se manifesta para o mundo em geral.
O aprendizado de máquina é onde essas habilidades computacionais e algorítmicas da ciência de dados encontram o pensamento estatístico da ciência de dados, e o resultado é uma coleção de abordagens para inferência e exploração de dados que não tratam tanto de teoria eficaz, mas de computação eficaz.

O termo "aprendizado de máquina" às vezes é usado como se fosse uma espécie de pílula mágica: *aplique o aprendizado de máquina aos seus dados e todos os seus problemas serão resolvidos!*
Como você pode esperar, a realidade raramente é tão simples.
Embora esses métodos possam ser incrivelmente poderosos, para serem eficazes, eles devem ser abordados com uma compreensão firme dos pontos fortes e fracos de cada método, bem como uma compreensão de conceitos gerais, como viés e variação, overfitting e underfitting e muito mais.

Este capítulo mergulhará nos aspectos práticos do aprendizado de máquina, principalmente usando o pacote Python [Scikit-Learn](http://scikit-learn.org).
Esta não é uma introdução abrangente ao campo do aprendizado de máquina; esse é um assunto amplo e requer uma abordagem mais técnica do que a que adotamos aqui.
Nem pretende ser um manual abrangente para o uso do pacote Scikit-Learn (para isso, você pode consultar os recursos listados em [Recursos adicionais de aprendizado de máquina](#aditional_resources_ml)). Em vez disso, os objetivos deste capítulo são: 

- Introduzir o vocabulário e os conceitos fundamentais de aprendizagem de máquina. 
- Apresentar a API Scikit-Learn e mostrar alguns exemplos de seu uso. 
- Para se aprofundar nos detalhes de várias das abordagens de aprendizado de máquina mais importantes e desenvolver uma intuição sobre como elas funcionam e quando e onde são aplicáveis. 

Muito deste material é retirado dos tutoriais e workshops do Scikit-Learn que ministrei em várias ocasiões na PyCon, SciPy, PyData e outras conferências.
Qualquer clareza nas páginas seguintes provavelmente se deve aos muitos participantes do workshop e co-instrutores que me deram um feedback valioso sobre este material ao longo dos anos!

Finalmente, se você está procurando um tratamento mais abrangente ou técnico de qualquer um desses assuntos, listei vários recursos e referências em [Recursos adicionais de aprendizado de máquina](#aditional_resources_ml).


<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

# 5.1 O que é aprendizado de máquina?<a id='whats_ml'></a>

<!--NAVIGATION-->
< [Machine Learning](#machine_learning) | [Índice](#index) | [Introduzindo o Scikit-Learn](#scikit_learn) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/05.01-What-Is-Machine-Learning.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


Antes de dar uma olhada nos detalhes de vários métodos de aprendizado de máquina, vamos começar examinando o que é aprendizado de máquina e o que não é.
O aprendizado de máquina é frequentemente categorizado como um subcampo da inteligência artificial, mas acho que a categorização pode muitas vezes ser enganosa à primeira vista.
O estudo do aprendizado de máquina certamente surgiu de pesquisas nesse contexto, mas na aplicação de métodos de aprendizado de máquina da ciência de dados, é mais útil pensar no aprendizado de máquina como um meio de *construir modelos de dados*.

Fundamentalmente, o aprendizado de máquina envolve a construção de modelos matemáticos para ajudar a entender os dados.
O "aprendizado" entra em jogo quando damos a esses modelos *parâmetros ajustáveis* que podem ser adaptados aos dados observados; dessa forma, o programa pode ser considerado como "aprendendo" com os dados.
Uma vez que esses modelos tenham sido ajustados aos dados vistos anteriormente, eles podem ser usados para prever e compreender aspectos dos dados recentemente observados.
Deixarei ao leitor a digressão mais filosófica a respeito de até que ponto esse tipo de "aprendizado" matemático baseado em modelos é semelhante ao "aprendizado" exibido pelo cérebro humano.


Compreender a configuração do problema no aprendizado de máquina é essencial para usar essas ferramentas de maneira eficaz, portanto, começaremos com algumas categorizações amplas dos tipos de abordagem que discutiremos aqui.


## Categorias de aprendizado de máquina

No nível mais fundamental, o aprendizado de máquina pode ser categorizado em dois tipos principais: aprendizado supervisionado e aprendizado não supervisionado.

*Aprendizagem supervisionada* envolve, de alguma forma, a modelagem da relação entre as características medidas dos dados e algum rótulo associado aos dados; uma vez que este modelo é determinado, ele pode ser usado para aplicar rótulos a dados novos e desconhecidos.
Isso é subdividido em tarefas de *classificação* e tarefas de *regressão*: na classificação, os rótulos são categorias discretas, enquanto na regressão, os rótulos são quantidades contínuas. Veremos exemplos de ambos os tipos de aprendizagem supervisionada na seção seguinte.

*Aprendizado não supervisionado* envolve modelar os recursos de um conjunto de dados sem referência a qualquer rótulo e é frequentemente descrito como "deixar o conjunto de dados falar por si mesmo". Esses modelos incluem tarefas como *armazenamento em cluster* e *redução de dimensionalidade.*
Os algoritmos de agrupamento identificam grupos distintos de dados, enquanto os algoritmos de redução de dimensionalidade buscam representações mais sucintas dos dados. 
Veremos exemplos de ambos os tipos de aprendizagem não supervisionada na seção seguinte.

Além disso, existem os chamados métodos de *aprendizagem semissupervisionada*, que ficam em algum lugar entre a aprendizagem supervisionada e a aprendizagem não supervisionada. Métodos de aprendizagem semissupervisionados são freqüentemente úteis quando apenas rótulos incompletos estão disponíveis.


## Exemplos qualitativos de aplicativos de aprendizado de máquina

Para tornar essas ideias mais concretas, vamos dar uma olhada em alguns exemplos muito simples de uma tarefa de aprendizado de máquina.
Esses exemplos têm como objetivo fornecer uma visão geral intuitiva e não quantitativa dos tipos de tarefas de aprendizado de máquina que examinaremos neste capítulo.
Em seções posteriores, entraremos em mais detalhes sobre os modelos específicos e como eles são usados.
Para uma prévia desses aspectos mais técnicos, você pode encontrar o código-fonte Python que gera as seguintes figuras no [Apêndice: Código da Figura](# fig_appendix).



### Classificação: Predição de rótulos discretos

Primeiro, daremos uma olhada em uma tarefa simples de *classificação*, na qual você recebe um conjunto de pontos rotulados e deseja usá-los para classificar alguns pontos não rotulados.

Imagine que temos os dados mostrados nesta figura:


![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-classification-1.png)
[figure source in Appendix](#fig_appendix)

Aqui temos dados bidimensionais: ou seja, temos dois *recursos* para cada ponto, representados pelas *(x, y)* posições dos pontos no plano. Além disso, temos um de dois *rótulos de classe* para cada ponto, aqui representado pelas cores dos pontos.
A partir desses recursos e rótulos, gostaríamos de criar um modelo que nos permitirá decidir se um novo ponto deve ser rotulado como "azul" ou "vermelho".

Existem vários modelos possíveis para essa tarefa de classificação, mas aqui usaremos um extremamente simples. Faremos a suposição de que os dois grupos podem ser separados traçando uma linha reta através do plano entre eles, de modo que os pontos de cada lado da linha caiam no mesmo grupo.
Aqui, o *modelo* é uma versão quantitativa da declaração "uma linha reta separa as classes", enquanto os *parâmetros do modelo* são os números particulares que descrevem a localização e orientação dessa linha para nossos dados.
Os valores ótimos para esses parâmetros do modelo são aprendidos a partir dos dados (esse é o "aprendizado" no aprendizado de máquina), que geralmente é chamado de *treinamento do modelo*.


A figura a seguir mostra uma representação visual da aparência do modelo treinado para esses dados:

![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-classification-2.png)
[figure source in Appendix](#fig_appendix)

Agora que esse modelo foi treinado, ele pode ser generalizado para novos dados não rotulados.
Em outras palavras, podemos pegar um novo conjunto de dados, desenhar essa linha de modelo através dele e atribuir rótulos aos novos pontos com base neste modelo.
Este estágio é geralmente chamado de *previsão*. Veja a figura a seguir:


![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-classification-3.png)
[figure source in Appendix](#fig_appendix)

Essa é a ideia básica de uma tarefa de classificação em aprendizado de máquina, onde "classificação" indica que os dados têm rótulos de classe discretos.
À primeira vista, isso pode parecer bastante trivial: seria relativamente fácil simplesmente olhar para esses dados e traçar uma linha discriminatória para realizar essa classificação.
Um benefício da abordagem de aprendizado de máquina, no entanto, é que ela pode generalizar para conjuntos de dados muito maiores em muito mais dimensões.

Por exemplo, isso é semelhante à tarefa de detecção automática de spam para e-mail; neste caso, podemos usar os seguintes recursos e rótulos:


- *característica 1*, *característica 2*, etc. $\to$ contagens normalizadas de palavras ou frases importantes ("Viagra", "Nigerian prince", etc.)
- *label* $\to$ "spam" or "not spam"

Para o conjunto de treinamento, esses rótulos podem ser determinados por inspeção individual de uma pequena amostra representativa de emails; para os e-mails restantes, o rótulo seria determinado usando o modelo.
Para um algoritmo de classificação adequadamente treinado com recursos bem construídos o suficiente (normalmente milhares ou milhões de palavras ou frases), esse tipo de abordagem pode ser muito eficaz.
Veremos um exemplo dessa classificação baseada em texto em [Em profundidade: Naive Bayes Classification](#NB).

Some important classification algorithms that we will discuss in more detail are Gaussian naive Bayes (see [In Depth: Naive Bayes Classification](05.05-Naive-Bayes.ipynb)), support vector machines (see [In-Depth: Support Vector Machines](05.07-Support-Vector-Machines.ipynb)), and random forest classification (see [In-Depth: Decision Trees and Random Forests](05.08-Random-Forests.ipynb)).

Alguns algoritmos de classificação importantes que discutiremos com mais detalhes são Gaussian ingênuo Bayes (consulte [Em profundidade: Classificação Naive Bayes](#NB)), máquinas de vetores de suporte (consulte [Em profundidade: Support Vector Machines](#SVM)) e classificação de floresta aleatória (consulte [Em profundidade: Decision Trees e Random Forests](#cart_random_forests)).



### Regressão: Predição de rótulos contínuos

Em contraste com os rótulos discretos de um algoritmo de classificação, veremos a seguir uma tarefa simples de *regressão* em que os rótulos são quantidades contínuas.

Considere os dados mostrados na figura a seguir, que consiste em um conjunto de pontos, cada um com uma etiqueta contínua:

![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-regression-1.png)
[figure source in Appendix](#fig_appendix)


Como no exemplo de classificação, temos dados bidimensionais: ou seja, há dois recursos que descrevem cada ponto de dados.
A cor de cada ponto representa a etiqueta contínua para aquele ponto.

Existem vários modelos de regressão possíveis que podemos usar para este tipo de dados, mas aqui usaremos uma regressão linear simples para prever os pontos.
Este modelo de regressão linear simples assume que, se tratarmos o rótulo como uma terceira dimensão espacial, podemos ajustar um plano aos dados.
Esta é uma generalização de alto nível do conhecido problema de ajustar uma linha a dados com duas coordenadas.

Podemos visualizar essa configuração conforme mostrado na figura a seguir:


![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-regression-2.png)
[figure source in Appendix](#fig_appendix)

Observe que o plano *característica-1, característica-2* aqui é o mesmo que no gráfico bidimensional anterior; neste caso, entretanto, representamos os rótulos pela cor e pela posição do eixo tridimensional. 
Desse ponto de vista, parece razoável que ajustar um plano por meio desses dados tridimensionais nos permitiria prever o rótulo esperado para qualquer conjunto de parâmetros de entrada. 

Voltando à projeção bidimensional, ao ajustarmos tal plano obtemos o resultado mostrado na figura a seguir:


![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-regression-3.png)
[figure source in Appendix](#fig_appendix)

Esse plano de ajuste nos dá o que precisamos para prever rótulos para novos pontos. Visualmente, encontramos os resultados mostrados na figura a seguir:

![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-regression-4.png)
[figure source in Appendix](#fig_appendix)


Tal como acontece com o exemplo de classificação, isso pode parecer bastante trivial em um pequeno número de dimensões.
Mas o poder desses métodos é que eles podem ser aplicados e avaliados diretamente no caso de dados com muitos, muitos recursos.

Por exemplo, isso é semelhante à tarefa de calcular a distância até as galáxias observadas por meio de um telescópio - neste caso, podemos usar os seguintes recursos e rótulos:


- *característica 1*, *característica 2*, etc. $\to$ brilho de cada galáxia em um dos vários comprimentos de onda ou cores
- *label* $\to$ distância ou desvio para o vermelho da galáxia

As distâncias para um pequeno número dessas galáxias podem ser determinadas por meio de um conjunto independente de observações (normalmente mais caras).
As distâncias às galáxias restantes poderiam então ser estimadas usando um modelo de regressão adequado, sem a necessidade de empregar a observação mais cara em todo o conjunto.
Nos círculos da astronomia, isso é conhecido como o problema do "desvio para o vermelho fotométrico".


Some important regression algorithms that we will discuss are linear regression (see [In Depth: Linear Regression](05.06-Linear-Regression.ipynb)), support vector machines (see [In-Depth: Support Vector Machines](05.07-Support-Vector-Machines.ipynb)), and random forest regression (see [In-Depth: Decision Trees and Random Forests](05.08-Random-Forests.ipynb)).


Alguns algoritmos de regressão importantes que discutiremos são regressão linear (consulte [Em profundidade: Regressão linear](#regression)), máquinas de vetor de suporte (consulte [Em profundidade: Support Vector Machines](#SVM)) e regressão de floresta aleatória (consulte [Em profundidade: Decision Trees e Random Forests](#cart_random_forests)).

### Clustering: inferir rótulos em dados não rotulados

As ilustrações de classificação e regressão que acabamos de ver são exemplos de algoritmos de aprendizado supervisionado, nos quais estamos tentando construir um modelo que irá prever rótulos para novos dados.
O aprendizado não supervisionado envolve modelos que descrevem dados sem referência a quaisquer rótulos conhecidos. 

Um caso comum de aprendizado não supervisionado é o "agrupamento", no qual os dados são atribuídos automaticamente a algum número de grupos distintos.
Por exemplo, podemos ter alguns dados bidimensionais como os mostrados na figura a seguir:

![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-clustering-1.png)
[figure source in Appendix](#fig_appendix)

À vista, fica claro que cada um desses pontos faz parte de um grupo distinto.
Dada essa entrada, um modelo de agrupamento usará a estrutura intrínseca dos dados para determinar quais pontos estão relacionados.
Usando o algoritmo *k-means* muito rápido e intuitivo (consulte [Em profundidade: K-Means Clustering](#kmeans)), encontramos os clusters mostrados na figura a seguir:

![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-clustering-2.png)
[figure source in Appendix](#fig_appendix)

*k*-means ajusta um modelo que consiste em *k* centros de cluster; os centros ótimos são considerados aqueles que minimizam a distância de cada ponto de seu centro atribuído.
Novamente, isso pode parecer um exercício trivial em duas dimensões, mas à medida que nossos dados se tornam maiores e mais complexos, esses algoritmos de agrupamento podem ser empregados para extrair informações úteis do conjunto de dados.

Discutiremos o algoritmo *k-means* com mais profundidade em [Em profundidade: K-Means Clustering](#kmeans). Outros algoritmos de agrupamento importantes incluem modelos de mistura gaussiana (consulte [Em profundidade: Modelos de mistura gaussiana](#gaussian_mix)) e agrupamento espectral (consulte [documentação de agrupamento do Scikit-Learn](http://scikit-learn.org/stable/modules/clustering.html)).


### Redução de dimensionalidade: inferir estrutura de dados não rotulados

A redução da dimensionalidade é outro exemplo de algoritmo não supervisionado, no qual rótulos ou outras informações são inferidos da estrutura do próprio conjunto de dados.
A redução de dimensionalidade é um pouco mais abstrata do que os exemplos que vimos antes, mas geralmente busca extrair alguma representação de dados de baixa dimensão que de alguma forma preserva qualidades relevantes do conjunto de dados completo.
Rotinas de redução de dimensionalidade diferentes medem essas qualidades relevantes de maneiras diferentes, como veremos em [Em profundidade: Manifold Learning](#manifold_learning).

Como exemplo disso, considere os dados mostrados na figura a seguir:


![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-dimesionality-1.png)
[figure source in Appendix](#fig_appendix)

Visualmente, está claro que há alguma estrutura nesses dados: eles são traçados a partir de uma linha unidimensional que está disposta em uma espiral dentro deste espaço bidimensional. 
Em certo sentido, você poderia dizer que esses dados são "intrinsecamente" apenas uma dimensão, embora esses dados unidimensionais estejam embutidos em um espaço de dimensão superior. 
Um modelo de redução de dimensionalidade adequado, neste caso, seria sensível a essa estrutura embutida não linear e seria capaz de extrair essa representação de dimensionalidade inferior.

A figura a seguir mostra uma visualização dos resultados do algoritmo Isomap, um algoritmo de aprendizado múltiplo que faz exatamente isso:


![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.01-dimesionality-2.png)
[figure source in Appendix](#fig_appendix)

Observe que as cores (que representam a variável latente unidimensional extraída) mudam uniformemente ao longo da espiral, o que indica que o algoritmo de fato detectou a estrutura que vimos a olho nu.
Tal como acontece com os exemplos anteriores, o poder dos algoritmos de redução de dimensionalidade torna-se mais claro em casos de dimensões superiores.
Por exemplo, podemos desejar visualizar relacionamentos importantes em um conjunto de dados que possui 100 ou 1.000 recursos.
Visualizar dados de 1.000 dimensões é um desafio e uma maneira de tornar isso mais gerenciável é usar uma técnica de redução de dimensionalidade para reduzir os dados a duas ou três dimensões.

Alguns algoritmos de redução de dimensionalidade importantes que discutiremos são a análise de componentes principais (consulte [Em profundidade: Análise de componentes principais](#pca)) e vários algoritmos de aprendizagem múltiplos, incluindo Isomap e incorporação linear local (Consulte [Em profundidade: aprendizado múltiplo](#manifold_learning)).


## Sumário

Aqui, vimos alguns exemplos simples de alguns dos tipos básicos de abordagens de aprendizado de máquina. Desnecessário dizer que há uma série de detalhes práticos importantes que omitimos, mas espero que esta seção tenha sido suficiente para lhe dar uma ideia básica de quais tipos de problemas as abordagens de aprendizado de máquina podem resolver.

Resumindo, vimos o seguinte:


- *Aprendizagem Supervisionada*: Modelos que podem prever rótulos com base em dados de treinamento rotulados

  - *Classificação*: Modelos que prevêem rótulos como duas ou mais categorias discretas
  - *Regression*: Modelos que prevêem rótulos contínuos
  
- *Aprendizagem Não Supervisionada*: Modelos que identificam a estrutura em dados não rotulados

  - *Clustering*: Modelos que detectam e identificam grupos distintos nos dados
  - *Redução da dimensionalidade*: Modelos que detectam e identificam a estrutura dimensional inferior em dados dimensionais superiores

Nas seções a seguir, nos aprofundaremos muito mais nessas categorias e veremos alguns exemplos mais interessantes de onde esses conceitos podem ser úteis.

Todas as figuras na discussão anterior são geradas com base em cálculos reais de aprendizado de máquina; o código por trás deles pode ser encontrado em [Apêndice: Código da Figura](#fig_appendix).


<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=true">

*Esse notebook contém trechos do [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) por Jake VanderPlas; o conteúdo está disponível [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*
*O texto é publicado sob o [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is lançado sob o [MIT license](https://opensource.org/licenses/MIT). Se você achar este conteúdo útil, considere apoiar o trabalho  [comprando o livro](http://shop.oreilly.com/product/0636920034919.do)!*

# 5.2 Introduzindo o Scikit-Learn<a id='scikit_learn'></a>

<!--NAVIGATION-->
< [O que é Machine Learning?](#whats_ml) | [Índice](#index) | [Hyperparameters and Model Validation](05.03-Hyperparameters-and-Model-Validation.ipynb) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/05.02-Introducing-Scikit-Learn.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


There are several Python libraries which provide solid implementations of a range of machine learning algorithms.
One of the best known is [Scikit-Learn](http://scikit-learn.org), a package that provides efficient versions of a large number of common algorithms.
Scikit-Learn is characterized by a clean, uniform, and streamlined API, as well as by very useful and complete online documentation.
A benefit of this uniformity is that once you understand the basic use and syntax of Scikit-Learn for one type of model, switching to a new model or algorithm is very straightforward.

This section provides an overview of the Scikit-Learn API; a solid understanding of these API elements will form the foundation for understanding the deeper practical discussion of machine learning algorithms and approaches in the following chapters.

We will start by covering *data representation* in Scikit-Learn, followed by covering the *Estimator* API, and finally go through a more interesting example of using these tools for exploring a set of images of hand-written digits.

## Data Representation in Scikit-Learn

Machine learning is about creating models from data: for that reason, we'll start by discussing how data can be represented in order to be understood by the computer.
The best way to think about data within Scikit-Learn is in terms of tables of data.

### Data as table

A basic table is a two-dimensional grid of data, in which the rows represent individual elements of the dataset, and the columns represent quantities related to each of these elements.
For example, consider the [Iris dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set), famously analyzed by Ronald Fisher in 1936.
We can download this dataset in the form of a Pandas ``DataFrame`` using the [seaborn](http://seaborn.pydata.org/) library:

In [None]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()

Here each row of the data refers to a single observed flower, and the number of rows is the total number of flowers in the dataset. In general, we will refer to the rows of the matrix as samples, and the number of rows as n_samples.

Likewise, each column of the data refers to a particular quantitative piece of information that describes each sample. In general, we will refer to the columns of the matrix as features, and the number of columns as n_features.

#### Features matrix

This table layout makes clear that the information can be thought of as a two-dimensional numerical array or matrix, which we will call the *features matrix*.
By convention, this features matrix is often stored in a variable named ``X``.
The features matrix is assumed to be two-dimensional, with shape ``[n_samples, n_features]``, and is most often contained in a NumPy array or a Pandas ``DataFrame``, though some Scikit-Learn models also accept SciPy sparse matrices.

The samples (i.e., rows) always refer to the individual objects described by the dataset.
For example, the sample might be a flower, a person, a document, an image, a sound file, a video, an astronomical object, or anything else you can describe with a set of quantitative measurements.

The features (i.e., columns) always refer to the distinct observations that describe each sample in a quantitative manner.
Features are generally real-valued, but may be Boolean or discrete-valued in some cases.

#### Target array

In addition to the feature matrix ``X``, we also generally work with a *label* or *target* array, which by convention we will usually call ``y``.
The target array is usually one dimensional, with length ``n_samples``, and is generally contained in a NumPy array or Pandas ``Series``.
The target array may have continuous numerical values, or discrete classes/labels.
While some Scikit-Learn estimators do handle multiple target values in the form of a two-dimensional, ``[n_samples, n_targets]`` target array, we will primarily be working with the common case of a one-dimensional target array.

Often one point of confusion is how the target array differs from the other features columns. The distinguishing feature of the target array is that it is usually the quantity we want to *predict from the data*: in statistical terms, it is the dependent variable.
For example, in the preceding data we may wish to construct a model that can predict the species of flower based on the other measurements; in this case, the ``species`` column would be considered the target array.

With this target array in mind, we can use Seaborn (see [Visualization With Seaborn](04.14-Visualization-With-Seaborn.ipynb)) to conveniently visualize the data:

In [None]:
%matplotlib inline
import seaborn as sns; sns.set()
sns.pairplot(iris, hue='species', size=1.5);

For use in Scikit-Learn, we will extract the features matrix and target array from the ``DataFrame``, which we can do using some of the Pandas ``DataFrame`` operations discussed in the [Chapter 3](03.00-Introduction-to-Pandas.ipynb):

In [None]:
X_iris = iris.drop('species', axis=1)
X_iris.shape

In [None]:
y_iris = iris['species']
y_iris.shape

To summarize, the expected layout of features and target values is visualized in the following diagram:

![](https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/figures/05.02-samples-features.png)
[figure source in Appendix](#fig_appendix)

With this data properly formatted, we can move on to consider the *estimator* API of Scikit-Learn:

## Scikit-Learn's Estimator API

The Scikit-Learn API is designed with the following guiding principles in mind, as outlined in the [Scikit-Learn API paper](http://arxiv.org/abs/1309.0238):

- *Consistency*: All objects share a common interface drawn from a limited set of methods, with consistent documentation.

- *Inspection*: All specified parameter values are exposed as public attributes.

- *Limited object hierarchy*: Only algorithms are represented by Python classes; datasets are represented
  in standard formats (NumPy arrays, Pandas ``DataFrame``s, SciPy sparse matrices) and parameter
  names use standard Python strings.

- *Composition*: Many machine learning tasks can be expressed as sequences of more fundamental algorithms,
  and Scikit-Learn makes use of this wherever possible.

- *Sensible defaults*: When models require user-specified parameters, the library defines an appropriate default value.

In practice, these principles make Scikit-Learn very easy to use, once the basic principles are understood.
Every machine learning algorithm in Scikit-Learn is implemented via the Estimator API, which provides a consistent interface for a wide range of machine learning applications.

### Basics of the API

Most commonly, the steps in using the Scikit-Learn estimator API are as follows
(we will step through a handful of detailed examples in the sections that follow).

1. Choose a class of model by importing the appropriate estimator class from Scikit-Learn.
2. Choose model hyperparameters by instantiating this class with desired values.
3. Arrange data into a features matrix and target vector following the discussion above.
4. Fit the model to your data by calling the ``fit()`` method of the model instance.
5. Apply the Model to new data:
   - For supervised learning, often we predict labels for unknown data using the ``predict()`` method.
   - For unsupervised learning, we often transform or infer properties of the data using the ``transform()`` or ``predict()`` method.

We will now step through several simple examples of applying supervised and unsupervised learning methods.

### Supervised learning example: Simple linear regression

As an example of this process, let's consider a simple linear regression—that is, the common case of fitting a line to $(x, y)$ data.
We will use the following simple data for our regression example:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

rng = np.random.RandomState(42)
x = 10 * rng.rand(50)
y = 2 * x - 1 + rng.randn(50)
plt.scatter(x, y);

With this data in place, we can use the recipe outlined earlier. Let's walk through the process:

#### 1. Choose a class of model

In Scikit-Learn, every class of model is represented by a Python class.
So, for example, if we would like to compute a simple linear regression model, we can import the linear regression class:

In [None]:
from sklearn.linear_model import LinearRegression

Note that other more general linear regression models exist as well; you can read more about them in the [``sklearn.linear_model`` module documentation](http://Scikit-Learn.org/stable/modules/linear_model.html).

#### 2. Choose model hyperparameters

An important point is that *a class of model is not the same as an instance of a model*.

Once we have decided on our model class, there are still some options open to us.
Depending on the model class we are working with, we might need to answer one or more questions like the following:

- Would we like to fit for the offset (i.e., *y*-intercept)?
- Would we like the model to be normalized?
- Would we like to preprocess our features to add model flexibility?
- What degree of regularization would we like to use in our model?
- How many model components would we like to use?

These are examples of the important choices that must be made *once the model class is selected*.
These choices are often represented as *hyperparameters*, or parameters that must be set before the model is fit to data.
In Scikit-Learn, hyperparameters are chosen by passing values at model instantiation.
We will explore how you can quantitatively motivate the choice of hyperparameters in [Hyperparameters and Model Validation](05.03-Hyperparameters-and-Model-Validation.ipynb).

For our linear regression example, we can instantiate the ``LinearRegression`` class and specify that we would like to fit the intercept using the ``fit_intercept`` hyperparameter:

In [None]:
model = LinearRegression(fit_intercept=True)
model

Keep in mind that when the model is instantiated, the only action is the storing of these hyperparameter values.
In particular, we have not yet applied the model to any data: the Scikit-Learn API makes very clear the distinction between *choice of model* and *application of model to data*.

#### 3. Arrange data into a features matrix and target vector

Previously we detailed the Scikit-Learn data representation, which requires a two-dimensional features matrix and a one-dimensional target array.
Here our target variable ``y`` is already in the correct form (a length-``n_samples`` array), but we need to massage the data ``x`` to make it a matrix of size ``[n_samples, n_features]``.
In this case, this amounts to a simple reshaping of the one-dimensional array:

In [None]:
X = x[:, np.newaxis]
X.shape

#### 4. Fit the model to your data

Now it is time to apply our model to data.
This can be done with the ``fit()`` method of the model:

In [None]:
model.fit(X, y)

This ``fit()`` command causes a number of model-dependent internal computations to take place, and the results of these computations are stored in model-specific attributes that the user can explore.
In Scikit-Learn, by convention all model parameters that were learned during the ``fit()`` process have trailing underscores; for example in this linear model, we have the following:

In [None]:
model.coef_

In [None]:
model.intercept_

These two parameters represent the slope and intercept of the simple linear fit to the data.
Comparing to the data definition, we see that they are very close to the input slope of 2 and intercept of -1.

One question that frequently comes up regards the uncertainty in such internal model parameters.
In general, Scikit-Learn does not provide tools to draw conclusions from internal model parameters themselves: interpreting model parameters is much more a *statistical modeling* question than a *machine learning* question.
Machine learning rather focuses on what the model *predicts*.
If you would like to dive into the meaning of fit parameters within the model, other tools are available, including the [Statsmodels Python package](http://statsmodels.sourceforge.net/).

#### 5. Predict labels for unknown data

Once the model is trained, the main task of supervised machine learning is to evaluate it based on what it says about new data that was not part of the training set.
In Scikit-Learn, this can be done using the ``predict()`` method.
For the sake of this example, our "new data" will be a grid of *x* values, and we will ask what *y* values the model predicts:

In [None]:
xfit = np.linspace(-1, 11)

As before, we need to coerce these *x* values into a ``[n_samples, n_features]`` features matrix, after which we can feed it to the model:

In [None]:
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)

Finally, let's visualize the results by plotting first the raw data, and then this model fit:

In [None]:
plt.scatter(x, y)
plt.plot(xfit, yfit);

Typically the efficacy of the model is evaluated by comparing its results to some known baseline, as we will see in the next example

### Supervised learning example: Iris classification

Let's take a look at another example of this process, using the Iris dataset we discussed earlier.
Our question will be this: given a model trained on a portion of the Iris data, how well can we predict the remaining labels?

For this task, we will use an extremely simple generative model known as Gaussian naive Bayes, which proceeds by assuming each class is drawn from an axis-aligned Gaussian distribution (see [In Depth: Naive Bayes Classification](05.05-Naive-Bayes.ipynb) for more details).
Because it is so fast and has no hyperparameters to choose, Gaussian naive Bayes is often a good model to use as a baseline classification, before exploring whether improvements can be found through more sophisticated models.

We would like to evaluate the model on data it has not seen before, and so we will split the data into a *training set* and a *testing set*.
This could be done by hand, but it is more convenient to use the ``train_test_split`` utility function:

In [None]:
from sklearn.cross_validation import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(X_iris, y_iris,
                                                random_state=1)

With the data arranged, we can follow our recipe to predict the labels:

In [None]:
from sklearn.naive_bayes import GaussianNB # 1. choose model class
model = GaussianNB()                       # 2. instantiate model
model.fit(Xtrain, ytrain)                  # 3. fit model to data
y_model = model.predict(Xtest)             # 4. predict on new data

Finally, we can use the ``accuracy_score`` utility to see the fraction of predicted labels that match their true value:

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(ytest, y_model)

With an accuracy topping 97%, we see that even this very naive classification algorithm is effective for this particular dataset!

### Unsupervised learning example: Iris dimensionality

As an example of an unsupervised learning problem, let's take a look at reducing the dimensionality of the Iris data so as to more easily visualize it.
Recall that the Iris data is four dimensional: there are four features recorded for each sample.

The task of dimensionality reduction is to ask whether there is a suitable lower-dimensional representation that retains the essential features of the data.
Often dimensionality reduction is used as an aid to visualizing data: after all, it is much easier to plot data in two dimensions than in four dimensions or higher!

Here we will use principal component analysis (PCA; see [In Depth: Principal Component Analysis](05.09-Principal-Component-Analysis.ipynb)), which is a fast linear dimensionality reduction technique.
We will ask the model to return two components—that is, a two-dimensional representation of the data.

Following the sequence of steps outlined earlier, we have:

In [None]:
from sklearn.decomposition import PCA  # 1. Choose the model class
model = PCA(n_components=2)            # 2. Instantiate the model with hyperparameters
model.fit(X_iris)                      # 3. Fit to data. Notice y is not specified!
X_2D = model.transform(X_iris)         # 4. Transform the data to two dimensions

Now let's plot the results. A quick way to do this is to insert the results into the original Iris ``DataFrame``, and use Seaborn's ``lmplot`` to show the results:

In [None]:
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue='species', data=iris, fit_reg=False);

We see that in the two-dimensional representation, the species are fairly well separated, even though the PCA algorithm had no knowledge of the species labels!
This indicates to us that a relatively straightforward classification will probably be effective on the dataset, as we saw before.

### Unsupervised learning: Iris clustering

Let's next look at applying clustering to the Iris data.
A clustering algorithm attempts to find distinct groups of data without reference to any labels.
Here we will use a powerful clustering method called a Gaussian mixture model (GMM), discussed in more detail in [In Depth: Gaussian Mixture Models](05.12-Gaussian-Mixtures.ipynb).
A GMM attempts to model the data as a collection of Gaussian blobs.

We can fit the Gaussian mixture model as follows:

In [None]:
from sklearn.mixture import GMM      # 1. Choose the model class
model = GMM(n_components=3,
            covariance_type='full')  # 2. Instantiate the model with hyperparameters
model.fit(X_iris)                    # 3. Fit to data. Notice y is not specified!
y_gmm = model.predict(X_iris)        # 4. Determine cluster labels

As before, we will add the cluster label to the Iris ``DataFrame`` and use Seaborn to plot the results:

In [None]:
iris['cluster'] = y_gmm
sns.lmplot("PCA1", "PCA2", data=iris, hue='species',
           col='cluster', fit_reg=False);

By splitting the data by cluster number, we see exactly how well the GMM algorithm has recovered the underlying label: the *setosa* species is separated perfectly within cluster 0, while there remains a small amount of mixing between *versicolor* and *virginica*.
This means that even without an expert to tell us the species labels of the individual flowers, the measurements of these flowers are distinct enough that we could *automatically* identify the presence of these different groups of species with a simple clustering algorithm!
This sort of algorithm might further give experts in the field clues as to the relationship between the samples they are observing.

## Application: Exploring Hand-written Digits

To demonstrate these principles on a more interesting problem, let's consider one piece of the optical character recognition problem: the identification of hand-written digits.
In the wild, this problem involves both locating and identifying characters in an image. Here we'll take a shortcut and use Scikit-Learn's set of pre-formatted digits, which is built into the library.

### Loading and visualizing the digits data

We'll use Scikit-Learn's data access interface and take a look at this data:

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()
digits.images.shape

The images data is a three-dimensional array: 1,797 samples each consisting of an 8 × 8 grid of pixels.
Let's visualize the first hundred of these:

In [None]:
import matplotlib.pyplot as plt

fig, axes = plt.subplots(10, 10, figsize=(8, 8),
                         subplot_kw={'xticks':[], 'yticks':[]},
                         gridspec_kw=dict(hspace=0.1, wspace=0.1))

for i, ax in enumerate(axes.flat):
    ax.imshow(digits.images[i], cmap='binary', interpolation='nearest')
    ax.text(0.05, 0.05, str(digits.target[i]),
            transform=ax.transAxes, color='green')

In order to work with this data within Scikit-Learn, we need a two-dimensional, ``[n_samples, n_features]`` representation.
We can accomplish this by treating each pixel in the image as a feature: that is, by flattening out the pixel arrays so that we have a length-64 array of pixel values representing each digit.
Additionally, we need the target array, which gives the previously determined label for each digit.
These two quantities are built into the digits dataset under the ``data`` and ``target`` attributes, respectively:

In [None]:
X = digits.data
X.shape

In [None]:
y = digits.target
y.shape

We see here that there are 1,797 samples and 64 features.

### Unsupervised learning: Dimensionality reduction

We'd like to visualize our points within the 64-dimensional parameter space, but it's difficult to effectively visualize points in such a high-dimensional space.
Instead we'll reduce the dimensions to 2, using an unsupervised method.
Here, we'll make use of a manifold learning algorithm called *Isomap* (see [In-Depth: Manifold Learning](05.10-Manifold-Learning.ipynb)), and transform the data to two dimensions:

In [None]:
from sklearn.manifold import Isomap
iso = Isomap(n_components=2)
iso.fit(digits.data)
data_projected = iso.transform(digits.data)
data_projected.shape

We see that the projected data is now two-dimensional.
Let's plot this data to see if we can learn anything from its structure:

In [None]:
plt.scatter(data_projected[:, 0], data_projected[:, 1], c=digits.target,
            edgecolor='none', alpha=0.5,
            cmap=plt.cm.get_cmap('spectral', 10))
plt.colorbar(label='digit label', ticks=range(10))
plt.clim(-0.5, 9.5);

This plot gives us some good intuition into how well various numbers are separated in the larger 64-dimensional space. For example, zeros (in black) and ones (in purple) have very little overlap in parameter space.
Intuitively, this makes sense: a zero is empty in the middle of the image, while a one will generally have ink in the middle.
On the other hand, there seems to be a more or less continuous spectrum between ones and fours: we can understand this by realizing that some people draw ones with "hats" on them, which cause them to look similar to fours.

Overall, however, the different groups appear to be fairly well separated in the parameter space: this tells us that even a very straightforward supervised classification algorithm should perform suitably on this data.
Let's give it a try.

### Classification on digits

Let's apply a classification algorithm to the digits.
As with the Iris data previously, we will split the data into a training and testing set, and fit a Gaussian naive Bayes model:

In [None]:
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=0)

In [None]:
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(Xtrain, ytrain)
y_model = model.predict(Xtest)

Now that we have predicted our model, we can gauge its accuracy by comparing the true values of the test set to the predictions:

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(ytest, y_model)

With even this extremely simple model, we find about 80% accuracy for classification of the digits!
However, this single number doesn't tell us *where* we've gone wrong—one nice way to do this is to use the *confusion matrix*, which we can compute with Scikit-Learn and plot with Seaborn:

In [None]:
from sklearn.metrics import confusion_matrix

mat = confusion_matrix(ytest, y_model)

sns.heatmap(mat, square=True, annot=True, cbar=False)
plt.xlabel('predicted value')
plt.ylabel('true value');

This shows us where the mis-labeled points tend to be: for example, a large number of twos here are mis-classified as either ones or eights.
Another way to gain intuition into the characteristics of the model is to plot the inputs again, with their predicted labels.
We'll use green for correct labels, and red for incorrect labels:

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(8, 8),
                         subplot_kw={'xticks':[], 'yticks':[]},
                         gridspec_kw=dict(hspace=0.1, wspace=0.1))

test_images = Xtest.reshape(-1, 8, 8)

for i, ax in enumerate(axes.flat):
    ax.imshow(test_images[i], cmap='binary', interpolation='nearest')
    ax.text(0.05, 0.05, str(y_model[i]),
            transform=ax.transAxes,
            color='green' if (ytest[i] == y_model[i]) else 'red')

Examining this subset of the data, we can gain insight regarding where the algorithm might be not performing optimally.
To go beyond our 80% classification rate, we might move to a more sophisticated algorithm such as support vector machines (see [In-Depth: Support Vector Machines](05.07-Support-Vector-Machines.ipynb)), random forests (see [In-Depth: Decision Trees and Random Forests](05.08-Random-Forests.ipynb)) or another classification approach.

## Summary

In this section we have covered the essential features of the Scikit-Learn data representation, and the estimator API.
Regardless of the type of estimator, the same import/instantiate/fit/predict pattern holds.
Armed with this information about the estimator API, you can explore the Scikit-Learn documentation and begin trying out various models on your data.

In the next section, we will explore perhaps the most important topic in machine learning: how to select and validate your model.

[Voltar ao índice](#index)