# Python 101: breve intro a Python 3 para análise de dados

Este notebook aborda apenas conceitos da linguagem Python 3 e sua biblioteca padrão. Bibliotecas especializadas como `numpy`, `pandas` e `matplotlib` são temas de outros notebooks.

## Sumário

* [Python 2 x Python 3](#Python-2-x-Python-3)
* [Aprenda a aprender Python](#Aprenda-a-aprender-Python)

## [Python 2 x Python 3](#Sumário)

Durante 17 anos, até 2008, a compatibilidade com versões anteriores era uma prioridade na comunidade Python, e continua sendo.

Porém, excepcionalmente em 2008 Guido van Rossum decidiu que era hora de lançar uma versão 3.0  com mudanças que incompatíveis para resolver problemas causados por decisões que se mostraram erradas com o passar do tempo.

As diferenças que mais frequentemente atrapalham os iniciantes na linguagem são:

* A função `print`
* Divisão entre inteiros
* Texto versus bytes

### A função `print`

Em Python 3, `print` é uma **função**, e não uma instrução (statement). Com isso ela se tornou bem mais flexível. Porém agora é obrigatório colocar parêntesis ao redor dos argumentos:

In [None]:
print('Olá mundo!')

### Divisão

O operador de divisão **sempre** devolve um `float`, mesmo quando ambos operandos são `int` e o resultado é "redondo":

In [None]:
6 / 2

Caso precise calcular divisões inteiras, use o operador `//`. Nesse caso, se os operandos forem `int`, o resultado tambem será:

In [None]:
6 // 2

In [None]:
7. // 2

In [None]:
2 // 3

Uma função embudida útil é `divmod`, porque muitas vezes quando precisamos usar `//` também quermos o resto da divisão, ou módulo `%`:

In [None]:
divmod(7, 2)

In [None]:
a, b = divmod(14, 3)

In [None]:
print(a, b)

### Texto versus bytes

Em Python 2 o tipo `str` na verdade lida com bytes. Para lidar com texto Unicode (ou qualquer coisa que não seja apenas ASCII), é preciso usar o tipo `unicode` em Python 2.

Em Python 3 o tipo `str` agora lida com Unicode:


In [None]:
s = 'café'
len(s)

Construindo uma `list` a partir de uma `str` obtemos uma lista de caracteres (strings de tamanho 1):

In [None]:
list(s)

Para lidar com bytes em Python 3, usa-se o tipo `bytes`, cujas constantes literais têm que ser prefixadas com `b` e só podem conter caracteres ASCII ou códigos hexadecimais de `\x00` a `\xFF`:

In [None]:
b = s.encode('utf8')
b

In [None]:
len(b)

Um objeto bytes pode ser entendido como uma lista de inteiros na faixa de 0 a 255 decimal, como podemos notar se construímos uma lista:

In [None]:
list(b)

Para obter uma `str` a partir de `bytes`, use o método `decode`:

In [None]:
b.decode('utf8')

Ao ler um arquivo em Python 3, você recebe `str` por padrão, mas é assumida a codificação UTF-8:

In [None]:
conteúdo = open('dados/poema.txt').read()
type(conteúdo)

In [None]:
print(conteúdo)

In [None]:
try:
    conteúdo = open('dados/poema-latin1.txt').read()
except UnicodeDecodeError:
    print('*** Isso gera UnicodeDecodeError, porque o arquivo está na codificação Latin 1')


Para ler um texto que não seja UTF-8, especifique o `encoding` na função `open`:

In [None]:
conteúdo = open('dados/poema-latin1.txt', encoding='latin-1').read()
print(conteúdo)

Para ler um arquivo binário, use o modo `'rb'` na função `open`. O conteúdo então será acessado como `bytes`:

In [None]:
print(open('dados/poema.txt', 'rb').read())

# [Aprenda a aprender Python](#Sumário)

## Saiba a diferença entre `repr` e `str`

## Use as funções `type`, `dir` e `help` para explorar objetos

## Conheça os tipos `builtin`

## Entenda o conceito de *iterável* e suas aplicações principais