# NOTEBOOK COM TUTORIAIS RELEVANTES
<br>

- <a href="#tutorial-jupyter">Tutorial simples de Jupyter</a>
- <a href="#variaveis">Tipos de variáveis</a>
- <a href="#operacoes-numeros">Operações básicas</a>
- <a href="#operacoes-strings">Operações com strings</a>
- <a href="#estruturas">Estruturas básicas</a>
- <a href="#condicionais">Condicionais</a>
- <a href="#loops">Estruturas de repetição</a>
- <a href="#funcoes">Funções</a>
- <a href="#arquivos">Arquivos</a>
- <a href="#poo">Programação Orientada a Objetos (POO)</a>
- <a href="#pydata">Stack básica de PyData</a>

## Tutorial Jupyter
<div id="tutorial-jupyter"></div>

Caso você não saiba como usar jupyter, aqui vai um tutorial simples mas que satisfaz as necessidades para esse tutorial e o desafio.

Célula são essas estruturas nas quais escrevemos texto e código no Jupyter, para editar uma célula de código basta clicar nessa, se for uma célula de texto, clique duas vezes.

Para executar uma célula, você pode usar o botão __Run__ na toolbar do Jupyter. Ou ainda usando as teclas <kbd>Shift</kbd>+<kbd>Enter</kbd>.

<img src="./img/run-jupyter-cell.png">

Ainda nessa imagem, a tecla de <kbd>+</kbd> adiciona novas células. A tecla com as setas permitem mover uma célula no jupyter.

Além de executar uma célula, você pode interromper a execução com o botão com um quadrado no meio. Você pode ainda interromper o kernel, sem entrar nos detalhes, isso resetaria tudo que já foi feito no jupyter, nada será apagado, mas variáveis criadas e tudo mais serão esquecidas.

O botão com duas setas roda todas as células até que chegue no fim ou encontre um erro.

No campo escrito __Markdown__ você pode mudar o tipo da célula. Células de texto são do tipo Markdown e células de código do tipo Code.

Ferramentas de edição como retornar células excluídas, copiar e colar células... podem ser achadas na opção __Edit__.

Você pode ainda reiniciar o kernel e rodar todas as células ou simplesmente limpar o output na opção __Kernel__.

## Variáveis e tipos de variáveis
<div id="variaveis"></div>

Diferente de outras linguagens de programação tradicionais, em Python você não precisa declarar o tipo de uma variável. Você pode declarar variáveis simplesmente atribuindo um valor a elas e também pode mudar a qualquer momento:

In [None]:
# a função usada para verificar o tipo de uma variável é a função type()
print('{0} é uma variável do tipo {1}'.format(-1,type(-1)))

In [None]:
# você pode simplesmente invocar a função e passar o argumento que ao executar a célula terá como output o tipo
type(-1)

Alguns outros tipos de variáveis comuns em python são:

In [None]:
# inteiros (e.g. 0, -1, 2)
print('{0} é uma variável do tipo {1}'.format(2,type(2)))

In [None]:
# float/números reais/pontos flutuantes (e.g. 1.0, 3.14, -2.71)
print('{0} e {1} são variáveis do tipo {2}'.format(2.0,3.14,type(2.0)))

In [None]:
# complex/números complexos (e.g. 3 + 4j, -1j)
# atente que, ao contrário da literatura clássica, aqui a raiz complexa é j
print('{0} é uma variável do tipo {1}'.format(3+4j,type(3+4j)))

In [None]:
# string/caracteres/texto (e.g. 'isso eh uma string', 'a', 'string')
print("{0} é uma variável do tipo {1}".format('Uma string',type('Uma string')))

In [None]:
# OBS.: strings devem estar entre aspas ("") ou aspas simples ('')
# do contrário será interpretado como uma variável sem valor
# rode a célula abaixo para verificar o erro que será obtido se esquecer as aspas
type(string)

In [None]:
# booleano (e.g. True ou False)
print('{0} é uma variável do tipo {1}'.format(True,type(True)))
# perceba que True e False não precisam de aspas, no entanto a primeira letra deve ser maiúscula
# nunca nomeie variáveis com esse nome, é uma boa prática de programação!

In [None]:
# None/vazio/sem valor
print('{0} é uma variável do tipo {1}'.format(None,type(None)))

Pode ser útil comparar o tipo de variáveis e até mesmo converter o tipo da variável para outro. Verifique como fazer isso:

In [None]:
# para comparar o tipo de uma variável, usamos a função isinstance()
# ela retorna um booleano com o resultado da comparação
print('isinstance("Uma string",str) = {0}'.format(isinstance('Uma string',str)))
print('isinstance(-1,float) = {0}'.format(isinstance(-1,float)))

In [None]:
# para converter o tipo da variável, basta passar esta por uma função específica de cada variável
string_para_converter = '-1'
type(string_para_converter)

In [None]:
string_convertida = float(string_para_converter)
type(string_convertida)

Diferentemente de outras linguagens tradicionais, não é preciso declarar o tipo de uma variável quando esta é declarada. O que permite substituir e converter variáveis muito mais fácil, como visto nas células acima

In [None]:
# a maneira correta de declarar uma variável é variavel = valor
# nunca use valor = variavel
var = 1
print('{0} do tipo {1}'.format(var,type(var)))
var = float(var)
print('{0} do tipo {1}'.format(var,type(var)))
var = 'string'
print('{0} do tipo {1}'.format(var,type(var)))

# a mesma variável com valores e tipos diferentes!

In [None]:
# lembre-se que Python é uma linguagem case sensity
# isso significa que letras maiusculas e minusculas no corpo de uma variável são diferentes
var = 2
Var = 3
print(var, Var)

## Operações básicas
<div id="operacoes-numeros"></div>

É importante ainda saber realizar operações com variáveis em Python. Veja algumas das operações principais:

In [None]:
# soma
a = 2
b = 3
c = a + b
c

In [None]:
# você ainda pode fazer isso diretamente, sem atribuir a um novo valor
a + b

In [None]:
# é possível ainda realizar operações com ints e floats
c + 3.14

In [None]:
# não é possível somar números com variáveis não numéricas
5 + 'string'

In [None]:
# entretanto é possível somar strings
# a essa operação damos o nome de 'concatenação'
str1 = 'Eu vou passar'
str2 = 'no case da Talus'
str_res = str1 + ' ' + str2
str_res

In [None]:
# subtração
a = 5
b = 2.5
a - b

In [None]:
# não é possível realizar o mesmo com strings novamente
str1 = 'Eu vou passar no case da Talus'
str2 = 'Talus'
str1 - str2

In [None]:
# multiplicação
a = 3.14
b = -2
a*b

In [None]:
# dessa vez é possível usar essa operação com strings
str1 = '*'
str1*5

In [None]:
# divisão
a = 5
b = 2
a/b

In [None]:
# se usarmos duas barras inclinadas conseguiremos apenas a parte inteira da divisão
a//b

In [None]:
# cuidado ao dividir por zero!
# veja o erro que você obteria
3.14/0

In [None]:
# exponenciação
# a operação de exponenciação é realizada usando dois asteriscos de multiplicação
a = 4
a**2

In [None]:
# também é possível realizar a operação utilizando a função pow()
pow(16,0.5)
# note que o resultado da radiação é um float e não um inteiro

In [None]:
# módulo
# o operador módulo representada por '%' devolve o resto da divisão entre dois números
5%2

In [None]:
# arredondamento
# é possível arredondar números usando a função round
pi = 3.14159265359
print('O número completo é {0}\nO número arredondado para duas casas decimais é {1}'.format(pi, round(pi,2)))

In [None]:
# valor absoluto
# a função abs() retorna o valor absoluto de um número
abs(-2.71)

In [None]:
# serve inclusive para números complexos
# seja um número complexo z = a + bj -> abs(z) = raiz(a² + b²)
z = 3 + 4j
abs(z)

In [None]:
# ainda sobre números complexos
# é possível obter a parte real e imaginária de um número complexo
# basta usar os atribulos .real e .imag
print('A parte real de {0} é {1} e a parte imaginária é {2}'.format(z, z.real, z.imag))

# não se preocupe agora com o significado de atributo
# você também verá isso

In [None]:
# comparação
# esse conjunto de operações retorna um valor booleano que verifica a veracidade do que foi dito
a = 2
b = 3.14
a == b

In [None]:
# perceba que a comparação é feita utilizando dois símbolos de igualdade
# um único símbolo tem valor de atribuição, duplo símbolos têm valor de comparação
# da mesma forma, é possível verificar a desigualdade, nesse caso usamos como sinal '!='
a != b

In [None]:
# você pode usar ainda símbolos como >, <, >= (maior que ou igual), <= (menor que ou igual)
a <= b

## Manipulação de strings
<div id="operacoes-strings"></div>

Como vimos, existem algumas operações de números são aplicáveis a strings. Nessa parte, vamos ver algumas operações desse tipo de variável

In [None]:
# se quiser acrescentar cotações ou marcações com aspas em uma string
# é preciso mesclar entre aspas simples e aspas duplas
string = '"Make it work, make it right, make it fast."\n-Kent Beck'
print(string)

In [None]:
# perceba que usamos uma estrutura peculiar na string anterior: um '\n'
# essas estruturas nos permitem adicionar elementos de espaçamento a uma string
# como quebra de linha ou tabeamento (nesse caso seria \t)
string = 'exemplo de\ttabeamento'
print(string)

In [None]:
# nesse caso, perceba que simplesmente convocar a string e executar a célula
# não ocuta a estrutura de espaçamento
string

In [None]:
# é possível convocar caracteres ou grupos de caracteres de uma string
# para isso, passamos, entre colchetes, o index do caracter
# lembre-se que em Python a indexação inicia-se em 0
# então em 'Talus Insper' o elemento 0 é o 'T' e o elemento 1 é o 'a'
string = 'Talus Insper'
string[3]

In [None]:
# você pode passar ainda uma range de valores
# atente que em Python a range de 0 a n invocaria os n primeiros elementos, portanto de 0 a n-1
string[0:4]

In [None]:
# perceba que o último caracter apresentado é o 'u' que tem index 3
# é possível ainda regular o tamanho do passo
string[0:4:2]

In [None]:
# nessa célula, nós pedimos dos elementos 0 a 3 pulando de dois em dois elementos
# a sintaxe então seria [index_start:index_stop+1:step]
# uma curiosidade é que números negativos também são possível
string[::-1]

In [None]:
# nesse caso foi printado do elemento final até o inicial, já que o step é negativo
# e portanto está voltando
# você pode ainda controlar o elemento final sem contar os caracteres
# imagine que você não quer os últimos três caracteres de uma string
string[:-3]

In [None]:
# ou que você não queira os três primeiros
string[3:]

In [None]:
# atente que você pode mudar uma string por outra
# mas não pode mudar um único caracter
string[0] = 'C'

In [None]:
# existem algumas funções muito práticas para lidarmos com strings
# como a função len() que nos devolve o tamanho de uma string
print("{0} possui {1} caracteres".format(string, len(string)))

# espaço e elementos como \n como UM único caracter
print(len('\n'))

In [None]:
# os métodos upper() e lower() deixam uma string maiuscula ou minuscula, respectivamente
string.upper()

In [None]:
string.lower()

In [None]:
# os métodos NÃO altera a string original
# métodos devem ser passados após a variável diferente de funções
# calma que você ainda vai entender o porque

In [None]:
# o método split() divide a string em função de um caracter
string.split('s')

In [None]:
# perceba que a string foi dividida em função de 's'
# caso não passe nenhum argumento, a string será dividida em função do espaço ' '
string.split()

In [None]:
# o método count() devolve o número de aparições de um caracter ou de uma substring
string.count('s')

In [None]:
# caso de uma substring
string.count('Talus')

In [None]:
# o método find() acha o index da primeira aparição de um caracter
string.find('s')

In [None]:
# Python é uma linguagem muito prática pois várias estruturas de condição seguem a linguagem natural falada
# por exemplo a seguinte linha de código verifica se a substring 'Insper' está contida em 'Talus Insper'
'Insper' in 'Talus Insper'

# bem intuitivo, não?

## Estruturas básicas
<div id="estruturas"></div>

Em Python temos algumas estruturas muito úteis que ajudam a guardar e manipular mais facilmente dados e variáveis

A primeira estrutura útil são as __listas__!

In [None]:
# O primeiro objeto é a lista. Diferentemente de várias linguagems
# em Python não possuimos arrays propriamente ditos,
# usamos sempre uma lista para guardar uma série de dados.

# para declararmos uma lista, basta escrevermos os elementos separados por vírgulas entre colchetes
lista = [2, 4, 6, 8, 10]

print(lista)
print(type(lista))

In [None]:
# perceba que pode haver, ainda, listas vazias
# ou listas com elementos de vários tipos

# perceba que até listas podem estar dentro de listas!
lista1 = [1, -2, 'string', 3.14, []]

lista2 = []

print(lista1)
print(lista2)

In [None]:
# você ainda pode gerar listas usando a função list()

lista = list()
lista

In [None]:
# essa função pode receber argumentos e eles serão convertidos em listas

lista = list('Talus')
lista

In [None]:
# você pode se referir a um item de uma lista convocando seu index
# como visto, a contagem em python começa do zero
# então se quisermos o termo -2 da lista1, por exemplo, ele é o termo de index 1

print(lista1[1])
print(lista1[4])

In [None]:
# você pode ainda remover ou acrescentar novos elementos a uma lista
lista = []
print('Lista antes de acrescentar elemento: {}'.format(lista))

# para acrescentar elementos usamos o método .append()
lista.append('Talus')
lista.append('Insper')
print('Lista após acrescentar elementos: {}'.format(lista))

# e, para excluirmos, podemos usar o método .remove()
lista.remove('Insper')
print('Lista após remover um elemento: {}'.format(lista))

In [None]:
# perceba que uma lista pode ser vista como um vetor unidimensional de elementos
# podemos, ainda, criar listas com dimensões maiores
# para isso, criamos uma "lista de listas"

lista2D = [[1,2,3],[4,5,6],[7,8,9]]
print(lista2D)

In [None]:
# a lista criada pode ser vista como uma matriz de números
# pode ser mais fácil visualizar da seguinte maneira

print("{0}\n{1}\n{2}".format(lista2D[0],lista2D[1],lista2D[2]))

In [None]:
# você pode ainda criar listas de 3, 4, 10, 50 ou quantas dimensões quiser
# para tratar de vetores em dimensões mais altas usamos tensores
# eles são uma das criações matemáticas responsáveis pela ascensão do Deep Learning
# mas você vai aprender mais sobre isso quando você se juntar a gente! 😉

In [None]:
# para se referir a um elemento de um vetor de mais dimensões
# temos que criar uma cadeia de index que precisamos passar até chegar nesse
# por exemplo, em lista2D, o elemento 6 tem index 2 para a lista da qual faz parte
# essa lista, por sua vez, tem index 1 para a lista2D
# logo a cadeira será 1 -> 2 para acessarmos o elemento 6

print(lista2D[1][2])

É possível fazer ainda operações com listas:

In [None]:
# somar listas
lista1 = [1,2,3]
lista2 = [4,5,6]

lista1+lista2

In [None]:
# você pode até multiplicar uma lista por um inteiro
# é o equivalente a somar aquela lista com sigo mesma
lista = [1,2,3]

lista*4

In [None]:
# perceba que listas são muito parecidas com strings
# na verdade, strings é que são parecidos com listas!
# assim como em outras linguagens, uma string é um array/vetor/lista de caracteres
# então as operações de string também servem aquim

lista = ['Talus','Insper',10,'Machine Learning']
print('Talus' in lista)

Algumas funções built-in úteis para listas são:

In [None]:
# obter tamanho de uma lista
# para isso usamos a função len()

lista = [0,1,2,3,4,5,6,7]
len(lista)

In [None]:
# retornar o máximo valor de uma lista

max(lista)

In [None]:
# retornar o mínimo valor de uma lista

min(lista)

In [None]:
# contar o número de termos numa lista

lista = ['Talus','Insper','Talus','Machine Learning','IA']
lista.count('Talus')

In [None]:
# pegar o index da primeira aparição

lista.index('Insper')

In [None]:
# inserir elementos em outra posição

# acrescentando 'Data Science' a posição de index 2
lista.insert(2, 'Data Science')
lista

In [None]:
# reverter a ordem dos elementos

lista.reverse()
lista

In [None]:
# sortear os elementos de uma lista

lista = [3.14, -1, 5, 0, 2]
lista.sort()
lista

Imagine agora que você precisasse criar uma maneira de relacionar as disciplinas do primeiro ano de engenharia do Insper com o semestre dessa disciplina. Com os conhecimentos até aqui você poderia pensar em criar duas listas: uma com os nomes das disciplinas e, para cada disciplina, o semestre em outra lista com o mesmo index

In [None]:
disciplinas = ['GDE','DeSoft','ModSim','InstruMed','NatDes','MatVar','CDados','Acionas','CoDes','FisMov']
semestre = ['1° Semestre','1° Semestre','1° Semestre','1° Semestre','1° Semestre',
            '2° Semestre','2° Semestre','2° Semestre','2° Semestre','2° Semestre']

In [None]:
# dessa forma

print('{0} é uma matéria do {1}. Já {2} é uma matéria do {3}'
      .format(disciplinas[5],semestre[5],disciplinas[0],semestre[0]))

Uma maneira ainda mais eficiente seria criar uma única lista com dois elementos: 1° e 2° semestre e outra lista com duas listas: uma com as matérias do primeiro semestre e outra com as matérias do segundo

In [None]:
semestre = ['1° Semestre','2° Semestre']
disciplinas = [['GDE','DeSoft','ModSim','InstruMed','NatDes'],['MatVar','CDados','Acionas','CoDes','FisMov']]

print('{0} é uma matéria do {1}. Já {2} é uma matéria do {3}'
      .format(disciplinas[1][2],semestre[1],disciplinas[0][1],semestre[0]))

Mas ainda existe um jeito ainda mais eficiente. A próxima estrutura que vamos falar sobre resolve esse problema muito mais fácil. Essa estrutura são os __dicionários__

In [None]:
# Um dicionário simples contendo o nome, sobrenome e a idade de uma pessoa.
dicionario = {'Nome': 'Joseph', 'Sobrenome': 'Joestrela', 'Idade': 69}

# Vamos acessar o sobrenome dessa pessoa usando a chave 'Sobrenome'
print(dicionario['Sobrenome'])

# Vamos acessar agora a idade dessa pessoa com a chave 'Idade'
print(dicionario['Idade'])

In [None]:
# você pode ainda criar dicionários através da função dict()

dicionario = dict()
dicionario

In [None]:
# é possível adicionar elementos a esse dicionário da seguinte forma

dicionario['key'] = 'value'
dicionario['pi'] = 3.14
dicionario

In [None]:
# Assim como a lista, o dicionário possui algumas funções muito uteis para facilitar sua manipulação.
# A função values() retorna todos os valores das chaves do dicionário.

dicionario = {'Nome': 'Joseph', 'Sobrenome': 'Joestrela', 'Idade': 69}

dicionario.values()

In [None]:
# A função keys() retorna todas as chaves do dicionário

dicionario = {'Nome': 'Joseph', 'Sobrenome': 'Joestrela', 'Idade': 69}

dicionario.keys()

In [None]:
# A função pop() nos dicionários funciona de uma maneira muito semelhante a sua semelhante nas listas, contudo, usaremos
# as chaves ao inves dos indices

dicionario = {'Nome': 'Joseph', 'Sobrenome': 'Joestrela', 'Idade': 69}

nome = dicionario.pop('Nome')

# O nome da pessoa obtido através da função pop()
print(nome)

# Perceba que a chave 'Nome', assim como seu valor foram perdidos
print(dicionario)

In [None]:
# A função popitem() funciona como a função pop() em listas quando não especificamos o indice, removendo o ultimo
# item junto a sua chave e os retornando.

dicionario = {'Nome': 'Joseph', 'Sobrenome': 'Joestrela', 'Idade': 69}

idade = dicionario.popitem()

# A idade da pessoa
print(idade)

# Perceba como o ultimo item do dicionario foi perdido junto a sua chave
print(dicionario)

In [None]:
# sendo assim, veja como poderíamos solucionar o problema das disciplinas

semestre_disciplina = {'1° Semestre':['GDE','DeSoft','ModSim','InstruMed','NatDes'],
                       '2° Semestre':['MatVar','CDados','Acionas','CoDes','FisMov']}

semestre = '1° Semestre'
print('{0} são disciplinas do {1}'
      .format(semestre_disciplina[semestre], semestre))

## Condicionais
<div id="condicionais"></div>

Em Python existem estruturas condicionais como em outras linguagens de programação. Veja como utilizar algumas delas

In [None]:
# em Python é possível realizar comparações sem uma estrutura de comparação

print(5 > 2)

In [None]:
# vê? Afinal, 5 realmente é maior que 2 até o momento em que escrevo isso
# podemos relacionar essas condições com uma ação
# como um "acionador"
# veja como podemos fazer isso

In [None]:
# condicional if

if 5>2:
    print("5 é maior que 2, ufa!")

Algumas coisas são importantes notar:

- Em Python não precisamos por as condições entre parênteses. Mas se você usar também funciona!
- Python não possui chave para separar os blocos de código, mas a identação é muito importante!
- Não esqueça os dois pontos também!

In [None]:
# multiplas condições
# é possível usar multiplas condições em um único if usando operadores lógicos and e or

if (5 > 2 and 3 < 6):
    print("Deu certo!")
    
if (5 > 2 or 3 > 6):
    print("Também deu certo!")

In [None]:
# o condicional and é equivalente a utilizar um if dentro de outro

if 5 > 2:
    if 3 < 6:
        print("Vê?")

In [None]:
# já o condicional or é equivalente a escrever dois if separadamente com a mesma ação

if 5 > 2:
    print("Okay, né?")
if 3 > 6:
    print("Okay, né?")

Até agora fizemos operações usando os operadores "maior que" (>) e "menor que" (<). Mas atente para outros sinais:

- maior que ou igual (>=)
- menor que ou igual (<=)
- igual (==)
- diferente (!=)

perceba que o operador de igualdade é "==", um único "=" significa atribuição, conforme vimos em variáveis. Dois "=" significam comparação.

In [None]:
if 'Python' != 'Javascript':
    print('Python é diferente de Javascript')

lista1 = [1,2,3,4]
lista2 = [5,6,7,8]

if len(lista1) == len(lista2):
    print('As lista têm o mesmo tamanho')
    
dicionario = {'Machine':'Learning','Inteligência':'Artificial'}

if 'Machine' in dicionario:
    print(dicionario['Machine'])

In [None]:
# acho que isso ficou claro
# imagine agora que a condição não seja atendida
# mas que sua negação também implique em uma ação
# como você atacaria esse problema?

In [None]:
# em alguns casos, a resposta é simples
# basta fazermos dois if: um com a condição e outro com sua negação

if 3 > 6:
    print('Algo está errado aqui...')
if 3 <= 6:
    print('Ufa!')
    
# a negação de "3 maior que 6" é "3 menor que OU IGUAL a 6"

In [None]:
# mas em alguns casos, pensar na negação não é tão simples
# para poupar-nos desse sofrimento, existe uma estrutura que faz isso por nós
# esse é o else

if 3 > 6:
    print('Algo está errado aqui...')
else:
    print('Ufa!')

In [None]:
# o else não exige nenhuma condição
# ele sempre nega o if imediatamente anterior a este
# se houver alguma estrutura entre estes você terá um erro

num1 = 3
num2 = 6

if num1 > num2:
    print('Algo está errado aqui...')
    
num1 = 5
    
else:
    print('Ufa!')

In [None]:
# mas nesse caso de verificar se um número é maior que outro
# ou em outros casos
# a negação inclui várias possibilidades
# nesse caso, por exemplo, num1 poderia ser menor que num2 ou poderia ser igual
# o else inclui ambas possibilidades
# se você quiser atacar cada uma separadamente pode usar a estrutura elif

num1 = 3
num2 = 6

if num1 > num2:
    print('{} > {}'.format(num1, num2))
elif num1 == num2:
    print('{} = {}'.format(num1, num2))
elif num1 < num2:
    print('{} < {}'.format(num1, num2))
    
# já o elif requer uma condição

## Estruturas de loop e repetição
<div id="loops"></div>

Agora imagine que você queira realizar uma ação constantemente __enquanto__ a condição for verdadeira.

Para isso, você pode utilizar as funções de loop do Python. Começando pela mais simples de todas (e com o nome mais intuitivo) o *while*

In [None]:
# imagine que você quer printar o valor de um contador enquanto ele for menor que um certo limite
# sendo esse contador acrescido de uma unidade após cada comparação
# o if não atenderia sua demanda pois, do contrário, você teria que escrever vários if consecutivamente

# printar o valor de count enquanto count < limit:

count = 0
limit = 10
if count < limit:
    count += 1
else:
    print(count)
    
if count < limit:
    count += 1
else:
    print(count)
    
# ...
# você já entendeu onde isso vai dar e, claramente, não é o mais eficiente

In [None]:
# o while pode te ajudar com esse problema, veja como funciona a estrutura:

count = 0
limit = 10

while count < limit:
    count += 1
print(count)

# muito simples, né?

In [None]:
# o while também aceita um condicional else

count = 0
limit = 10

while count < limit:
    print('Count ainda é menor que limit')
    count += 1
else:
    print(count)

In [None]:
# essa estrutura acima é chamada de while controlado por contador
# nesse caso, a variável controlada também é usada na condição
# mas existem outros tipos, por exemplo, while controlado por sentinela
# nesse caso, a condição usa um valor "sentinela" definido para parar o loop

sentinel = 'h'
position = 0
word = 'Python'
letter = word[position]

while letter != sentinel:
    position += 1
    letter = word[position]
print('{0} está na posição {1} na palavra {2}'.format(sentinel, position, word))

In [None]:
# existem diversos outros tipos, mas não é nosso foco estudarmos isso
# esses dois tipos já nos satisfazem bem

In [None]:
# existem alguns comandos úteis que podem ser usados em conjunto com o while
# veja alguns destes

# pass
# este pode ser usado para pular uma etapa do while

count = 0
limit = 10

while count < limit:
    if count < 4:
        pass
    else:
        print(count)
    count += 1

In [None]:
# perceba que o pass não ignora o código fora do if

count = 0
limit = 10

while count < limit:
    if count < 4:
        pass
    print(count)
    count += 1

# mas existe um comando com uma utilidade parecida que o faz

In [None]:
# continue

count = 0
limit = 10

while count < limit:
    count += 1
    if count < 4:
        continue
    print(count)
    
# perceba que o print, mesmo fora do if, foi ignorado
# o continue literalmente pula essa etapa do while
# se você não colocar a soma antes do continue, você iria ver que o while ficaria rodando infinitamente
# uma vez que ele ignoraria essa ação

In [None]:
# break
# este é um comando ainda mais radical uma vez que ele aborta o while, independente da condição superior

count = 0
limit = 10

while count < limit:
    if count == 4:
        break
    count += 1
    print(count)

Existe uma estrutura de loop que substitui e while e é mais prático algumas vezes. Este é o *for*

In [None]:
# o for é muito usado para ler listas, dicionários, sequências...
# veja um exemplo

carrinho = ['Machine Learning - Tom Mitchell', 'Deep Learning - Goodfellow et al', 'Hands-on Machine Learning - Aurelion Geron']

for item in carrinho:
    print(item)

In [None]:
# você pode ainda varrer as chaves ou valores de um dicionário

carrinho = {'Machine Learning':{'autor':'Mitchell, Tom', 'publisher':'McGraw-Hill'},
            'Deep Learning':{'autor':'Goodfellow et al', 'publisher':'MIT Press'},
            'Hands-on Machine Learning':{'autor':'Geron, Aurelion', 'publisher':'OReilly Media'}}

print('TÍTULOS DOS LIVROS')
for title in carrinho.items():
    print(title)
    
print('\nAUTORES DOS LIVROS')
for item in carrinho.values():
    print(item['autor'])

In [None]:
# o for pode ser usado em combinação com o range
# o range gera uma 'lista' de números inteiros
# entre aspas pois o range NÃO é uma lista
# ainda que possa ser transformado em uma

print(type(range(10)))
print(range(10))

In [None]:
# o exemplo acima gera os 10 primeiros números inteiros a partir do zero

for integer in range(10):
    print(integer)

In [None]:
# o range recebe 3 argumentos:
# range(start, stop, step)
# se apenas um for passado, ele considera start=0 e step=1
# veja um caso completo

for integer in range(3,20,2):
    print(integer)

In [None]:
# o step pode, inclusive, ser negativo
# só atente que, nesse caso, stop < start

for integer in range(10,0,-1):
    print(integer)

In [None]:
# os comandos pass, continue e break também se aplicam ao for
# a usabilidade do for é parecida com a do while, entretanto ele é mais fácil de ser inicializado e mais prático
# veja um exemplo de como ele pode ser mais prático
# imagine que você queira ler os itens da lista usada no primeiro exemplo
# veja como seria com while

count = 0
carrinho = ['Machine Learning - Tom Mitchell', 'Deep Learning - Goodfellow et al', 'Hands-on Machine Learning - Aurelion Geron']
limit = len(carrinho)

while count < limit:
    print(carrinho[count])
    count += 1
    
# esse é apenas um exemplo
# se você se dedicar a esse caminho desafiador do machine learning, você com certeza topará em vários outros

## Funções
<div id="funcoes"></div>

Imagine agora que você desenvolva uma estrutura de código com tudo que você já aprendeu até aqui e deseje testar a mesma estrutura com diferentes variáveis. Você sempre pode copiar e colar o código e mudar aquilo que julgar melhor, mas existe um jeito ainda mais fácil: transformar aquele seu código em uma *função*

em Python usamos o comando *def* para criar uma função

```python
def funcao(input1, input2, input3, ...):
    codigo_aqui
    return output
```

In [None]:
# veja um exemplo

def somar_dois_numeros(num1, num2):
    soma = num1 + num2
    return soma

In [None]:
somar_dois_numeros(10, 20)

In [None]:
# você pode até mesmo usar funções dentro de funções

def soma(num1, num2):
    return num1+num2

def multiplicacao(num1, num2):
    return num1*num2

def subtracao(num1, num2):
    return num1-num2

def divisao(num1, num2):
    if num2 == 0:
        return 'Impossível dividir um número por zero!'
    return num1/num2

def fatoracao(num1):
    if num1 < 0:
        return 'Impossível fatorar números negativos! E não venha com suas teorias de doutorado de que é possível!'
    else:
        fat = 1
        while num1 > 1:
            fat *= num1
            num1 -= 1
        return fat

In [None]:
def calculadora(num1, symbol, num2=0):
    
    '''
    Função que simula uma calculadora simples
    - num1: input1
    - num2: input2, opcional no caso de fatorial
    - symbol: símbolo que representa a operação desejada
        - '+' para soma
        - '-' para subtração
        - '*' para multiplicação
        - '/' para divisão
        - '!' para fatoração
    '''
    
    if symbol == '+':
        return soma(num1, num2=0)
    elif symbol == '-':
        return subtracao(num1, num2=0)
    elif symbol == '*':
        return multiplicacao(num1, num2=1)
    elif symbol == '/':
        return divisao(num1, num2=1)
    elif symbol == '!':
        return fatoracao(num1)
    
    return 'Cheque seus inputs!'

In [None]:
# percebeu aquele imenso texto vermelho entre aspas simples?
# isso se chama doc string
# é uma string que explica o funcionamento de sua função, a documentação
# é uma boa prática colocá-la sempre

help(calculadora)

## Trabalhando com arquivos
<div id="arquivos"></div>

Se você é um usuário frequente de computador (imagino que você seja) você possui na sua máquina vários arquivos (files). Eles são ótimos para acessar, armazenar e manipular dados. Você vai ver agora como fazer isso com Python

In [None]:
# ler arquivos
# para ler o conteúdo de um arquivo precisamos primeiro abrí-lo

# para abrir um arquivo você usará a função open
# ela recebe dois argumentos: o caminho (path) para o arquivo e uma letra que indica o que será feito
# r no caso significa read, w significa write, a significa append...
# existe uma variedade de outros, recomendamos que leia a documentação para conhecer mais
file = open('./data/demo_read_file.txt','r')
texto = file.read()
print(texto)

In [None]:
# você pode ler quantos caracteres quiser

texto = file.read(5)
print(texto)

In [None]:
# pera, o que aconteceu aqui?
# você também obteve um monte de NADA?
# isso acontece porque, quando você lê um arquivo, o cursor é posto no final do texto
# se você abrir o arquivo novamente, o cursor volta pra posição zero

file = open('./data/demo_read_file.txt','r')
texto = file.read(5)
print(texto)

In [None]:
# você pode voltar para uma determinada posição usando o método seek()

# nesse caso, estamos voltando à posição 0, o começo do arquivo
file.seek(0,0)
texto = file.read(6)
print(texto)

se quiser entender mais sobre como ler arquivos, vale dar uma lida nesse <a href="https://www.w3schools.com/python/python_file_open.asp" target="_blank">link</a>

In [None]:
# você pode ainda escrever em arquivos

# antes de rodar essa célula!
# verifique a pasta data e perceba que o arquivo demo_write_file.txt não existe
# caso você já tenha rodado, tudo bem, apague esse arquivo e continue como se nada tivesse acontecido

file = open('./data/demo_write_file.txt', 'w')
texto = "Hello! I'm the demo_write_file!"
file.write(texto)
file.close()

In [None]:
# agora olhe a pasta novamente
# viu que o arquivo foi criado?
# isso é porque a tag 'w' cria um arquivo caso esse não exista
# outra coisa que você deve notar é que eu usei agora um método .close()
# isso porque o arquivo deve ser fechado após ser escrito

In [None]:
# vamos ver o que você escreveu no arquivo agora!

file = open('./data/demo_write_file.txt','r')
texto = file.read()
print(texto)

In [None]:
# atenção!
# se você precisar acrescentar algo a seu arquivo não use a tag 'w' novamente
# isso porque você irá SOBRESCREVER o que você escreveu antes

file = open('./data/demo_write_file.txt', 'w')
texto = "Ops! Algo de errado aconteceu aqui..."
file.write(texto)
file.close()

In [None]:
file = open('./data/demo_write_file.txt','r')
texto = file.read()
print(texto)

In [None]:
# se quiser acrescentar algo, use a tag 'a' para fazer append de algo
# eu sei, eu sei
# talvez você saiba que existem outras formas de fazer isso
# mas não vem ao caso aqui

file = open('./data/demo_write_file.txt', 'a')
texto = "\nDa próxima vez use a tag 'a' para acrescentar algo!"
file.write(texto)
file.close()

In [None]:
file = open('./data/demo_write_file.txt','r')
texto = file.read()
print(texto)

In [None]:
# e não é só .txt que você pode manipular não
# veja como poderíamos ler o arquivo housing.csv que você irá usar no projeto mais pra frente

file = open('./data/housing.csv','r')
conteudo = file.read()
print(conteudo)

In [None]:
# bem desorganizado né?
# isso tudo é um único texto
# mas talvez seja útil separar esse texto em partes menores
# as linhas talvez?

# separando o texto pelo '\n' que marca uma quebra de linha
rows = conteudo.split('\n')
type(rows)

In [None]:
# agora você pode ver uma única linha
rows[0]

futuramente você vai aprender como tratar e visualizar esse tipo de arquivo de um jeito bem mais simples

## Programação Orientada a Objetos (POO)
<div id="poo"><div>

Um dos diferenciais de Python é que esta é uma língua orientada a objeto. Todos os tipos de variáveis estudadas até aqui são objetos (strings, floats...), com seus métodos e seus atributos. De agora em diante vamos ensiná-lo a criar seus próprios objetos, tipos de variáveis únicos.

Programação Orientada a Objetos é só uma das formas de programação que existem. Se quiser entender mais sobre isso dá uma lida nesse <a href="https://pt.wikipedia.org/wiki/Programa%C3%A7%C3%A3o_orientada_a_objetos" target="_blank">link</a>

In [None]:
# para declararmos um objeto usamos a expressão class

class Filme():
    
    # a função init é sempre necessária, sim, tem esses '_' mesmo
    def __init__(self):
        # self é uma expressão que usamos para nos referirmos ao objeto criado
        self.titulo = 'Toy Story'
        self.diretor = 'John Lasseter'
        print('Você acabou de criar um objeto da classe filme!')
        
    def imprimir_titulo_e_autor(self):
        print('{0} é um filme dirigido por {1}'.format(self.titulo, self.diretor))

In [None]:
# agora, para criar um objeto desse tipo, basta chamarmos o objeto
# da mesma forma que para criarmos uma lista podemos apenas invocar a classe list()

filme = Filme()

In [None]:
# você pode se perguntar qual o tipo dessa variável que criou, veja:

type(filme)

In [None]:
# você pode estar se perguntando de que serve aquele self.titulo, aquela função que imprime os dados...
# pois bem, agora você vai entender a diferença entre um atributo e um método

In [None]:
# de maneira bem simples, atributos são propriedades (características) de um objeto
# já os métodos são as ações que estes objetos podem fazer

# atributos são convocados da seguinte forma:
print(filme.titulo)

In [None]:
# já os métodos são de uma maneira bem parecida, mas você precisa acrescentar () ao fim
filme.imprimir_titulo_e_autor()

In [None]:
# caso não tenha ficado claro, imagine que gato fosse um objeto
# atributos seriam coisas como tamanho, raça, cor, nome...
# já os métodos seriam coisas como miar, caçar passarinho ou dormir em cima do teclado do seu dono

In [None]:
# legal né?
# mas você pode ter percebido que aquela classe não é bem uma classe filme que possa representar qualquer filme
# está mais para uma classe Filme_do_Toy_Story
# você pode trocar os atributos da sua classe

filme.titulo = 'Rio'
filme.diretor = 'Carlos Saldanha'
filme.imprimir_titulo_e_autor()

In [1]:
# mas existe um jeito de inicializar o objeto já com os atributos desejados
# veja como deveriamos ter construído a classe nesse caso

class Filme():
    def __init__(self, titulo, diretor):
        self.titulo = titulo
        self.diretor = diretor
        print('Você acabou de criar um objeto da classe filme!')
        
    def imprimir_titulo_e_autor(self):
        print('{0} é um filme dirigido por {1}'.format(self.titulo, self.diretor))

In [4]:
filme1 = Filme('Seila','Naosei')
filme2 = Filme('Tantofaz','Deixa')

Você acabou de criar um objeto da classe filme!
Você acabou de criar um objeto da classe filme!


In [5]:
string1 = 'Seila'
string2 = 'Tantofaz'
string1 = string2
string2 = 'Deixa'
string1, string2

('Tantofaz', 'Deixa')

In [6]:
filme1 = filme2
filme1.titulo = 'Qualquercoisa'
filme2.titulo = 'Nadademais'
filme1.titulo, filme2.titulo

('Nadademais', 'Nadademais')

In [None]:
# veja agora:
filme = Filme('Os Incríveis','Brad Bird')

In [None]:
filme.imprimir_titulo_e_autor()

In [None]:
# uma vantagem desse tipo de programação é a capacidade de que uma classe herde atributos de outra
# por exemplo, imagine que você deseje criar uma classe para cachorros e outra classe para gatos
# mas você deve concordar que estes objetos compartilham de diversos métodos
# por exemplo comer, correr, morder sua perna... vários
# enquanto outros são bem particulares: latir, miar...
# para isso podemos criar uma super-classe e, a partir desta, criar outras sub-classes que herdem atributos dessa
# veja como fazer isso

In [None]:
# criando a super-classe

class Animal():
    
    def __init__(self, tamanho, peso):
        self.tamanho = tamanho
        self.peso = peso
        
    def comer(self):
        print('Comendo...')
        
    def dormir(self):
        print('zzz...')
        
# nossa super-classe é a classe animal
# nela colocamos atributos e métodos comuns à maioria dos animais

In [None]:
# criando sub-classe

class Gato(Animal):
    
    def __init__(self, tamanho, peso):
        # tamanho em cm
        # peso em kg
        Animal.__init__(self, tamanho, peso)
        print('Gato criado!')
        
    def miar(self):
        print('Seu gato está miando! Pode ser fome...')

In [None]:
# criamos agora um objeto Gato

tiberius = Gato()
# "Tiberius é o nome do meu gato" - Caio

In [None]:
# viram que, apesar de Gato não necessitar do atributo tamanho e peso você obteve um erro?
# isso porque gatos são animais (pelo menos o meu é) e Animal necessita desses dois atributos

tiberius = Gato(27, 4.8)

In [None]:
# agora convoque um método da sub-classe gato

tiberius.miar()

In [None]:
# perceba que, como Gato recebe Animal como parâmetros, ele também possui os métodos desse

tiberius.dormir()

In [None]:
# esse é o conceito de herdar características de outra classe

## Pacotes úteis
<div id="pydata"></div>

Vamos ensinar agora alguns pacotes úteis de Python. Com estes você já será totalmente capaz de resolver o desafio que vamos te passar.

Nós vamos apenas raspar a casca desse mundo de pacotes de data science, sempre consulte a documentação!

### Numpy

Essa é uma library poderosa para lidar com arrays (vetores) n-dimensionais de uma maneira mais eficiente. A título de curiosidade, essa biblioteca é usada não só para machine learning, mas em áreas como química, biologia, computação quântica... ela foi usada até para produzir aquela imagem que você viu um tempo atrás do primeiro buraco negro "fotografado".

Vamos aprender um pouco sobre ela aqui, mas atenção, isso não substitui (nem chega perto de substituir) a documentação do pacote que você pode achar <a href="https://numpy.org/" target="_blank">aqui</a>.

In [None]:
# para importar um módulo você precisa instalá-lo através do pip
# você possivelmente já tem esse pacote, mas você pode rodar essa célula se não tiver

!pip install numpy

In [None]:
# para usar o pacote, você deve importá-lo

import numpy as np

In [None]:
# você pode ainda importar um único método ou função de um pacote

from numpy import arange

In [None]:
# o atributo __version__ indica a versão do pacote

np.__version__

In [None]:
# vamos ver como criar um array
# você pode sempre usar a função help() para entender como funciona uma função

help(np.array)

In [None]:
# você também pode posicionar o cursor no método ou atributo que deseja consultar e apertar shift+tab

In [None]:
# o método array() gera um array de uma lista do Python

array = np.array([1,2,3])
array

In [None]:
# o atributo dtype devolve o tipo das variáveis armazenadas no array

array.dtype

In [None]:
# vamos consultar o tipo do array que criamos

type(array)

In [None]:
# o atributo shape devolve o tamanho do array
# a ausência de um número após a vírgula significa 1
array.shape

In [None]:
# existem métodos muito úteis para gerar arrays automaticamente

# o método arange gera um array dentro de uma determinada range
np.arange(10)

In [None]:
# o método reshape é útil para auterar a forma desse array

np.arange(10).reshape(2,5)

# duas linhas, cinco colunas

In [None]:
# você pode ainda gerar um array de zeros ou de uns
# precisando especificar apenas o shape

np.zeros((5,5))

In [None]:
# perceba que o shape pode ter quantas entradas você quiser

# uma "stack" de quatro matrizes, com 4 linhas e 2 colunas
# é como se fosse um paralelepipedo de 4x4x2
np.ones((4,4,2))

In [None]:
# o método linspace(i,f,n) cria uma quantidade de n números num intervalo de i a f igualmente espaçados

np.linspace(0,1,10)

In [None]:
# uma coisa importante de saber é que você pode aplicar uma mesma função a um array de elementos

from numpy import pi
import matplotlib.pyplot as plt

x = np.linspace(0, 2*pi, 100)
f_x = np.sin(x)

plt.plot(x,f_x)
plt.show()

# relaxa que você vai aprender a plotar gráficos mais pra frente

In [None]:
# também é possível aplicar uma mesma operação a todos os elementos de um array

10*np.arange(1,5)

In [None]:
np.arange(5) - 4

In [None]:
5<np.arange(3,8)

In [None]:
# o elemento array do numpy também possui várias operações únicas

array1 = np.array([1,1,0,1]).reshape(2,2)
array2 = np.array([2,0,3,4]).reshape(2,2)

# produto de elemento por elemento:
print("produto de elemento por elemento")
print(array1*array2)

# produto matricial
print("\nproduto matricial")
print(array1@array2)

# ou você pode usar o método dot
print("\ntambém produto matricial mas usando método dot")
print(array1.dot(array2))

In [None]:
# você também pode usar vários métodos de listas aqui
# mas vamos ver alguns métodos úteis de np.array

array = np.arange(10)
print('Média: {}\n'.format(array.mean()))
print('Mínimo: {}\n'.format(array.min()))
print('Máximo: {}\n'.format(array.max()))
print('Soma: {}\n'.format(array.sum()))
print('Desvio Padrão: {}\n'.format(array.std()))
print('Soma cumulativa: {}\n'.format(array.cumsum()))

In [None]:
# como dito, numpy é muito útil para lidar com arrays n-dimensionais
# isso inclui matrizes
# portanto numpy possui vários atributos úteis para essa estrutura, como transposição

array = np.arange(15).reshape(3,5)
print(array)

In [None]:
# o atributo T devolve a transposta da matriz

array.T

In [None]:
# o atributo linalg do numpy possui vários métodos úteis

# calcular a inversa
array = np.arange(1,5).reshape(2,2)
np.linalg.inv(array)

In [None]:
# e até um método para solucionar equações lineares

y = np.array([5,7]).reshape(2,1)
np.linalg.solve(array,y)

In [None]:
# enfim, uma infinidade de funções, métodos, atributos...
# por enquanto é isso, você pode achar muito mais, se necessário, na documentação

## Pandas

Você pode ter notado que a apresentação do arquivo CSV que abrimos anteriormente não é das mais bonitas e eu lhe garanto que também não é das mais fáceis de trabalhar. Para isso existe uma library muito prática e com diversas funções que tornam a análise de dados e arquivos muito mais prático.

De novo, dê uma lida na <a href="https://pandas.pydata.org/" target="_blank">documentação</a>!

In [None]:
# rode essa célula caso você não possua a library

!pip install pandas

In [2]:
# importe a library e confira a versão

import numpy as np
import pandas as pd
pd.__version__

'1.1.1'

In [3]:
# o grande diferencial do pandas está no seu objeto Series
# que possui uma série de atributos e métodos para processar dados

series = pd.Series([1,2,3,np.nan,5,6])
series

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

In [4]:
# o elemento NaN ou np.nan representa a ausência de um valor
# cuidado! ele é diferente de um objeto null ou None

In [5]:
# como sempre, vamos conferir o tipo de series

type(series)

pandas.core.series.Series

In [None]:
# com Pandas você criar uma ainda objetos do tipo DatetimeIndex
# muito útil para trabalhar com séries temporais

dates = pd.date_range('20200101', periods=9)
dates

In [None]:
type(dates)

In [None]:
# tá bom, mas você pode estar pensando
# "que saco, que saco, numpy já não fazia isso?"
# mas é aqui que entra um diferencial do Pandas em relação ao Numpy
# com pandas você pode unir duas ou mais séries e formar um DataFrame
# DataFrames são estruturas ótimas para lidar com tabelas e bases de dados

In [None]:
dataframe = pd.DataFrame(np.arange(5), index=['a','b','c','d','e'])
dataframe

In [None]:
type(dataframe)

In [7]:
# e isso seria só arranhar a superfície, você pode criar dataframes ainda mais complexos

df = pd.DataFrame({'Coluna 1':pd.date_range('20200101', periods=9),
                   'Coluna 2':np.arange(9),
                   'Coluna 3':'foo'})
df

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3
0,2020-01-01,0,foo
1,2020-01-02,1,foo
2,2020-01-03,2,foo
3,2020-01-04,3,foo
4,2020-01-05,4,foo
5,2020-01-06,5,foo
6,2020-01-07,6,foo
7,2020-01-08,7,foo
8,2020-01-09,8,foo


In [8]:
# você pode conferir o tipo de cada coluna

df.dtypes

Coluna 1    datetime64[ns]
Coluna 2             int32
Coluna 3            object
dtype: object

In [9]:
# plotar apenas uma ou mais colunas

df['Coluna 1']

0   2020-01-01
1   2020-01-02
2   2020-01-03
3   2020-01-04
4   2020-01-05
5   2020-01-06
6   2020-01-07
7   2020-01-08
8   2020-01-09
Name: Coluna 1, dtype: datetime64[ns]

In [10]:
# e inclusive conferir o nome das colunas do dataframe

df.columns

Index(['Coluna 1', 'Coluna 2', 'Coluna 3'], dtype='object')

In [11]:
# só pro caso de eu ainda não ter convencido você
# olha como fica o arquivo csv que tinhamos lido antes

df = pd.read_csv('./data/housing.csv')
type(df)

pandas.core.frame.DataFrame

In [12]:
# para visualizar só algunas linhas do dataframe
# é útil usar métodos como head(n) ou tail(n)
# head devolve as n primeiras linhas
# tail devolve as n últimas linhas
# se não for passado n, o valor default será 5

In [13]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [14]:
# muito melhor apresentado, não acha?

In [15]:
# um dataframe possui vários atributos e métodos em comuns com os arrays que vimos
# olha só alguns

# shape
df.shape

# 20640 linhas e 10 colunas

(20640, 10)

In [16]:
# média, desvio padrão, máximo...

print('MÉDIA')
print(df.mean())

print('\nDESVIO PADRÃO')
print(df.std())

print('\nE por aí vai...')

MÉDIA
longitude               -119.569704
latitude                  35.631861
housing_median_age        28.639486
total_rooms             2635.763081
total_bedrooms           537.870553
population              1425.476744
households               499.539680
median_income              3.870671
median_house_value    206855.816909
dtype: float64

DESVIO PADRÃO
longitude                  2.003532
latitude                   2.135952
housing_median_age        12.585558
total_rooms             2181.615252
total_bedrooms           421.385070
population              1132.462122
households               382.329753
median_income              1.899822
median_house_value    115395.615874
dtype: float64

E por aí vai...


In [17]:
# mas existe um método que te volve todos esses valores e mais alguns
# é o método describe

df.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [18]:
# o atribulo loc é muito útil para filtrar colunas ou linhas

# df.loc[linhas, colunas] ou ":" se quiser ler todas as linhas ou colunas
df.loc[10:15, ['longitude','latitude']]

Unnamed: 0,longitude,latitude
10,-122.26,37.85
11,-122.26,37.85
12,-122.26,37.85
13,-122.26,37.84
14,-122.26,37.85
15,-122.26,37.85


In [19]:
# caso você não conheça o nome da coluna ou linha
# você pode filtrar por posição usando iloc

df.iloc[300:305, 4:6]

Unnamed: 0,total_bedrooms,population
300,261.0,907.0
301,175.0,447.0
302,452.0,1299.0
303,236.0,396.0
304,257.0,877.0


In [None]:
# você pode ainda passar uma condição ao dataframe

# filtrando apenas as linhas onde o valor da coluna population for maior que 1000
df[df['population'] > 1000]

In [None]:
# você pode, ainda, fazer uma cópia de um dataframe
# é muito útil para não passar modificações direto no dataframe

df_copy = df.copy()
df_copy.tail()

In [None]:
# e falando sobre passar modificações num dataframe
# o método apply é muito útil para aplicar funções em uma ou mais colunas de um dataframe

df_copy['population'].apply(lambda x: x**2)
# nesse caso, para cada elemento da coluna, calculamos o valor desse ao quadrado

In [None]:
# e falando em operações, você pode criar novas séries a partir de operações com as colunas do dataframe

df['total_bedrooms']/df['total_rooms']

In [None]:
# o resultado também é uma série e, portanto, você pode atribuir a uma nova coluna

df['razao_AreaQuarto_AreaTotal'] = df['total_bedrooms']/df['total_rooms']
df.head()

# veja lá no fim a nova coluna criada

In [None]:
# o método value_counts devolve o número de aparições de cada elemento de uma coluna

df['ocean_proximity'].value_counts()

In [None]:
# se você passar True pelo método, é possível conseguir a frequência relativa
# número de aparições/total de linhas

df['ocean_proximity'].value_counts(True)

In [None]:
# ainda é possível plotar uma variável numérica usando o método plot()

df.head(50)['population'].plot(figsize=(15,8))

In [None]:
# ou plotar uma variável por outra

df.plot.scatter(x='latitude',y='longitude',alpha=0.3,figsize=(12,12))

O que você vê acima é uma tentativa (mais ou menos bem executada) de plotar um mapa da Califórnia (de onde foi tirado os dados do dataset) através dos valores de latitude e longitura.

Bom, podemos fazer um trabalho bem melhor. E vamos, depois de vermos próxima e última parte do tutorial.

### Matplotlib

Como de praxe, não deixe de consultar a <a href="https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.html" target="_blank">documentação</a>.

In [None]:
# bom, nós não vamos bem aprender sobre matplolib
# mas sobre pyplot, uma subcoleção de funções do matplotlib para platar gráficos
# de novo, caso não possua a library, rode essa célula

!pip install matplotlib

In [None]:
# o conceito é bem simples
# você plota um gráfico através do método plot
# personalizado da maneira que preferir

import numpy as np
import matplotlib.pyplot as plt

In [None]:
# plotando um gráfico simples

x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)
plt.plot(x,y)
plt.show()

In [None]:
# você pode ainda plotar mais de uma figura no mesmo gráfico
y1 = np.cos(x)
y2 = np.tan(x)
plt.plot(x,y)
plt.plot(x,y1)
plt.plot(x,y2)
plt.show()

In [None]:
# meio difícil de ver, né?
# vamos usar o parametro figsize para ajeitarmos isso

fig = plt.figure(figsize=(20,15))
plt.plot(x,y)
plt.plot(x,y1)
plt.plot(x,y2)
plt.show()

In [None]:
# é, não tá bom ainda
# mas é claro, pois a função tangente explode para infinito em alguns pontos
# sendo assim, vamos limitar o intervalo mostrado nos eixos

plt.ylim((-1.5,1.5))
plt.plot(x,y)
plt.plot(x,y1)
plt.plot(x,y2)
plt.show()

In [None]:
# tá, desisto
# melhor só tirar o tangente e plotar separado mesmo kkk
# mas você aprendeu várias coisas com essa nossa tentativa!

In [None]:
# a propósito, também é possível plotar tipos diferentes de gráfico

x = np.arange(20)
y = x**2
plt.scatter(x,y)
plt.show()

In [None]:
# também é possível maquiar seu gráfico colocando legendas ou mudando a cor

plt.scatter(x,y,color='red')
plt.xlabel('eixo X')
plt.ylabel('eixo Y')
plt.show()

In [None]:
# ou gráficos de barra

values = df['ocean_proximity'].value_counts(True)
values.plot.bar()

In [None]:
# enfim, uma infinidade de parametros e atributos
# com isso, é possível criar gráficos como esse

df.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
    s=df["population"]/100, label="population", figsize=(10,7),
    c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
    sharex=False)
plt.legend()
plt.show()

In [None]:
# mas relaxa, por enquanto você não precisa fazer algo como isso

Com isso acabamos o tutorial!

Boa sorte no projeto! Estamos esperando por você na segunda fase!