#### Instalando o Python/Anaconda

- Windows: https://repo.anaconda.com/archive/Anaconda3-2018.12-Windows-x86_64.exe;
- MacOS: https://repo.anaconda.com/archive/Anaconda3-2018.12-MacOSX-x86_64.pkg;
- Para 32-Bit, substituir o 'x86_64' final por 'x86';
- Entre no link https://docs.anaconda.com/anaconda/install/ e selecione o sistema operacional;
- Siga as orientações.




# Introdução à programação

## O que é?

Um computador é uma máquina de fazer contas, mas é preciso que indiquemos qual sequência de contas queremos que ele faça. Precisamos traçar o plano, ou **programa**, de execução de cálculos.

Mas como fazer o computador entender o que temos em mente? Uma alternativa seria traduzir nosso programa em operações com binários e passar diretamente para a máquina, ou ter uma linguagem intermediária, mais fácil de ser escrita e entendida por um humano. A este caso, que pode ocorrer em maior ou menor grau de abstração, chamamos de **linguagem de programação**.

![colossus](colossus.jpg "colossus")

# Noções básicas de Python

Python é uma linguagem de computação.

## Importar bibliotecas

É feito usando o comando **import** (a biblioteca deve estar instalada na máquina)

In [0]:
import pandas
import numpy
import matplotlib.pyplot
import seaborn

Para facilitar, pode-se substituir o nome da biblioteca por um *alias

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Ao se importar bibliotecas com muitas funções, convém também selecionar especificamente o que vai ser usado

In [0]:
from sklearn.linear_model import LinearRegression

## É bom saber... mas o Google pode te ajudar...

## Sintaxe

### Variáveis

**O QUE É UMA VARIÁVEL?** 

Não é preciso declarar o tipo de variável: numérico, caracter, etc. Ele já será assumido

**Obs**: você não precisa decorar todas as sintaxes, o google vai te ajudar a lembrar depois

In [0]:
nguest = 3
description = '2 bedrooms in Gávea super cozy' # ou "2 bedrooms in Gávea super cozy"

In [39]:
nguest

3

In [40]:
description

'2 bedrooms in Gávea super cozy'

### String (caracter)

Strings são definidas com áspas - simples ou duplas -, e podem ser concatenadar com o operador  '+'

In [41]:
nome='Roberto'
num_pes='2'
num_dias='4'

confirma="Olá, "+nome+", você reservou um quarto para "+num_pes+" pessoas durante "+num_dias+" dias \n\nBoa estadia!"

print(confirma)

Olá, Roberto, você reservou um quarto para 2 pessoas durante 4 dias 

Boa estadia!


Nota: o caracter "\" é usado para diferenciar caracteres especiais, por ex:
    - \n: nova linha
    - \": áspas
    - \t: tab

Para a barra invertida, usa-se a sequência **"\\\\"**, ou, para ignorar "\" como caracter especial, **r""**

In [42]:
caminho1="\\ofertas\\carnaval"
caminho2=r"\agendamentos\pendentes"

print(caminho1)
print(caminho2)

\ofertas\carnaval
\agendamentos\pendentes


Use a função **print** para imprimir o seguinte texto:

    Num famoso depoimento, Ayrton Senna diz:

         "Seja quem você for, seja qualquer posição que você tenha na vida, do nível altíssimo ou mais baixo, tenha sempre como meta muita força, muita determinação e, sempre, faça tudo com muito amor e com muita fé em Deus que um dia você chega lá. De alguma maneira você chega lá".

### Númericos

Há dois tipos de variáveis númericas, os inteiros e os *float*, ou representação decimal. Caso um número seja inteiro mas queiramos declará-lo como *float*, basta adicionar um ponto no final.

In [43]:
a_int = 2
a_flt = 2.

print("a_int: ", type(a_int))
print("a_flt: ", type(a_flt))

a_int:  <class 'int'>
a_flt:  <class 'float'>


Temos todas as operações básicas:

In [44]:
a=3
b=13

print('a+b=', a+b)
print('a-b=', a-b)
print('a.b=', a*b)
print('b/a= %.2f ' % (b/a)) # %.nf imprime o float com n casas decimais
print('resto da divisão de b por a=', b%a) 
print('parte inteira da divisão de b por a=', b//a)
print('a elevado a b=', a**b)

a+b= 16
a-b= -10
a.b= 39
b/a= 4.33 
resto da divisão de b por a= 1
parte inteira da divisão de b por a= 4
a elevado a b= 1594323


Além disso, também utilizamos a biblioteca **numpy** para algumas operações.

In [45]:
print('raiz quadrada de b= %.2f' % np.sqrt(b))
print('log natural a= %.2f' % np.log(a))
print('área de um círculo de raio b= %.2f' % (np.pi*b**2))

raiz quadrada de b= 3.61
log natural a= 1.10
área de um círculo de raio b= 530.93


**Curiosiade**: como calculamos $\sqrt[a]{b}$ ou $\log_a b\hspace{1mm}$?

### Booleanas

Variáveis "booleanas" podem receber apenas dois valores: verdadeiro ou falso (**True** ou **False**), e podem ser utilizadas em comparações. E pra que servem?

Vamos supor que queremos programar um robô para, baseado em um algumas condições, decidir se devemos ou não comprar ações de uma determinada empresa na Bolsa de Valores. Como a ideia é ganhar dinheiro e não perder, vamos ver que condições Warren Buffet verifica quando analisa uma empresa. 

![warren_buffet.jpg](attachment:warren_buffet.jpg)

Warren Buffett percebeu que, se a vantagem competitiva de uma empresa pudesse ser mantida por um período longo - se fosse “durável” -, seu valor continuaria a aumentar ano após ano. Buffett desenvolveu então um conjunto de ferramentas analíticas para, a partir de balanços e demonstrativos de resultado, identificar empresas que tenham uma vantagem competitiva de longo prazo em relação às suas concorrentes. 

Vamos pegar algumas poucas regras que possam indicar se uma empresa tem uma **vantagem competitiva durável** ou não:
- Na busca por uma companhia com uma vantagem competitiva durável, quanto mais baixas forem as **despesas VGA** em relação ao lucro bruto, melhor. Se for possível mantêlas constantemente baixas, melhor ainda. No mundo dos negócios, qualquer número abaixo de 30% é considerado fantástico.
- Uma regra simples (e há exceções) é que, se uma empresa está apresentando um histórico de **lucros líquidos** superiores a 20% da receita total, há boas chances de ela estar se beneficiando de algum tipo de vantagem competitiva de longo prazo.
- Empresas que precisam investir muito em **P&D** têm um falha inerente em sua vantagem competitiva que vai sempre pôr suas condições econômicas de longo prazo em risco, o que significa que não são seguras.

In [46]:
condicao_1 = True #Despesas de vendas, gerais e administrativas (VGA)/ Lucro bruto < 30% (indica algum tipo de vantagem competitiva)
condicao_2 = False # Lucro líquido/ receita total > 20% (indica algum tipo de vantagem competitiva)

vantagemCompetitiva = condicao_1 | condicao_2
comprar = condicao_1 & condicao_2

print('Vantagem competitiva: ', vantagemCompetitiva)
print('Comprar: ', comprar)

Vantagem competitiva:  True
Comprar:  False


In [47]:
condicao_3 = False #Empresas que precisam investir muito em P&D, mesmo que tenham uma vantagem competitiva hoje, dificilmente têm uma vantagem competitiva durável

vantagemCompetitivaDuravel = vantagemCompetitiva & (not condicao_3)

print('Vantagem competitiva durável: ', vantagemCompetitivaDuravel)

Vantagem competitiva durável:  True


### Lists (listas/array)

Vamos supor que queremos que nosso robô analise todas as empresas listadas na Bolsa e monte uma lista de sugestões de compra. Será que existe uma forma de listar um conjunto de variáveis?

Listas são definidas com colchetes [ ], e são exatamente isso, listas de variáveis

In [0]:
sugestoesDeCompra = ['Itaú Unibanco','Lojas Renner','Grendene']

Inclusive, as variáveis não precisam ser necessariamente do mesmo tipo. Vamos supor que para cada ação analisada, queremos criar uma nova lista que guarde todas as informações necessárias para caso queiramos executar uma ordem de compra, por exemplo:
- Empresa,
- Ticker, 
- Se devemos ou não lançar a ordem de compra (se a empresa está entre as empresas sugeridas pelo nosso robô),
- Quantidade de ações que queremos comprar e 
- Preço de compra

In [0]:
ordemDeCompra=['Itaú Unibanco','ITUB3', True, 100, 32.33]

Para acessar um elemento, utiliza-se um índice, que em Python começa do 0, como na maioria das linguagens.

Comandos úteis são:
    - sum(): soma
    - len(): comprimento da lista - número de elementos
    - in: checar pertencimento
    - .extend: adiciona uma lista à outra
    - +: concatena listas
    - .append: adiciona elemento a uma lista
    - sorted(): ordena os elementos de acordo com seu módulo

In [50]:
precosHistoricos = [35.4, 34.8, 34.9, 35.2, 35.4, 35.5, 34.7, 34.3, 35.9, 35.7]
precoMedio = sum(precosHistoricos)/len(precosHistoricos) # 3.6

print('\nPreço médio: ', precoMedio)


Preço médio:  35.18


In [51]:
comprarItau = 'Itaú Unibanco' in sugestoesDeCompra
ordemDeCompra=['Itaú Unibanco','ITUB3', comprarItau, 100, 35.3]

print('\nComprar ações da empresa ' + ordemDeCompra[0] + " (" + ordemDeCompra[1] + ')? ', ordemDeCompra[2])
print('\nQuantas ações? ' + str(ordemDeCompra[3]))
print('\nA que preço? R$' + str(ordemDeCompra[4]))


Comprar ações da empresa Itaú Unibanco (ITUB3)?  True

Quantas ações? 100

A que preço? R$35.3


##### EXERCÍCIOS

**1.** Estamos trabalhando em um projeto de consultoria para um pequeno grande escritório de advocacia. Vamos supor que o escritório não é tão grande assim e tem apenas 3 processos no histórico:
    
Número do processo: 12341414
<br>Nome do advogado: Friedrich Carl non Savigny
<br>Encerrado: True

Número do processo: 12718271
<br>Nome do advogado: Heinrich Dernburg
<br>Encerrado: False
    
Número do processo: 34355355
<br>Nome do advogado: Fritz Schulz
<br>Encerrado: True
    
    
**1.a)** Para cada um destes processos, crie uma lista contendo as seguintes informações:
    - Número do processo
    - Nome do advogado
    - Encerrado

**1.b)** Crie uma lista de listas para armazenar as informações referentes a todos estes processos

### Tuples (tuplas)

Tuplas têm basicamente as mesmas propriedades das listas, porém não podem ser modificadas depois de declaradas. 

Mas em que situações eu gostaria de usar uma tupla? Vamos supor que uma startup de E-Commerce nos contratou para desenolver o sistema de avaliação do seu site. Por uma questão de governança, as avaliações feitas pelos clientes, uma vez registrados, não deveriam poder ser modificadas.  

In [52]:
ratings_tuple = 2, 3, 3, 4, 3 #Tuplas pode ser declaradas entre parenteses ou sem nenhum delimitador, como no exemplo
print (ratings_tuple)

try: 
    ratings_tuple[0] = 5
except TypeError:
    print('\nNão podemos modificar os ratings')

(2, 3, 3, 4, 3)

Não podemos modificar os ratings


Apesar disso, ainda podemos sobrescrever tuplas utilizando os mesmos nomes de variáveis

In [53]:
ratings_tuple =(5, 5, 5, 5, 5)
print(ratings_tuple)

(5, 5, 5, 5, 5)


### Dicionários

Mas será que não existe uma forma mais estruturada de armazenar as informações? Retomando nosso das ordens de compra de ações:

In [0]:
ordemDeCompra=['Itaú Unibanco','ITUB3', True, 100, 32.33]

Se eu quiser saber o preço de compra registrado, preciso acessar o quinto elemento da lista. Mas como eu sei que devo acessar o quinto e não o terceiro ou quarto elemento? 

In [55]:
preco_de_compra = ordemDeCompra[4]
print("Preço de compra: R$" + str(preco_de_compra))

Preço de compra: R$32.33


Podemos usar dicionários!! Dicionários são definidos com colchetes { }, e associam determinados valores a chaves, em vez de índices numéricos.

In [56]:
ordemDeCompra={'empresa': 'Itaú Unibanco', 'ticker': 'ITUB3', 'comprar': True, 'quantidade': 100, 'preço de compra': 32.33}

preco_de_compra = ordemDeCompra['preço de compra']
print("Preço de compra: R$" + str(preco_de_compra))

Preço de compra: R$32.33


##### EXERCÍCIOS

**1.** Vamos supor agora que trabalhamos para um hotel e, assistindo um vídeo sobre "Peak Moments", tivemos uma brilhante ideia.

In [57]:
from IPython.display import HTML

# Youtube
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/RPe7aJ8gsRQ?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

Tivemos a ideia de construir um dicionário de hóspedes, resgistrando informações que possam ser úteis nas próximas estadias. Desta forma, na próxima vez que um dado hóspede vier ao hotel, quem sabe não conseguimos surpreendê-lo com um mimo aqui ou ali, algo que o faça se sentir especial. 

**1.a)** Vamos supor que estamos recebendo pela primeira vez o jornalista Carlos Alberto di Frnaco. Depois de uma rápida pesquisa, descobrimos que:

"Carlos Alberto Di Franco (nascido a 24 de julho em São Paulo) é um advogado e colunista Brasileiro. Formado na Pontifícia Universidade Católica de São Paulo, é também doutor em comunicação pela Universidade de Navarra. Carlos é colunista e consultor do jornal O Estado de S. Paulo e da Rádio Eldorado. Também escreve artigos para os jornais O Globo e Estado de Minas. É autor dos livros Jornalismo, Ética e Qualidade (Editora Vozes, São Paulo) e Jornalismo como poligrafia (Porto, Portugal). (Wikipedia)"

Crie um dicionário com as informações que julgar mais relevantes.

**2.b)** Terminada a estadia, conhecemos um pouco melhor nosso hóspede. Adicione ao seu cadastro mais algumas informações que julgar relevantes para as próximas estadias:

- Gosta de ser chamado pelo apelido 'Caloca'
- Gosta de conversar com os funcionários, chama-os pelo nome
- Estudou no Colégio Rio Branco
- Acorda cedo todas as manhãs, sai do hotel pouco antes das 8h e volta uma hora depois para tomar o café da manhã

In [0]:
# Resolução 1.1
emprego_1 = {'Cargo': 'Jornalista', 'Empregador':['Jornal O Estado de S. Paulo','Rádio Eldorado','Jornal O Globo', 'Jornal Estado de Minas']}
emprego_2 = {'Cargo': 'Consultor', 'Empregador':['Jornal O Estado de S. Paulo', 'Rádio Eldorado']}

formacao_1 = {'Curso': 'Direito', 'Nível': 'Graduação', 'Instituição de ensino':'Pontifícia Universidade Católica de São Paulo'}
formacao_2 = {'Curso': 'Comunicação', 'Nível': 'Doutorado', 'Instituição de ensino':'Universidade de Navarra'}

curiosidades = "É autor dos livros Jornalismo, Ética e Qualidade (Editora Vozes, São Paulo) e Jornalismo como poligrafia (Porto, Portugal)"

novo_hospede = {'Nome': 'Carlos Alberto di Franco', 'Profissão':[emprego_1, emprego_2], 'Formação':[formacao_1, formacao_2], 'Curiosidades': curiosidades}

In [0]:
# Resolução 1.2
novo_hospede['Apelido'] = 'Caloca'
nova_curiosidade = "Gosta de conversar com os funcionários, chama-os pelo nome. Estudou no Colégio Rio Branco. Acorda cedo todas as manhãs, sai do hotel pouco antes das 8h e volta uma hora depois para tomar o café da manhã."

novo_hospede['Curiosidades'] = novo_hospede['Curiosidades'] + " " + nova_curiosidade

In [60]:
novo_hospede

{'Apelido': 'Caloca',
 'Curiosidades': 'É autor dos livros Jornalismo, Ética e Qualidade (Editora Vozes, São Paulo) e Jornalismo como poligrafia (Porto, Portugal) Gosta de conversar com os funcionários, chama-os pelo nome. Estudou no Colégio Rio Branco. Acorda cedo todas as manhãs, sai do hotel pouco antes das 8h e volta uma hora depois para tomar o café da manhã.',
 'Formação': [{'Curso': 'Direito',
   'Instituição de ensino': 'Pontifícia Universidade Católica de São Paulo',
   'Nível': 'Graduação'},
  {'Curso': 'Comunicação',
   'Instituição de ensino': 'Universidade de Navarra',
   'Nível': 'Doutorado'}],
 'Nome': 'Carlos Alberto di Franco',
 'Profissão': [{'Cargo': 'Jornalista',
   'Empregador': ['Jornal O Estado de S. Paulo',
    'Rádio Eldorado',
    'Jornal O Globo',
    'Jornal Estado de Minas']},
  {'Cargo': 'Consultor',
   'Empregador': ['Jornal O Estado de S. Paulo', 'Rádio Eldorado']}]}

### Controle de fluxo (for, while, if-else...)

Imagine que queremos programar um robô para:
- Monitorar em tempo real as notícias que são publicadas na internet sobre uma determinada empresa; e 
- Gerar um alerta caso uma destas notícias esteja relacionada a lavagem de dinheiro.

![Odebrecht.png](attachment:Odebrecht.png)

Como faremos isso? Neste caso, vamos precisar:
- **Executar repetidas vezes um código** que, de tempos em tempos, busca no Google notícias sobre a empresa de interesse; e
- **Executar um outro código apenas quando uma certa condição for verdadeira**, de forma a gerar um alerta quando aparecer uma notícia que contenha palavras ou termos relacionados a lavagem de dinheiro.

Para aplicações como esta, costuma-se utilizar:
- Funções de Iteração (**while** e **for**) para executar repetidas vezes um código; e
- Funcões Condicionais (**if-else**) para executar um código apenas quando uma certa condição for verdadeira ou não.

**Importante** Em Python, a indentação (espaço que se deixa entre a margem e o começo da linha de código) define o que está dentro ou fora dos comandos (vide exemplos).

In [0]:
noticias = [{'fonte': 'Jornal O Globo', 'data': '22 de dez. de 2019', 'manchete': 'Odebrecht inicia investigação interna sobre atuação de ...', 'resumo':'Depois de ser demitido por justa causa e sem direito à indenização, Marcelo Odebrecht, ex-presidente da empreiteira que ...'},
            {'fonte': 'Exame.com', 'data': '16 de dez. de 2019', 'manchete': 'Odebrecht troca de presidente às vésperas de assembleia ...', 'resumo':'A Odebrecht troca o comando em um momento crucial para a empresa. ... principais credores do plano de recuperação judicial da Odebrecht e ...'},
            {'fonte': 'Estado de Minas', 'data': '3 de jan. de 2020', 'manchete': 'Equador julgará ex-presidente Correa à revelia por caso ...', 'resumo':'O ex-presidente Rafael Correa será julgado à revelia no Equador sob a acusação de ter recebido dinheiro ilegal da construtora Odebrecht ...'},
            {'fonte': 'EXAME.com', 'data': '19 de dez. de 2019', 'manchete': 'Odebrecht volta a reunir credores, mas recuperação deve ...', 'resumo':'Pouco mais de uma semana depois de apresentar um novo plano de recuperação, a Odebrecht volta a reunir seus credores, ...'}]

In [62]:
for indice in range(len(noticias)): # range(n) gera a lista:[0 1 2 ... n-1]
    noticia = noticias[indice]['manchete'] + ' ' + noticias[indice]['resumo']
    
    if 'acusação' in noticia or 'investigação' in noticia:
        print(noticia + ' -> Gerar alerta PLD!!\n')
    else:
        print(noticia + ' -> OK\n')

Odebrecht inicia investigação interna sobre atuação de ... Depois de ser demitido por justa causa e sem direito à indenização, Marcelo Odebrecht, ex-presidente da empreiteira que ... -> Gerar alerta PLD!!

Odebrecht troca de presidente às vésperas de assembleia ... A Odebrecht troca o comando em um momento crucial para a empresa. ... principais credores do plano de recuperação judicial da Odebrecht e ... -> OK

Equador julgará ex-presidente Correa à revelia por caso ... O ex-presidente Rafael Correa será julgado à revelia no Equador sob a acusação de ter recebido dinheiro ilegal da construtora Odebrecht ... -> Gerar alerta PLD!!

Odebrecht volta a reunir credores, mas recuperação deve ... Pouco mais de uma semana depois de apresentar um novo plano de recuperação, a Odebrecht volta a reunir seus credores, ... -> OK



## Programação Orientada a Objeto (POO)

Python é uma linguagem orientada a objeto. Para entender o que isso quer dizer precisamos passar rapidamente por outros paradigmas de programação:
- *Programação baixo-nível*: os comandos utilizados são ações realmente utilizadas pelo processador. E.g.:Assenbly
- *Programação*
O que é programação https://www.youtube.com/watch?v=PmefpISZ7Ew 1:50 a 2:50

O que é uma linguagem de programação: uma forma de um humano conseguir dar comandos que o computador consiga executar. Ex:
imprimir 1+1

O que é uma linguagem orientada a objetos (classes, funções e atributos ou métodos)

O que é uma biblioteca

In [63]:
from IPython.display import HTML

# Youtube
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/PmefpISZ7Ew?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

## Manipulação de dados com Pandas

Agora que você já sabe se virar em Python, vamos nos concentrar em aprender como manipular os dados de forma eficiente. Você provavelmente já se aventurou um pouco com o Excel e deve lembrar que em Excel trabalhamos com os dados na forma de uma tabela. 

![apartamentos.png](https://raw.githubusercontent.com/ImersaoIA/classificacao2020/master/Programa%C3%A7%C3%A3o/apartamentos.png)

Pandas é uma biblioteca para manipulação de dados em forma de tabela no Python. Ela disponibiliza estruturas e funções que facilitam consideravelmente o trabalho.

Começamos importanto a biblioteca. Para facilitar, a chamamos de **pd**.

In [0]:
import pandas as pd

### Importar dados

A forma mais comum de armazenamento de dados que utilizaremos será na forma de arquivo *csv* (*comma separated values* - valores separados por vírgula). Para carregá-los para nosso código, vamos usar a função **read_csv**  (ou **read_excel** se nosso arquivo estiver em formato *xlsx*). A sintaxe fica assim:

pd.read_csv(< caminho do arquivo >, sep=',', header=0, names=None, index_col=None)

- sep: separador utilizado (',' por default, mas poderia ser também ';' dentre outros)
- header: indica qual é a linha *header*, ou sejam, qual é o índice da linha que contem o nome das colunas
- names: nomes que deverão identificar as colunas da nossa tabela (caso o arquivo não tenha um *header*)
- index_col: nomes que deverão identificar as linhas da nosssa tabela

In [33]:
apartamentos=pd.read_csv('air_bnb.csv')

FileNotFoundError: ignored

In [34]:
apartamentos.head()

NameError: ignored

A tabela acima é um objeto do tipo **DataFrrame**. Cada coluna de um **DataFrame** pode ser considerada como um objeto do tipo **Series**.

### pandas.Series

Básicamente, armazenam dados, não necessariamente do mesmo tipo, de forma unidimensional

Na prática, funciona bastante como um dicionário.

In [0]:
my_first_series=apartamentos['price'].head(5) #Vamos pegar apenas as primeiras 5 linhas da coluna 'price'. Veremos esta funcionalidade com mais detalhe na próxima seção (não esquente a cabeça)
my_first_series

NameError: name 'apartamentos' is not defined

Podemos editar os índices das linhas

In [0]:
my_first_series.index=['Apartamento da Tia Isabel', 'Apartamento da Vovó Ana', 'Apartamento do tio João', 'Meu apartamento', 'Escritório']
my_first_series

NameError: name 'my_first_series' is not defined

Ou criar series a partir de dicionários

In [0]:
ordemDeCompra_Sr=pd.Series(ordemDeCompra)
ordemDeCompra_Sr

empresa            Itaú Unibanco
ticker                     ITUB3
comprar                     True
quantidade                   100
preço de compra            32.33
dtype: object

Selecionamos os elementos pelos nomes ou índices das linhas (iniciando em 0)  

In [0]:
ordemDeCompra_Sr['empresa']

'Itaú Unibanco'

In [0]:
ordemDeCompra_Sr[4]

32.33

### pandas.DataFrame

Como vimos o **DataFrame** armazena dados numa estrutura retangular (em forma de tabela). Os dados de uma mesma linha ou coluna não precisam ser necessariamente do mesmo tipo.

In [2]:
apartamentos=pd.read_csv('https://raw.githubusercontent.com/ImersaoIA/classificacao2020/master/Datasets/air_bnb.csv')
apartamentos.head()

NameError: ignored

### Mexendo com os dados

O poder do **pandas** está na facilidade com que ele permite manipular e visualizar os dados

#### Descritivos

Conhecendo os dados

In [1]:
apartamentos.head()

NameError: ignored

In [0]:
apartamentos.columns

NameError: name 'apartamentos' is not defined

In [0]:
apartamentos.index

NameError: name 'apartamentos' is not defined

In [0]:
apartamentos.describe()

NameError: name 'apartamentos' is not defined

In [0]:
apartamentos.dtypes

NameError: name 'apartamentos' is not defined

In [0]:
apartamentos.count()

NameError: name 'apartamentos' is not defined

In [0]:
apartamentos.max()

In [0]:
apartamentos.price.head()

0    300.0
1    228.0
2    159.0
3    247.0
4    342.0
Name: price, dtype: float64

In [0]:
apartamentos.bathrooms.sum()

60823.0

In [0]:
apartamentos.price.mean()

634.8099544969384

Para encontrar um elemento

In [0]:
apartamentos.head()

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
4,35636,342.0,"The location is extremely convenient, safe and...",2.0,1.0,1.5,Ipanema,3,t,f


In [0]:
apartamentos.iloc[4,3] # [linha, coluna]

2.0

In [0]:
apartamentos.loc[4, 'beds']

2.0

Filtros

In [0]:
apartamentos[apartamentos['price']<=300].head()

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
5,35764,220.0,"FEEL LIKE YOUR HOME LIVING AS ""CARIOCA"" LOCAL ...",2.0,1.0,1.0,Copacabana,2,t,t


In [0]:
apartamentos[apartamentos['neighbourhood']=='Copacabana'].head() # Em comparações usamos ==, em vez de apenas 

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
5,35764,220.0,"FEEL LIKE YOUR HOME LIVING AS ""CARIOCA"" LOCAL ...",2.0,1.0,1.0,Copacabana,2,t,t
6,35893,152.0,"Purpose of CopaTabajaras is to provide a nice,...",2.0,1.0,1.0,Copacabana,3,f,f
9,48726,118.0,Excelente acomodação perto da praia mais famos...,1.0,1.0,1.0,Copacabana,1,t,t


In [0]:
apartamentos[apartamentos['price']<=apartamentos['price'].mean()]

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
4,35636,342.0,"The location is extremely convenient, safe and...",2.0,1.0,1.5,Ipanema,3,t,f
5,35764,220.0,"FEEL LIKE YOUR HOME LIVING AS ""CARIOCA"" LOCAL ...",2.0,1.0,1.0,Copacabana,2,t,t
6,35893,152.0,"Purpose of CopaTabajaras is to provide a nice,...",2.0,1.0,1.0,Copacabana,3,f,f
7,46937,133.0,I'm the proud onwner of a beautiful studio in ...,2.0,0.0,1.0,Santa Teresa,3,f,f
9,48726,118.0,Excelente acomodação perto da praia mais famos...,1.0,1.0,1.0,Copacabana,1,t,t
10,48901,478.0,"Excellent 4 bedroom apartment, located on Copa...",6.0,4.0,4.0,Copacabana,11,f,t


In [0]:
apartamentos[apartamentos['price']<=apartamentos['price'].mean()].bedrooms

0        2.0
1        1.0
2        1.0
3        1.0
4        1.0
5        1.0
6        1.0
7        0.0
9        1.0
10       4.0
11       1.0
12       1.0
15       0.0
16       1.0
19       2.0
21       3.0
22       0.0
23       1.0
24       1.0
25       1.0
26       1.0
27       1.0
28       1.0
29       1.0
30       2.0
31       4.0
32       7.0
33       1.0
34       1.0
35       1.0
        ... 
35567    1.0
35568    1.0
35569    0.0
35571    2.0
35572    1.0
35576    1.0
35577    2.0
35578    0.0
35579    0.0
35580    1.0
35582    2.0
35583    0.0
35584    1.0
35585    1.0
35586    2.0
35587    4.0
35588    1.0
35589    1.0
35590    1.0
35591    1.0
35592    0.0
35593    2.0
35594    0.0
35595    2.0
35596    1.0
35597    1.0
35598    4.0
35599    1.0
35600    2.0
35601    1.0
Name: bedrooms, Length: 26886, dtype: float64

In [0]:
apartamentos[apartamentos['price']<=apartamentos['price'].mean()].bedrooms.sum()

37072.0

Quantos apartamentos com mais de 3 quartos?

Preço médio do apartamento em Ipanema?

Preço médio dos apartamentos com 2 quartos em Ipanema?

O Airbnb tem capacidade de acomodar quantas pessoas no Rio de Janeiro?

Na média, quantas pessoas se acomoda por cama nos apartamentos ofertados?

Você vai alugar com o seu chefe, mas por questão de privacidade, precisa de um quarto e um banheiro para cada. Quais são as opções?

Você disse que tinha feito a reserva mês passado, a viagem é hoje, e agora precisa alugar o mais rápido possível. Quantos sobram?

O preço máximo que tão podendo pagar é R$ 100,00, e vocês precisam ficar na Lapa...