#### Instalando o Python/Anaconda

- Windows: https://repo.anaconda.com/archive/Anaconda3-2018.12-Windows-x86_64.exe;
- MacOS: https://repo.anaconda.com/archive/Anaconda3-2018.12-MacOSX-x86_64.pkg;
- Para 32-Bit, substituir o 'x86_64' final por 'x86';
- Entre no link https://docs.anaconda.com/anaconda/install/ e selecione o sistema operacional;
- Siga as orientações.




# Noções básicas de Python

## Importar bibliotecas

É feito usando o comando **import** (a biblioteca deve estar instalada na máquina)

In [1]:
import pandas
import numpy
import matplotlib.pyplot
import seaborn

Para facilitar, pode-se substituir o nome da biblioteca por um *alias

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Ao se importar bibliotecas com muitas funções, convém também selecionar especificamente o que vai ser usado

In [3]:
from sklearn.linear_model import LinearRegression

## É bom saber... mas o Google pode te ajudar...

## Sintaxe

### Variáveis

Não é preciso declarar o tipo de variável: numérico, caracter, etc. Ele já será assumido

**Obs**: você não precisa decorar todas as sintaxes, o google vai te ajudar a lembrar depois

In [4]:
nguest = 3
description = '2 bedrooms in Gávea super cozy' # ou "2 bedrooms in Gávea super cozy"

In [5]:
nguest

3

In [6]:
description

'2 bedrooms in Gávea super cozy'

### String (caracter)

Strings são definidas com áspas - simples ou duplas -, e podem ser concatenadar com o operador  '+'

In [7]:
nome='Roberto'
num_pes='2'
num_dias='4'

confirma="Olá, "+nome+", você reservou um quarto para "+num_pes+" pessoas durante "+num_dias+" dias \n\nBoa estadia!"

print(confirma)

Olá, Roberto, você reservou um quarto para 2 pessoas durante 4 dias 

Boa estadia!


Nota: o caracter "\" é usado para diferenciar caracteres especiais, por ex:
    - \n: nova linha
    - \": áspas
    - \t: tab

Para a barra invertida, usa-se a sequência **"\\\\"**, ou, para ignorar "\" como caracter especial, **r""**

In [8]:
caminho1="\\ofertas\\carnaval"
caminho2=r"\agendamentos\pendentes"

print(caminho1)
print(caminho2)

\ofertas\carnaval
\agendamentos\pendentes


Use a função **print** para imprimir o seguinte texto:

    No famoso depoimento inspirador de Ayrton Senna ele diz:

         "Seja quem você for, seja qualquer posição que você tenha na vida, do nível altíssimo ou mais baixo, tenha sempre como meta muita força, muita determinação e, sempre, faça tudo com muito amor e com muita fé em Deus que um dia você chega lá. De alguma maneira você chega lá".

### Númericos

Há dois tipos de variáveis númericas, os inteiros e os *float*, ou representação decimal. Caso um número seja inteiro mas queiramos declará-lo como *float*, basta adicionar um ponto no final.

In [9]:
a_int = 2
a_flt = 2.

print("a_int: ", type(a_int))
print("a_flt: ", type(a_flt))

a_int:  <class 'int'>
a_flt:  <class 'float'>


Temos todas as operações básicas:

In [10]:
a=3
b=13

print('a+b=', a+b)
print('a-b=', a-b)
print('a.b=', a*b)
print('b/a= %.2f ' % (b/a)) # %.nf imprime o float com n casas decimais
print('resto da divisão de b por a=', b%a) 
print('parte inteira da divisão de b por a=', b//a)
print('a elevado a b=', a**b)

a+b= 16
a-b= -10
a.b= 39
b/a= 4.33 
resto da divisão de b por a= 1
parte inteira da divisão de b por a= 4
a elevado a b= 1594323


E demais, também utilizamos a biblioteca **numpy** para algumas operações.

In [11]:
print('raiz quadrada de b= %.2f' % np.sqrt(b))
print('log natural a= %.2f' % np.log(a))
print('área de um círculo de raio b= %.2f' % (np.pi*b**2))

raiz quadrada de b= 3.61
log natural a= 1.10
área de um círculo de raio b= 530.93


**Curiosiade**: como calculamos $\sqrt[a]{b}$ ou $\log_a b\hspace{1mm}$?

### Booleanas

Adquirem os valores de verdadeiro ou falso (**True** ou **False**), e podem ser utilizadas em comparações

In [12]:
V = True
F = False

E = V & F
OU = V | F

print('E: ', E)
print('OU: ', OU)

E:  False
OU:  True


In [13]:
nE = (not V) & (not F)
nOU = not (V | F)

print('nE: ', nE)
print('nOU: ', nOU)

nE:  False
nOU:  False


### Lists (listas/array)

Listas são definidas com colchetes [ ], e são exatamente isso, listas de variáveis, não necessariamente do mesmo tipo.
Para acessar um elemento, utiliza-se um índice, que em Python começa do 0, como na maioria das linguagens.

In [14]:
rating = [3, 4, 3, 3, 5]
interesses= ['praia', 'trilha', 'cultural']
info=['Roberto', 'Arantes', 25, False]


In [15]:
info[0]

'Roberto'

Comandos úteis são:
    - sum(): soma
    - len(): comprimento da lista - número de elementos
    - in: checar pertencimento
    - .extend: adiciona uma lista à outra
    - +: concatena listas
    - .append: adiciona elemento a uma lista
    - sorted(): ordena os elementos de acordo com seu módulo

In [16]:
media=sum(rating)/len(rating) # 3.6
compat = 'cachorro' in interesses # False
nome_completo=info[0]+' '+info[1] # 'Roberto Arantes'
print('Média ratings: ', media)
print('\nInteresse em cachorro? ', compat)
print('\nNome completo: '+ nome_completo)

Média ratings:  3.6

Interesse em cachorro?  False

Nome completo: Roberto Arantes


#### Tuples (tuplas)

Tuplas são definidas com parênteses ( ), ou nada, e têm basicamente as mesmas propriedades das listas, porém não podem ser modificadas depois de declaradas.

In [17]:
ratings_list = [2,3,3,4,3]
ratings_tuple = 2, 3, 3, 4, 3

ratings_list[0] = 5
print(ratings_list)
try: 
    ratings_tuple[0] = 5
except TypeError:
    print('\nNão podemos modificar os ratings')

[5, 3, 3, 4, 3]

Não podemos modificar os ratings


Apesar disso, ainda podemos sobreescrever tuplas utilizando os mesmos nomes de variáveis

In [18]:
ratings_tuple =(5, 5, 5, 5, 5)
print(ratings_tuple)

(5, 5, 5, 5, 5)


#### Dicionários

Dicionários são definidos com colchetes { }, e associa determinados valores a chaves, em vez de índices numéricos

In [19]:
info_dic = {'nome': 'Roberto', 'sobrenome':'Arantes', 'idade': 26, 'alérgico': False }

idade_hospede = info_dic['idade']
print(idade_hospede)

26


### Controle de fluxo (for, if...)

Como a maioria das linguagens, Python tem funções condicionais e de iteração, ou seja **if-else**, **while** e **for**.

**Importante** A identação das linhas define o que está dentro ou fora dos comandos

In [20]:
vagas = [{'id': '001', 'preco': 300},
         {'id': '002', 'preco': 200},
         {'id': '003', 'preco': 100},
         {'id': '004', 'preco': 250},
         {'id': '005', 'preco': 400},
         {'id': '006', 'preco': 150}]

![SegmentLocal](719fdcc9-43be-415a-a691-0e3b1adb6278.mp4 "segment")

In [21]:
prec_max = 200

for indice in range(len(vagas)): # range(n) gera a lista:[0 1 2 ... n-1]
    if vagas[indice]['preco']<=prec_max:
        print('Quarto '+vagas[indice]['id']+ ' dentro do preço máximo')
    else:
        print('Quarto '+vagas[indice]['id']+ ' acima do preço máximo')

Quarto 001 acima do preço máximo
Quarto 002 dentro do preço máximo
Quarto 003 dentro do preço máximo
Quarto 004 acima do preço máximo
Quarto 005 acima do preço máximo
Quarto 006 dentro do preço máximo


Ou ainda

In [22]:
for quarto in vagas:
    if quarto['preco']<=prec_max:
        print('Quarto '+quarto['id']+ ' dentro do preço máximo')
    else:
        print('Quarto '+quarto['id']+ ' acima do preço máximo')

Quarto 001 acima do preço máximo
Quarto 002 dentro do preço máximo
Quarto 003 dentro do preço máximo
Quarto 004 acima do preço máximo
Quarto 005 acima do preço máximo
Quarto 006 dentro do preço máximo


## Pandas

Pandas é uma biblioteca para manipulação de dados no Python. Ela disponibiliza estruturas e funções que facilitam consideravelmente o trabalho.

Começamos importanto a biblioteca. Para facilitar, a chamamos de **pd**

In [23]:
import pandas as pd

### Importar dados

A forma mais comum de armazenamento de dados que utilizaremos será na forma de arquivo csv (separado por vírgula). Para carregá-los para seu código, usa-se a função **read_csv**

pd.read_csv(< caminho do arquivo >, sep=',', header=0, names=None, index_col=None)

sep = separador utilizado
header = linha com o nome das colunas
names = nomes das colunas. header=None
index_col = coluna com o nome das linhas

In [24]:
srs=pd.read_csv('series_ex.csv')

In [25]:
srs.head()

Unnamed: 0,name
0,Very Nice 2Br - Copacabana - WiFi
1,Nice and cozy near Ipanema Beach
2,Beautiful Modern Decorated Studio in Copa
3,NICE & COZY 1BDR - IPANEMA BEACH
4,Cosy flat close to Ipanema beach


### pandas.Series

A primeira estrutura que veremos será **Series**


Básicamente, armazenam dados, não necessariamente do mesmo tipo, de forma unidimensional

Na prática, funciona bastante como um dicionário.

In [26]:
s=srs.head()
s

Unnamed: 0,name
0,Very Nice 2Br - Copacabana - WiFi
1,Nice and cozy near Ipanema Beach
2,Beautiful Modern Decorated Studio in Copa
3,NICE & COZY 1BDR - IPANEMA BEACH
4,Cosy flat close to Ipanema beach


Podemos editar os índices das linhas

In [27]:
s2=s
s2.index=['i_od4HAsVLo', 'L_jWHffIx5E', 'wZZ7oFKsKzY', 'kxopViU98Xo', 'CaE0JD1X12g']
s2

Unnamed: 0,name
i_od4HAsVLo,Very Nice 2Br - Copacabana - WiFi
L_jWHffIx5E,Nice and cozy near Ipanema Beach
wZZ7oFKsKzY,Beautiful Modern Decorated Studio in Copa
kxopViU98Xo,NICE & COZY 1BDR - IPANEMA BEACH
CaE0JD1X12g,Cosy flat close to Ipanema beach


Ou criar series a partir de dicionários

In [28]:
infoSr=pd.Series(info_dic)
infoSr

alérgico       False
idade             26
nome         Roberto
sobrenome    Arantes
dtype: object

Selecionamos os elementos pelos nomes ou índices das linhas (iniciando em 0)  

In [29]:
infoSr['sobrenome']

'Arantes'

In [30]:
infoSr[2]

'Roberto'


### pandas.DataFrame

O **DataFrame** armazena dados numa estrutura retangular. Não necessariamente os dados de uma mesma linha ou coluna precisam ser do mesmo tipo.

Cada coluna de um **DataFrame** pode ser considerada comom uma **Series**

In [31]:
df = pd.read_csv('dataframe_ex.csv')
df.head()

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
4,35636,342.0,"The location is extremely convenient, safe and...",2.0,1.0,1.5,Ipanema,3,t,f


### Mexendo com os dados

O poder do **pandas** está na facilidade com que ele permite manipular e visualizar os dados

#### Descritivos

Conhecendo os dados

In [32]:
df.head()

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
4,35636,342.0,"The location is extremely convenient, safe and...",2.0,1.0,1.5,Ipanema,3,t,f


In [33]:
df.columns

Index(['id', 'price', 'space', 'beds', 'bedrooms', 'bathrooms',
       'neighbourhood', 'accommodates', 'host_is_superhost',
       'instant_bookable'],
      dtype='object')

In [34]:
s.index

Index(['i_od4HAsVLo', 'L_jWHffIx5E', 'wZZ7oFKsKzY', 'kxopViU98Xo',
       'CaE0JD1X12g'],
      dtype='object')

In [35]:
df.describe()

Unnamed: 0,id,price,beds,bedrooms,bathrooms,accommodates
count,35602.0,35602.0,35553.0,35578.0,35533.0,35602.0
mean,13504310.0,634.809954,2.624082,1.661673,1.711733,4.205213
std,7771073.0,1610.795395,2.089867,1.093058,1.052553,2.631859
min,17878.0,0.0,0.0,0.0,0.0,1.0
25%,8188927.0,152.0,1.0,1.0,1.0,2.0
50%,13587890.0,300.0,2.0,1.0,1.0,4.0
75%,18888950.0,600.0,3.0,2.0,2.0,6.0
max,30042680.0,39998.0,50.0,45.0,20.0,160.0


In [36]:
df.dtypes

id                     int64
price                float64
space                 object
beds                 float64
bedrooms             float64
bathrooms            float64
neighbourhood         object
accommodates           int64
host_is_superhost     object
instant_bookable      object
dtype: object

In [37]:
df.count()

id                   35602
price                35602
space                20902
beds                 35553
bedrooms             35578
bathrooms            35533
neighbourhood        32572
accommodates         35602
host_is_superhost    35588
instant_bookable     35602
dtype: int64

In [38]:
df.max()

id                  30042682
price                  39998
beds                      50
bedrooms                  45
bathrooms                 20
accommodates             160
instant_bookable           t
dtype: object

In [39]:
df.price.head()

0    300.0
1    228.0
2    159.0
3    247.0
4    342.0
Name: price, dtype: float64

In [40]:
df.bathrooms.sum()

60823.0

In [41]:
df.price.mean()

634.8099544969384

Para encontrar um elemento

In [42]:
df.head()

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
4,35636,342.0,"The location is extremely convenient, safe and...",2.0,1.0,1.5,Ipanema,3,t,f


In [43]:
df.iloc[4,3] # [linha, coluna]

2.0

In [44]:
df.loc[4, 'beds']

2.0

Filtros

In [45]:
df[df['price']<=300].head()

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
5,35764,220.0,"FEEL LIKE YOUR HOME LIVING AS ""CARIOCA"" LOCAL ...",2.0,1.0,1.0,Copacabana,2,t,t


In [46]:
df[df['neighbourhood']=='Copacabana'].head() # Em comparações usamos ==, em vez de apenas 

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
5,35764,220.0,"FEEL LIKE YOUR HOME LIVING AS ""CARIOCA"" LOCAL ...",2.0,1.0,1.0,Copacabana,2,t,t
6,35893,152.0,"Purpose of CopaTabajaras is to provide a nice,...",2.0,1.0,1.0,Copacabana,3,f,f
9,48726,118.0,Excelente acomodação perto da praia mais famos...,1.0,1.0,1.0,Copacabana,1,t,t


In [47]:
df[df['price']<=df['price'].mean()]

Unnamed: 0,id,price,space,beds,bedrooms,bathrooms,neighbourhood,accommodates,host_is_superhost,instant_bookable
0,17878,300.0,- large balcony which looks out on pedestrian ...,2.0,2.0,1.0,Copacabana,5,f,t
1,24480,228.0,The studio is located at Vinicius de Moraes St...,1.0,1.0,1.0,Ipanema,2,f,f
2,25026,159.0,This newly renovated studio (last renovations ...,2.0,1.0,1.0,Copacabana,3,f,f
3,31560,247.0,This nice and clean 1 bedroom apartment is loc...,2.0,1.0,1.0,Ipanema,3,t,t
4,35636,342.0,"The location is extremely convenient, safe and...",2.0,1.0,1.5,Ipanema,3,t,f
5,35764,220.0,"FEEL LIKE YOUR HOME LIVING AS ""CARIOCA"" LOCAL ...",2.0,1.0,1.0,Copacabana,2,t,t
6,35893,152.0,"Purpose of CopaTabajaras is to provide a nice,...",2.0,1.0,1.0,Copacabana,3,f,f
7,46937,133.0,I'm the proud onwner of a beautiful studio in ...,2.0,0.0,1.0,Santa Teresa,3,f,f
9,48726,118.0,Excelente acomodação perto da praia mais famos...,1.0,1.0,1.0,Copacabana,1,t,t
10,48901,478.0,"Excellent 4 bedroom apartment, located on Copa...",6.0,4.0,4.0,Copacabana,11,f,t


In [48]:
df[df['price']<=df['price'].mean()].bedrooms

0        2.0
1        1.0
2        1.0
3        1.0
4        1.0
5        1.0
6        1.0
7        0.0
9        1.0
10       4.0
11       1.0
12       1.0
15       0.0
16       1.0
19       2.0
21       3.0
22       0.0
23       1.0
24       1.0
25       1.0
26       1.0
27       1.0
28       1.0
29       1.0
30       2.0
31       4.0
32       7.0
33       1.0
34       1.0
35       1.0
        ... 
35567    1.0
35568    1.0
35569    0.0
35571    2.0
35572    1.0
35576    1.0
35577    2.0
35578    0.0
35579    0.0
35580    1.0
35582    2.0
35583    0.0
35584    1.0
35585    1.0
35586    2.0
35587    4.0
35588    1.0
35589    1.0
35590    1.0
35591    1.0
35592    0.0
35593    2.0
35594    0.0
35595    2.0
35596    1.0
35597    1.0
35598    4.0
35599    1.0
35600    2.0
35601    1.0
Name: bedrooms, Length: 26886, dtype: float64

In [49]:
df[df['price']<=df['price'].mean()].bedrooms.sum()

37072.0

Quantos apartamentos com mais de 3 quartos?

Preço médio do apartamento em Ipanema?

Preço médio dos apartamentos com 2 quartos em Ipanema?

O Airbnb tem capacidade de acomodar quantas pessoas no Rio de Janeiro?

Na média, quantas pessoas se acomoda por cama nos apartamentos ofertados?

Você vai alugar com o seu chefe, mas por questão de privacidade, precisa de um quarto e um banheiro para cada. Quais são as opções?

Você disse que tinha feito a reserva mês passado, a viagem é hoje, e agora precisa alugar o mais rápido possível. Quantos sobram?

O preço máximo que tão podendo pagar é R$ 100,00, e vocês precisam ficar na Lapa...