# Introdução ao Python para análise exploratória de dados - aula02

![](../img/intro_python.png)

Na aula de hoje vamos falar sobre definição de funções, criação e importação de módulos e o conceito e criação de pacotes no Python. Também vamos comecar a falar sobre o pacote Pandas

## Funcões
São blocos de códigos nomeados e que são criados para executar uma tarefa específica. O grande propósito das funções é evitar repetir trechos de códigos que fazem a mesma coisa ao longo de todo o nosso código.

In [31]:
def nao_faz_nada():
   pass

In [32]:
nao_faz_nada()

In [33]:
def faz_barulho():
   print("quack")

In [34]:
faz_barulho()

quack


É sempre bom criarmos docstrings para documentar o que a funcão faz

In [35]:
def cumprimentar():
   """ Exibe uma saudação ao usuário """
   print('Olá!')

cumprimentar()

Olá!


In [36]:
def cumprimenta_usuario(nome):
   """ Exibe uma saudação com o nome do usuário """
   print('Hello, ' + nome.title() + '!')

cumprimenta_usuario('bruna')

Hello, Bruna!


Quando criamos docstrings, podemos acessar elas através do comando help

In [37]:
help(cumprimenta_usuario) # funcoes são objetos no python também

Help on function cumprimenta_usuario in module __main__:

cumprimenta_usuario(nome)
    Exibe uma saudação com o nome do usuário



In [38]:
help(sum) # docstring do comando sum que é nativo do Python

Help on built-in function sum in module builtins:

sum(iterable, /, start=0)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



In [39]:
def imc():
   peso = float(input('Entre com seu peso em kg:'))
   altura = float(input('Entre com sua altura em metros:'))
   indice = peso / (altura ** 2)
   print('Seu IMC é {:.2f}'.format(indice))

imc() # chamando a funcao

Seu IMC é 25.71


In [22]:
resultado = imc()
print(resultado) # como não usamos um return a funcao retorna o valor None

Seu IMC é 25.71
None


In [23]:
def imc():
   peso = float(input('Entre com seu peso em kg:'))
   altura = float(input('Entre com sua altura em metros:'))
   indice = peso / (altura ** 2)
   print('Seu IMC é {:.2f}'.format(indice))
   return indice

resultado = imc()

Seu IMC é 25.71


In [24]:
print(resultado)

25.71100826707804


In [25]:
def mostra_mensagem_imc(valor_imc):
    if valor_imc < 20:
       print('Você está abaixo do peso')
    elif valor_imc < 24.9:
       print('Você está com o peso normal')
    elif valor_imc < 29.9:
       print('Você está com sobrepeso')
    else:
       print('Você está com obesidade')

mostra_mensagem_imc(resultado)

Você está com sobrepeso


Cada funcão pode ter *argumentos posicionais* e *argumentos chave*. Argumentos chave são muito usados para especificar valores padrão.

In [40]:
def minha_funcao(x, y, z=1.5):
   # se o usuario nao escolher um valor para z, o valor 1.5 será usado
   if z > 1:
      return z * (x + y)
   else:
      return z / (x + y)

In [41]:
minha_funcao(x = 5, y = 6, z = 0.7)

0.06363636363636363

In [28]:
minha_funcao(5, 6, 0.7)

0.06363636363636363

In [29]:
minha_funcao(10, 20)

45.0

Enquanto argumentos chave são opcionais para o usuario, os argumentos posicionais são obrigatórios

In [30]:
minha_funcao(y = 1, z = 2)

TypeError: minha_funcao() missing 1 required positional argument: 'x'

Podemos retornar multiplos valores de uma funcão

In [46]:
def imc():
   peso = float(input('Entre com seu peso em kg:'))
   altura = float(input('Entre com sua altura em metros:'))
   indice = peso / (altura ** 2)
   print('Seu IMC é {:.2f}'.format(indice))
   return peso, altura, indice

In [47]:
p, a, i = imc() # cada valor retornado é atribuído a uma funcão

Seu IMC é 25.71


In [48]:
print(i)

25.71100826707804


In [49]:
resultado = imc()

Seu IMC é 25.71


In [50]:
print(resultado)

(65.0, 1.59, 25.71100826707804)


Como as funções do Python são objetos, muitas construções que são difíceis de fazer em outras linguagens podem ser facilmente feitas no Python. Suponha que estivéssemos fazendo alguma limpeza de dados e precisássemos aplicar várias transformações à seguinte lista de strings:

In [51]:
cidades = ["são paulo", "FORTALEZA", "Rio de Janeiro   ", "sALvador", "manaus##", "Natal?"]

Todo mundo que já trabalhou com enquetes que coletam dados do usuário sabe que podemos ter esse tipo de situacão. Nesse exemplo, temos de fazer várias operacões para uniformizar e padronizar os nossos dados: remover espacos em branco, remover pontuacões, padronizar letras maiúsculas e minúsculas.

In [52]:
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip() # remove espacos em branco extras
        value = re.sub("[!#?]", "", value) # remove pontuacoes
        value = value.title() # uniformiza as letras maiusculas e minúsculas deixando só 1 letra maiuscula
        result.append(value) # pendura o novo resultado em uma lista nova que guarda os nomes limpos
    return result

In [53]:
teste = clean_strings(cidades)
print(teste)

['São Paulo', 'Fortaleza', 'Rio De Janeiro', 'Salvador', 'Manaus', 'Natal']


In [54]:
import re

def clean_strings(value):
  value = value.strip()
  value = re.sub("[!#?]", "", value)
  value = value.title()
  return value

Podemos usar funções como argumentos para outras funções, como a função *map*, que aplica uma função a uma sequência de algum tipo, como uma lista:

In [55]:
result = []
for x in map(clean_strings, cidades):
    print(x)
    result.append(x)

result

São Paulo
Fortaleza
Rio De Janeiro
Salvador
Manaus
Natal


['São Paulo', 'Fortaleza', 'Rio De Janeiro', 'Salvador', 'Manaus', 'Natal']

## Módulos

Uma vantagem das funcões é a maneira como elas separam blocos de código do nosso programa principal. Ao usar nomes descritivos para as suas funcões, será bem mais fácil entender seu programa principal.

Podemos dar um passo além e armazenar suas funcões em um arquivo separado chamado *módulo* e, então, *importar* esse módulo em seu programa principal.

Uma instrucão *import* diz ao Python para deixar o código de um módulo disponível no arquivo de programa em execucão no momento.

Armazenar suas funcões em um arquivo separado permite ocultar os detalhes do código de seu programa e se concentrar na lógica de nível mais alto. Também permite reutilizar funcões em muitos programas diferentes.

Quando armazenamos funcoes em arquivos separados, podemos compartilhar esses arquivos com outros programadores sem a necessidade de compartilhar o programa todo.

Saber como importar funcões também possibilita usar bibliotecas de funcões que outros programadores escreveram.

### Importando um módulo

Um módulo é um arquivo terminado em .py que contém o código que queremos importar para o nosso programa. Para fazermos isso, precisamos importar o módulo. Isso faz com o código e as variáveis do módulo importado fiquem disponíveis no novo programa que estamos criando.

Para comecar a importar funcões, inicialmente precisamos criar um módulo. Vamos olhar o módulo pizza.py que criamos!

In [56]:
import pizza
# import pizza * também importa todas as funcoes

pizza.faz_pizza("grande", ["mussarela", "presunto", "ovos", "cebola"])

pizza.assa_pizza(False)

Vamos preparar uma pizza de tamanho grande com os seguintes ingredientes:
 -  mussarela
 -  presunto
 -  ovos
 -  cebola
Já escolheu a sua pizza?


Podemos usar um alias (nome mais curto) para o nosso módulo

In [57]:
import pizza as p
p.faz_pizza("grande", ["mussarela", "presunto", "ovos", "cebola"])

p.assa_pizza(True)


Vamos preparar uma pizza de tamanho grande com os seguintes ingredientes:
 -  mussarela
 -  presunto
 -  ovos
 -  cebola
A pizza vai ser assada!


Quando o Python lê esse arquivo, a linha *import pizza* lhe diz para abrir o arquivo *pizza.py* e copiar todas as funcões dele para esse programa. Nós não vemos realmente o código sendo copiado entre os arquivos porque o Python faz isso internamente, à medida que o programa é executado. Tudo que precisamos saber é que agora qualquer funcão definida em *pizza.py* estará disponível aqui no nosso notebook aula03.ipynb

Nesse primeiro jeito de importar módulos, onde só escrevemos o comando import seguido do nome do módulo, ele acaba deixando disponíveis todas as funcões do módulo disponíveis no nosso notebook.

### Importando funcões específicas

Podemos também importar somente uma funcão específica de um módulo. Nesse caso, a sintaxe é:

In [58]:
from pizza import faz_pizza

pizza.faz_pizza("grande", ["peperoni", "mussarela"])


Vamos preparar uma pizza de tamanho grande com os seguintes ingredientes:
 -  peperoni
 -  mussarela


Também podemos usar alias para o nome das funcões

In [59]:
from pizza import faz_pizza as fp

fp("grande", ["peperoni", "mussarela", "orégano"])

Vamos preparar uma pizza de tamanho grande com os seguintes ingredientes:
 -  peperoni
 -  mussarela
 -  orégano


Cuidado ao importar todas as funcões de um módulo, pricipalmente quando usarmos módulos maiores não escritos por nós!
Pois, se o módulo importado por completo tiver funcoes com um nome existente em seu projeto, podemos ter resultados inesperados. O Python poderá ver várias funcões ou variáveis com o mesmo nome e, em vez de importar todas as funcões separadamente, ele vai sobrescrever elas!

A melhor abordagem é importar as funcões que queremos ou o módulo que queremos usando a notacão de ponto. Isso resulta em um código mais fácil de ler e de entender.

## O pacote Pandas

![](../img/pandas.png)

A biblioteca Pandas foi construída com base na biblioteca NumPy, que é voltada para o processamento de alto desempenho de arrays (vetores), e no Matplotlip que é voltada para a visualização de dados. A documentacão da biblioteca está [aqui](https://pandas.pydata.org/docs/reference/index.html)

Nesta atividade prática vamos utilizar o conjunto de dados **Tips**. Este é um dataset que está disponível em inglês na biblioteca Seaborn do Python, mas que o Grupo de Estudos de Ciência de Dados das Pyladies São Paulo traduziu e fez a inserção da coluna tempo_permanencia. Além desta coluna, nosso dataset tem as seguintes colunas:

* **total_conta**: valor gasto na refeição
* **gorjeta**: valor dado como gorjeta
* **genero**: feminino ou masculino
* **fumante**: sim ou não
* **dia**: dia da semana
* **pessoas_mesa**: quantas pessoas havia em cada mesa
* **tempo_permanencia**: tempo que as pessoas permaneceram no restaurante

## Problemas que mais resolvemos com o Pandas:
- 1.Abrir tabelas no Python
- 2.Explorar rapidamente os dados de tabelas
- 3.Selecionar linhas e colunas
- 4.Ordenar dados de acordo com uma ou mais colunas
- 5.Criar e modificar colunas
- 6.Summarizar e agregar colunas
- 7.Juntar tabelas
- 8.Salvar/exportar tabelas

### 1.Abrindo tabelas no Python com Pandas

In [None]:
# !pip install pandas # se é a primeira vez que estamos usando o pacote,precisamos instalar ele

In [60]:
# sempre que usamos o pandas, precisamos importar ele
import pandas as pd # é a primeira vez que estamos usando o pacote,precisamos instalar eleé a primeira vez que estamos usando o pacote,precisamos instalar ele

In [61]:
# versao mais simples do comando
df = pd.read_csv('../dados/tips.csv')

# df = pd.read_csv('tips.csv',
#                  sep=',',
#                  header=1, # header=None para tabelas sem cabecalho
#                  names=['TotalConta', 'Gorjeta', 'Fumante', 'Dia', 'Horario',
#                         'PessoasMesa', 'TempoPermanencia'])

In [62]:
df

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.50,Masculino,nao,dom,jantar,3,49
3,23.68,3.31,Masculino,nao,dom,jantar,2,43
4,24.59,3.61,Feminino,nao,dom,jantar,4,34
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Masculino,nao,sab,jantar,3,40
240,27.18,2.00,Feminino,sim,sab,jantar,2,35
241,22.67,2.00,Masculino,sim,sab,jantar,2,30
242,17.82,1.75,Masculino,nao,sab,jantar,2,38


### 02.Explorar rapidamente os dados

Assim que importamos os nossos dados, sempre queremos ver se a importação funcionou corretamente e na sequência
é comum queremos dar uma rápida espiada nos dados. Para isso podemos fazer o seguinte:

In [63]:
df.head() # mostra as primeiras linhas do df
# df.tail() # mostra as ultimas linhas do df
# df.sample() # sorteia uma amostra aleatória dos nossos dados

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.5,Masculino,nao,dom,jantar,3,49
3,23.68,3.31,Masculino,nao,dom,jantar,2,43
4,24.59,3.61,Feminino,nao,dom,jantar,4,34


Para o comando .sample() podemos fixar o resultado. Ou seja, sempre que rodarmos o código, vamos visualizar sempre os mesmos registros. Para fazer isso, basta colocar o parâmetro random_state (este valor deve ser um número inteiro).


In [64]:
df.sample(frac =0.05, random_state = 46) # 5% dos dados


Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
81,16.66,3.4,Masculino,nao,qui,almoco,2,37
119,24.08,2.92,Feminino,nao,qui,almoco,4,35
48,28.55,2.05,Masculino,nao,dom,jantar,3,45
89,21.16,3.0,Masculino,nao,qui,almoco,2,37
132,11.17,1.5,Feminino,nao,qui,almoco,2,38
5,25.29,4.71,Masculino,nao,dom,jantar,4,39
12,15.42,1.57,Masculino,nao,dom,jantar,2,34
111,7.25,1.0,Feminino,nao,sab,jantar,1,37
26,13.37,2.0,Masculino,nao,sab,jantar,2,46
210,30.06,2.0,Masculino,sim,sab,jantar,3,37


In [65]:
# Para sabermos as dimensões do nosso df e os tipos de variáveis que temos:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   total_conta        244 non-null    float64
 1   gorjeta            244 non-null    float64
 2   genero             244 non-null    object 
 3   fumante            244 non-null    object 
 4   dia                244 non-null    object 
 5   horario            244 non-null    object 
 6   pessoas_mesa       244 non-null    int64  
 7   tempo_permanencia  244 non-null    int64  
dtypes: float64(2), int64(2), object(4)
memory usage: 15.4+ KB


In [66]:
# Se quisermos obter um resumo estatístico dos nossos dados, como percentil, média, desvio padrão, etc:
df.describe() # ou df.shape

Unnamed: 0,total_conta,gorjeta,pessoas_mesa,tempo_permanencia
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,40.262295
std,8.902412,1.383638,0.9511,5.157285
min,3.07,1.0,1.0,26.0
25%,13.3475,2.0,2.0,37.0
50%,17.795,2.9,2.0,40.0
75%,24.1275,3.5625,3.0,44.0
max,50.81,10.0,6.0,53.0


In [67]:
# Para retornar o número de valores únicos
# df.nunique() # n valores unicos
df['genero'].value_counts() # freq absoluta

Masculino    157
Feminino      87
Name: genero, dtype: int64

In [68]:
# Transforma dado em categoria
df['genero'] = df['genero'].astype('category')

In [69]:
# Lidando com valores ausentes
# Total de valores ausentes por coluna
df.isna().sum()

total_conta          0
gorjeta              0
genero               0
fumante              0
dia                  0
horario              0
pessoas_mesa         0
tempo_permanencia    0
dtype: int64

In [70]:
# Podemos remover valores missing ou
df.dropna()

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.50,Masculino,nao,dom,jantar,3,49
3,23.68,3.31,Masculino,nao,dom,jantar,2,43
4,24.59,3.61,Feminino,nao,dom,jantar,4,34
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Masculino,nao,sab,jantar,3,40
240,27.18,2.00,Feminino,sim,sab,jantar,2,35
241,22.67,2.00,Masculino,sim,sab,jantar,2,30
242,17.82,1.75,Masculino,nao,sab,jantar,2,38


In [71]:
# substituir os valores ausentes, no caso abaixo com 0:
df.fillna(0) # 0 e NA podem ser coisas diferentes

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.50,Masculino,nao,dom,jantar,3,49
3,23.68,3.31,Masculino,nao,dom,jantar,2,43
4,24.59,3.61,Feminino,nao,dom,jantar,4,34
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Masculino,nao,sab,jantar,3,40
240,27.18,2.00,Feminino,sim,sab,jantar,2,35
241,22.67,2.00,Masculino,sim,sab,jantar,2,30
242,17.82,1.75,Masculino,nao,sab,jantar,2,38


### 3.Selecionar linhas e colunas

Há várias estratégias que podemos usar para selecionar linhas e colunas. Vamos ver algumas delas, porém vamos comentar sobre o conceito de index.

In [72]:
# Lista as colunas do dataset
df.columns

Index(['total_conta', 'gorjeta', 'genero', 'fumante', 'dia', 'horario',
       'pessoas_mesa', 'tempo_permanencia'],
      dtype='object')

In [73]:
# Lista os índices do dataset
df.index

RangeIndex(start=0, stop=244, step=1)

In [77]:
# Configurar uma coluna como índice
df_index = pd.DataFrame({'month': [1, 4, 7, 10],
                   'year': [2012, 2014, 2013, 2014],
                   'sale': [55, 40, 84, 31]})

df_index

Unnamed: 0,month,year,sale
0,1,2012,55
1,4,2014,40
2,7,2013,84
3,10,2014,31


In [81]:
df_index = df_index.set_index('month')
df_index

Unnamed: 0_level_0,year,sale
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2012,55
4,2014,40
7,2013,84
10,2014,31


In [84]:
# Removendo índice
df_index.reset_index()
# df_index = df_index.reset_index()
# df_index

Unnamed: 0,month,year,sale
0,1,2012,55
1,4,2014,40
2,7,2013,84
3,10,2014,31


Há vários jeitos de se fazer essa operação, porém dois comandos famosos são: **loc** e **iloc**. Vamos ver o loc primeiro.

In [85]:
# podemos chamar uma linha pelo seu índice
df.loc[5]

total_conta              25.29
gorjeta                   4.71
genero               Masculino
fumante                    nao
dia                        dom
horario                 jantar
pessoas_mesa                 4
tempo_permanencia           39
Name: 5, dtype: object

In [86]:
# ou com um array de índices
df.loc[[0,1,2]]

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.5,Masculino,nao,dom,jantar,3,49


In [88]:
# uma fatia, do quarto ao oitavo elemento
df.loc[4:8] # aqui o intervalo inclui o ultimo numero

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
4,24.59,3.61,Feminino,nao,dom,jantar,4,34
5,25.29,4.71,Masculino,nao,dom,jantar,4,39
6,8.77,2.0,Masculino,nao,dom,jantar,2,41
7,26.88,3.12,Masculino,nao,dom,jantar,4,31
8,15.04,1.96,Masculino,nao,dom,jantar,2,35


Também podemos combinar operadores lógicos para chegar no resultado que queremos.

In [89]:
# vamos selecionar as entradas cujo *tempo_permanencia* seja maior de 50 minutos.
df.loc[(df['tempo_permanencia']) >= 50]

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
22,15.77,2.23,Feminino,nao,sab,jantar,2,50
127,14.52,2.0,Feminino,nao,qui,almoco,2,52
148,9.78,1.73,Masculino,nao,qui,almoco,2,50
185,20.69,5.0,Masculino,nao,dom,jantar,5,50
203,16.4,2.5,Feminino,sim,qui,almoco,2,53
225,16.27,2.5,Feminino,sim,sex,almoco,2,50
226,10.09,2.0,Feminino,sim,sex,almoco,2,51
234,15.53,3.0,Masculino,sim,sab,jantar,2,52
236,12.6,1.0,Masculino,sim,sab,jantar,2,50


In [90]:
#Mudando os 5 primeiros registros para um tempo de permanencia de 60min
df2 = df.copy() # faco uma cópia do objeto
df2.loc[0:5, 'tempo_permanencia'] = 60
df2.head(5)

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,60
1,10.34,1.66,Masculino,nao,dom,jantar,3,60
2,21.01,3.5,Masculino,nao,dom,jantar,3,60
3,23.68,3.31,Masculino,nao,dom,jantar,2,60
4,24.59,3.61,Feminino,nao,dom,jantar,4,60


In [91]:
df.loc[0:5] # com o comando .copy() os dados modificados no df2 nao sao vistos no df

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.5,Masculino,nao,dom,jantar,3,49
3,23.68,3.31,Masculino,nao,dom,jantar,2,43
4,24.59,3.61,Feminino,nao,dom,jantar,4,34
5,25.29,4.71,Masculino,nao,dom,jantar,4,39


In [92]:
df2.loc[df2['dia'].isin(['seg', 'ter', 'qua', 'qui', 'sex'])]

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
77,27.20,4.00,Masculino,nao,qui,almoco,4,47
78,22.76,3.00,Masculino,nao,qui,almoco,2,36
79,17.29,2.71,Masculino,nao,qui,almoco,2,38
80,19.44,3.00,Masculino,sim,qui,almoco,2,36
81,16.66,3.40,Masculino,nao,qui,almoco,2,37
...,...,...,...,...,...,...,...,...
223,15.98,3.00,Feminino,nao,sex,almoco,3,40
224,13.42,1.58,Masculino,sim,sex,almoco,2,45
225,16.27,2.50,Feminino,sim,sex,almoco,2,50
226,10.09,2.00,Feminino,sim,sex,almoco,2,51


In [93]:
df2.loc[~df2['dia'].isin(['sab', 'dom'])] # pega tudo que nao eh sabado ou domingo
# o acento til é negacao

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
77,27.20,4.00,Masculino,nao,qui,almoco,4,47
78,22.76,3.00,Masculino,nao,qui,almoco,2,36
79,17.29,2.71,Masculino,nao,qui,almoco,2,38
80,19.44,3.00,Masculino,sim,qui,almoco,2,36
81,16.66,3.40,Masculino,nao,qui,almoco,2,37
...,...,...,...,...,...,...,...,...
223,15.98,3.00,Feminino,nao,sex,almoco,3,40
224,13.42,1.58,Masculino,sim,sex,almoco,2,45
225,16.27,2.50,Feminino,sim,sex,almoco,2,50
226,10.09,2.00,Feminino,sim,sex,almoco,2,51


Basicamente o comando **iloc** é usado quando queremos selecionar dados de linhas e colunas pelo seu valor numérico de índice. Isso torna o seu uso mais restrito, logo ele é menos utilizado que loc.

In [95]:
df.loc[0:3] # pega valor do ultimo índice

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.5,Masculino,nao,dom,jantar,3,49
3,23.68,3.31,Masculino,nao,dom,jantar,2,43


In [94]:
# resgatando as primeiras três linhas do dataset
df.iloc[0:3] # não pega o valor do último índice
# df.iloc[:, 1:3] # todos os dados da segunda e terceira coluna
# df.iloc[[0,2,4], 5:8] # 1º,3º e 5º elementos e 6ª a 8ª colunas

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
1,10.34,1.66,Masculino,nao,dom,jantar,3,40
2,21.01,3.5,Masculino,nao,dom,jantar,3,49


### 4.Criar e modificar colunas

In [96]:
# podemos executar diretamente a operação necessária na coluna desejada linha a linha.
df2['total_conta_reais'] = df2['total_conta']*5.20
df2.head()

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia,total_conta_reais
0,16.99,1.01,Feminino,nao,dom,jantar,2,60,88.348
1,10.34,1.66,Masculino,nao,dom,jantar,3,60,53.768
2,21.01,3.5,Masculino,nao,dom,jantar,3,60,109.252
3,23.68,3.31,Masculino,nao,dom,jantar,2,60,123.136
4,24.59,3.61,Feminino,nao,dom,jantar,4,60,127.868


In [97]:
# podemos usar o metodo .apply() que aplica uma funcao na coluna que vai dar origem a nova coluna
# definimos a nossa regra de criacao da nova coluna

def classifica_ticket(row_value):
    if row_value >= 50:
        ticket = 'alto'
    elif row_value >= 30:
        ticket = 'medio'
    else:
        ticket = 'baixo'
    return ticket


# aplicamos a regra na coluna que nos interessa
df2['tipo_ticket'] = df['total_conta'].apply(classifica_ticket)
df2.head()

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia,total_conta_reais,tipo_ticket
0,16.99,1.01,Feminino,nao,dom,jantar,2,60,88.348,baixo
1,10.34,1.66,Masculino,nao,dom,jantar,3,60,53.768,baixo
2,21.01,3.5,Masculino,nao,dom,jantar,3,60,109.252,baixo
3,23.68,3.31,Masculino,nao,dom,jantar,2,60,123.136,baixo
4,24.59,3.61,Feminino,nao,dom,jantar,4,60,127.868,baixo


In [98]:
# podemos usar o metodo .map() que mapeia os dados atraves de um dicionario
# criamos o dicionario
de_para ={'Feminino' : 1, 'Masculino' : 0}

# cria a coluna genero2
df2['genero2'] = df2['genero'].map(de_para)

# Print the DataFrame
df2

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia,total_conta_reais,tipo_ticket,genero2
0,16.99,1.01,Feminino,nao,dom,jantar,2,60,88.348,baixo,1
1,10.34,1.66,Masculino,nao,dom,jantar,3,60,53.768,baixo,0
2,21.01,3.50,Masculino,nao,dom,jantar,3,60,109.252,baixo,0
3,23.68,3.31,Masculino,nao,dom,jantar,2,60,123.136,baixo,0
4,24.59,3.61,Feminino,nao,dom,jantar,4,60,127.868,baixo,1
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Masculino,nao,sab,jantar,3,40,150.956,baixo,0
240,27.18,2.00,Feminino,sim,sab,jantar,2,35,141.336,baixo,1
241,22.67,2.00,Masculino,sim,sab,jantar,2,30,117.884,baixo,0
242,17.82,1.75,Masculino,nao,sab,jantar,2,38,92.664,baixo,0


### 5.Ordenar de acordo com uma ou mais colunas

Classificando o df em ordem crescente

In [99]:
# sort pela coluna 'horario'
df.sort_values(by=['horario'])

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
121,13.42,1.68,Feminino,nao,qui,almoco,2,33
145,8.35,1.50,Feminino,nao,qui,almoco,2,48
146,18.64,1.36,Feminino,nao,qui,almoco,3,38
147,11.87,1.63,Feminino,nao,qui,almoco,2,49
148,9.78,1.73,Masculino,nao,qui,almoco,2,50
...,...,...,...,...,...,...,...,...
74,14.73,2.20,Feminino,nao,sab,jantar,2,43
75,10.51,1.25,Masculino,nao,sab,jantar,2,32
76,17.92,3.08,Masculino,sim,sab,jantar,2,35
52,34.81,5.20,Feminino,nao,dom,jantar,4,40


Classificando o df em ordem decrescente

In [100]:
# sort pela coluna 'horario'
df.sort_values(by=['horario'], ascending=False)

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
162,16.21,2.00,Feminino,nao,dom,jantar,3,46
153,24.55,2.00,Masculino,nao,dom,jantar,4,33
154,19.77,2.00,Masculino,nao,dom,jantar,4,39
155,29.85,5.14,Feminino,nao,dom,jantar,5,38
...,...,...,...,...,...,...,...,...
191,19.81,4.19,Feminino,sim,qui,almoco,2,32
128,11.38,2.00,Feminino,nao,qui,almoco,2,36
129,22.82,2.18,Masculino,nao,qui,almoco,3,46
130,19.08,1.50,Masculino,nao,qui,almoco,2,36


Classificando o df colocando os valores ausentes primeiro

In [101]:
# sort pela coluna 'horario'
# colocando os valores nulos primeiro
df.sort_values(by=['horario'], na_position='first') # nao temos NA, lembram?

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
121,13.42,1.68,Feminino,nao,qui,almoco,2,33
145,8.35,1.50,Feminino,nao,qui,almoco,2,48
146,18.64,1.36,Feminino,nao,qui,almoco,3,38
147,11.87,1.63,Feminino,nao,qui,almoco,2,49
148,9.78,1.73,Masculino,nao,qui,almoco,2,50
...,...,...,...,...,...,...,...,...
74,14.73,2.20,Feminino,nao,sab,jantar,2,43
75,10.51,1.25,Masculino,nao,sab,jantar,2,32
76,17.92,3.08,Masculino,sim,sab,jantar,2,35
52,34.81,5.20,Feminino,nao,dom,jantar,4,40


Classificando o df por várias colunas, mas em ordem diferente

In [102]:
# sort pela coluna 'horario' em ordem descrecente e pela coluna 'genero' em ordem crescente
df.sort_values(by=['horario', 'genero'], ascending=[False, True])

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia
0,16.99,1.01,Feminino,nao,dom,jantar,2,41
4,24.59,3.61,Feminino,nao,dom,jantar,4,34
11,35.26,5.00,Feminino,nao,dom,jantar,4,38
14,14.83,3.02,Feminino,nao,dom,jantar,2,42
16,10.33,1.67,Feminino,nao,dom,jantar,3,35
...,...,...,...,...,...,...,...,...
200,18.71,4.00,Masculino,sim,qui,almoco,3,48
204,20.53,4.00,Masculino,sim,qui,almoco,4,45
220,12.16,2.20,Masculino,sim,sex,almoco,2,49
222,8.58,1.92,Masculino,sim,sex,almoco,1,36


### 6.Summarizar e agregar colunas

Podemos utilizar os métodos .aggregate() ou .agg() e o .groupby() ou ainda esses dois métodos juntos


In [103]:
df[['total_conta', 'gorjeta']].agg(['sum', 'min', 'max'])

Unnamed: 0,total_conta,gorjeta
sum,4827.77,731.58
min,3.07,1.0
max,50.81,10.0


In [104]:
# agregando com base em um dicionário
df.agg({"total_conta":['sum', 'mean'],
              "gorjeta":['max', 'min'],
              "genero":['count']})

Unnamed: 0,total_conta,gorjeta,genero
sum,4827.77,,
mean,19.785943,,
max,,10.0,
min,,1.0,
count,,,244.0


In [110]:
df.groupby('genero')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f96f60e9be0>

In [111]:
df.groupby(['genero', 'horario'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f96f60e91c0>

O groupby está esperando a operacão  ser feita pelo dado agrupado

In [113]:
df.groupby(['genero']).count()

Unnamed: 0_level_0,total_conta,gorjeta,fumante,dia,horario,pessoas_mesa,tempo_permanencia
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Feminino,87,87,87,87,87,87,87
Masculino,157,157,157,157,157,157,157


Podemos agrupar os dados por gênero e calcular estatísticas báscicas para cada uma das categorias

In [114]:
df[['genero','total_conta','gorjeta']].groupby('genero').agg(['min','mean', 'max']) # .mean()

Unnamed: 0_level_0,total_conta,total_conta,total_conta,gorjeta,gorjeta,gorjeta
Unnamed: 0_level_1,min,mean,max,min,mean,max
genero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Feminino,3.07,18.056897,44.3,1.0,2.833448,6.5
Masculino,7.25,20.744076,50.81,1.0,3.089618,10.0


### 8.Juntar tabelas

A primeira estratégia que podemos pensar para juntar duas ou mais colunas é através do comando .concat(). Ele basicamente empilha as colunas ou os dados das nossas tabelas.

![Concatenando tabelas](../img/concat.png "Concatenando tabelas").

In [115]:
result = pd.concat([df, df2])
result.head()

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia,total_conta_reais,tipo_ticket,genero2
0,16.99,1.01,Feminino,nao,dom,jantar,2,41,,,
1,10.34,1.66,Masculino,nao,dom,jantar,3,40,,,
2,21.01,3.5,Masculino,nao,dom,jantar,3,49,,,
3,23.68,3.31,Masculino,nao,dom,jantar,2,43,,,
4,24.59,3.61,Feminino,nao,dom,jantar,4,34,,,


In [116]:
result = pd.concat([df, df2], axis="columns")
result.head()

Unnamed: 0,total_conta,gorjeta,genero,fumante,dia,horario,pessoas_mesa,tempo_permanencia,total_conta.1,gorjeta.1,genero.1,fumante.1,dia.1,horario.1,pessoas_mesa.1,tempo_permanencia.1,total_conta_reais,tipo_ticket,genero2
0,16.99,1.01,Feminino,nao,dom,jantar,2,41,16.99,1.01,Feminino,nao,dom,jantar,2,60,88.348,baixo,1
1,10.34,1.66,Masculino,nao,dom,jantar,3,40,10.34,1.66,Masculino,nao,dom,jantar,3,60,53.768,baixo,0
2,21.01,3.5,Masculino,nao,dom,jantar,3,49,21.01,3.5,Masculino,nao,dom,jantar,3,60,109.252,baixo,0
3,23.68,3.31,Masculino,nao,dom,jantar,2,43,23.68,3.31,Masculino,nao,dom,jantar,2,60,123.136,baixo,0
4,24.59,3.61,Feminino,nao,dom,jantar,4,34,24.59,3.61,Feminino,nao,dom,jantar,4,60,127.868,baixo,1


A segunda estratégia é atravé do comando .merge() que é o análogo da instrução JOIN do SQL!

In [117]:
# um jeito de criar df sem importar dados
cliente=pd.DataFrame({
    'id':[1,2,3,4,5,6,7,8,9,10],
    'nome':['Olivia','Maria','Carol','Isabel','Diego','Thiago','Samuel','Daniel','Juliana', 'Juliana'],
    'idade':[20,25,15,10,30,65,35,18,23, 23],
    'id_produto':[101,0,106,0,103,104,0,0,107,106],
    'produto_comprado':['Relógio','NA','Cinto','NA','Sapatos','Smartphone','NA','NA','Notebook', 'Cinto'],
    'cidade':['Paraná','Rio de Janeiro','Manaus','Brasília','Brasília','Rio de Janeiro','Recife','Rio de Janeiro','Paraná', 'Paraná']
})
cliente

Unnamed: 0,id,nome,idade,id_produto,produto_comprado,cidade
0,1,Olivia,20,101,Relógio,Paraná
1,2,Maria,25,0,,Rio de Janeiro
2,3,Carol,15,106,Cinto,Manaus
3,4,Isabel,10,0,,Brasília
4,5,Diego,30,103,Sapatos,Brasília
5,6,Thiago,65,104,Smartphone,Rio de Janeiro
6,7,Samuel,35,0,,Recife
7,8,Daniel,18,0,,Rio de Janeiro
8,9,Juliana,23,107,Notebook,Paraná
9,10,Juliana,23,106,Cinto,Paraná


In [118]:
produto = pd.DataFrame({
    'id_produto':[101, 102, 103, 104, 105, 106, 107, 108],
    'nome_produto':['Relógio','Bolsa','Sapatos','Smartphone','Livros','Cinto','Notebook','Carteira'],
    'categoria':['Moda','Moda','Moda','Eletrônicos','Estudo','Moda','Eletrônicos', 'Moda'],
    'preco':[300, 600, 400, 4500, 60, 100, 6320, 130],
    'cidade_venda':['Rio de Janeiro','Paraná','Brasília','Recife','Rio de Janeiro','Brasília','Manaus', 'Paraná']
})
produto

Unnamed: 0,id_produto,nome_produto,categoria,preco,cidade_venda
0,101,Relógio,Moda,300,Rio de Janeiro
1,102,Bolsa,Moda,600,Paraná
2,103,Sapatos,Moda,400,Brasília
3,104,Smartphone,Eletrônicos,4500,Recife
4,105,Livros,Estudo,60,Rio de Janeiro
5,106,Cinto,Moda,100,Brasília
6,107,Notebook,Eletrônicos,6320,Manaus
7,108,Carteira,Moda,130,Paraná


Digamos que queremos saber sobre todos os produtos vendidos online e quem os comprou. Podemos obter isso usando o comando .merge() que por padrão faz um **inner join** nos *dataframes*. Ele recebe os dfs e o nome da coluna no qual o **inner_join** deve ser executado.

In [119]:
pd.merge(produto,cliente,on='id_produto')
# um mesmo produto é comprado por diferentes clientes

Unnamed: 0,id_produto,nome_produto,categoria,preco,cidade_venda,id,nome,idade,produto_comprado,cidade
0,101,Relógio,Moda,300,Rio de Janeiro,1,Olivia,20,Relógio,Paraná
1,103,Sapatos,Moda,400,Brasília,5,Diego,30,Sapatos,Brasília
2,104,Smartphone,Eletrônicos,4500,Recife,6,Thiago,65,Smartphone,Rio de Janeiro
3,106,Cinto,Moda,100,Brasília,3,Carol,15,Cinto,Manaus
4,106,Cinto,Moda,100,Brasília,10,Juliana,23,Cinto,Paraná
5,107,Notebook,Eletrônicos,6320,Manaus,9,Juliana,23,Notebook,Paraná


In [120]:
# trocamos a ordem dos dfs mas o resultado é o mesmo.
# porque por padrão o .merge() faz um inner join
pd.merge(cliente,produto,on='id_produto')

Unnamed: 0,id,nome,idade,id_produto,produto_comprado,cidade,nome_produto,categoria,preco,cidade_venda
0,1,Olivia,20,101,Relógio,Paraná,Relógio,Moda,300,Rio de Janeiro
1,3,Carol,15,106,Cinto,Manaus,Cinto,Moda,100,Brasília
2,10,Juliana,23,106,Cinto,Paraná,Cinto,Moda,100,Brasília
3,5,Diego,30,103,Sapatos,Brasília,Sapatos,Moda,400,Brasília
4,6,Thiago,65,104,Smartphone,Rio de Janeiro,Smartphone,Eletrônicos,4500,Recife
5,9,Juliana,23,107,Notebook,Paraná,Notebook,Eletrônicos,6320,Manaus


Quando as colunas são diferentes precisamos explicitamente dizer o nome delas

In [121]:
pd.merge(produto, cliente,
         left_on='nome_produto',
         right_on='produto_comprado')

Unnamed: 0,id_produto_x,nome_produto,categoria,preco,cidade_venda,id,nome,idade,id_produto_y,produto_comprado,cidade
0,101,Relógio,Moda,300,Rio de Janeiro,1,Olivia,20,101,Relógio,Paraná
1,103,Sapatos,Moda,400,Brasília,5,Diego,30,103,Sapatos,Brasília
2,104,Smartphone,Eletrônicos,4500,Recife,6,Thiago,65,104,Smartphone,Rio de Janeiro
3,106,Cinto,Moda,100,Brasília,3,Carol,15,106,Cinto,Manaus
4,106,Cinto,Moda,100,Brasília,10,Juliana,23,106,Cinto,Paraná
5,107,Notebook,Eletrônicos,6320,Manaus,9,Juliana,23,107,Notebook,Paraná


Assim como no SQL há outros tipos de join, que alteramos no argumento *how*.

In [122]:
pd.merge(cliente, produto,on='id_produto',how='left' )
# produto carteira nao aparece porque nenhum cliente comprou

Unnamed: 0,id,nome,idade,id_produto,produto_comprado,cidade,nome_produto,categoria,preco,cidade_venda
0,1,Olivia,20,101,Relógio,Paraná,Relógio,Moda,300.0,Rio de Janeiro
1,2,Maria,25,0,,Rio de Janeiro,,,,
2,3,Carol,15,106,Cinto,Manaus,Cinto,Moda,100.0,Brasília
3,4,Isabel,10,0,,Brasília,,,,
4,5,Diego,30,103,Sapatos,Brasília,Sapatos,Moda,400.0,Brasília
5,6,Thiago,65,104,Smartphone,Rio de Janeiro,Smartphone,Eletrônicos,4500.0,Recife
6,7,Samuel,35,0,,Recife,,,,
7,8,Daniel,18,0,,Rio de Janeiro,,,,
8,9,Juliana,23,107,Notebook,Paraná,Notebook,Eletrônicos,6320.0,Manaus
9,10,Juliana,23,106,Cinto,Paraná,Cinto,Moda,100.0,Brasília


In [123]:
# podemos pedir par o merge indicar de onde os dados vieram
pd.merge(produto, cliente,
         left_on='nome_produto',
         right_on='produto_comprado',
         how='left',
         indicator=True)

Unnamed: 0,id_produto_x,nome_produto,categoria,preco,cidade_venda,id,nome,idade,id_produto_y,produto_comprado,cidade,_merge
0,101,Relógio,Moda,300,Rio de Janeiro,1.0,Olivia,20.0,101.0,Relógio,Paraná,both
1,102,Bolsa,Moda,600,Paraná,,,,,,,left_only
2,103,Sapatos,Moda,400,Brasília,5.0,Diego,30.0,103.0,Sapatos,Brasília,both
3,104,Smartphone,Eletrônicos,4500,Recife,6.0,Thiago,65.0,104.0,Smartphone,Rio de Janeiro,both
4,105,Livros,Estudo,60,Rio de Janeiro,,,,,,,left_only
5,106,Cinto,Moda,100,Brasília,3.0,Carol,15.0,106.0,Cinto,Manaus,both
6,106,Cinto,Moda,100,Brasília,10.0,Juliana,23.0,106.0,Cinto,Paraná,both
7,107,Notebook,Eletrônicos,6320,Manaus,9.0,Juliana,23.0,107.0,Notebook,Paraná,both
8,108,Carteira,Moda,130,Paraná,,,,,,,left_only


Aqui vai um esquema representando os tipos de join feitos no Pandas

![Tipos de join](../img/join_pandas.png "Tipos de join").

In [None]:
### 9.Salvar/exportar tabelas
df.to_csv('../dados/exemplo_aula-pratica.csv') # salva no mesmo lugar onde seu codigo esta

In [None]:
df.to_csv('../dados/exemplo_aula-pratica.csv', index=False, header=True, sep='\t')

In [None]:
df.to_excel(r'../dados/exemplo_aula-pratica.xlsx', sheet_name='dados', index = False)