# Revisão Pandas

## Lendo uma base de dados

In [2]:
import pandas as pd
df = pd.read_csv('superbowl.csv', sep=',')
df.head()

Unnamed: 0,Date,SB,Winner,Winner Pts,Loser,Loser Pts,MVP,Stadium,City,State
0,Feb 2 2020,LIV (54),Kansas City Chiefs,31,San Francisco 49ers,20,Patrick Mahomes,Hard Rock Stadium,Miami Gardens,Florida
1,Feb 3 2019,LIII (53),New England Patriots,13,Los Angeles Rams,3,Julian Edelman,Mercedes-Benz Stadium,Atlanta,Georgia
2,Feb 4 2018,LII (52),Philadelphia Eagles,41,New England Patriots,33,Nick Foles,U.S. Bank Stadium,Minneapolis,Minnesota
3,Feb 5 2017,LI (51),New England Patriots,34,Atlanta Falcons,28,Tom Brady,NRG Stadium,Houston,Texas
4,Feb 7 2016,50,Denver Broncos,24,Carolina Panthers,10,Von Miller,Levi's Stadium,Santa Clara,California


## Entendendo as colunas

In [None]:
df.dtypes

In [None]:
df.shape

## Manipulando as colunas

In [None]:
df['Date'].head()

In [None]:
df['Winner Pts'].head()

In [None]:
pontos = df['Winner Pts']
print('Soma:', pontos.sum())
print('Média:', pontos.mean())
print('Contagem: ', pontos.count())

In [None]:
data = df['Date'][0]
print(data)

mes = data.split(' ')[0]
print(mes)

In [None]:
meses = []
for linha in df['Date']:
    mes = linha.split(' ')[0]
    meses.append(mes)

meses = pd.Series(meses)
meses.head()

### Método Cabreira

In [None]:
def dividir_data(data_string):
    return data_string.split(' ')[0]

meses = df['Date'].apply(dividir_data)
meses.head()

### Método mais cabreira ainda

In [None]:
meses = df['Date'].apply(lambda x: x.split(' ')[0])
meses.head()

In [None]:
df['Contagem'] = 1
df.head()

In [None]:
df['Mes'] = meses
df.head()

## Ordenando os valores

- Quais 10 edições do SuperBowl tiveram o maior número de pontos?

In [None]:
ordenado = df.sort_values(by='Winner Pts', ascending=False)
ordenado.head(10)

- Ordene os nomes dos MVPs de todas as edições do superbowl em ordem alfabética (crescente)

In [None]:
ordenado = df.sort_values(by='MVP', ascending=True)
ordenado.head(10)

## Operações de filtro

In [None]:
df.head()

- Quantas superbowls foram realizadas na Orange Bowl (Florida)?

In [None]:
df[
    (df['Stadium'] == 'Orange Bowl')
]

- Quantas superbowls foram realizadas na Florida?

In [None]:
df[
    (df['State'] == 'Florida')
]

## Agrupamento

- Quantas superbowls foram realizadas em cada estado?

In [None]:
agrupado = df.groupby(by='State').count()

agrupado[['SB']]

### Resetando o índice

In [None]:
df.groupby(by='State', as_index=False).count()

In [None]:
agrupado.reset_index()

## Misturando tudo

- Quais estados realizam o maior número de superbowls?

In [None]:
mistura = df.groupby(by='State', as_index=False).count()
mistura = mistura.sort_values(by='SB', ascending=False)
mistura[['State', 'SB']]

- Quais cidades da Florida que mais realizaram as edições do superbowl?

In [None]:
mistura = df[(df['State'] == 'Florida')]
mistura = mistura.groupby(by=['State', 'City'], as_index=False).count()
mistura = mistura.sort_values(by='SB', ascending=False)
mistura

- Quem são os times que mais ganham o superbowl?

In [None]:
mistura = df.groupby(by='Winner', as_index=False).count()
mistura = mistura.sort_values(by='SB', ascending=False)
mistura[['Winner', 'SB']]

## Exercícios 

In [3]:
df.head()

Unnamed: 0,Date,SB,Winner,Winner Pts,Loser,Loser Pts,MVP,Stadium,City,State
0,Feb 2 2020,LIV (54),Kansas City Chiefs,31,San Francisco 49ers,20,Patrick Mahomes,Hard Rock Stadium,Miami Gardens,Florida
1,Feb 3 2019,LIII (53),New England Patriots,13,Los Angeles Rams,3,Julian Edelman,Mercedes-Benz Stadium,Atlanta,Georgia
2,Feb 4 2018,LII (52),Philadelphia Eagles,41,New England Patriots,33,Nick Foles,U.S. Bank Stadium,Minneapolis,Minnesota
3,Feb 5 2017,LI (51),New England Patriots,34,Atlanta Falcons,28,Tom Brady,NRG Stadium,Houston,Texas
4,Feb 7 2016,50,Denver Broncos,24,Carolina Panthers,10,Von Miller,Levi's Stadium,Santa Clara,California


In [7]:
# Quantas superbowls existem?
df['SB'].count()

54

In [12]:
# Quantas superbowls foram realizadas na California?
california = df[
    (df['State'] == 'California')
]
california['SB'].count()

12

In [15]:
# Quantas superbowls foram realizadas na California e na Flórida? Quantos cada um tem separadamente?
total = df[
    (df['State'] == 'California') | (df['State'] == 'Florida')
]
print(total['SB'].count())

28


### Solução 1

In [17]:
california = df[
    (df['State'] == 'California')
]
print('California:', california['SB'].count())

florida = df[
    (df['State'] == 'Florida')
]
print('Florida:', florida['SB'].count())

California: 12
Florida: 16


### Solução 2

In [22]:
agrupado = total.groupby('State', as_index=False).count()
agrupado[['State', 'SB']]

Unnamed: 0,State,SB
0,California,12
1,Florida,16


In [31]:
# Quais são os estádios mais utilizados para Superbowl na California?
california = df[
    (df['State'] == 'California')
]

california = california.groupby(by=['State', 'Stadium'], as_index=False).count()
california = california[['State', 'Stadium', 'SB']]
california.sort_values('SB', ascending=False)

Unnamed: 0,State,Stadium,SB
4,California,Rose Bowl,5
2,California,Memorial Coliseum,2
3,California,Qualcomm Stadium,2
0,California,Jack Murphy Stadium,1
1,California,Levi's Stadium,1
5,California,Stanford Stadium,1


In [43]:
# Quantas superbowls foram realizadas em Fevereiro?

# Construindo a coluna "Mes"
meses = []
for data in df['Date']:
    mes, dia, ano = data.split(' ')
    meses.append(mes)

df['Mes'] = meses

fevereiro = df[
    (df['Mes'] == 'Feb')
]
print('Fevereiro:', fevereiro['SB'].count())

df.groupby(by='Mes', as_index=False).count()

Fevereiro: 18


Unnamed: 0,Mes,Date,SB,Winner,Winner Pts,Loser,Loser Pts,MVP,Stadium,City,State
0,Feb,18,18,18,18,18,18,18,18,18,18
1,Jan,36,36,36,36,36,36,36,36,36,36


In [46]:
# Quem é o MVP de todo o superbowl e em quantas edições ele foi elegido MVP?
agrupado = df.groupby(by='MVP').count()
agrupado = agrupado.sort_values('SB', ascending=False)
agrupado.head()

Unnamed: 0_level_0,Date,SB,Winner,Winner Pts,Loser,Loser Pts,Stadium,City,State,Mes
MVP,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Tom Brady,4,4,4,4,4,4,4,4,4,4
Joe Montana+,3,3,3,3,3,3,3,3,3,3
Bart Starr+,2,2,2,2,2,2,2,2,2,2
Terry Bradshaw+,2,2,2,2,2,2,2,2,2,2
Eli Manning,2,2,2,2,2,2,2,2,2,2


# Problemas de Formatação

## Exemplo - Conceito

### Exemplo 1

In [51]:
df = pd.DataFrame({
    'Anuncio': ['A', 'B'],
    'Impressao': [100, 1000],
    'Cliques': [40, 10]
})
df.head()

Unnamed: 0,Anuncio,Impressao,Cliques
0,A,100,40
1,B,1000,10


In [52]:
df['CTR %'] = df['Cliques'] / df['Impressao'] * 100

df.head()

Unnamed: 0,Anuncio,Impressao,Cliques,CTR %
0,A,100,40,40.0
1,B,1000,10,1.0


### Exemplo 2

In [91]:
import pandas as pd

df = pd.DataFrame({
    'Carro': ['A', 'B', 'C', 'D', 'E'],
    'Marca/Modelo': ['Toyota-Etios', 'Honda*Civic', 'Chevrolet Onix', 'Hyundai/HB20', 'Chevrolet Prisma'],
    'Distância (pol)': [623.36, 698.82, 587.27, 679.13, 656.17],
    'Tempo (s)': ['1000%', '1500%', '1100%', '1400%', '1200%'],
})

df.head()

Unnamed: 0,Carro,Marca/Modelo,Distância (pol),Tempo (s)
0,A,Toyota-Etios,623.36,1000%
1,B,Honda*Civic,698.82,1500%
2,C,Chevrolet Onix,587.27,1100%
3,D,Hyundai/HB20,679.13,1400%
4,E,Chevrolet Prisma,656.17,1200%


#### Formato desejado: marca modelo

In [92]:
marca_modelos = []
for marca_modelo in df['Marca/Modelo']:
    # Solucao 1
    # marca_modelo = marca_modelo.replace('-', ' ')
    # marca_modelo = marca_modelo.replace('*', ' ')
    # marca_modelo = marca_modelo.replace('/', ' ')
    
    # Solucao 2
    # marca_modelo = marca_modelo.replace('-', ' ')replace('*', ' ').replace('/', ' ')
    
    for caractere in ['-', '*', '/']:
        marca_modelo = marca_modelo.replace(caractere, ' ')
    
    marca_modelos.append(marca_modelo)

df['Marca/Modelo'] = marca_modelos
df.head()

Unnamed: 0,Carro,Marca/Modelo,Distância (pol),Tempo (s)
0,A,Toyota Etios,623.36,1000%
1,B,Honda Civic,698.82,1500%
2,C,Chevrolet Onix,587.27,1100%
3,D,Hyundai HB20,679.13,1400%
4,E,Chevrolet Prisma,656.17,1200%


#### Unidade desejada: pol -> metros

In [93]:
# round(numero, numero-casas-decimais)
df['Distância (m)'] = round(df['Distância (pol)'] * 0.0254, 2)
df.head()

Unnamed: 0,Carro,Marca/Modelo,Distância (pol),Tempo (s),Distância (m)
0,A,Toyota Etios,623.36,1000%,15.83
1,B,Honda Civic,698.82,1500%,17.75
2,C,Chevrolet Onix,587.27,1100%,14.92
3,D,Hyundai HB20,679.13,1400%,17.25
4,E,Chevrolet Prisma,656.17,1200%,16.67


#### Formato desejado: segundos como número inteiro

In [94]:
tempos = []
for tempo in df['Tempo (s)']:
    tempo = tempo.replace('%', '')
    tempo = int(tempo)
    tempo = int(tempo / 100)

    tempos.append(tempo)

df['Tempo (s)'] = tempos
df.head()

Unnamed: 0,Carro,Marca/Modelo,Distância (pol),Tempo (s),Distância (m)
0,A,Toyota Etios,623.36,10,15.83
1,B,Honda Civic,698.82,15,17.75
2,C,Chevrolet Onix,587.27,11,14.92
3,D,Hyundai HB20,679.13,14,17.25
4,E,Chevrolet Prisma,656.17,12,16.67


## Formato de data

In [95]:
# Formato desejado: dd/mês/ano
# Formato atual: ano-mês-dia

import pandas as pd
apple = pd.read_csv('AAPL.csv', sep=',')
apple.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2016-03-01,97.650002,100.769997,97.419998,100.529999,94.228645,50407100
1,2016-03-02,100.510002,100.889999,99.639999,100.75,94.434853,33169600
2,2016-03-03,100.580002,101.709999,100.449997,101.5,95.137848,36955700
3,2016-03-04,102.370003,103.75,101.370003,103.010002,96.553185,46055100
4,2016-03-07,102.389999,102.830002,100.959999,101.870003,95.484657,35828900


In [100]:
for data in apple['Date']:
    ano, mes, dia = data.split('-')
    print(ano, mes, dia)
    print(type(ano))
    break

2016 03 01
<class 'str'>


In [101]:
novas_datas = []
for data in apple['Date']:
    ano, mes, dia = data.split('-')
    novas_datas.append(dia + '/' + mes + '/' + ano)

novas_datas[0]

'01/03/2016'

In [102]:
apple['Date'] = novas_datas
apple.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,01/03/2016,97.650002,100.769997,97.419998,100.529999,94.228645,50407100
1,02/03/2016,100.510002,100.889999,99.639999,100.75,94.434853,33169600
2,03/03/2016,100.580002,101.709999,100.449997,101.5,95.137848,36955700
3,04/03/2016,102.370003,103.75,101.370003,103.010002,96.553185,46055100
4,07/03/2016,102.389999,102.830002,100.959999,101.870003,95.484657,35828900


## Produtos e-commerce

In [125]:
# Importando as bibliotecas
import pandas as pd
import requests
from bs4 import BeautifulSoup

# Encontrar a URL
url = 'https://www.kalunga.com.br/depto/gamers/13?menuID=109&menuCat=all'

# Contruir um objeto soup a partir da URL
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

# Construindo o código
catalogo = []
for resultado in soup.find_all('h1', attrs={'class': 'text-left mt-2 text-dark'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    preco = bloco.find('span', attrs={'class': 'text-primary h6'}).text.split('à vista')[0].strip()
    categoria = ' '.join(resultado.text.split(' ')[0:3])
    
    catalogo.append([titulo, preco, categoria])

# Armazenando os dados
produtos = pd.DataFrame(catalogo, columns=['Título', 'Preço', 'Categoria'])
produtos

Unnamed: 0,Título,Preço,Categoria
0,"Monitor LED 29"" IPS ultrawide 1ms 75Hz Pro Gam...","R$ 1.405,53","Monitor LED 29"""
1,Cadeira Gamer DXRacer Nex preta/azul OK134/NB ...,"R$ 863,10",Cadeira Gamer DXRacer
2,Cadeira Gamer DXRacer Nex preta/vermelho OK134...,"R$ 989,10",Cadeira Gamer DXRacer
3,Cadeira Gamer DXRacer Nex preta/verde OK134/NE...,"R$ 989,10",Cadeira Gamer DXRacer
4,Headset Gamer P2 HyperX Cloud II 7.1 preto/ver...,"R$ 536,66",Headset Gamer P2
5,Cadeira Gamer Cloud preta/vermelha/branca 1640...,"R$ 602,10",Cadeira Gamer Cloud
6,Cadeira Gamer Cloud preta/azul/branca 17434 Li...,"R$ 602,10",Cadeira Gamer Cloud
7,Headset Gamer P2 HyperX Cloud Stinger Core Hyp...,"R$ 255,55",Headset Gamer P2
8,Headset Gamer P2 HyperX Cloud Stinger HX-HSCSB...,"R$ 331,55",Headset Gamer P2
9,Console Playstation 4 Slim 1TB Hits Bundle FIF...,"R$ 2.591,04",Console Playstation 4


In [126]:
produtos['Preço'].sum()

'R$ 1.405,53R$ 863,10R$ 989,10R$ 989,10R$ 536,66R$ 602,10R$ 602,10R$ 255,55R$ 331,55R$ 2.591,04R$ 123,90R$ 313,41R$ 508,16R$ 149,06R$ 43,40R$ 189,91R$ 284,91R$ 569,05R$ 119,91R$ 152,10R$ 71,10R$ 6.209,10R$ 989,10R$ 989,10'

In [127]:
produtos['Categoria'].value_counts()

Cadeira Gamer DXRacer      5
Headset Gamer P2           4
Mouse Gamer usb            3
Cadeira Gamer Cloud        2
Headset Gamer P2/USB       2
Console Playstation 4      1
Jogo The Last              1
Computador Gamer Ultra,    1
Jogo Days Gone             1
Jogo PES 2020              1
Mouse Pad Gamer            1
Monitor LED 29"            1
Teclado USB Gamer          1
Name: Categoria, dtype: int64

In [128]:
precos = []
for preco in produtos['Preço']:
    print(float(preco.replace('R$', '')))

ValueError: could not convert string to float: ' 1.405,53'

In [132]:
precos = []
for preco in produtos['Preço']:
    preco = preco.replace('R$', '')
    preco = preco.replace('.', '')
    preco = preco.replace(',', '.')
    precos.append(float(preco))

produtos['Preço2'] = precos
produtos['Preço2'].sum()

19878.04

In [133]:
categorias = []
for categoria in produtos['Categoria']:
    palavras = categoria.split(' ')
    categorias.append(palavras[0])

produtos['Categoria'] = categorias
produtos['Categoria'].value_counts()

Cadeira       7
Headset       6
Mouse         4
Jogo          3
Computador    1
Teclado       1
Monitor       1
Console       1
Name: Categoria, dtype: int64

# Valores duplicados

In [141]:
from random import choice

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://www.google.com/search?q=ciencia+de+dados'

html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

resultados = []
for resultado in soup.find_all('div', attrs={'class': 'BNeawe vvjwJb AP7Wnd'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    url = bloco.a['href']
    descricao = bloco.find('div', attrs={'class': 'BNeawe s3v9rd AP7Wnd'}).text
    
    resultados.append([titulo, url, descricao])
    
    duplicar = choice([False, True])
    if duplicar:
        resultados.append([titulo, url, descricao])


buscas = pd.DataFrame(resultados, columns=['Título', 'URL', 'Descrição'])
buscas

Unnamed: 0,Título,URL,Descrição
0,Como migrar para Ciência de Dados: dicas práti...,/url?q=https://medium.com/somos-tera/como-migr...,14 de fev. de 2020 · Buscando impulsionar sua ...
1,Como migrar para Ciência de Dados: dicas práti...,/url?q=https://medium.com/somos-tera/como-migr...,14 de fev. de 2020 · Buscando impulsionar sua ...
2,Introdução à Ciência de Dados 2.0 - Data Scien...,/url?q=https://www.datascienceacademy.com.br/c...,Ciência de Dados é a exploração e análise de t...
3,"Ciência de dados – Wikipédia, a enciclopédia l...",/url?q=https://pt.wikipedia.org/wiki/Ci%25C3%2...,Ciência de dados (em inglês: data science) é u...
4,"Ciência de Dados: O que é, conceito e definiçã...",/url?q=https://www.cetax.com.br/blog/data-scie...,A ciência de dados envolve diversas disciplina...
5,O que é Ciência de Dados? | Oracle Brasil,/url?q=https://www.oracle.com/br/data-science/...,A ciência de dados é um campo interdisciplinar...
6,"Ciência de Dados ou Data Science: O que é, Apl...",/url?q=https://fia.com.br/blog/ciencia-de-dado...,26 de set. de 2019 · Práticas da ciência de da...
7,"Ciência de Dados ou Data Science: O que é, Apl...",/url?q=https://fia.com.br/blog/ciencia-de-dado...,26 de set. de 2019 · Práticas da ciência de da...
8,Ciência e Dados — Data Science for Professionals,/url?q=https://www.cienciaedados.com/&sa=U&ved...,Este capítulo fornecerá uma visão geral das re...
9,Ciência e Dados — Data Science for Professionals,/url?q=https://www.cienciaedados.com/&sa=U&ved...,Este capítulo fornecerá uma visão geral das re...


In [145]:
limpo = buscas.drop_duplicates(subset=['Título', 'URL'])
limpo = limpo.reset_index(drop=True)
limpo

Unnamed: 0,Título,URL,Descrição
0,Como migrar para Ciência de Dados: dicas práti...,/url?q=https://medium.com/somos-tera/como-migr...,14 de fev. de 2020 · Buscando impulsionar sua ...
1,Introdução à Ciência de Dados 2.0 - Data Scien...,/url?q=https://www.datascienceacademy.com.br/c...,Ciência de Dados é a exploração e análise de t...
2,"Ciência de dados – Wikipédia, a enciclopédia l...",/url?q=https://pt.wikipedia.org/wiki/Ci%25C3%2...,Ciência de dados (em inglês: data science) é u...
3,"Ciência de Dados: O que é, conceito e definiçã...",/url?q=https://www.cetax.com.br/blog/data-scie...,A ciência de dados envolve diversas disciplina...
4,O que é Ciência de Dados? | Oracle Brasil,/url?q=https://www.oracle.com/br/data-science/...,A ciência de dados é um campo interdisciplinar...
5,"Ciência de Dados ou Data Science: O que é, Apl...",/url?q=https://fia.com.br/blog/ciencia-de-dado...,26 de set. de 2019 · Práticas da ciência de da...
6,Ciência e Dados — Data Science for Professionals,/url?q=https://www.cienciaedados.com/&sa=U&ved...,Este capítulo fornecerá uma visão geral das re...
7,Bacharelado em Ciência de Dados _ Univesp |,/url?q=https://univesp.br/cursos/bacharel-em-c...,Bacharelado em Ciência de Dados. Com duração d...
8,Descubra a nova graduação em Ciência de Dados ...,/url?q=https://guiadoestudante.abril.com.br/bl...,19 de jul. de 2018 · Curso inédito forma o pro...


# Atividade

## Exercício 1

In [None]:
import pandas as pd
df = pd.read_csv('superbowl.csv', sep=',')
df.head()

1. Criar 3 novas colunas: dia, mês, ano

2. Transformar a coluna mês em número

3. Colocar a coluna Date no formato dia/mes/ano 

## Exercício 2

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.youtube.com/results?search_query=ciencia+de+dados'

html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

resultados = []
for video in soup.find_all('div', attrs={'class': 'yt-lockup-content'}):
    titulo = video.find('h3', attrs={'class': 'yt-lockup-title'}).a.text
    duracao = video.find('h3', attrs={'class': 'yt-lockup-title'}).span.text
    url = video.find('h3', attrs={'class': 'yt-lockup-title'}).a['href']
    resultados.append([titulo, duracao, url])

videos = pd.DataFrame(resultados, columns=['Título', 'Duração', 'URL'])
videos.head()

1. Formatar a coluna de duração para o formato mm:ss

2. Criar duas novas colunas: Minutos, Segundos

3. Adicionar 'https://www.youtube.com' antes dos valores da coluna URL

## Exercício 3

In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://www.google.com/search?q=ciencia+de+dados'

html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

resultados = []
for resultado in soup.find_all('div', attrs={'class': 'BNeawe vvjwJb AP7Wnd'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    url = bloco.a['href']
    descricao = bloco.find('div', attrs={'class': 'BNeawe s3v9rd AP7Wnd'}).text
    
    resultados.append([titulo, url, descricao])

buscas = pd.DataFrame(resultados, columns=['Título', 'URL', 'Descrição'])
buscas.head()

1. Eliminar a string "/url?q=" do campo URL