# Revisão Pandas

## Lendo uma base de dados

In [None]:
import pandas as pd
df = pd.read_csv('superbowl.csv', sep=',')
df.head()

## Entendendo as colunas

In [None]:
df.dtypes

In [None]:
df.shape

## Manipulando as colunas

In [None]:
df['Date'].head()

In [None]:
df['Winner Pts'].head()

In [None]:
pontos = df['Winner Pts']
print('Soma:', pontos.sum())
print('Média:', pontos.mean())
print('Contagem: ', pontos.count())

In [None]:
df['Contagem'] = 1
df.head()

## Ordenando os valores

- Quais 5 edições os times ganharam o maior número de pontos?

- Ordene os nomes dos MVPs de todas as edições do superbowl em ordem crescente

## Operações de filtro

- Quantas superbowls foram realizadas na Orange Bowl (Florida)?

- Quantas superbowls foram realizadas na Florida?

## Agrupamento

- Quantas superbowls foram realizadas em cada estado?

## Misturando tudo

- Quais estados que realizam o maior número de superbowls?

- Quem são os times que mais ganham o superbowl?

## Exercícios 

In [None]:
# Quantas superbowls existem?

In [None]:
# Quantas superbowls foram realizadas na California?

In [None]:
# Quais são os estádios mais utilizados para Superbowl na California?

In [None]:
# Quantas superbowls foram realizadas em Fevereiro?

# Problemas de Formatação

## Formato de data

In [None]:
# Formato desejado: dd/mês/ano
# Formato atual: ano-mês-dia

import pandas as pd
apple = pd.read_csv('AAPL.csv', sep=',')
apple.head()

In [None]:
for data in apple['Date']:
    ano, mes, dia = data.split('-')
    print(ano, mes, dia)
    break

In [None]:
novas_datas = []
for data in apple['Date']:
    ano, mes, dia = data.split('-')
    novas_datas.append(dia + '/' + mes + '/' + ano)

novas_datas[0]

In [None]:
apple['Date'] = novas_datas
apple.head()

## Produtos e-commerce

In [None]:
# Importando as bibliotecas
import pandas as pd
import requests
from bs4 import BeautifulSoup

# Encontrar a URL
url = 'https://www.kalunga.com.br/depto/gamers/13?menuID=109&menuCat=all'

# Contruir um objeto soup a partir da URL
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

# Construindo o código
catalogo = []
for resultado in soup.find_all('h1', attrs={'class': 'text-left mt-2 text-dark'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    preco = bloco.find('span', attrs={'class': 'text-primary h6'}).text.split('à vista')[0].strip()
    categoria = ' '.join(resultado.text.split(' ')[0:3])
    
    catalogo.append([titulo, preco, categoria])

# Armazenando os dados
produtos = pd.DataFrame(catalogo, columns=['Título', 'Preço', 'Categoria'])
produtos

In [None]:
produtos['Preço'].sum()

In [None]:
produtos['Categoria'].value_counts()

In [None]:
precos = []
for preco in produtos['Preço']:
    print(float(preco.replace('R$', '')))

In [None]:
precos = []
for preco in produtos['Preço']:
    preco = preco.replace('R$', '')
    preco = preco.replace('.', '')
    preco = preco.replace(',', '.')
    precos.append(float(preco))

produtos['Preço'] = precos
produtos['Preço'].sum()

In [None]:
categorias = []
for categoria in produtos['Categoria']:
    palavras = categoria.split('-')
    categorias.append(palavras[0])

produtos['Categoria'] = categorias
produtos['Categoria'].value_counts()

# Valores duplicados

In [None]:
from random import choice

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://www.google.com/search?q=ciencia+de+dados'

html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

resultados = []
for resultado in soup.find_all('div', attrs={'class': 'BNeawe vvjwJb AP7Wnd'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    url = bloco.a['href']
    descricao = bloco.find('div', attrs={'class': 'BNeawe s3v9rd AP7Wnd'}).text
    
    resultados.append([titulo, url, descricao])
    
    duplicar = choice([False, True])
    if duplicar:
        resultados.append([titulo, url, descricao])


buscas = pd.DataFrame(resultados, columns=['Título', 'URL', 'Descrição'])
buscas

In [None]:
buscas.drop_duplicates().reset_index(drop=True)

# Atividade

## Exercício 1

In [None]:
import pandas as pd
df = pd.read_csv('superbowl.csv', sep=',')
df.head()

1. Criar 3 novas colunas: dia, mês, ano

2. Transformar a coluna mês em numero

3. Colocar a coluna Date no formato dia/mes/ano 

## Exercício 2

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.youtube.com/results?search_query=ciencia+de+dados'

html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

resultados = []
for video in soup.find_all('div', attrs={'class': 'yt-lockup-content'}):
    titulo = video.find('h3', attrs={'class': 'yt-lockup-title'}).a.text
    duracao = video.find('h3', attrs={'class': 'yt-lockup-title'}).span.text
    url = video.find('h3', attrs={'class': 'yt-lockup-title'}).a['href']
    resultados.append([titulo, duracao, url])

videos = pd.DataFrame(resultados, columns=['Título', 'Duração', 'URL'])
videos.head()

1. Formatar a coluna de duração para o formato mm:ss

2. Criar duas novas colunas: Minutos, Segundos

3. Adicionar 'https://www.youtube.com' antes dos valores da coluna URL

## Exercício 3

In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://www.google.com/search?q=ciencia+de+dados'

html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

resultados = []
for resultado in soup.find_all('div', attrs={'class': 'BNeawe vvjwJb AP7Wnd'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    url = bloco.a['href']
    descricao = bloco.find('div', attrs={'class': 'BNeawe s3v9rd AP7Wnd'}).text
    
    resultados.append([titulo, url, descricao])

buscas = pd.DataFrame(resultados, columns=['Título', 'URL', 'Descrição'])
buscas.head()

1. Eliminar a string "/url?q=" do campo URL