# Revisão Pandas

## Lendo uma base de dados

In [2]:
import pandas as pd
df = pd.read_csv('superbowl.csv', sep=',')
df.head()

Unnamed: 0,Date,SB,Winner,Winner Pts,Loser,Loser Pts,MVP,Stadium,City,State
0,Feb 2 2020,LIV (54),Kansas City Chiefs,31,San Francisco 49ers,20,Patrick Mahomes,Hard Rock Stadium,Miami Gardens,Florida
1,Feb 3 2019,LIII (53),New England Patriots,13,Los Angeles Rams,3,Julian Edelman,Mercedes-Benz Stadium,Atlanta,Georgia
2,Feb 4 2018,LII (52),Philadelphia Eagles,41,New England Patriots,33,Nick Foles,U.S. Bank Stadium,Minneapolis,Minnesota
3,Feb 5 2017,LI (51),New England Patriots,34,Atlanta Falcons,28,Tom Brady,NRG Stadium,Houston,Texas
4,Feb 7 2016,50,Denver Broncos,24,Carolina Panthers,10,Von Miller,Levi's Stadium,Santa Clara,California


## Entendendo as colunas

In [3]:
df.dtypes

Date          object
SB            object
Winner        object
Winner Pts     int64
Loser         object
Loser Pts      int64
MVP           object
Stadium       object
City          object
State         object
dtype: object

In [15]:
df.shape

(54, 10)

## Manipulando as colunas

In [19]:
df['Date'].head()

0    Feb 2 2020
1    Feb 3 2019
2    Feb 4 2018
3    Feb 5 2017
4    Feb 7 2016
Name: Date, dtype: object

In [20]:
df['Winner Pts'].head()

0    31
1    13
2    41
3    34
4    24
Name: Winner Pts, dtype: int64

In [22]:
pontos = df['Winner Pts']
print('Soma:', pontos.sum())
print('Média:', pontos.mean())
print('Contagem: ', pontos.count())

Soma: 1626
Média: 30.11111111111111
Contagem:  54


## Ordenando os valores

- Quais 5 edições os times ganharam o maior número de pontos?

- Ordene os nomes dos MVPs de todas as edições do superbowl em ordem crescente

## Operações de filtro

- Quantas superbowls foram realizadas na Orange Bowl (Florida)?

- Quantas superbowls foram realizadas na Florida?

## Agrupamento

- Quantas superbowls foram realizadas em cada estado?

## Misturando tudo

- Quais estados que realizam o maior número de superbowls?

- Quem são os times que mais ganham o superbowl?

## Exercícios 

In [23]:
# Quantas superbowls existem?

In [None]:
# Quantas superbowls foram realizadas na California?

In [None]:
# Quais são os estádios mais utilizados para Superbowl na California?

In [None]:
# Quantas superbowls foram realizadas em Fevereiro?

# Problemas de Formatação

## Formato de data

In [20]:
# Formato desejado: dd/mês/ano
# Formato atual: ano-mês-dia

import pandas as pd
apple = pd.read_csv('AAPL.csv', sep=',')
apple.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2016-03-01,97.650002,100.769997,97.419998,100.529999,94.228645,50407100
1,2016-03-02,100.510002,100.889999,99.639999,100.75,94.434853,33169600
2,2016-03-03,100.580002,101.709999,100.449997,101.5,95.137848,36955700
3,2016-03-04,102.370003,103.75,101.370003,103.010002,96.553185,46055100
4,2016-03-07,102.389999,102.830002,100.959999,101.870003,95.484657,35828900


In [21]:
for data in apple['Date']:
    ano, mes, dia = data.split('-')
    print(ano, mes, dia)
    break

2016 03 01


In [22]:
novas_datas = []
for data in apple['Date']:
    ano, mes, dia = data.split('-')
    novas_datas.append(dia + '/' + mes + '/' + ano)

novas_datas[0]

'01/03/2016'

In [23]:
apple['Date'] = novas_datas
apple.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,01/03/2016,97.650002,100.769997,97.419998,100.529999,94.228645,50407100
1,02/03/2016,100.510002,100.889999,99.639999,100.75,94.434853,33169600
2,03/03/2016,100.580002,101.709999,100.449997,101.5,95.137848,36955700
3,04/03/2016,102.370003,103.75,101.370003,103.010002,96.553185,46055100
4,07/03/2016,102.389999,102.830002,100.959999,101.870003,95.484657,35828900


## Produtos e-commerce

In [1]:
# Importando as bibliotecas
import pandas as pd
import requests
from bs4 import BeautifulSoup

# Encontrar a URL
url = 'https://www.kalunga.com.br/depto/gamers/13?menuID=109&menuCat=all'

# Contruir um objeto soup a partir da URL
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

# Construindo o código
catalogo = []
for resultado in soup.find_all('h1', attrs={'class': 'text-left mt-2 text-dark'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    preco = bloco.find('span', attrs={'class': 'text-primary h6'}).text.split('à vista')[0].strip()
    categoria = ' '.join(resultado.text.split(' ')[0:3])
    
    catalogo.append([titulo, preco, categoria])

# Armazenando os dados
produtos = pd.DataFrame(catalogo, columns=['Título', 'Preço', 'Categoria'])
produtos

NameError: name 'pd' is not defined

In [None]:
produtos['Preço'].sum()

In [None]:
produtos['Categoria'].value_counts()

In [None]:
precos = []
for preco in produtos['Preço']:
    print(float(preco.replace('R$', '')))

In [None]:
precos = []
for preco in produtos['Preço']:
    preco = preco.replace('R$', '')
    preco = preco.replace('.', '')
    preco = preco.replace(',', '.')
    precos.append(float(preco))

produtos['Preço'] = precos
produtos['Preço'].sum()

In [None]:
categorias = []
for categoria in produtos['Categoria']:
    palavras = categoria.split('-')
    categorias.append(palavras[0])

produtos['Categoria'] = categorias
produtos['Categoria'].value_counts()

# Valores duplicados

In [44]:
from random import choice

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://www.google.com/search?q=ciencia+de+dados'

html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

buscas = []
for resultado in soup.find_all('div', attrs={'class': 'BNeawe vvjwJb AP7Wnd'}):
    bloco = resultado.parent.parent.parent.parent
    
    titulo = resultado.text
    url = bloco.a['href']
    descricao = bloco.find('div', attrs={'class': 'BNeawe s3v9rd AP7Wnd'}).text
    
    buscas.append([titulo, url, descricao])
    
    duplicar = choice([False, True])
    if duplicar:
        buscas.append([titulo, url, descricao])


df = pd.DataFrame(buscas, columns=['Título', 'URL', 'Descrição'])
df

Unnamed: 0,Título,URL,Descrição
0,Introdução à Ciência de Dados 2.0 - Data Scien...,/url?q=https://www.datascienceacademy.com.br/c...,Ciência de Dados é a exploração e análise de t...
1,Como migrar para Ciência de Dados: dicas práti...,/url?q=https://medium.com/somos-tera/como-migr...,14 de fev. de 2020 · Buscando impulsionar sua ...
2,Como migrar para Ciência de Dados: dicas práti...,/url?q=https://medium.com/somos-tera/como-migr...,14 de fev. de 2020 · Buscando impulsionar sua ...
3,"Ciência de dados – Wikipédia, a enciclopédia l...",/url?q=https://pt.wikipedia.org/wiki/Ci%25C3%2...,Ciência de dados (em inglês: data science) é u...
4,"Ciência de Dados: O que é, conceito e definiçã...",/url?q=https://www.cetax.com.br/blog/data-scie...,A ciência de dados envolve diversas disciplina...
5,O que é Ciência de Dados? | Oracle Brasil,/url?q=https://www.oracle.com/br/data-science/...,A ciência de dados é um campo interdisciplinar...
6,Ciência e Dados — Data Science for Professionals,/url?q=https://www.cienciaedados.com/&sa=U&ved...,Este capítulo fornecerá uma visão geral das re...
7,Ciência e Dados — Data Science for Professionals,/url?q=https://www.cienciaedados.com/&sa=U&ved...,Este capítulo fornecerá uma visão geral das re...
8,"Ciência de Dados ou Data Science: O que é, Apl...",/url?q=https://fia.com.br/blog/ciencia-de-dado...,26 de set. de 2019 · Práticas da ciência de da...
9,Descubra a nova graduação em Ciência de Dados ...,/url?q=https://guiadoestudante.abril.com.br/bl...,19 de jul. de 2018 · Curso inédito forma o pro...


In [47]:
df.drop_duplicates().reset_index(drop=True)

Unnamed: 0,Título,URL,Descrição
0,Introdução à Ciência de Dados 2.0 - Data Scien...,/url?q=https://www.datascienceacademy.com.br/c...,Ciência de Dados é a exploração e análise de t...
1,Como migrar para Ciência de Dados: dicas práti...,/url?q=https://medium.com/somos-tera/como-migr...,14 de fev. de 2020 · Buscando impulsionar sua ...
2,"Ciência de dados – Wikipédia, a enciclopédia l...",/url?q=https://pt.wikipedia.org/wiki/Ci%25C3%2...,Ciência de dados (em inglês: data science) é u...
3,"Ciência de Dados: O que é, conceito e definiçã...",/url?q=https://www.cetax.com.br/blog/data-scie...,A ciência de dados envolve diversas disciplina...
4,O que é Ciência de Dados? | Oracle Brasil,/url?q=https://www.oracle.com/br/data-science/...,A ciência de dados é um campo interdisciplinar...
5,Ciência e Dados — Data Science for Professionals,/url?q=https://www.cienciaedados.com/&sa=U&ved...,Este capítulo fornecerá uma visão geral das re...
6,"Ciência de Dados ou Data Science: O que é, Apl...",/url?q=https://fia.com.br/blog/ciencia-de-dado...,26 de set. de 2019 · Práticas da ciência de da...
7,Descubra a nova graduação em Ciência de Dados ...,/url?q=https://guiadoestudante.abril.com.br/bl...,19 de jul. de 2018 · Curso inédito forma o pro...
8,Bacharelado em Ciência de Dados _ Univesp |,/url?q=https://univesp.br/cursos/bacharel-em-c...,Bacharelado em Ciência de Dados. Com duração d...
9,O que é Ciência de Dados - Portal GSTI,/url?q=https://www.portalgsti.com.br/ciencia-d...,O que é Ciência de Dados (Data Science). Data ...
