# Python Pandas

In [1]:
import numpy as np
import pandas as pd
import random
from IPython.core.display import HTML, Markdown

# Gerando dados aleatórios para a tabela de exemplo
palavras_exemplo = ['Camiseta', 'Calça', 'Sapato', 'Meia', 'Boné', 'Maçã', 'Banana', 'Laranja', 'Uva', 'Abacaxi', 'Morango', 'Pêra', 'Kiwi', 'Melancia', 'Mamão']
num_linhas = 100
palavras_aleatorias = random.choices(palavras_exemplo, k=num_linhas)
quantidades = [random.randint(1, 50) for _ in range(num_linhas)]
precos = [round(random.uniform(10.0, 100.0), 2) for _ in range(num_linhas)]

# Criando o DataFrame via dicionário
data = {
    'Código': np.random.randint(1, 9000, 100),
    'Produto': palavras_aleatorias,
    'Quantidade': quantidades,
    'Preço': precos
}

df = pd.DataFrame(data)

# Salvando em arquivo 
df.to_csv('vendas.csv', index=False)

# montrando na tela 
display(df.head())



Unnamed: 0,Código,Produto,Quantidade,Preço
0,217,Banana,49,99.75
1,6144,Uva,7,91.84
2,1866,Maçã,1,34.21
3,3464,Meia,50,52.22
4,5710,Boné,22,87.73


In [2]:
# Lendo o arquivo csv gerado 
df = pd.read_csv('vendas.csv')

# Exibindo parte inicial do arquivo lido 
display(df.head())

Unnamed: 0,Código,Produto,Quantidade,Preço
0,217,Banana,49,99.75
1,6144,Uva,7,91.84
2,1866,Maçã,1,34.21
3,3464,Meia,50,52.22
4,5710,Boné,22,87.73


In [3]:
# Calcular a soma total das quantidades vendidas:
total_quantidade = df['Quantidade'].sum()
print('Total de quantidades vendidas:', total_quantidade)

# Calcular a média dos preços dos produtos:
media_preco = df['Preço'].mean()
print('Média de preços: R$ {:.2f}'.format(media_preco))

Total de quantidades vendidas: 2867
Média de preços: R$ 51.66


In [4]:
# Filtrar os produtos com quantidades vendidas acima de um determinado valor:
quantidade_limite = 40
produtos_acima_limite = df[df['Quantidade'] > quantidade_limite]
print('Produtos com quantidades acima de', quantidade_limite)
print(produtos_acima_limite)


Produtos com quantidades acima de 40
    Código   Produto  Quantidade  Preço
0      217    Banana          49  99.75
3     3464      Meia          50  52.22
11    5073      Meia          50  80.93
17    5103       Uva          44  67.96
18    3352   Laranja          49  25.44
19    4500       Uva          46  35.43
21    1905  Melancia          48  44.84
31    2148   Laranja          42  39.60
43    1667       Uva          48  17.35
46    6956    Banana          46  19.11
50    8396  Camiseta          46  66.70
52    1158    Sapato          42  55.68
55      64      Boné          45  76.37
63    2998   Laranja          44  25.76
69    5486   Laranja          46  25.57
75    8777     Mamão          45  21.15
78     120      Maçã          44  52.88
79       8   Abacaxi          42  53.64
80    7206      Maçã          48  19.37
85     872     Calça          43  91.03
94    3070  Melancia          50  47.24
96    6304    Banana          50  86.96
98    4431     Calça          46  93.44
99 

In [5]:
# Agrupar os dados por produto e calcular a soma das quantidades vendidas por produto:
quantidade_por_produto = df.groupby('Produto')['Quantidade'].sum()
print('Total de quantidades vendidas por produto:')
print(quantidade_por_produto)


Total de quantidades vendidas por produto:
Produto
Abacaxi     322
Banana      324
Boné        235
Calça       138
Camiseta    152
Kiwi         61
Laranja     220
Mamão       133
Maçã        249
Meia        228
Melancia    282
Morango     151
Pêra         33
Sapato      158
Uva         181
Name: Quantidade, dtype: int64


In [6]:
quantidade_por_produto > 200

Produto
Abacaxi      True
Banana       True
Boné         True
Calça       False
Camiseta    False
Kiwi        False
Laranja      True
Mamão       False
Maçã         True
Meia         True
Melancia     True
Morango     False
Pêra        False
Sapato      False
Uva         False
Name: Quantidade, dtype: bool

In [7]:
quantidade_por_produto[quantidade_por_produto > 200]

Produto
Abacaxi     322
Banana      324
Boné        235
Laranja     220
Maçã        249
Meia        228
Melancia    282
Name: Quantidade, dtype: int64

In [8]:
type(_)

pandas.core.series.Series

In [9]:
# ordenação 
preco_total_por_produto = df.groupby('Produto')['Preço'].sum().sort_values(ascending=False)

In [10]:
display(Markdown(preco_total_por_produto.to_markdown()))

| Produto   |   Preço |
|:----------|--------:|
| Abacaxi   |  797.49 |
| Melancia  |  523.14 |
| Boné      |  490.86 |
| Maçã      |  431.22 |
| Banana    |  404.84 |
| Meia      |  391.97 |
| Mamão     |  318.08 |
| Calça     |  303.33 |
| Sapato    |  270.48 |
| Uva       |  258.9  |
| Laranja   |  254.45 |
| Camiseta  |  250.88 |
| Morango   |  231.64 |
| Kiwi      |  173.43 |
| Pêra      |   65.29 |

## Web scraping with Python

In [14]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.imdb.com/chart/top/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get(url, headers=headers)
html_content = response.text

# Create a Beautiful Soup object to parse the HTML
soup = BeautifulSoup(html_content, 'html.parser')

# Find the table rows containing movie information
movie_rows = soup.select('tbody.lister-list tr')

# Iterate over each movie row and extract the desired information
movies = []
for row in movie_rows:
    title_column = row.select_one('.titleColumn')
    title = title_column.a.text
    year = title_column.span.text.strip('()')
    rating = row.select_one('.ratingColumn strong').text
    movie = {
        'Title': title,
        'Year': year,
        'Rating': rating
    }
    movies.append(movie)
    


In [15]:
# convert to dataFrame
movies_df = pd.DataFrame(movies)
display(movies_df)
movies_df.to_csv("movies.csv")

In [None]:
url = 'https://www.amazon.com.br/gp/bestsellers/books'

# Send a GET request to the URL and fetch the HTML content
response = requests.get(url, headers=headers)
html_content = response.text

# Create a Beautiful Soup object to parse the HTML
soup = BeautifulSoup(html_content, 'html.parser')

# Find the list items containing book information
book_items = soup.find_all('div', id='gridItemRoot')
#print(book_items)

# Iterate over each book item and extract the desired information
books = []
for item in book_items:
    print(item)
    title = item.find('div', class_='_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y').text.strip()
    author = item.find('div', class_='_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y').text.strip()
    #price = item.find('span', class_='p13n-sc-price').text.strip()
    rating = item.find('span', class_='a-icon-alt').text.strip()
    book = {
       'Title': title,
       'Author': author,
       #'Price': price,
       'Rating': rating
    }
    books.append(book)


In [None]:
# convert to dataFrame
books_df = pd.DataFrame(books)
display(books_df)