# Problema de extração e análise de dados

# 1 - Definindo o problema de negócio

### Obter dados dos xxxxx na página web https://www.agrolink.com.br/cotacoes/graos/milho e fazer uma análise de dados

# 2 - Decisões

### O problema de negócio já informa que é requerido um webscrapping. Utilizaremos o pacote BeautifulSoup para fazer a extração dos dados. Após a limpeza dos dados, faremos gráficos e estatísticas utilizando pacotes básicos do python.

# 3 - Versão python e import dos pacotes utilizados

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.12.4


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
#!pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
#!pip install -q -U watermark

In [12]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re
sns.set_style('whitegrid')
from bs4 import BeautifulSoup
from tqdm import tqdm
from sqlalchemy import create_engine, text
import requests
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Danilo Temerloglou de Abreu" --iversions

Author: Danilo Temerloglou de Abreu

numpy     : 1.26.4
matplotlib: 3.8.4
requests  : 2.32.2
pandas    : 2.2.2
re        : 2.2.1
seaborn   : 0.13.2



# 4 - Webscrapping dos dados

In [5]:
def get_content(site):
    resp = requests.get(site)
    return resp.text

# URL do site que você deseja acessar
site = "http://www.seagri.ba.gov.br/cotacao?page=26&produto=&praca=&tipo=&data_inicio=01/08/2016&data_final=26/08/2016"

# Chamada para obter o conteúdo da página
conteudo_pagina = get_content(site)

In [6]:
soup2 = BeautifulSoup(conteudo_pagina, 'html.parser')
div_page = soup2.find("tr", class_ ="odd")
div_page

<tr class="odd"><td class="active">05/08/2016</td><td>Feijão</td><td>ADUSTINA</td><td>Carioca</td><td>sc 60 kg</td><td>R$ 450,00</td> </tr>

In [7]:
# Supondo que você já tenha 'conteudo_pagina' definido como o HTML da página
soup2 = BeautifulSoup(conteudo_pagina, 'html.parser')

# Encontrar a linha desejada
div_page = soup2.find("tr", class_="odd")

# Extrair os dados específicos
data = div_page.find("td", class_="active").text.strip()
produto = div_page.find_all("td")[1].text.strip()
municipio = div_page.find_all("td")[2].text.strip()
tipo = div_page.find_all("td")[3].text.strip()
peso = div_page.find_all("td")[4].text.strip()
preco = div_page.find_all("td")[5].text.strip()

# Exibir os resultados
print(f"Data: {data}")
print(f"Produto: {produto}")
print(f"Município: {municipio}")
print(f"Tipo: {tipo}")
print(f"Peso: {peso}")
print(f"Preco: {preco}")

Data: 05/08/2016
Produto: Feijão
Município: ADUSTINA
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 450,00


In [9]:
# Suponha que 'conteudo_pagina' contenha o HTML da página

soup2 = BeautifulSoup(conteudo_pagina, 'html.parser')

# Encontrar todas as linhas com classes 'odd' e 'even'
linhas_odd = soup2.find_all("tr", class_="odd")
linhas_even = soup2.find_all("tr", class_="even")

# Criar uma lista para armazenar todos os resultados
resultados = []

# Função para extrair os dados de uma linha e adicionar aos resultados
def extrair_dados(linha):
    data = linha.find("td", class_="active").text.strip()
    produto = linha.find_all("td")[1].text.strip()
    municipio = linha.find_all("td")[2].text.strip()
    tipo = linha.find_all("td")[3].text.strip()
    peso = linha.find_all("td")[4].text.strip()
    preco = linha.find_all("td")[5].text.strip()
    return {
        "data": data,
        "produto": produto,
        "municipio": municipio,
        "tipo": tipo,
        "peso": peso,
        "preco": preco
    }

# Iterar sobre as linhas ímpares (odd) e adicionar os resultados
for linha in linhas_odd:
    resultados.append(extrair_dados(linha))

# Iterar sobre as linhas pares (even) e adicionar os resultados
for linha in linhas_even:
    resultados.append(extrair_dados(linha))

# Exibir os resultados
for resultado in resultados:
    print(f"Data: {resultado['data']}")
    print(f"Produto: {resultado['produto']}")
    print(f"Município: {resultado['municipio']}")
    print(f"Tipo: {resultado['tipo']}")
    print(f"Peso: {resultado['peso']}")
    print(f"Preco: {resultado['preco']}")
    print()  # linha em branco para separar cada conjunto de dados

# Criando o DataFrame
df = pd.DataFrame(resultados)

Data: 05/08/2016
Produto: Feijão
Município: ADUSTINA
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 450,00

Data: 05/08/2016
Produto: Feijão
Município: RIBEIRA DO POMBAL
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 510,00

Data: 05/08/2016
Produto: Feijão
Município: IRECE
Tipo: Mulato
Peso: sc 60 kg
Preco: sem cotação

Data: 08/08/2016
Produto: Feijão
Município: IRECE
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 480,00

Data: 08/08/2016
Produto: Feijão
Município: TUCANO
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 480,00

Data: 09/08/2016
Produto: Feijão
Município: ADUSTINA
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 450,00

Data: 09/08/2016
Produto: Feijão
Município: RIBEIRA DO POMBAL
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 510,00

Data: 09/08/2016
Produto: Feijão
Município: IRECE
Tipo: Mulato
Peso: sc 60 kg
Preco: sem cotação

Data: 10/08/2016
Produto: Feijão
Município: IRECE
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 480,00

Data: 10/08/2016
Produto: Feijão
Município: TUCANO
Tipo: Carioca
Peso: sc 60 kg
Preco: R$ 480,

In [10]:
# Exibindo uma amostra do DataFrame
df.sample(5)

Unnamed: 0,data,produto,municipio,tipo,peso,preco
16,05/08/2016,Feijão,TUCANO,Carioca,sc 60 kg,"R$ 480,00"
0,05/08/2016,Feijão,ADUSTINA,Carioca,sc 60 kg,"R$ 450,00"
28,12/08/2016,Feijão,RIBEIRA DO POMBAL,Carioca,sc 60 kg,"R$ 510,00"
12,11/08/2016,Feijão,IRECE,Mulato,sc 60 kg,sem cotação
24,10/08/2016,Feijão,IRECE,Mulato,sc 60 kg,sem cotação


# 5 - Salvar dados num banco de dados com imagem docker

In [19]:
# Defina a URL de conexão para SQLite
db_url = 'sqlite:///database_agro.db'

# Crie um engine de conexão
engine = create_engine(db_url)

# Salvar DataFrame no banco de dados
def save_to_db(df):
    with engine.connect() as connection:
        df.to_sql('database_agro', connection, if_exists='replace', index=False)
    print("Dados salvos no banco de dados SQLite!")

In [20]:
# Salvar o DataFrame no banco de dados
save_to_db(df)

Dados salvos no banco de dados SQLite!


# 6 - Dicionário de dados

In [25]:
#data - data da informação 
#produto - produto do agro
#municipio - município
#tipo - tipo do produto 
#peso - peso em kg
#preco - preço em R$

# 7 - Recarregar dados a partir do banco de dados 

In [21]:
# Abrir uma nova conexão e ler dados
def read_from_db():
    with engine.connect() as connection:
        query = text('SELECT * FROM agro')
        result = connection.execute(query)
        df = pd.DataFrame(result.fetchall(), columns=result.keys())
        print("Dados carrregados do banco de dados SQLite!")
    return df

In [22]:
# Ler o DataFrame do banco de dados
df_from_db = read_from_db()
#print(df_from_db)

Dados carrregados do banco de dados SQLite!


In [23]:
df_from_db.columns

Index(['data', 'produto', 'municipio', 'tipo', 'peso', 'preco'], dtype='object')

In [26]:
df_from_db.sample(5)

Unnamed: 0,data,produto,municipio,tipo,peso,preco
28,12/08/2016,Feijão,RIBEIRA DO POMBAL,Carioca,sc 60 kg,"R$ 510,00"
26,11/08/2016,Feijão,TUCANO,Carioca,sc 60 kg,"R$ 450,00"
23,10/08/2016,Feijão,RIBEIRA DO POMBAL,Carioca,sc 60 kg,"R$ 510,00"
16,05/08/2016,Feijão,TUCANO,Carioca,sc 60 kg,"R$ 480,00"
3,08/08/2016,Feijão,IRECE,Carioca,sc 60 kg,"R$ 480,00"


# 8 - Pré processamento dos dados

# 9 - EDA

# 10 - Modelagem de machine learning

# 11 - Deploy do modelo de machine learning

## CONTINUAR A PARTIR DAQUI

In [None]:
df5.columns


In [None]:
df6 = df5.copy()

In [None]:
# para fazermos a filtragem somente daqueles personagens que temos todos os dados, faremos uma filtragem
# Filtrando os valores das colunas
for column in df6.columns:
    df6 = df6[~df6[column].astype(str).str.contains('desconhecido')]

In [None]:
df6.sample(5)

In [None]:
df6['Ano_de_nascimento'].sample(5)

In [None]:
# Verificando se há algum valor 'desconhecido'
tem_desconhecido = df6.applymap(lambda x: 'desconhecido' in str(x)).any().any()
tem_desconhecido

In [None]:
# agora na coluna Altura vamos tirar o 'm' e na coluna Peso vamos tirar o 'k' ou 'kg'
df6['Altura'] = df6['Altura'].str.replace('m', '')
df6['Peso'] = df6['Peso'].str.replace('k', '')
df6['Peso'] = df6['Peso'].str.replace('kg', '')
df6['Peso'] = df6['Peso'].str.replace('g', '')

In [None]:
df6.shape

In [None]:
df6['Altura'].unique()

In [None]:
df6['Peso'].unique()

In [None]:
# O python reconhece o . como separador de números. Vamos ajustar as colunas Altura e Peso
df6['Altura'] = df6['Altura'].str.replace(',', '.').astype(float)
df6['Peso'] = df6['Peso'].str.replace(',', '.').astype(float)

In [None]:
# vamos converter o tipo da coluna ano
df6['Ano_de_nascimento'] = pd.to_datetime(df6['Ano_de_nascimento'], format='%Y')

In [None]:
df6.info()

### Exploração das variáveis numéricas

In [None]:
df6.describe()

In [None]:
# Plot 
df6.hist(figsize = (15,15), bins = 10) 
plt.show()

In [None]:
# Plotagem dos histogramas com cores personalizadas
plt.figure(figsize=(15, 15))  # Define o tamanho da figura
df6.hist(figsize=(15, 15), bins=8, color='saddlebrown', edgecolor='white')  # Cria os histogramas com cores personalizadas
# Ajustes adicionais
plt.tight_layout()  # Ajusta o layout para evitar sobreposição de gráficos
plt.show()  # Mostra os histogramas

In [None]:
# Insighs:
# maioria nasceu entre os anos 1960 e 1970
# maioria com altura acima de 1,75m 
# maioria com peso entre 60 e 90kg

In [None]:
# Plotagem do gráfico
plt.figure(figsize=(8, 6))  # Define o tamanho da figura (opcional)

plt.scatter(df6['Altura'], df6['Peso'], color='blue', marker='o', alpha=0.5)  # Cria o gráfico de dispersão
plt.title('Relação entre Peso e Altura')  # Adiciona o título do gráfico
plt.xlabel('Altura (cm)')  # Adiciona o rótulo do eixo x
plt.ylabel('Peso (kg)')  # Adiciona o rótulo do eixo y
plt.grid(True)  # Adiciona grades de fundo (opcional)

plt.show()  # Mostra o gráfico

In [None]:
# Em geral, quanto maior a altura, maior o peso do personagem.

In [None]:
# Correlação (tabela)
df6.corr()

In [None]:
# Existe uma alta correlação positiva entre Altura e Peso conforme já havíamos visto no gráfico.

### Exploração das variáveis categóricas

In [None]:
# Contando as categorias
contagem = df6['Tipo_sanguíneo'].value_counts()

# Exibindo a contagem
contagem

In [None]:
quantidade_de_tipo_sangue = df6['Tipo_sanguíneo'].nunique()
print("Quantidade de tipos sanguíneos:", quantidade_de_tipo_sangue)

In [None]:
# Plotagem do gráfico de barras
plt.figure(figsize=(8, 6))  # Define o tamanho da figura (opcional)

contagem.plot(kind='bar', color='darkviolet')  # Cria o gráfico de barras
plt.title('Contagem de Tipos Sanguíneos')  # Adiciona o título do gráfico
plt.xlabel('Tipo Sanguíneo')  # Adiciona o rótulo do eixo x
plt.ylabel('Contagem')  # Adiciona o rótulo do eixo y

plt.show()  # Mostra o gráfico

In [None]:
# mostrando de forma ordenada
ax = sns.countplot(data=df6, x='Tipo_sanguíneo', order=df6['Tipo_sanguíneo'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
plt.title('Contagem de Tipos Sanguíneos')
plt.show()

In [None]:
# maioria dos personagens tem sangue A ou O

In [None]:
# Contando as categorias
contagem = df6['Aparicoes'].value_counts()

# Exibindo a contagem
contagem

In [None]:
quantidade_de_aparicoes = df6['Aparicoes'].nunique()
print("Quantidade de aparições:", quantidade_de_aparicoes)

In [None]:
# Plotagem do gráfico de barras
plt.figure(figsize=(8, 6))  # Define o tamanho da figura (opcional)

contagem.plot(kind='bar', color='gold')  # Cria o gráfico de barras
plt.title('Contagem de Aparições')  # Adiciona o título do gráfico
plt.show()  # Mostra o gráfico

In [None]:
# os personagens são mencionados de forma diferente títulos das séries

### Verificando a variável Ano_de_nascimento

In [None]:
# verificando valores únicos
print(df6['Ano_de_nascimento'].unique())

In [None]:
df6['Ano_de_nascimento'] = pd.to_datetime(df6['Ano_de_nascimento']).dt.year

In [None]:
# Contando a frequência de cada ano
contagem_anos = df6['Ano_de_nascimento'].value_counts()
contagem_anos

In [None]:
# Plotagem do gráfico de barras
plt.figure(figsize=(10, 6))  # Define o tamanho da figura (opcional)
contagem_anos.plot(kind='bar', color='darkkhaki')  # Cria o gráfico de barras
plt.title('Contagem de personagens nascidos por Ano')  # Adiciona o título do gráfico
#plt.xlabel('Ano')  # Adiciona o rótulo do eixo x
#plt.ylabel('Contagem')  # Adiciona o rótulo do eixo y
plt.show()  # Mostra o gráfico

In [None]:
# O ano que teve mais nascimentos dos personagens foi em 1972.

# Fim