### Aula - Coleta de Dados para Ciência de Dados

prof: clenio.silva@uniube.br

In [1]:
# Importando bibliotecas necessárias
import requests # para requisições HTTP
import pandas as pd # para manipulação de dados em formato tabular
from bs4 import BeautifulSoup # para web scraping
import json # para trabalhar com JSON
import os # para operações com sistema de arquivos

In [None]:
# 1. Introdução sobre a Coleta de Dados

"""
A coleta de dados é a primeira etapa do processo de Ciência de Dados. Nesta etapa, os cientistas de dados buscam
dados de várias fontes, que podem incluir bancos de dados, APIs, arquivos locais, scraping de websites, entre outros.
Esta etapa é crucial, pois a qualidade e a relevância dos dados coletados impactam diretamente as análises e modelagens subsequentes.
"""

# Vamos agora explorar algumas maneiras comuns de coletar dados em Python:

'\nA coleta de dados é a primeira etapa do processo de Ciência de Dados. Nesta etapa, os cientistas de dados buscam\ndados de várias fontes, que podem incluir bancos de dados, APIs, arquivos locais, scraping de websites, entre outros.\nEsta etapa é crucial, pois a qualidade e a relevância dos dados coletados impactam diretamente as análises e modelagens subsequentes.\n'

In [2]:
# 2. Coletando dados via API

# Exemplo usando uma API pública (por exemplo, JSONPlaceholder)
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)

# Verificando o status da requisição
if response.status_code == 200:
    data = response.json()  # Convertendo o JSON retornado para um dicionário Python
    print("Dados coletados com sucesso!")
else:
    print("Falha na coleta de dados.")

# Exibindo as 5 primeiras entradas
print("Primeiras entradas dos dados coletados via API:")
for post in data[:5]:
    print(post)

Dados coletados com sucesso!
Primeiras entradas dos dados coletados via API:
{'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}
{'userId': 1, 'id': 2, 'title': 'qui est esse', 'body': 'est rerum tempore vitae\nsequi sint nihil reprehenderit dolor beatae ea dolores neque\nfugiat blanditiis voluptate porro vel nihil molestiae ut reiciendis\nqui aperiam non debitis possimus qui neque nisi nulla'}
{'userId': 1, 'id': 3, 'title': 'ea molestias quasi exercitationem repellat qui ipsa sit aut', 'body': 'et iusto sed quo iure\nvoluptatem occaecati omnis eligendi aut ad\nvoluptatem doloribus vel accusantium quis pariatur\nmolestiae porro eius odio et labore et velit aut'}
{'userId': 1, 'id': 4, 'title': 'eum et est occaecati', 'body': 'ullam et saepe reiciendis volupt

In [None]:
# 3. Coletando dados de um arquivo CSV

# Para este exemplo, vamos supor que temos um arquivo CSV com dados sobre vendas
# Vamos usar o pandas para ler o arquivo CSV

# Caminho para o arquivo CSV (substitua pelo caminho correto no seu ambiente)
# Exemplo fictício de arquivo CSV:
# caminho = "dados_vendas.csv"

# Usando pandas para carregar o CSV
# df = pd.read_csv(caminho)

# Para fins de exemplo, criaremos um DataFrame simples
df = pd.DataFrame({
    'Produto': ['Produto A', 'Produto B', 'Produto C'],
    'Vendas': [1200, 800, 1500],
    'Data': ['2025-01-01', '2025-01-02', '2025-01-03']
})

# Exibindo o DataFrame
print("\nDados do arquivo CSV:")
print(df)


Dados do arquivo CSV:
     Produto  Vendas        Data
0  Produto A    1200  2025-01-01
1  Produto B     800  2025-01-02
2  Produto C    1500  2025-01-03


In [None]:
# 4. Coletando dados via Web Scraping

# Vamos agora ver como fazer o scraping de uma página web para coletar dados

# Exemplo de scraping do site 'https://quotes.toscrape.com'
url = 'https://quotes.toscrape.com'
response = requests.get(url)

# Verificando se a requisição foi bem-sucedida
if response.status_code == 200:
    print("\nRequisição bem-sucedida! Coletando dados da página...")

    # Usando BeautifulSoup para parsear o conteúdo HTML da página
    soup = BeautifulSoup(response.text, 'html.parser')

    # Encontrando todas as citações na página
    quotes = soup.find_all('span', class_='text')

    # Exibindo as 5 primeiras citações
    print("\nPrimeiras citações coletadas:")
    for quote in quotes[:5]:
        print(quote.get_text())
else:
    print("Falha ao acessar a página para scraping.")


Requisição bem-sucedida! Coletando dados da página...

Primeiras citações coletadas:
“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”


In [None]:
# 5. Coletando dados a partir de um arquivo JSON

# Suponha que temos um arquivo JSON com informações sobre alunos
# Exemplo de estrutura do JSON:
# {
#    "alunos": [
#       {"nome": "João", "nota": 9.5},
#       {"nome": "Maria", "nota": 8.7}
#    ]
# }

# Vamos simular um arquivo JSON com os dados de alunos
json_data = '''
{
    "alunos": [
        {"nome": "João", "nota": 9.5},
        {"nome": "Maria", "nota": 8.7},
        {"nome": "Carlos", "nota": 7.3}
    ]
}
'''

# Carregando os dados JSON em um dicionário Python
data_json = json.loads(json_data)

# Exibindo os dados dos alunos
print("\nDados dos alunos coletados do JSON:")
for aluno in data_json['alunos']:
    print(aluno)



Dados dos alunos coletados do JSON:
{'nome': 'João', 'nota': 9.5}
{'nome': 'Maria', 'nota': 8.7}
{'nome': 'Carlos', 'nota': 7.3}


In [None]:
# 6. Boas práticas para coleta de dados

"""
- Certifique-se de que os dados coletados são relevantes e estão atualizados.
- Verifique a licença e os termos de uso dos dados, especialmente quando estiver coletando dados de APIs ou sites.
- Quando for fazer scraping, tome cuidado para não sobrecarregar o servidor da web e sempre siga as boas práticas de scraping.
- Armazene os dados coletados de maneira eficiente, em formatos como CSV, JSON ou banco de dados.
- Realize validação e limpeza dos dados após a coleta, pois é comum encontrar inconsistências ou dados faltantes.
"""

# 7. Conclusão

"""
Na coleta de dados, usamos diferentes fontes como APIs, arquivos CSV, JSON e scraping de páginas web. Após coletar os dados,
é importante organizá-los e validá-los para garantir que estão prontos para análise e modelagem.
"""

'\nNa coleta de dados, usamos diferentes fontes como APIs, arquivos CSV, JSON e scraping de páginas web. Após coletar os dados,\né importante organizá-los e validá-los para garantir que estão prontos para análise e modelagem.\n'