   <img src = "https://drive.google.com/uc?id=1JCGXq-eLDEqIh-MIeEEs7VLfde6GFP2q" width = 240/>


# Controle e Acesso de Dados

##Autor

João Ricardo Lopes Lovato

Grupo de Preparação de Dados


---



## Introdução
A coleta de dados é o primeiro passo crucial em qualquer projeto de análise de dados, pois influencia diretamente a qualidade e confiabilidade dos resultados obtidos. Garantir uma coleta adequada é essencial para evitar conclusões imprecisas ou inválidas. Neste colab, exploraremos diferentes tipos de coleta, os diferentes tipos de dados, além de aprender a utilizar a biblioteca Pandas para coletar e manipular dados de forma eficiente

# 1. Pré coleta


Antes de começarmos a coleta em si dos dados de um projeto, existem etapas cruciais que garantirão a coleta adequada dos dados para analise.
Sem a etapa de pré coleta as chances de uma situação "garbage in gabage out" são muito grandes

##1.1 Definição de problema

A definição adequada do problema é um passo fundamental no processo de coleta de dados na ciência de dados. Antes de iniciar qualquer projeto de análise, é essencial compreender claramente qual é o problema a ser solucionado ou a pergunta a ser respondida por meio dos dados.

A definição de problema envolve uma análise cuidadosa e uma compreensão profunda do contexto e dos objetivos do projeto. É importante identificar as necessidades e os desafios específicos que precisam ser abordados. Isso pode incluir a compreensão dos requisitos dos stakeholders, a identificação de lacunas de conhecimento ou a formulação de uma hipótese a ser testada.

Existem varias estratégias que podem ser usadas na definição do problema a ser resolvido atraves da analise de dados, alguns deles são:


1.   Revisão de Literatura

>Realizar uma revisão cuidadosa da literatura existente na área de interesse pode ajudar a identificar lacunas de conhecimento e problemas ainda nao solucionados, tambem é interessante para saber o que ja foi solucionado e usar esses conhecimentos adquiridos na conceptualização da hipótese do problema

2.   Analise de dados preliminar

>realizar uma análise exploratória inicial dos dados disponíveis, é uma boa forma de identificar padrões, tendências ou anomalias que podem indicar problemas ou questões importantes. Uma pré vizualização dos dados pode ajudar a remover preconceitos ou achismos na concepção do problema

3. Definição de objetivos e metas claras

> É essencial ter objetivos e metas claras em mente ao definir o problema. Isso envolve entender o propósito da análise de dados e o que se espera alcançar com os resultados. Tambem é importante ter em mente o escopo do projeto. Ao nao levar em consideração o escopo corremos o risco de definir um problema muito amplo e vago, resultando em datasets grandes demais e muito trabalho na hora de minera-los.

Vale reforçar que essas são apenas algumas das varias estratégias empregadas na definição de um problema na ciência de dados.


---










## 1.2 Fontes de dados

Com o problema definido partimos para o proximo passo, identificar as fontes de dados para análise. Isso pode incluir fontes internas, como bancos de dados da organização, ou fontes externas, como dados públicos ou de terceiros. É importante mais uma vez se atentar ao escopo do projeto, para determinar quais fontes sao realmente necessarias.

Ademais nesse momento devemos definir qual tipo de dados serão coletados.

1. Dados Primarios
>São os dados coletados diretamente pelo pesquisador, esses dados são obtidos por meio de métodos como entrevistas, questionários, observações diretas, experimentos controlados ou coleta de amostras, esses dados possuem melhor adaptabilidade para atender os objetivos da pesquisa, porem sua coleta pode ser demorada e custosa
2. Dados Secundários
>São os datos ja coletados por outras entidades, empresas privadas ou instituições públicas por exemplo, esses dados podem ser encontrados em fontes como bancos de dados públicos, relatórios governamentais, pesquisas acadêmicas, livros, artigos, dados históricos, entre outros. Apesar de terem a chance de nao se adequarem exatamente ao projeto, necessitando de uma limpeza mais demorada, os dados secundarios possuem a vantagem de ja estarem coletados e disponiveis para uso.


---



## 1.3 Desenvolvimento de instrumentos de coleta de dados



Crie os instrumentos necessários para coletar os dados de acordo com as técnicas selecionadas. Isso pode envolver a criação de questionários, formulários de observação ou protocolos de entrevista. Certifique-se de que os instrumentos sejam claros, coerentes e adequados para o objetivo do estudo.

# 2. Coleta

Com o plano de coleta agora concretizado, a proxima etapa é a coleta em si dos dados relevantes ao problema. Existem varios metodos de coleta que podem ser aplicadas como acessos a bancos de dados, APIs, web scrapping entre varios outros. Contudo, todos metodos possuem vantagens e desvantagens, portanto deve-se escolher a estratégia mais adequada ao objetivo do projeto e seu escopo

## 2.1 web Scrapping





Web scraping é o processo de extração de dados de uma página da web específica. Isso envolve fazer uma solicitação HTTP ao servidor do site, baixar o HTML da página e analisá-lo para extrair os dados desejados.

O web scraping é usado para uma variedade de propósitos, incluindo:

Rastreamento e indexação de sites para mecanismos de busca.

Coleta de dados para pesquisa de mercado ou análise de concorrentes.

Preenchimento de feeds de notícias.

Extração de dados para treinar modelos de aprendizado de máquina.

O web scraping pode ser feito manualmente, mas se o processo envolver um grande número de páginas da web, é mais eficiente usar uma ferramenta automatizada de web scraping, como BeautifulSoup ou Scrapy.

Nessa seção usaremos a biblioteca beaultifulSoup para exemplificar uma coleta atraves de scraping

### 2.1.1



O primerio passo é instalar o modolo beaultifulsoup4

```
$python -m pip install beautifulsoup4
```
a biblioteca requests é usada para realizar a requição da página ao servidor

```python
from bs4 import BeautifulSoup
import requests
```

Devemos entao realizar uma requisão que ficará salva em um objeto do tipo requests

In [None]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

web_url = "https://pt.wikipedia.org/wiki/Lista_de_bairros_de_Manaus"

data = requests.get(web_url)


usamos a variavel **web_url** para guardar a url do site que desejamos fazer a coleta, depois usamos request.get(link) para fazer a requisição ao servidor.
Se a requisição ocorreu sem problemas, recebemos a mensagem 200 sinalizando o OK

In [None]:
print(data)

<Response [200]>


Agora com os dados brutos coletados criamos um objeto do tipo BeautifulSoup para extrair os dados dejesados

In [None]:
beautiful_soup = BeautifulSoup(data.content, 'html.parser')
print(beautiful_soup.prettify())

Agora preciamos separar os dados que queremos do documento HTML

In [None]:
print('classe de todas as tabelas:')
for table in beautiful_soup.find_all('table'):
  print(table.get('class'))

classe de todas as tabelas:
['box-Desatualizado', 'plainlinks', 'metadata', 'ambox', 'ambox-content']
['wikitable', 'sortable']
['nowraplinks', 'collapsible', 'collapsed', 'navbox-inner']


O codigo acima nos informa todas as classes que cada tabela possui, estamos atras da tabela



```python
['wikitable', 'sortable']

```




In [None]:
tables = beautiful_soup.find_all('table')
table = beautiful_soup.find('table', class_='wikitable sortable')

Com a tabela especifica  extraida, agora é questão de inserir os dados em um objeto do tipo DataFrame

In [None]:
df = pd.DataFrame(columns=['Neighborhood', 'Zone', 'Area',
						 'Population', 'Density', 'Homes_count'])

mylist = []
for table_row in table.tbody.find_all('tr'):
  table_columns = table_row.find_all('td')

  if(table_columns != []):
    neighbor = table_columns[0].text.strip()
    zone = table_columns[1].text.strip()
    area = table_columns[2].span.contents[0].strip('&0.')
    population = table_columns[3].span.contents[0].strip('&0.')
    density = table_columns[4].span.contents[0].strip('&0.')
    home_count = table_columns[5].span.contents[0].strip('&0.')
    mylist.append([neighbor, zone, area, population, density, home_count])

df = pd.DataFrame(mylist,
   columns=['bairro', 'Zona', 'Area', 'Populacao', 'Densidade', 'numero_de_casas'])

display(df.head())

## 2.2 API

A coleta de dados em APIs (Application Programming Interfaces) usando Python é uma prática fundamental para acessar informações e interagir com diversos serviços online. APIs são conjuntos de regras e protocolos que permitem a comunicação e troca de dados entre diferentes sistemas e aplicativos. Ademais, a coleta por meio de APIs tem a vantagem de ja estar formatada e ser facilmente manipulada, os dados geralmente são passados nos formatos  JSON, XML, RSS, Arquivos CSV, entre outros.

### 2.2.1


Python oferece uma variedade de bibliotecas, como o requests, que simplificam o processo de envio de solicitações HTTP, recebimento de respostas e manipulação dos dados obtidos. Com a conexão estabelecida, é possível extrair e processar os dados relevantes, permitindo uma ampla gama de aplicações e análises baseadas em dados de APIs, vamos explorar isso usando a biblioteca

```python
import requests
```
para realizar a coleta no site thedogapi.com



In [None]:
endpoint = "https://api.thedogapi.com/v1/breeds/"

response = requests.get(endpoint)

response.json()




Como podemos observar nossa colete teve sucesso e obtvemos todas as raças da api, porem e se quisermos dados especificos ou uma quantidade determinada de raças? Para isso usamos o segundo argumento do metodo .get, os queryparameters, eles nos possibilitam fazer requisições especificas a API, como por exemplo receber apenas as 3 primeiras raças da lista, ou so as raças que tem "husky" no nome por exemplo. Os queryparameters são geralmente encontrados na documentação de cada API, a que estamos utilizando tem o parametro de busca definido como

```python
queryparam = {"q" : "string de busca"}
```
Esse parametro funciona para pesquisas apenas por nome da raça



In [None]:
query_params = {"q": "husky"}
endpoint = "https://api.thedogapi.com/v1/breeds/search"
obj =  requests.get(endpoint, query_params)
obj.json()

tambem podemos usar o parametro limit, para definir quantas raças devem ser retornadas

In [None]:
query_params = {"limit": "10"}
endpoint = "https://api.thedogapi.com/v1/breeds/"
obj =  requests.get(endpoint, query_params)
obj.json()

Com isso dito, nosso objetivo principal é converter os dados dessa requição em um objeto dataframe, a boa noticia é que um objeto do tipo json funciona como um "dicionario" tendo seus atributos bem definidos e formatados, assim basta criarmos nosso dataframe e passar o objeto json como argumento


In [None]:
import json

url = "https://api.thedogapi.com/v1/breeds/"

data = requests.get(url)

data = data.json()

df = pd.DataFrame(data)

#retirando alguns dados para melhorar a vizualização
df = df.drop('country_code', axis = 1)

df = df.drop('description', axis = 1)

df = df.drop('reference_image_id', axis = 1)

df = df.drop('image', axis = 1)

df = df.drop('history', axis = 1)


display(df.head())





Com os dados propriamente inseridos nossa coleta esta completa e podemos começar a realizar o proximos passos de pre processamento de dados.

## 2.3 Banco de dados



Geralmente se estamo coletando dados de um banco de dados, especialmente online, o fazemos por meio de uma api, como foi mostrado na sessão anterior.
Todavia, existem cenarios em que uma api não estará disponivel para facil acesso aos dados, nesses casos devemos utilizar outras ferramentas para a extração de dados

### 2.3.1

O primeiro passo é instalar o modulo pymysql

In [None]:
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.1.0-py3-none-any.whl (44 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/44.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.8/44.8 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.0


Com o modulo instalado poderemos importar a biblioteca necessaria para coleta.

O primeiro passo é realizar a conexão com o banco de dados alvo

```python
import pymysql

conn = pymysql.connect(
    host='localhost',
    user='root',
    password='password',
    db='mydatabase',
    charset='utf8mb4',
    cursorclass=pymysql.cursors.DictCursor
)
```
para realizar a conexão precisamos dos seguintes argumento:

*   host: o nome do host ou endereço IP do servidor MySQL
*   user: o nome de usuário usado para autenticação com o servidor MySQL
*   password: a senha usada para autenticação com o servidor MySQL
*   db: o nome do banco de dados para se conectar
*   charset: o conjunto de caracteres a ser usado para a conexão
*   cursorclass: o tipo de cursor a ser usado para a conexão (neste caso,usamos o cursor DictCursor, que retorna as linhas como dicionários)

Com a conexão feita com sucesso, podemos realizar comandos SQL, assim podendo realizar varias ações na base de dados. Vale lembrar que provavelmente teremos acesso apenas de "read only" no banco, podendo apenas vizualizar os dados e nao alterar-los.

Para ler dados de um banco de dados SQL usando Python, precisamos executar um comando SELECT do SQL. No exemplo a seguir, vamos ler dados de um banco de dados MySQL e imprimir os resultados:


```python
try:
    with conn.cursor() as cursor:
        # Ler dados do banco de dados
        sql = "SELECT * FROM `users`"
        cursor.execute(sql)

        # Buscar todas as linhas
        rows = cursor.fetchall()

        # Imprimir resultados
        for row in rows:
            print(row)
finally:
    conn.close()

```
No código acima, usamos um bloco try/finally para garantir que a conexão com o banco de dados seja fechada corretamente. Dentro do bloco try, usamos a função cursor() para criar um novo objeto de cursor. Em seguida, executamos o comando SELECT usando a função execute().

Depois que a função execute() for chamada, usamos a função fetchall() para recuperar todas as linhas retornadas pela consulta. Em seguida, percorremos as linhas e imprimimos os resultados.




# 3. Manipulação de formatos de dados

Ao coletar dados de várias fontes, nos deparamos com o desafio da diversidade de formatos que podemos encontrar na área de ciência de dados e como lidar com essa variedade de arquivos e suas diferentes formas de formatação. Nessa sessão veremos alguns exemplos comuns de arquivos encontrados no momento da coleta.
Alguns dos tipos mais comuns de arquivos encontrados sao:

* CSV /Text Files /JSON
* Microsoft Excel File/ SAS / SQL
* Python Pickle File / Stata / HDF5
* HTML / ZIP / PDF
* DOCX / Images / Google Bigquery

Felizmente a biblioteca pandas possui varios metodos que ajudarão na leitura desses arquivos

##3.1 Arquivos CSV

CSV é a sigla para "comma separated values", um formato de arquivo baseado em texto que armazena dados de forma tabular, semelhante a uma planilha ou tabela de banco de dados. Nesse formato, os valores são separados por vírgulas e os arquivos geralmente possuem a extensão .csv. Quando aberto com o Notepad, um arquivo CSV é exibido como uma sequência de linhas e colunas, permitindo a visualização e manipulação dos dados de forma legível.

In [None]:
req = requests.get("https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_csv.csv")
data = req.content
csv_file = open('downloaded.csv', 'wb')
csv_file.write(data)
path = "/content/downloaded.csv"
csv_data = pd.read_csv(path)
display(csv_data)
csv_file.close()

## 3.2 Arquivos Excel

O Microsoft Excel é uma planilha desenvolvida pela Microsoft. Às vezes, você pode encontrar dois formatos de arquivo diferentes para o Excel. O primeiro é o XLS, que é uma extensão para a versão do Excel anterior a 2007, enquanto o XLSX é o que você vê atualmente, criado a partir da versão do Excel 2007 em diante. A diferença importante entre as duas extensões de arquivo é que o XLS é um formato binário, enquanto o XLSX é um formato Open XML.

Aqui está um código que mostra como você pode importar um arquivo .xlsx.

In [None]:
import pandas as pd
filename = "/content/sample_data/Financial Sample.xlsx"
df = pd.read_excel(filename)
display(df.head())

## 3.3 Aquivos Stata

Stata é uma combinação das palavras "Statistics" (estatísticas) + "data" (dados) e é amplamente utilizado na área acadêmica de ciências sociais e pesquisa

In [None]:
import pandas as pd
filename ="/content/sample_data/airline.dta"
data = pd.read_stata(filename)
display(df.head())

# Conclusão


Nesse colab vimos a importancia da pré coleta de dados e como ela pode influenciar nos resultados do projeto. Ademais, vimos tambem alguma ferramentas que podem ser utilizadas para coletar dados de diferentes fontes, tambem vimos quais o tipos comuns de arquivos encontrados e exemplos de como manipula-los

# Referencias


[Raspagem de dados de tabelas HTML com Pandas](https://www.youtube.com/watch?v=0YX0_GZeQwU)<sup>[2.1.1] </sup>

[medium](https://deallen7.medium.com/how-to-create-a-pandas-dataframe-from-an-api-endpoint-in-a-jupyter-notebook-f2561f766ca3)<sup>[2.2.1] </sup>


[How to Read and Write Data to a SQL Database Using Python](https://www.freecodecamp.org/news/how-to-read-and-write-data-to-a-sql-database-using-python/)<sup>[2.3.1]</sup>

[Reading 15 most common file formats used in Data Science](https://www.weirdgeek.com/2018/12/common-file-formats-used-in-data-science/)<sup>[3]</sup>

## Aprofundamento



[What Is Data Collection: Methods, Types, Tools, and Techniques](https://www.simplilearn.com/what-is-data-collection-article)

[Web Scraping with Python - Beautiful Soup Crash Course](https://www.youtube.com/watch?v=XVv6mJpFOb0&t=25s)

[Web Scraping com Python](https://www.youtube.com/watch?v=42sTntMEn6o&list=PLg3ZPsW_sghSkRacynznQeEs-vminyTQk)

[Consumindo dados da API do YOUTUBE com Python](https://www.youtube.com/watch?v=olDCJ1w3FLM)

[Python e APIs: conhecendo a biblioteca Requests](https://www.alura.com.br/conteudo/python-apis-conhecendo-biblioteca-requests?gclid=Cj0KCQjw8NilBhDOARIsAHzpbLAWKnPfodIh6JkI_fT1VgGze1yf3kxbIbDLGF-Bw3YJLAL98MfDQOEaApfWEALw_wcB)