<a href="https://colab.research.google.com/github/r-hugoalves/Coleta_de_Dados/blob/master/Coleta_de_Dados_Parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Coleta de Dados - Parte 1

## Estrutura de dados

* **Não estruturado**: texto, imagem, áudio, etc.
* **Semi estruturado**: HTML, JSON, etc.
* **Estruturados**: tabelas, planilhas, etc.

## 1.Arquivos CSV

### **1.1 Formato**

Um arquivo **csv** é um tipo de arquivo de **texto** com uma estrutura específica (**estruturado**) para organizar os dados num formato tabular: 
*   **Linhas** são separadas pelo caracter de nova linha `'\n'`, normalmente a primeira coluna é o cabeçalho (*header*);
*   **Colunas** por um separador: `','` (mais comum), `';'`, etc.

In [None]:
%%writefile banco.csv
age,job,marital,education,default,balance,housing,loan
30,unemployed,married,primary,no,1787,no,no
33,services,married,secondary,no,4789,yes,yes
35,management,single,tertiary,no,1350,yes,no
30,management,married,tertiary,no,1476,yes,yes
59,blue-collar,married,secondary,no,0,yes,no
35,management,single,tertiary,no,747,no,no
36,self-employed,married,tertiary,no,307,yes,no
39,technician,married,secondary,no,147,yes,no
41,entrepreneur,married,tertiary,no,221,yes,no
43,services,married,primary,no,-88,yes,yes

In [None]:
# Extraindo os valores da primeira coluna (idade) 

idades = []

with open(file='./banco.csv', mode='r', encoding='utf8') as arquivo:
  cabecalho = arquivo.readline().split(sep=',')
  indice_idade = cabecalho.index('age')
  linha = arquivo.readline()
  while linha:
    idade = linha.split(sep=',')[indice_idade]
    idades.append(idade)
    linha = arquivo.readline()

print(idades)

### **1.2 Pacote CSV**

In [None]:
# https://docs.python.org/3/library/csv.html

# Extraindo os valores da coluna 'saldo'
import csv

saldos = None

with open(file='./banco.csv', mode='r', encoding='utf8') as arquivo:
  leitor_csv = csv.reader(arquivo, delimiter=',')
  cabecalho = next(leitor_csv)
  indice_saldo = cabecalho.index('balance')
  saldos = [linha[indice_saldo] for linha in leitor_csv]

print(saldos)   

## 2.Arquivos de texto

### **2.1 Formato**

Um arquivo texto é um tipo de arquivo de texto sem uma estrutura definida (não estruturado).

In [7]:
%%writefile nubank.txt
Como você prefere falar com a gente?

E-mail
Tem alguma dúvida? Podemos te ajudar pelo nosso canal de email.
meajuda@nubank.com.br

Telefone
Você pode ligar para o 0800 do Nubank a qualquer hora através do número abaixo.
0800 608 6236

Chat
Precisa de uma ajuda agora? Entre em contato com nosso atendimento através do chat.
Basta abrir o chat no app.

Siga o @Nubank
Saiba das novidades e receba dicas na nossas redes sociais e também na NuCommunity, a comunidade online oficial do Nubank.

Imprensa
Reunimos todas as informações para você aqui.
press@nu.bank

Ouvidoria
Já conversou conosco e mesmo assim não
conseguiu resolver o que precisava? Nossa
Ouvidoria pode avaliar seu caso.
0800 887 0463
ouvidoria@nubank.com.br

Atendemos em dias úteis das 9h às 18h
(horário de São Paulo/SP).

Parcerias
Se você tem uma proposta de patrocínio, parceria
ou publicidade, fale conosco por aqui: marketing@nubank.com.br

Writing nubank.txt


### **2.2 Regex**

É um algoritmo de busca de padrões em strings e é implementado nativamente em diversas linguagens de programação.Mais informações neste [link](https://medium.com/javarevisited/7-best-regular-expression-courses-for-developers-to-learn-in-2021-9b8cb37bb3a5) 

Para testar o regex na ferramenta online clique neste [link](https://regexr.com/).

```
import re

lista_padroes = re.findall('<string de busca>', texto)
```


* \S+ encontra um sequencia de caracteres sem espaço;
* @ encontra o caracter '@'
* \S+ encontra um sequencia de caracteres sem espaço

In [9]:
# Extrair e-mails de um arquivo de texto

import re

with open(file='./nubank.txt', mode='r', encoding='utf8') as arquivo:
  texto = arquivo.read()

emails_extraidos = re.findall('\S+@\S+', texto)
print(emails_extraidos)

['meajuda@nubank.com.br', 'press@nu.bank', 'ouvidoria@nubank.com.br', 'marketing@nubank.com.br']


In [11]:
# Escrevendo os e-mails em um arquivo CSV

import csv 

with open(file='./emails-nubank.csv', mode='w', encoding='utf8') as arquivo:
  escritor_csv = csv.writer(arquivo, delimiter=',')
  escritor_csv.writerows([['email']] + list(map(lambda emails_extraido: [emails_extraido], emails_extraidos)))

## 3.Arquivo Excel

In [None]:
!wget --show-progress --continue -O \./banco.xlsx \https://raw.githubusercontent.com/andre-marcos-perez/\ebac-course-utils/main/dataset/banco.xlsx

### **3.1 Pacote openpyxl**

Pacote Python para interagir com planilhas excel. A documentação pode ser encontrada neste [link](https://openpyxl.readthedocs.io/en/stable/index.html).

In [15]:
# Média dos saldos

from openpyxl import load_workbook

planilhas = load_workbook(filename='./banco.xlsx')
planilha = planilhas.active

In [None]:
saldos = []

cabecalho = next(planilha.values)
indice_saldo = cabecalho.index('balance')

saldos = [linha[indice_saldo] for linha in planilha.values if linha[indice_saldo] != 'balance']

print(saldos)

## Exercícios

Para a resolução dos exercícios foi criado um notebook específico, que pode ser acessado [aqui](https://colab.research.google.com/drive/1j4FrgOjpACWC7K5_S0sE4MwchIUJXkIu?usp=sharing://)