<a href="https://colab.research.google.com/github/r-hugoalves/Coleta_de_Dados/blob/master/Exerc%C3%ADcios_Coleta_de_Dados_Parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exercícios: Coleta de Dados - Parte 1

Notebook específico para a resolução de exercícios. Todo o material teórico está [aqui](https://colab.research.google.com/drive/15vnewl6pKRQiuRBGC5Aer2ZtOPgiwKR6?usp=sharing)

## Preparando o ambiente

Vamos explorar dados de crédito presentes no arquivo `credito.xlsx` ([link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.xlsx)). 

Os dados estão no formato de **Excel** (XLSX) e contém informações sobre clientes de uma instituição financeira. Em especial, estamos interessados em explicar a segunda coluna, chamada de **default**, que indica se um cliente é adimplente (`default = 0`), ou inadimplente (`default = 1`), ou seja, queremos entender o porque um cliente deixa de honrar com suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.

| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |

In [None]:
!wget --show-progress --continue -O ./credito.xlsx https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.xlsx

## Exercício 1



Utilizando o pacote Python `openpyxl` visto em aula, extraia os seguintes as colunas `id`, `sexo` e `idade` dos clientes inadimplentes (`default = 1`) e solteiros (`estado_civil = 'solteiro'`). Salves os dados extraídos no arquivo csv `credito.csv` separado por `;`

**Dica:** O arquivo csv `credito.csv` deve ter 669 linhas, contando com o cabeçalho.

In [None]:
import csv 
from openpyxl import Workbook
from openpyxl import load_workbook
from openpyxl.worksheet.filters import (FilterColumn, Filters)

planilhas = load_workbook(filename='./credito.xlsx')
planilha = planilhas.active

#Carregar uma segunda planilha em branco, pois é onde vamos salvar a planilha com os dados já filtrados
planilhas2 = load_workbook(filename='./planilha_filtrada.xlsx')
planilha2 = planilhas2.active

#Aplicar o filtro nas colunas desejadas e adicionar na nova planilha
for row in planilha.iter_rows():
  if row[1].value == int(1) and row[6].value == 'solteiro':
    planilha2.append((cell.value for cell in row))

#Salvar as duas planilhas
planilhas.save('./credito.xlsx')
planilhas2.save('Nova_Planilha_Filtrada.xlsx')

print('Finished')

In [None]:
#Extraindo as informações da nova planilha
nova_planilha = load_workbook(filename='./Nova_Planilha_Filtrada.xlsx', data_only=True)
new_sheet = nova_planilha.active

valor_id = []
valor_idade = []
valor_sexo = []

for cel in new_sheet['A']:
  adicionar_id = valor_id.append(cel.value)

for cel in new_sheet['C']:
  adicionar_idade = valor_idade.append(cel.value)

for cel in new_sheet['D']:
  adicionar_sexo = valor_sexo.append(cel.value)

#print(valor_id)
#print(valor_idade)
#print(valor_sexo)

In [None]:
#Escrevendo as informações em um arquivo CSV
i = 1

with open(file='./credito.csv', mode='w', encoding='utf8') as arquivo:
  escritor_csv = csv.writer(arquivo, delimiter=';')
  escritor_csv.writerow(['id', 'idade', 'sexo'])
  for i in range(0, len(valor_id)):
    escritor_csv.writerow([valor_id[i], valor_idade[i], valor_sexo[i]])
    i = i+1

print('Finalizado!')

## Exercício 2

Utilizando o pacote Python `openpyxl` visto em aula, extraia os dados das colunas `escolaridade` e `tipo_cartao`, removendo duplicados. Com os dados, construa o dicionário Python `credito` com a seguinte estrutura:

```python
credito = {
  'tipo_cartao': ['silver', 'blue', 'gold', 'platinum'],
  'escolaridade': ['doutorado', 'mestrado', 'na', 'sem educacao formal', 'graduacao', 'ensino medio']
}
```

Para finalizar, utilize o código abaixo para converter o dicionário `credito` no formato JSON:

```python
import json

credito_json = json.dumps(credito, indent=4)
print(credito_json)
```

**Dica:** A solução deve gerar o dicionário Python `credito` igual ao exemplo mas a ordem dos elementos pode variar tranquilamente.

**Dica:** Uma excelente forma de remover elementos duplicados de uma lista é convertê-la para `set` e depois para `list` novamente.

In [None]:
import json
from openpyxl import Workbook
from openpyxl import load_workbook

planilhas = load_workbook(filename='./credito.xlsx')
planilha = planilhas.active

escolaridade = []
tipo_cartao = []

#Primeiro, vamos extrair as colunas das planilha em listas
for row in planilha.iter_rows():
   lista_escolaridade = escolaridade.append(row[5].value)
   lista_tipo_cartao = tipo_cartao.append(row[8].value)

#Agora, vamos fazer a conversão das listas para conjuntos, para remover os duplicados
conjunto_escolaridade = set(escolaridade)
conjunto_tipo_cartao = set(tipo_cartao)

#Transformando de novo em lista
nova_lista_escolaridade = list(conjunto_escolaridade)
nova_lista_tipo_cartao = list(conjunto_tipo_cartao)

#Removendo o primeiro elemento da lista, que é o título
nova_lista_escolaridade.pop(0)
nova_lista_tipo_cartao.pop(0)

#print(nova_lista_escolaridade)
#print(nova_lista_tipo_cartao)

#Agora, vamos montar o dicionário, onde o segundo valor é uma lista com os valores sem repetição

credito = {
    'tipo_cartao': list(nova_lista_tipo_cartao),
    'escolaridade': list(nova_lista_escolaridade)
}

#print(credito)

#Por fim, vamos realizar a conversão para JSON
credito_json = json.dumps(credito, indent=4)
print(credito_json)

## Exercício 3

In [None]:
%%writefile ebac.txt
MÍDIAS SOCIAIS
Instagram, Facebook, Youtube, LinkedIn 

CURSOS
Software, Design, Marketing, Audiovisual, Programação & Data, Games

WEBINARS
Próximos, Anteriores

SOBRE
Sobre nós, Centro de carreiras, Vagas

CONTATO
WhatsApp +55 (11) 4200-2991
Telefone +55 (11) 3030-3200

BLOG
Design, Audiovisual, Marketing

Extraia os números de contato do arquivo texto `ebac.txt` e salve-os no arquivo csv `contato_ebac.csv` com o separador `;` no seguinte formato:

```
tipo;numero
whatsapp;+551142002991
telefone;+551130303200
```

In [None]:
import csv

#Extraindo os dados dos contatos
with open(file='./ebac.txt', mode='r', encoding='utf8') as arquivo:
  texto = arquivo.readlines()
  contatos = str(texto[13:15]).rstrip('\n').split(sep=',')
  whatsapp = str(contatos[0].replace("'"," " ).replace('[', ' ')).split(sep='+')
  telefone = str(contatos[1].replace("'"," " ).replace(']', ' ')).split(sep='+')

print(whatsapp[1])
print(telefone[1])

#Salvando no arquivo csv
with open(file='./contato_ebac.csv', mode='w', encoding='utf8') as arquivo:
  escritor_csv = csv.writer(arquivo, delimiter=';')
  escritor_csv.writerow(['tipo', 'numero'])
  escritor_csv.writerow([whatsapp[0], whatsapp[1]])
  escritor_csv.writerow([telefone[0], telefone[1]])
    
print('Finalizado!')