<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Coleta de Dados I
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Arquivos CSV;</li>
  <li>Arquivos Texto;</li>
  <li>Arquivos Excel.</li>
</ol>

---

# **Exercícios**

## 0\. Preparando o ambiente

Vamos explorar dados de crédito presentes no arquivo `credito.xlsx` ([link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.xlsx)). Os dados estão no formato de **Excel** (XLSX) e contém informações sobre clientes de uma instituição financeira. Em especial, estamos interessados em explicar a segunda coluna, chamada de **default**, que indica se um cliente é adimplente (`default = 0`), ou inadimplente (`default = 1`), ou seja, queremos entender o porque um cliente deixa de honrar com suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.



| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |



Faça o download do arquivo `credito.xlsx` com a célula de código abaixo.

In [None]:
!wget --show-progress --continue -O ./credito.xlsx https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.xlsx

--2023-05-09 00:52:28--  https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 748185 (731K) [application/octet-stream]
Saving to: ‘./credito.xlsx’


2023-05-09 00:52:28 (23.6 MB/s) - ‘./credito.xlsx’ saved [748185/748185]



---

## 1\. Excel para CSV

Utilizando o pacote Python `openpyxl` visto em aula, extraia os seguintes as colunas `id`, `sexo` e `idade` para dos clientes inadimplentes (`default = 1`) e solteiros (`estado_civil = 'solteiro'`). Salves os dados extraídos no arquivo csv `credito.csv` separado por `;`. Exemplo do cabeçalho e das três primeiras linhas:

```
id;sexo;idade
767712558;59;M
713741358;46;M
772390908;59;M
```

**Dica:** O arquivo csv `credito.csv` deve ter 669 linhas, contando com o cabeçalho.

**Nota:** Escreva o código da sua solução abaixo em uma ou mais células, você não precisa enviar o arquivo csv gerado.

In [None]:
!pip install openpyxl

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# solução do exercício 1
from traitlets.traitlets import validate
from openpyxl import load_workbook
import csv

planilhas = load_workbook(filename='credito.xlsx')
planilha = planilhas.active

# definindo as variaveis
cabecalho = next(planilha.values)
indice_id = cabecalho.index('id')
indice_sex = cabecalho.index('sexo')
indice_idade = cabecalho.index('idade')
default = cabecalho.index('default')
estado_civil = cabecalho.index('estado_civil')

# filtrando os solteiros e inadimplentes
id = [linha[indice_id] for linha in planilha.values if linha[indice_id] != 'id' and linha[default] == 1 and linha[estado_civil] == 'solteiro']
sexo = [linha[indice_sex] for linha in planilha.values if linha[indice_sex] != 'sexo' and linha[default] == 1 and linha[estado_civil] == 'solteiro']
idade = [linha[indice_idade] for linha in planilha.values if linha[indice_idade] != 'idade' and linha[default] == 1 and linha[estado_civil] == 'solteiro']
print(f'{len(id)} linhas de itens obtidas')



# escrevendo arquivo csv
with open('credito.csv', 'w', encoding='utf8') as fp:
  z = list(zip(id,sexo,idade))
  escrever_csv = csv.writer(fp)
# usei o arquivo zip contendo as infos para inserir os dados na tabela
  escrever_csv.writerows([['ID']+['sexo']+['idade']])
  escrever_csv.writerows(z)

668 linhas de itens obtidas


---

## 2\. Excel para JSON

Como preparação para o próximo módulo, vamos trabalhar com o JSON, um formato semi-estruturado, muito utilizado em transmissão de dados da web e equivalente a um **dicionário** Python.

Utilizando o pacote Python `openpyxl` visto em aula, extraia os dados das colunas `escolaridade` e `tipo_cartao`, removendo duplicados. Com os dados, construa o dicionário Python `credito` com a seguinte estrutura:

```python
credito = {
  'tipo_cartao': ['silver', 'blue', 'gold', 'platinum'],
  'escolaridade': ['doutorado', 'mestrado', 'na', 'sem educacao formal', 'graduacao', 'ensino medio']
}
```

Para finalizar, utilize o código abaixo para converter o dicionário `credito` no formato JSON:

```python
import json

credito_json = json.dumps(credito, indent=4)
print(credito_json)
```

**Dica:** Sua solução deve gerar o dicionário Python `credito` igual ao exemplo mas a ordem dos elementos pode variar tranquilamente.

**Dica:** Uma excelente forma de remover elementos duplicados de uma lista é convertê-la para `set` e depois para `list` novamente.



In [None]:
# solução do exercício 2
from traitlets.traitlets import validate
from openpyxl import load_workbook
import json

planilhas = load_workbook(filename='credito.xlsx')
planilha = planilhas.active

# definindo as variaveis
cabecalho = next(planilha.values)
ind_escolaridade = cabecalho.index('escolaridade')
ind_cartao = cabecalho.index('tipo_cartao')

# adicionando os dados nas listas de escolaridade e tipo_cartao
lista_escolaridade = [linha[ind_escolaridade] for linha in planilha.values if linha[ind_escolaridade] != 'escolaridade']
lista_cartao = [linha[ind_cartao] for linha in planilha.values if linha[ind_cartao] != 'tipo_cartao']

# retirando os dados duplicados das listas
x = set(lista_escolaridade)
y = set(lista_cartao)
lista_escolaridade = list(x)
lista_cartao = list(y)

# criando o dict credito e transformando-o em arqv json
credito = {
    'tipo_cartao': lista_cartao,
    'escolaridade': lista_escolaridade
}

credito_json = json.dumps(credito, indent=4)
print(credito_json)

{
    "tipo_cartao": [
        "silver",
        "blue",
        "platinum",
        "gold"
    ],
    "escolaridade": [
        "na",
        "doutorado",
        "sem educacao formal",
        "ensino medio",
        "mestrado",
        "graduacao"
    ]
}


---

## 3\. BÔNUS: Texto para CSV

No arquivo de texto `ebac.txt` você encontra o texto presente no rodapé da página de cursos da EBAC ([link](https://ebaconline.com.br/)).



**Arquivo TXT:** ebac.txt

In [1]:
%%writefile ebac.txt
MÍDIAS SOCIAIS
Instagram, Facebook, Youtube, LinkedIn 

CURSOS
Software, Design, Marketing, Audiovisual, Programação & Data, Games

WEBINARS
Próximos, Anteriores

SOBRE
Sobre nós, Centro de carreiras, Vagas

CONTATO
WhatsApp +55 (11) 4200-2991
Telefone +55 (11) 3030-3200

BLOG
Design, Audiovisual, Marketing

Writing ebac.txt


Extraia os números de contato do arquivo texto `ebac.txt` e salve-os no arquivo csv `contato_ebac.csv` com o separador `;` no seguinte formato:

```
tipo;numero
whatsapp;+551142002991
telefone;+551130303200
```

**Nota:** Escreva o código da sua solução abaixo em uma ou mais células, você não precisa enviar o arquivo csv gerado.

In [7]:
# solução do exercício 3 (bônus)

# lendo arquivo ebac.txt
with open('ebac.txt', 'r', encoding='utf8') as fp:
  linhas = fp.readlines()

# filtrando as unicas linhas que contenham telefones
linhas = filter(lambda linha: linha !='\n', linhas)
linhas = map(lambda linha: linha.strip(), linhas)
linhas = filter(lambda linha: '+55' in linha, linhas)
linhas = list(linhas)

print(linhas)

['WhatsApp +55 (11) 4200-2991', 'Telefone +55 (11) 3030-3200']


In [8]:
tipos = []
numeros = []
caracteres = '-()'

# filtrando os numeros das linhas capturadas
for i in linhas:
  palavra_separada = i.split(sep=' ')
  x = palavra_separada[1]
  y = palavra_separada[2]
  z = palavra_separada[3]
  numero = str(x+y+z)
# usei o translate para limpar os caracteres especiais dos numeros de telefone
  numero = numero.translate(str.maketrans('','',caracteres))
  numeros.append(numero)
# filtrando os tipos de numeros
  tipo = palavra_separada[0]
  tipos.append(tipo)

print(f'{tipos} {type(tipos)}')
print(f'{numeros} {type(numeros)}')

['WhatsApp', 'Telefone'] <class 'list'>
['+551142002991', '+551130303200'] <class 'list'>


In [None]:
import csv

# criando zip p/armazenar dados capturados
zip_dados = list(zip(tipos,numeros))

# escrevendo csv
with open('contato_ebac.csv', 'w', encoding='utf8') as fp:
  escritor = csv.writer(fp, delimiter=';')
  escritor.writerows([['tipo','numero']] + zip_dados)

print(f'{fp}\n Arquivo gerado!')

Exemplo de outra forma de resolução que tutor passou:

In [None]:
import csv

# escrevendo csv
with open('contato_ebac.csv', 'w', encoding='utf8') as fp:
  escritor = csv.writer(fp, delimiter=';')
  escritor.writerows([['tipo','numero']] + list(map(lambda tipo, numero: [tipo, numero], tipos, numeros )))

print(f'{fp}\n Arquivo gerado!')

---