<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Coleta de Dados I
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Arquivos CSV;</li>
  <li>Arquivos Texto;</li>
  <li>Arquivos Excel.</li>
</ol>

---

# **Exercícios**

## 0\. Preparando o ambiente

Vamos explorar dados de crédito presentes no arquivo `credito.xlsx` ([link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.xlsx)). Os dados estão no formato de **Excel** (XLSX) e contém informações sobre clientes de uma instituição financeira. Em especial, estamos interessados em explicar a segunda coluna, chamada de **default**, que indica se um cliente é adimplente (`default = 0`), ou inadimplente (`default = 1`), ou seja, queremos entender o porque um cliente deixa de honrar com suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.



| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |



Faça o download do arquivo `credito.xlsx` com a célula de código abaixo.

In [2]:
!wget --show-progress --continue -O ./credito.xlsx https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.xlsx

--2024-10-04 15:12:37--  https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 416 Range Not Satisfiable

    The file is already fully retrieved; nothing to do.



---

## 1\. Excel para CSV

Utilizando o pacote Python `openpyxl` visto em aula, extraia os seguintes as colunas `id`, `sexo` e `idade` para dos clientes inadimplentes (`default = 1`) e solteiros (`estado_civil = 'solteiro'`). Salves os dados extraídos no arquivo csv `credito.csv` separado por `;`. Exemplo do cabeçalho e das três primeiras linhas:

```
id;sexo;idade
767712558;59;M
713741358;46;M
772390908;59;M
```

**Dica:** O arquivo csv `credito.csv` deve ter 669 linhas, contando com o cabeçalho.

**Nota:** Escreva o código da sua solução abaixo em uma ou mais células, você não precisa enviar o arquivo csv gerado.

In [3]:
!pip install openpyxl

import openpyxl
import csv
from google.colab import files

uploaded = files.upload()

file_name = list(uploaded.keys())[0]

wb = openpyxl.load_workbook(file_name)
sheet = wb.active

# Índices das colunas relevantes
indice_id = None
indice_default = None
indice_sexo = None
indice_idade = None
indice_estado_civil = None

# Encontrar os índices das colunas
for i, cell in enumerate(sheet[1]):
    if cell.value == 'id':
        indice_id = i
    elif cell.value == 'default':
        indice_default = i
    elif cell.value == 'sexo':
        indice_sexo = i
    elif cell.value == 'idade':
        indice_idade = i
    elif cell.value == 'estado_civil':
        indice_estado_civil = i

# Armazenar os dados dos clientes inadimplentes e solteiros
dados = []

for row in sheet.iter_rows(min_row=2):
    if (row[indice_default].value == 1) and (row[indice_estado_civil].value == 'solteiro'):
        id_cliente = row[indice_id].value
        sexo_cliente = row[indice_sexo].value
        idade_cliente = row[indice_idade].value
        dados.append([id_cliente, sexo_cliente, idade_cliente])

# Salvar os dados em um arquivo CSV
with open('credito.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file, delimiter=';')
    writer.writerow(['id', 'sexo', 'idade'])
    writer.writerows(dados)

print("Arquivo credito.csv criado com sucesso!")

# Baixar o arquivo CSV
files.download('credito.csv')




Saving Profissao Analisa de dados M10 Pratique Material de apoio.xlsx to Profissao Analisa de dados M10 Pratique Material de apoio.xlsx
Arquivo credito.csv criado com sucesso!


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

---

## 2\. Excel para JSON

Como preparação para o próximo módulo, vamos trabalhar com o JSON, um formato semi-estruturado, muito utilizado em transmissão de dados da web e equivalente a um **dicionário** Python.

Utilizando o pacote Python `openpyxl` visto em aula, extraia os dados das colunas `escolaridade` e `tipo_cartao`, removendo duplicados. Com os dados, construa o dicionário Python `credito` com a seguinte estrutura:

```python
credito = {
  'tipo_cartao': ['silver', 'blue', 'gold', 'platinum'],
  'escolaridade': ['doutorado', 'mestrado', 'na', 'sem educacao formal', 'graduacao', 'ensino medio']
}
```

Para finalizar, utilize o código abaixo para converter o dicionário `credito` no formato JSON:

```python
import json

credito_json = json.dumps(credito, indent=4)
print(credito_json)
```

**Dica:** Sua solução deve gerar o dicionário Python `credito` igual ao exemplo mas a ordem dos elementos pode variar tranquilamente.

**Dica:** Uma excelente forma de remover elementos duplicados de uma lista é convertê-la para `set` e depois para `list` novamente.



In [4]:
import openpyxl
import json
from google.colab import files

uploaded = files.upload()

file_name = list(uploaded.keys())[0]

wb = openpyxl.load_workbook(file_name)
sheet = wb.active

# Índices das colunas
indice_escolaridade = None
indice_tipo_cartao = None

# Encontrar os índices das colunas
for i, cell in enumerate(sheet[1]):
    if cell.value == 'escolaridade':
        indice_escolaridade = i
    elif cell.value == 'tipo_cartao':
        indice_tipo_cartao = i

# Extrair dados e remover duplicatas
escolaridades = set()
tipos_cartao = set()

for row in sheet.iter_rows(min_row=2):
    escolaridade = row[indice_escolaridade].value
    tipo_cartao = row[indice_tipo_cartao].value
    if escolaridade is not None:
        escolaridades.add(escolaridade)
    if tipo_cartao is not None:
        tipos_cartao.add(tipo_cartao)

# Criar o dicionário
credito = {
    "tipo_cartao": list(tipos_cartao),
    "escolaridade": list(escolaridades)
}

# Converter o dicionário para JSON e exibir
credito_json = json.dumps(credito, indent=4)
print(credito_json)

# Salvar o arquivo JSON
with open('credito.json', 'w', encoding='utf-8') as json_file:
    json.dump(credito, json_file, ensure_ascii=False, indent=4)

# Baixar o arquivo JSON
files.download('credito.json')


Saving Profissao Analisa de dados M10 Pratique Material de apoio.xlsx to Profissao Analisa de dados M10 Pratique Material de apoio (1).xlsx
{
    "tipo_cartao": [
        "silver",
        "platinum",
        "blue",
        "gold"
    ],
    "escolaridade": [
        "mestrado",
        "ensino medio",
        "na",
        "graduacao",
        "doutorado",
        "sem educacao formal"
    ]
}


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

---

## 3\. Texto para CSV

No arquivo de texto `ebac.txt` você encontra o texto presente no rodapé da página de cursos da EBAC ([link](https://ebaconline.com.br/)).



**Arquivo TXT:** ebac.txt

In [5]:
%%writefile ebac.txt
MÍDIAS SOCIAIS
Instagram, Facebook, Youtube, LinkedIn

CURSOS
Software, Design, Marketing, Audiovisual, Programação & Data, Games

WEBINARS
Próximos, Anteriores

SOBRE
Sobre nós, Centro de carreiras, Vagas

CONTATO
WhatsApp +55 (11) 4200-2991
Telefone +55 (11) 3030-3200

BLOG
Design, Audiovisual, Marketing

Writing ebac.txt


Extraia os números de contato do arquivo texto `ebac.txt` e salve-os no arquivo csv `contato_ebac.csv` com o separador `;` no seguinte formato:

```
tipo;numero
whatsapp;+551142002991
telefone;+551130303200
```

**Nota:** Escreva o código da sua solução abaixo em uma ou mais células, você não precisa enviar o arquivo csv gerado.

In [10]:
import re
import csv
from google.colab import files

# Criar o arquivo ebac.txt
text = """MÍDIAS SOCIAIS
Instagram, Facebook, Youtube, LinkedIn

CURSOS
Software, Design, Marketing, Audiovisual, Programação & Data, Games

WEBINARS
Próximos, Anteriores

SOBRE
Sobre nós, Centro de carreiras, Vagas

CONTATO
WhatsApp +55 (11) 4200-2991
Telefone +55 (11) 3030-3200

BLOG
Design, Audiovisual, Marketing
"""

with open('ebac.txt', 'w') as f:
    f.write(text)

with open('ebac.txt', 'r') as file:
    content = file.read()

telefones = re.findall(r'(WhatsApp|Telefone)\s([\+0-9\s\(\)-]+)', content)

# Preparar os dados para o CSV
dados_csv = []
for tipo, numero in telefones:
    numero = re.sub(r'[\s\(\)-]', '', numero)  # Remover espaços, parênteses e traços
    numero = "\t" + numero  # Adicionar um tab para forçar o Excel a tratar como texto
    dados_csv.append([tipo.lower(), numero])

# Salvar os dados no arquivo CSV
with open('contato_ebac.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file, delimiter=';')
    writer.writerow(['tipo', 'numero'])
    writer.writerows(dados_csv)

print("Arquivo contato_ebac.csv criado com sucesso!")

# Baixar o arquivo CSV
files.download('contato_ebac.csv')

Arquivo contato_ebac.csv criado com sucesso!


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

---