<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Coleta de Dados I
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Arquivos CSV;</li>
  <li>Arquivos Texto;</li>
  <li>Arquivos Excel.</li>
</ol>

---

# **Exercícios**

## 0\. Preparando o ambiente

Vamos explorar dados de crédito presentes no arquivo `credito.xlsx` ([link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.xlsx)). Os dados estão no formato de **Excel** (XLSX) e contém informações sobre clientes de uma instituição financeira. Em especial, estamos interessados em explicar a segunda coluna, chamada de **default**, que indica se um cliente é adimplente (`default = 0`), ou inadimplente (`default = 1`), ou seja, queremos entender o porque um cliente deixa de honrar com suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.



| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |



Faça o download do arquivo `credito.xlsx` com a célula de código abaixo.

In [None]:
!wget --show-progress --continue -O ./credito.xlsx https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.xlsx

---

## 1\. Excel para CSV

Utilizando o pacote Python `openpyxl` visto em aula, extraia os seguintes as colunas `id`, `sexo` e `idade` para dos clientes inadimplentes (`default = 1`) e solteiros (`estado_civil = 'solteiro'`). Salves os dados extraídos no arquivo csv `credito.csv` separado por `;`. Exemplo do cabeçalho e das três primeiras linhas:

```
id;sexo;idade
767712558;59;M
713741358;46;M
772390908;59;M
```

**Dica:** O arquivo csv `credito.csv` deve ter 669 linhas, contando com o cabeçalho.

**Nota:** Escreva o código da sua solução abaixo em uma ou mais células, você não precisa enviar o arquivo csv gerado.

In [2]:
from openpyxl import load_workbook
import csv

# Carregar o arquivo Excel
planilhas = load_workbook(filename='credito.xlsx')
planilha = planilhas.active

# Obter o cabeçalho (primeira linha) da planilha
cabecalho = next(planilha.values)

# Títulos das colunas desejadas e condições
colunas_desejadas = ['id', 'sexo', 'idade']
condicoes_colunas = ['default', 'estado_civil']

# Encontrar os índices dos títulos desejados no cabeçalho
indices_desejadas = {titulo: cabecalho.index(titulo) for titulo in colunas_desejadas}
indices_condicoes = {titulo: cabecalho.index(titulo) for titulo in condicoes_colunas}

# Contador de linhas que atendem às condições(incuir o cabeçalho)
cont_linhas = 1

# Lista para armazenar os dados filtrados
dados_filtrados = []

# Iterar sobre as linhas da planilha, excluindo o cabeçalho
for row in planilha.iter_rows(min_row=2, values_only=True):
    # Verificar as condições
    if row[indices_condicoes['default']] == 1 and row[indices_condicoes['estado_civil']] == 'solteiro':
        # Criar uma lista com os valores na ordem desejada e formatados como strings
        valores = [str(row[indices_desejadas[titulo]]) for titulo in colunas_desejadas]
        # Adicionar os valores à lista de dados filtrados
        dados_filtrados.append(valores)
        # Incrementar o contador de linhas
        cont_linhas += 1

# Salvar os dados filtrados em um arquivo CSV separado por ;
with open('credito.csv', mode='w', newline='', encoding='utf8') as arquivo_csv:
    escritor_csv = csv.writer(arquivo_csv, delimiter=';')
    # Escrever o cabeçalho no arquivo CSV
    escritor_csv.writerow(colunas_desejadas)
    # Escrever os dados filtrados no arquivo CSV
    escritor_csv.writerows(dados_filtrados)

print('Total de linhas que atendem às condições: {}'.format(cont_linhas))
print("Os dados filtrados foram exportados para 'credito.csv'.")


Total de linhas que atendem às condições: 669
Os dados filtrados foram exportados para 'credito.csv'.


---

## 2\. Excel para JSON

Como preparação para o próximo módulo, vamos trabalhar com o JSON, um formato semi-estruturado, muito utilizado em transmissão de dados da web e equivalente a um **dicionário** Python.

Utilizando o pacote Python `openpyxl` visto em aula, extraia os dados das colunas `escolaridade` e `tipo_cartao`, removendo duplicados. Com os dados, construa o dicionário Python `credito` com a seguinte estrutura:

```python
credito = {
  'tipo_cartao': ['silver', 'blue', 'gold', 'platinum'],
  'escolaridade': ['doutorado', 'mestrado', 'na', 'sem educacao formal', 'graduacao', 'ensino medio']
}
```

Para finalizar, utilize o código abaixo para converter o dicionário `credito` no formato JSON:

```python
import json

credito_json = json.dumps(credito, indent=4)
print(credito_json)
```

**Dica:** Sua solução deve gerar o dicionário Python `credito` igual ao exemplo mas a ordem dos elementos pode variar tranquilamente.

**Dica:** Uma excelente forma de remover elementos duplicados de uma lista é convertê-la para `set` e depois para `list` novamente.



In [16]:
import json
from openpyxl import load_workbook

# Carregar o arquivo Excel
planilhas = load_workbook(filename='credito.xlsx')
planilha = planilhas.active

# Obter o cabeçalho (primeira linha) da planilha
cabecalho = next(planilha.values)

# Títulos das colunas desejadas
colunas_desejadas = ['tipo_cartao', 'escolaridade']

# Encontrar os índices dos títulos desejados no cabeçalho
indices_desejadas = {titulo: cabecalho.index(titulo) for titulo in colunas_desejadas}

# Conjuntos para armazenar valores únicos
tipos_cartao_unicos = set()
escolaridades_unicas = set()

# Iterar sobre as linhas da planilha, excluindo o cabeçalho
for i, row in enumerate(planilha.iter_rows(min_row=2, values_only=True), start=2):
    tipo_cartao = row[indices_desejadas['tipo_cartao']]
    escolaridade = row[indices_desejadas['escolaridade']]

    tipos_cartao_unicos.add(tipo_cartao)
    escolaridades_unicas.add(escolaridade)

# Converter conjuntos em listas
tipos_cartao_unicos_list = list(tipos_cartao_unicos)
tipos_escolaridade_unicas_list = list(escolaridades_unicas)

# Criar dicionário com os dados únicos
credito = {
    
    'tipo_cartao': tipos_cartao_unicos_list,
    'escolaridade': tipos_escolaridade_unicas_list
}

print(credito)

# Convertendo para o formato json
credito_json = json.dumps(credito, indent=4)
print(credito_json)


{'tipo_cartao': ['gold', 'platinum', 'blue', 'silver'], 'escolaridade': ['mestrado', 'ensino medio', 'graduacao', 'doutorado', 'sem educacao formal', 'na']}
{
    "tipo_cartao": [
        "gold",
        "platinum",
        "blue",
        "silver"
    ],
    "escolaridade": [
        "mestrado",
        "ensino medio",
        "graduacao",
        "doutorado",
        "sem educacao formal",
        "na"
    ]
}


---

## 3\. BÔNUS: Texto para CSV

No arquivo de texto `ebac.txt` você encontra o texto presente no rodapé da página de cursos da EBAC ([link](https://ebaconline.com.br/)).



**Arquivo TXT:** ebac.txt

In [11]:
%%writefile ebac.txt
MÍDIAS SOCIAIS
Instagram, Facebook, Youtube, LinkedIn 

CURSOS
Software, Design, Marketing, Audiovisual, Programação & Data, Games

WEBINARS
Próximos, Anteriores

SOBRE
Sobre nós, Centro de carreiras, Vagas

CONTATO
WhatsApp +55 (11) 4200-2991
Telefone +55 (11) 3030-3200

BLOG
Design, Audiovisual, Marketing

Overwriting ebac.txt


Extraia os números de contato do arquivo texto `ebac.txt` e salve-os no arquivo csv `contato_ebac.csv` com o separador `;` no seguinte formato:

```
tipo;numero
whatsapp;+551142002991
telefone;+551130303200
```

**Nota:** Escreva o código da sua solução abaixo em uma ou mais células, você não precisa enviar o arquivo csv gerado.

In [12]:
# solução do exercício 3 (bônus)

import re
import csv

with open(file='ebac.txt', mode='r', encoding='utf8') as arquivo:
    linhas = arquivo.readlines()

# Extrair e formatar linhas com "WhatsApp"
linhas_com_whatsapp = filter(lambda linha: 'WhatsApp' in linha, linhas)
linhas_formatadas_whatsapp = []
for linha in linhas_com_whatsapp:
    numero = re.search(r'\+\d+ \(\d+\) \d+-\d+', linha)
    if numero:
        numero = numero.group()
        # Remover espaços, parênteses e hífens do número
        numero = re.sub(r'[ \(\)-]', '', numero)
        linhas_formatadas_whatsapp.append(["whatsapp", numero])

# Extrair e formatar linhas com "Telefone"
linhas_com_telefone = filter(lambda linha: 'Telefone' in linha, linhas)
linhas_formatadas_telefone = []
for linha in linhas_com_telefone:
    numero = re.search(r'\+\d+ \(\d+\) \d+-\d+', linha)
    if numero:
        numero = numero.group()
        # Remover espaços, parênteses e hífens do número
        numero = re.sub(r'[ \(\)-]', '', numero)
        linhas_formatadas_telefone.append(["telefone", numero])

# Combinar as duas listas formatadas
linhas_formatadas_contato = [["tipo", "numero"]] + linhas_formatadas_whatsapp + linhas_formatadas_telefone

# Gravar as linhas formatadas em um arquivo CSV
with open('contato_ebac.csv', mode='w', newline='', encoding='utf8') as arquivo_csv:
    escritor_csv = csv.writer(arquivo_csv)
    escritor_csv.writerows(linhas_formatadas_contato)

print("Os dados foram exportados para 'contatos.csv'.")




    


Os dados foram exportados para 'contatos.csv'.
