## 0\. Preparando o ambiente

Vamos explorar dados de crédito presentes no arquivo `credito.xlsx` ([link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.xlsx)). Os dados estão no formato de **Excel** (XLSX) e contém informações sobre clientes de uma instituição financeira. Em especial, estamos interessados em explicar a segunda coluna, chamada de **default**, que indica se um cliente é adimplente (`default = 0`), ou inadimplente (`default = 1`), ou seja, queremos entender o porque um cliente deixa de honrar com suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.



| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |



Faça o download do arquivo `credito.xlsx` com a célula de código abaixo.

In [None]:
!wget --show-progress --continue -O ./credito.xlsx https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.xlsx

---

## 1\. Excel para CSV

Utilizando o pacote Python `openpyxl` visto em aula, extraia os seguintes as colunas `id`, `sexo` e `idade` para dos clientes inadimplentes (`default = 1`) e solteiros (`estado_civil = 'solteiro'`). Salves os dados extraídos no arquivo csv `credito.csv` separado por `;`. Exemplo do cabeçalho e das três primeiras linhas:

```
id;sexo;idade
767712558;59;M
713741358;46;M
772390908;59;M
```

**Dica:** O arquivo csv `credito.csv` deve ter 669 linhas, contando com o cabeçalho.

**Nota:** Escreva o código da sua solução abaixo em uma ou mais células, você não precisa enviar o arquivo csv gerado.

In [1]:
from openpyxl import load_workbook
import csv

# Carregar o arquivo Excel
wb = load_workbook('credito.xlsx')
sheet = wb.active

# Obter o cabeçalho para criar os índices
primeira_linha = next(sheet.iter_rows(values_only=True), None)
if primeira_linha is not None:
    cabecalho = [str(cell).lower() for cell in primeira_linha]
else:
    raise ValueError("A planilha está vazia ou não contém cabeçalho.")

# Obter os índices das colunas desejadas
indice_id = cabecalho.index('id')
indice_idade = cabecalho.index('idade')
indice_sexo = cabecalho.index('sexo')
indice_default = cabecalho.index('default')
indice_estado_civil = cabecalho.index('estado_civil')

# Listas para armazenar os dados extraídos
id_clientes = []
idade_clientes = []
sexo_clientes = []

# Iterar pelas linhas da planilha Excel
for row in sheet.iter_rows(values_only=True):
    id_cliente = row[indice_id]
    idade = row[indice_idade]
    sexo = row[indice_sexo]
    estado_civil = row[indice_estado_civil]
    default = row[indice_default]

    # Verificar a condição desejada
    if estado_civil == 'solteiro' and default == 1:
        id_clientes.append(id_cliente)
        idade_clientes.append(idade)
        sexo_clientes.append(sexo)

# Escrever os dados extraídos no arquivo CSV
with open('credito1.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile, delimiter=';')
    
    # Escrever o cabeçalho no arquivo CSV
    writer.writerow(['id', 'idade', 'sexo'])

    # Escrever os dados das listas no arquivo CSV
    for id_cliente, idade, sexo in zip(id_clientes, idade_clientes, sexo_clientes):
        writer.writerow([id_cliente, idade, sexo])

print('Dados extraídos e salvos no arquivo "credito1.csv".')


Dados extraídos e salvos no arquivo "credito1.csv".


In [2]:
import pandas as pd
df = pd.read_csv('credito1.csv')
print(df)

      id;idade;sexo
0    767712558;59;M
1    713741358;46;M
2    772390908;59;M
3    719211558;45;M
4    709547658;39;M
..              ...
663  710066133;30;M
664  713281833;37;M
665  716644008;55;M
666  713924283;61;M
667  716893683;55;F

[668 rows x 1 columns]


---