#Introdução
---

No mundo dos negócios imobiliários, é frequente a necessidade de analise de diferentes perfis de pessoas interessadas em empréstimos para compra de sua casa própria. Os exercicios a seguir servem como base para definirmos faixas de crédito baseado no histórico de financiamentos de imóveis. 

<font size=4 color='#333'>**Objetivo**</font></br>
Ao fim desse caderno você será capaz de definir faixas de risco (quem consegue ou não um empréstimo imobiliário) com base em um dado conjunto de dados dos perfis solicitantes.

<font size=4 color='#333'>**Tempo Estimado:**</font> 90 minutos (ou partida de futebol)</br>

<font size=4 color='#333'>**O Conjunto de dados**</font></br>
O conjunto de dados analisado constará de pouco mais de 600 entradas. O dicionário dos rotulos pode ser checado abaixo:

- **Loan_ID** - Identificador do empréstimo
- **Gender** -  Género do aplicante
- **Married** - O aplicante casado (Yes/No)
- **Dependents** - Número de dependentes do aplicante
- **Education** - Nível de escolaridade do aplicante
- **Self_Employed** - O aplicante trabalha por conta própria (Yes/No)
- **ApplicantIncome** - Renda do aplicante
- **CoapplicantIncome** - Renda do co-aplicante
- **LoanAmount** - Valor do empréstimo (em milhares)
- **Loan_Amount_Term** - Prazo do empréstimo (em meses)
- **Credit_History** - histórico de crédito do aplicante atende às diretrizes
- **Property_Area** - Área da propriedade (Rural, Urbana, Semi-urbana)
- **Loan_Status** - Empréstimo aprovado (Y/N)

<font size=4 color='#333'>**Níveis de dificuldade**</font></br>
A dificuldade de cada questão será inversamente proporsional à paciência do [Cromulon](http://rickandmorty.wikia.com/wiki/Cromulons) (se você não sabe o que é um Cromulons,  perderá 78,8% da empolgação - sério...)

Este caderno esta dividido em 10 exercícios divididos em: 
* SETE são questões fáceis ou médias;
* DUAS são questões difíceis; e 
* UMA questão muito difícil que te fará chorar.

Abaixo, a escala de impaciência do Cromulon:

Dificuldade 🡒 🡒 🡒

![Escala Cromulon](https://image.ibb.co/k1Q3gp/Cromulon_scale.png)

Vamos lá... 
mas antes de dar prosseguimento, carregue o arquivo csv necessario executando o bloco de código abaixo:


In [2]:
# Carregando os arquivos de seu armazenamento local
from google.colab import files
uploaded = files.upload()

Saving loan_entries.csv to loan_entries.csv


#01 - Lendo arquivos com Pandas

O [pandas](https://https://pandas.pydata.org/) é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para tornar o trabalho com dados “relacionais” ou “rotulados” fáceis e intuitivos. Dentre outras funcionabilidades, o pandas fornece uma API de I/O com um conjunto de funções de leitores de alto nível (como o **pandas.read_csv()**) que retornam um objeto do tipo pandas. Além disso, a mesma API é capaz de escrever seus resultados em diversos formatos. Abaixo uma breve descrição de alguns formatos de arquivos suportados pelo pandas.

|| Format Type	| Data Description	| Reader	| Writer |
|---|--------------|-------------|-----------|-------------|
| |  text	| CSV	| read_csv	| to_csv |
| |  text	| JSON	| read_json	| to_json |
| | text | 	HTML	| read_html	| to_html |
| | binary	| MS Excel	| read_excel	| to_excel |
| | SQL	| SQL	| read_sql	| to_sql |

Algo interessante é que o pandas pode ler também do seu prórpio clipboard ( o conteúdo que esta em seu Ctrl+C) ele também é capaz de escrever no clipboard ).






![fácil](https://image.ibb.co/evZUMp/Cromulon_easy.png)

Neste projeto trabalharemos com uma amostra dos perfís de candidatos a empréstimos imobiliários. Para iniciarmos, na célula abaixo, você deve:


1.   Importar o **pandas** como **pd**.
2.   Ler o arquivo **'loan_entries.csv'** disponibilizado (lembre-se de coloca-lo no contexto do seu collab), e atribuir seu conteudo a um **pandas.Dataframe**, nomeado **loans.**


In [0]:
#Substitua as lacunas (...) abaixo
import ...

loans = pd.read_csv("...")

# 02 - Entendendo seu conjundo de dados



> *"Como um bom cientista de dados, você deve antes de tudo entender minimamente o conjunto de dados que estão em suas mãos.""* -  2018, Ivanovitch 



Agora que temos os dados sobre o perfil de pessoas interessadas em executar um empréstimo imobiliário. Informações simples podem ser capturadas a príncipio para sabermos sobre o que estamos trabalhando.

E para esta tarefa, o **panda.Dataframe** nos oferece alguns métodos e últeis, como **head()**, **info()**, **describe()** e os atributos **shape** e **columns**.

![fácil](https://image.ibb.co/evZUMp/Cromulon_easy.png)

Na célula de código abaixo, determine:

1.  Quantas linhas e colunas o **DataFrame** possui
2.  Quais os nomes e tipos das colunas
3. A que se refere cada coluna, elas condizem com os valores que recebem? 




In [0]:
#Escreva seu código abaixo


#03 - Padronizando os nomes das colunas

Analisando o dicionário de dados (e provavelmente os resultados da questão anterior) notamos que os nomes das colunas não estão padronizados, algumas seguindo o padrão upper [CamelCase](https://en.wikipedia.org/wiki/Camel_case) e outras com palavras separadas por um "_". Sendo que o padrão preferido em Python seria o [snake_case](https://en.wikipedia.org/wiki/Snake_case).

Um módulo do python que facilita a conversão destes formatos é o [Regular expressions operations](https://docs.python.org/2/library/re.html). como demonstrado no código abaixo.

In [5]:
import re

CamelCase = "ImMrMeeseeksLookAtMe"
snake_case = re.sub('(\w)([A-Z])', r'\1_\2', CamelCase).lower()
print "Result:", snake_case

Result: im_mr_meeseeks_look_at_me


![médio](https://image.ibb.co/jaM4nU/Cromulon.png)

Na célula de código abaixo:
* Complete a função **to_snake_case(name)** de forma que converta qualquer nome presente  nas colunas. **Dica:** tome cuidados com os nomes que já têm o "_"; 
* Aplique esta função utilizando  [list comprehension](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions) para alterar o nome das colunas; e
* Imprima os nomes das colunas para verificar o resultado.

In [0]:
#Complete o código abaixo subistituíndo as reticências (...) por seu código
def to_snake_case(name):
  """Transforma o nome 'name' para o padrão snake_case"""
  pass

#Utilize a função para transformar o nome as colunas e imprima seus novos valores


#04 - Padronizando os dados das colunas

Além dos nomes das colunas, executando um **Dataframe.head()** no conjunto de dados, claramente que algumas colunas com respostas simples ('Yes' ou 'No') possuem respostas em formatos diferentes ('Y' ou 'N') e até mesmo tipos diferentes: 1.0 ou 0.0, para a coluna **credit_history**. Isto é facilmente identificável com o método **Series.unique()**:

In [7]:
loans["credit_history"].unique()

array([ 1.,  0., nan])

Voltando ao dicionário do conjunto de dados, vemos que **credit_history** responde se o "histórico de crédito do aplicante atende às diretrizes", cabendo uma resposta de Sim ou Não.

Para a tarefa de subistituição dos valores, o pandas oferece duas alternativas: **Series.replace()** e **Series.map()**.

![médio](https://image.ibb.co/jaM4nU/Cromulon.png)

As colunas **credit_history** e **loan_status** não seguem o padrão de resposta Yes/No. No bloco de código abeixo:
* Gere um dicinário com chaves sendo os padrões encontrados nestas duas colunas e como valores, o substituto esperado.
* Utilize um dos dois métodos do **pandas.Series** para realizar as correções.

<font size=2>**Dica:** se utilizar **Series.map()** cuidado para não executar código duas vezes ou acrescente 'Yes' e 'No' como chaves do dicionário para evitar a perda dos dados.</font>

In [0]:
#Escreva seu código abaixo


# 05 - Tratando dados faltosos (Parte 1)

Uma vez que você padronizou as colunas do nosso DataFrame, deve ter notado que em algumas delas estão faltando valores.

<table>
  <thead>
    <tr><th align="left">Coluna</th><th align="center">Entradas</th></tr>
  </thead>
  <tbody>
    <tr><td>loan_id</td><td align="center">614 non-null</td></tr>
    <tr><td>gender</td><td align="center">601 non-null</td></tr>
    <tr><td>married</td><td align="center">611 non-null</td></tr>
    <tr><td>dependents</td><td align="center">599 non-null</td></tr>
    <tr><td>education</td><td align="center">614 non-null</td></tr>
    <tr><td>self_employed</td><td align="center">582 non-null</td></tr>
    <tr><td>applicant_income</td><td align="center">614 non-null</td></tr>
    <tr><td>coapplicant_income</td><td align="center">614 non-null</td></tr>
    <tr><td>loan_amount</td><td align="center">592 non-null</td></tr>
    <tr><td>loan_amount_term</td><td align="center">600 non-null</td></tr>
    <tr><td>credit_history</td><td align="center">564 non-null</td></tr>
    <tr><td>property_area</td><td align="center">614 non-null</td></tr>
    <tr><td>loan_status</td><td align="center">614 non-null</td></tr>
  </tbody>
</table>

Existem algumas técnicas para tratar com essa situação,  e a próposito este é um tema bastante estudado, basta uma breve pesquisa e verá que muita gente estuda métodos para preencher esses valores.

No nosso caso, usaremos técnicas simples, como preenchimento por média ou zero.

E para tanto, o Dataframe  tem um método especificamente para esta tarefa: **Dataframe.fillna(value)**

![médio](https://image.ibb.co/jaM4nU/Cromulon.png)

Na célula de código abaixo:
* Retire caracteres __não numéricos__ da coluna **dependents**, preencha valores faltosos com zero e converta o tipo da coluna para int
* Preencha os valores faltantes na colunas **credit_history,** com *'No'*
* Nas colunas **gender**, **married** e **self_employed** preencha os valores faltantes com a <a href="https://en.wikipedia.org/wiki/Mode_(statistics)">moda</a> destas colunas



In [0]:
#Escreva seu código abaixo


#06 - Tratando dados faltosos (parte 2)

Ainda há dois campos muito importantes com dados incompletos: **loan_amount** e **loan_amount_term**, sendo que estas duas colunas não são simplesmente  inferidas por suas médias.

Desta forma vamos levar em conta, para o preenchimento destes dados faltantes, a área da propriedade, se é **Rural**, **Urbana** e quaisquer opções.

![difícil](https://image.ibb.co/b8i61p/Cromulon_medium.png)

Na célula de código abaixo, estraia os valores únicos da coluna **property_area** para uma lista e itere pela lista subdividindo o conjunto de dados e determinando os valores faltantes:

* Para **loan_amount** preencha os valores faltantes com a [média](https://en.wikipedia.org/wiki/Mean) dos valores para propriedades do mesmo tipo.
* Para **loan_amount_term** preencha os valores faltantes com a **moda** dos valores para propriedades do mesmo tipo.

In [0]:
#Escreva seu código abaixo


#07 - Agrupando resultados

Agora que os dados estão preparados, podemos inferir algumas informações:


![médio](https://image.ibb.co/jaM4nU/Cromulon.png)

Baseado na coluna **loan_status**:
* Atribua a um Dataframe **loan_success** todos os emprestimos com valor 'Yes' e ao Dataframe **loan_failure** os emprestimos com situação 'No'.

Obtenha os seguntes dados:

* proporção entre todos os empréstimos e os que são negados (loan_status = No)
* Qual a média dos valores **loan_amount** aprovados?
* Qual o menor valor **loan_amount** entre todos, ele foi aprovado? Quais as características do solicitante?
* Qual o maior valor aprovado, e o maior valor negado?

In [0]:
#Escreva seu código abaixo


#08 - Gerando respostas

Existe um modelo estatístico apropriado para nosso trabalho, chama-se [árvore de decisão](https://www.lucidchart.com/pages/pt/o-que-e-arvore-de-decisao). No futuro iremos aprende-lo.

No momento, podemos criar uma função um pouco mais simples que dado valores de entrada pesquisa no dataFrame e nos informa quais modalidades de emprestimos estariam disponíveis para os valores informados.



Na célula abaixo, crie uma função que receberá:
* O valor aplicado: **applicant_income** 
* O valor co-aplicado **coapplicant_income** 
* Valor do emprestimo **loan_amount** 
* Retorno deverá ser as possibilidades de emprestimos que seriam aprovados.

Por exemplo, caso o usuário informe:
income = 1500
co_income = 1100
loan_value = 100

O resultado esperado será:

|	applicant_income	| coapplicant_income	| loan_amount	| loan_amount_term | property_area |
|--|--|--|
|1299	|1086.0	|17.0	| 120.0 | Urban |

Que indica que modalidade de emprestimo estaria disponível.



![difícil](https://image.ibb.co/b8i61p/Cromulon_medium.png)

In [0]:
#Escreva seu código abaixo
def loan_status(income, co_income, value):
  pass

#09 - Calculando o comprometimento da Renda


Agora que já temos domínio sobre o dataFrame, queremos saber quanto da renda em % será comprometida pelas parcelas do empréstimo (Neste ponto, vamos ignorar a incidência de juros sobre as parcelas).

![muito difícil](https://image.ibb.co/bAQfSU/Cromulon_absolut_red.png)


No bloco de código abaixo:
* Gere uma **Série** com a soma dos valores de **applicant_income** e **coapplicant_income**
* Gere uma segunda Série representando as parcelas contendo a divisão de **loan_amount** por **loan_amout_term** (Dica: lembre-se que loan_amout esta em fator de milhares).
* Adicione ao DataFrame **loans** uma coluna nomerada **income_percent** representado a porcentagem da renda conjunta que será comprometida pelas parcelas. 
* Existe algum valor de renda comprometida que seja incoerente (Valores próximos a 100% da renda por exemplo)? Caso sim, para estes o empréstimo foi aprovado e quais as caracteristicas dos solicitantes?



In [0]:
#Escreva seu código abaixo

