# Challenge Data Science - Semana 1

Foi feito o *dump* dos dados usando o *MySQL*, este notebook contém  as análises gerais de integridade, tipos, volume e demais validações pertinentes. Para a conexão com o db foi utilizado o *SQLAlchemy* e para tratar os dados a biblioteca *pandas*

## Imports e Conexões

In [7]:
import numpy as np
import pandas as pd
from sqlalchemy import create_engine, exc
import sqlalchemy
import urllib.parse

In [8]:
with open('..\password.txt') as f:
    line = f.readline()
senha = urllib.parse.quote_plus(line) 

In [2]:
def get_connection(senha):
    """Cria conexão com db ou levanta erros"""
    try:
        engine = create_engine(f"mysql://root:{senha}@localhost:3306/alura_cash")
        connection = engine.connect()
        return connection
    except exc.SQLAlchemyError as error:
        return str(error)

connection = get_connection(senha)

In [3]:
def get_table(table_name, connection):
    """Retorna tabela completa"""
    try:
        return pd.read_sql(f'SELECT * FROM {table_name}', con=connection)

    except exc.SQLAlchemyError as error:
        return str(error)

##  

In [4]:
dados_mutuarios = get_table('dados_mutuarios', connection)
emprestimos = get_table('emprestimos', connection)
historico_banco = get_table('historicos_banco', connection)
ids = get_table('ids', connection)

In [5]:
def check_data_integrity(df):
    print('Duplicadas:',df[df.duplicated()==True], '\n\n', 'Nulos:', df.isnull().sum(),'\n\n')

[check_data_integrity(df) for df in [dados_mutuarios, emprestimos, historico_banco, ids]]

Duplicadas: Empty DataFrame
Columns: [person_id, person_age, person_income, person_home_ownership, person_emp_length]
Index: [] 

 Nulos: person_id                   0
person_age                321
person_income             336
person_home_ownership       0
person_emp_length        1254
dtype: int64 


Duplicadas: Empty DataFrame
Columns: [loan_id, loan_intent, loan_grade, loan_amnt, loan_int_rate, loan_status, loan_percent_income]
Index: [] 

 Nulos: loan_id                   0
loan_intent               0
loan_grade                0
loan_amnt               331
loan_int_rate          3627
loan_status             343
loan_percent_income     316
dtype: int64 


Duplicadas: Empty DataFrame
Columns: [cb_id, cb_person_default_on_file, cb_person_cred_hist_length]
Index: [] 

 Nulos: cb_id                         0
cb_person_default_on_file     0
cb_person_cred_hist_length    1
dtype: int64 


Duplicadas: Empty DataFrame
Columns: [person_id, loan_id, cb_id]
Index: [] 

 Nulos: person_id    0


[None, None, None, None]

Como verificado na etapa anterior, não existem dados duplicados, contudo foram observados diversos registros nulos. Isso ocorre especialmente com as tabelas **dados_mutuarios**, destaque para o campo *person_emp_length* com 1254 registros faltantes e na tabela **emprestimos**, com o campo loan_int_rate contendo o maior número de registros nulos (3627 entradas). A tabela **historico_banco** possui apenas um registro nulo, então começaremos por ela. A estratégia consiste em usar a função *where* (numpy) sobre a coluna com o dado faltante, ao aplicar o método *isnull* (pandas) teremos como retorno o *index* contendo tal registro, assim podemos simplesmente usar *iloc* para identificá-lo.

In [43]:
historico_banco.iloc[np.where(historico_banco.cb_person_cred_hist_length.isnull())]

Unnamed: 0,cb_id,cb_person_default_on_file,cb_person_cred_hist_length
3846,t2sr31P5-BMuu,N,
