# 1º Semana

Na primeira semana nos foi solicitado para fazer o tratamento dos dados conforme abaixo:

- Analisar quais os tipos de dados.
- Verificar quais são as inconsistências nos dados.
- Corrigir as inconsistências nos dados.
- Entender quais informações o conjunto de dados possui.
- Unir as tabelas de dados de acordo com os IDs.
- Exportar a tabela de dados unidos como csv
- Traduzir as colunas.

## Importando dados

A fonte dos nossos dados é um dump.

**O que é um dump?** Um dump ou database dump, contém um registro da estrutura de tabela e/ou dados de um banco de dados. Normalmente está na forma de uma lista de comandos SQL. O dump é muito utilizado para realização de cópia de segurança de um banco de dados. Assim, seus conteúdos podem ser recuperados em caso de perda de dados.

Como eu tenho mais familiaridade com o Pandas, decidi que iria unificar os dados no MySQL e faria todas as tratativas usando Pandas.

### Unificando tabelas de acordo com os IDs

Criei um novo banco de dados a partir do arquivo [dump](https://github.com/Dev-Zz/Alura_Challenge_Data_Science_2/blob/main/Dados/dump-analise_risco-202207271411.sql.txt) chamado **'Alura Cash'**, utilizei o [SCRIPT](https://github.com/Dev-Zz/Alura_Challenge_Data_Science_2/blob/main/Dados/sql_unir_tabelas.sql) no MySQL para unificar as tabelas de acordo com os IDs, após unificar as tabelas, criei um novo arquivo do tipo **.csv** que será o conjunto de dados que usaremos nesse notebook.

In [246]:
import pandas as pd
import numpy as np

In [247]:
dados = pd.read_csv(r'C:\Users\Jose Eduardo\Documents\GitHub\challenge_alura_DataScience_2\Dados\dados_unificados.csv')
dados.head(3)

Unnamed: 0,person_id,loan_id,cb_id,person_id.1,person_age,person_income,person_home_ownership,person_emp_length,loan_id.1,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_id.1,cb_person_default_on_file,cb_person_cred_hist_length
0,JAz2tRvQ-14cy,pjEu6snv-4t33,FIgNSkrG-wen7,JAz2tRvQ-14cy,,41160.0,Rent,2.0,pjEu6snv-4t33,Debtconsolidation,A,6500.0,13.57,0.0,,FIgNSkrG-wen7,Y,2
1,MZSefq9m-loYS,Mfn0Csx4-LGM3,QPDJUQfQ-DJqK,MZSefq9m-loYS,22.0,29000.0,Mortgage,5.0,Mfn0Csx4-LGM3,Debtconsolidation,B,9000.0,,1.0,0.31,QPDJUQfQ-DJqK,N,4
2,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,cRItaaPB-pRvT,31.0,19968.0,Rent,1.0,Ks4nz74P-z6Iq,Education,B,2500.0,9.62,1.0,0.13,hzAXqSDh-ay7Q,N,6


É possível notar que **['person_id', 'loan_id', 'cb_id']** são colunas duplicadas com **['person_id.1', 'loan_id.1', 'cb_id.1']**, por essa razão irei retirar do conjunto de dados.

In [248]:
dados.drop(['person_id.1', 'loan_id.1', 'cb_id.1'], axis=1, inplace=True)
dados.head(3)

Unnamed: 0,person_id,loan_id,cb_id,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,JAz2tRvQ-14cy,pjEu6snv-4t33,FIgNSkrG-wen7,,41160.0,Rent,2.0,Debtconsolidation,A,6500.0,13.57,0.0,,Y,2
1,MZSefq9m-loYS,Mfn0Csx4-LGM3,QPDJUQfQ-DJqK,22.0,29000.0,Mortgage,5.0,Debtconsolidation,B,9000.0,,1.0,0.31,N,4
2,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,31.0,19968.0,Rent,1.0,Education,B,2500.0,9.62,1.0,0.13,N,6


## Traduzir as colunas

Uma das solicitações foi para que traduzíssemos as colunas.

In [249]:
dados.columns = ['pessoaID',
                 'solicitacaoID',
                 'historicoID',
                 'idadePessoa',
                 'salarioAnualPessoa',
                 'moradiaPessoa',
                 'tempoTrabalhoPessoa',
                 'motivoEmprestimo',
                 'pontuacaoEmprestimo',
                 'totalEmprestimo',
                 'taxaJuros',
                 'statusInadimplencia',
                 'comprometimentoRendaPorcentagem',
                 'pessoaInadimplente',
                 'tempoUltimaSolicitacaoCredito'
]

dados.head(3)

Unnamed: 0,pessoaID,solicitacaoID,historicoID,idadePessoa,salarioAnualPessoa,moradiaPessoa,tempoTrabalhoPessoa,motivoEmprestimo,pontuacaoEmprestimo,totalEmprestimo,taxaJuros,statusInadimplencia,comprometimentoRendaPorcentagem,pessoaInadimplente,tempoUltimaSolicitacaoCredito
0,JAz2tRvQ-14cy,pjEu6snv-4t33,FIgNSkrG-wen7,,41160.0,Rent,2.0,Debtconsolidation,A,6500.0,13.57,0.0,,Y,2
1,MZSefq9m-loYS,Mfn0Csx4-LGM3,QPDJUQfQ-DJqK,22.0,29000.0,Mortgage,5.0,Debtconsolidation,B,9000.0,,1.0,0.31,N,4
2,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,31.0,19968.0,Rent,1.0,Education,B,2500.0,9.62,1.0,0.13,N,6


In [250]:
#Feito um loop para saber quais os dados precisaremos traduzir.

for data in dados.select_dtypes(include=['object']).columns:
    print()
    print(f"{data}: {dados[data].unique()}")


pessoaID: ['JAz2tRvQ-14cy' 'MZSefq9m-loYS' 'cRItaaPB-pRvT' ... 'Kpzf8Ll0-r5tA'
 'o8MJQJNE-Finv' 'TtHLTHlj-3cNc']

solicitacaoID: ['pjEu6snv-4t33' 'Mfn0Csx4-LGM3' 'Ks4nz74P-z6Iq' ... 'mvTg1J3Z-I6HB'
 'ffr3kplw-61FF' 'TlYigBW1-7nbT']

historicoID: ['FIgNSkrG-wen7' 'QPDJUQfQ-DJqK' 'hzAXqSDh-ay7Q' ... 'vahJw1oD-SxUA'
 'GhYJdT43-IBBK' 'Mf20xgEH-Jq9k']

moradiaPessoa: ['Rent' 'Mortgage' 'Own' nan 'Other']

motivoEmprestimo: ['Debtconsolidation' 'Education' 'Homeimprovement' 'Venture' 'Personal'
 'Medical' nan]

pontuacaoEmprestimo: ['A' 'B' 'G' nan 'C' 'D' 'E' 'F']

pessoaInadimplente: ['Y' 'N' nan]


Analisando os dados acima iremos traduzir os dados das colunas **['moradiaPessoa', 'motivoEmprestimo', ]**

In [251]:
mapa_moradiaPessoa = {'Rent' : 'Aluguel',
        'Mortgage' : 'Hipotecada',
        'Own' :  'Própria',
        'Other' : 'Outro'}

mapa_motivoEmprestimo = {'Debtconsolidation' : 'Pagamento de débitos',
                         'Education' : 'Educativo',
                         'Homeimprovement' : 'Melhora do lar',
                         'Venture' : 'Empreendimento ',
                         'Personal' : 'Pessoal',
                         'Medical' : 'Médico'}

dados.moradiaPessoa = dados.moradiaPessoa.map(mapa_moradiaPessoa)
dados.motivoEmprestimo = dados.motivoEmprestimo.map(mapa_motivoEmprestimo)
dados.head()

Unnamed: 0,pessoaID,solicitacaoID,historicoID,idadePessoa,salarioAnualPessoa,moradiaPessoa,tempoTrabalhoPessoa,motivoEmprestimo,pontuacaoEmprestimo,totalEmprestimo,taxaJuros,statusInadimplencia,comprometimentoRendaPorcentagem,pessoaInadimplente,tempoUltimaSolicitacaoCredito
0,JAz2tRvQ-14cy,pjEu6snv-4t33,FIgNSkrG-wen7,,41160.0,Aluguel,2.0,Pagamento de débitos,A,6500.0,13.57,0.0,,Y,2
1,MZSefq9m-loYS,Mfn0Csx4-LGM3,QPDJUQfQ-DJqK,22.0,29000.0,Hipotecada,5.0,Pagamento de débitos,B,9000.0,,1.0,0.31,N,4
2,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,31.0,19968.0,Aluguel,1.0,Educativo,B,2500.0,9.62,1.0,0.13,N,6
3,5jTDCfXS-zaAq,ZFlwW08i-I3Al,LiAivrS4-J5DE,29.0,73000.0,Aluguel,1.0,Melhora do lar,B,5000.0,12.42,0.0,,,11
4,Hbz9PtI3-tOFs,bFMFchcv-UwQW,PkBixMJ3-3bad,29.0,42000.0,Aluguel,4.0,Empreendimento,G,1600.0,19.16,0.0,0.04,Y,6


Conforme acima todos os dados foram traduzidos.

## Analisar quais os tipos de dados.

Para entendermos melhor nossos dados nos foi disponibilizado um [Dicionário de dados](https://github.com/Mirlaa/Challenge-Data-Science-1ed/blob/main/Dados/README.md).

Para iniciar a analise dos tipos de dados usaremos a função **.info()**.

In [252]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14952 entries, 0 to 14951
Data columns (total 15 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   pessoaID                         14952 non-null  object 
 1   solicitacaoID                    14952 non-null  object 
 2   historicoID                      14952 non-null  object 
 3   idadePessoa                      14819 non-null  float64
 4   salarioAnualPessoa               14809 non-null  float64
 5   moradiaPessoa                    14800 non-null  object 
 6   tempoTrabalhoPessoa              14389 non-null  float64
 7   motivoEmprestimo                 14844 non-null  object 
 8   pontuacaoEmprestimo              14828 non-null  object 
 9   totalEmprestimo                  14813 non-null  float64
 10  taxaJuros                        13384 non-null  float64
 11  statusInadimplencia              14795 non-null  float64
 12  comprometimentoRen

As colunas **['pessoaID', 'solicitacaoID', 'historicoID']**, são as colunas de identificação e são do tipo object o que condiz com o esperado para essas colunas.

A coluna **['idadePessoa']**, é uma coluna que mostra a idade da pessoa em **anos**, e está no tipo float64, o tipo correto é int64.

A coluna **['salarioAnualPessoa']**, é uma coluna que mostra o salário anual da pessoa, está com o tipo correto(float64).

A coluna **['moradiaPessoa']**, é uma coluna do tipo categórica, que diz qual o tipo da moradia da pessoa, está com o tipo correto(object).

A coluna **['tempoTrabalhoPessoa']**, é uma coluna que mostra o tempo trabalhado pela pessoa em **anos**, e está no tipo float64, o tipo correto é int64.

A coluna **['motivoEmprestimo']**, é uma coluna do tipo categórica, que diz qual o motivo do empréstimo, está com o tipo correto(object).

A coluna **['pontuacaoEmprestimo']**, é uma coluna do tipo categórica, que mostra a pontuação de empréstimo da pessoa de A até G, está com o tipo correto(object).

A coluna **['totalEmprestimo']**, é uma coluna que mostra o valor total do empréstimo solicitado, está com o tipo correto(float64).

A coluna **['taxaJuros']**, é uma coluna que mostra o valor da taxa de juros, está com o tipo correto(float64).

A coluna **['statusInadimplencia']**, é uma coluna do tipo categórica, que indica a possibilidade da inadimplência, ela está sendo representada por 0 e 1 e está no tipo float64, o tipo correto é int64.

A coluna **['comprometimentoRendaPorcentagem']**, é uma coluna que mostra o valor percentual do comprometimento do empréstimo com ['salarioAnualPessoa'], está com o tipo correto(float64).

A coluna **['pessoaInadimplente']**, é uma coluna do tipo categórica, que indica se a pessoa já foi inadimplente, essa coluna está sendo representada por (Y,YES) e não (N,NO), está com o tipo correto(object).

A coluna **['tempoUltimaSolicitacaoCredito']**, é uma coluna que representa o tempo em **anos** desde a primeira solicitação de crédito ou aquisição de um cartão de crédito, está com o tipo correto(int64).

## Verificar quais são as inconsistências nos dados 

Conforme verificado acima as colunas: **['idadePessoa', 'tempoTrabalhoPessoa', 'statusInadimplencia']** estão com **TIPOS INCORRETOS**

O proximo passo é verificar quais os dados NULOS no conjunto de dados.

In [253]:
dados.isnull().sum()

pessoaID                              0
solicitacaoID                         0
historicoID                           0
idadePessoa                         133
salarioAnualPessoa                  143
moradiaPessoa                       152
tempoTrabalhoPessoa                 563
motivoEmprestimo                    108
pontuacaoEmprestimo                 124
totalEmprestimo                     139
taxaJuros                          1568
statusInadimplencia                 157
comprometimentoRendaPorcentagem     140
pessoaInadimplente                  161
tempoUltimaSolicitacaoCredito         0
dtype: int64

Abaixo farei um loop nas colunas usando a função **value_counts()** para verificar possiveis outliers em nossos dados.

In [254]:
for data in dados:
    print('='*50)
    print()
    print(dados[data].value_counts())
    print()


JAz2tRvQ-14cy    1
hHoyQbth-N61L    1
jyDTAJed-t9m9    1
8M1xAaF0-gBJl    1
BB0ivfdF-Qliu    1
                ..
JOiSfdRd-PIWZ    1
SuL3sTiM-u1tq    1
HqGZYISm-Gu7W    1
wmfjfXkd-vOQd    1
TtHLTHlj-3cNc    1
Name: pessoaID, Length: 14952, dtype: int64


pjEu6snv-4t33    1
CHz6kSxh-frE1    1
5v2xQijq-azdO    1
FJky53Un-eEAo    1
U4eiJ4gB-Qu2w    1
                ..
cnHzXF2x-bdhK    1
XN9KNmES-MNfw    1
J4hEWU8p-5gIv    1
lSBunHSP-eaLz    1
TlYigBW1-7nbT    1
Name: solicitacaoID, Length: 14952, dtype: int64


FIgNSkrG-wen7    1
uZeanEJQ-q5l4    1
SCXAyN0g-EzCX    1
yJEfU1DQ-DoPn    1
vDzfNLi8-dHta    1
                ..
LykPSQS0-0Nwr    1
Ada6IXbz-noby    1
iefFq430-kMty    1
zsy5wud4-115y    1
Mf20xgEH-Jq9k    1
Name: historicoID, Length: 14952, dtype: int64


23.0     1758
24.0     1648
22.0     1644
25.0     1350
26.0     1077
27.0      995
28.0      827
29.0      800
30.0      583
21.0      555
31.0      534
32.0      430
33.0      420
34.0      316
35.0      294
36.0      262
37

Na coluna **['idadePessoa']** existem valores com 123 e 144 anos, são idades bem elevadas, tem grandes chances de serem outliers dos nossos dados.

In [255]:
#Com o loop abaixo é possivel verificar se existe algum dado '' ou não.
for data in dados:
    print('='*50)
    print()
    print(f'{data}')
    print('Quantidade de dados em branco:', dados[dados[data] == ''].sum().sum())
    print()


pessoaID
Quantidade de dados em branco: 0.0


solicitacaoID
Quantidade de dados em branco: 0.0


historicoID
Quantidade de dados em branco: 0.0


idadePessoa
Quantidade de dados em branco: 0.0


salarioAnualPessoa
Quantidade de dados em branco: 0.0


moradiaPessoa
Quantidade de dados em branco: 0.0


tempoTrabalhoPessoa
Quantidade de dados em branco: 0.0


motivoEmprestimo
Quantidade de dados em branco: 0.0


pontuacaoEmprestimo
Quantidade de dados em branco: 0.0


totalEmprestimo
Quantidade de dados em branco: 0.0


taxaJuros
Quantidade de dados em branco: 0.0


statusInadimplencia
Quantidade de dados em branco: 0.0


comprometimentoRendaPorcentagem
Quantidade de dados em branco: 0.0


pessoaInadimplente
Quantidade de dados em branco: 0.0


tempoUltimaSolicitacaoCredito
Quantidade de dados em branco: 0.0



In [256]:
#Com o loop abaixo é possivel verificar se existe algum dado ' ' ou não.
for data in dados:
    print('='*50)
    print()
    print(f'{data}')
    print('Quantidade de dados em branco:', dados[dados[data] == ' '].sum().sum())
    print()


pessoaID
Quantidade de dados em branco: 0.0


solicitacaoID
Quantidade de dados em branco: 0.0


historicoID
Quantidade de dados em branco: 0.0


idadePessoa
Quantidade de dados em branco: 0.0


salarioAnualPessoa
Quantidade de dados em branco: 0.0


moradiaPessoa
Quantidade de dados em branco: 0.0


tempoTrabalhoPessoa
Quantidade de dados em branco: 0.0


motivoEmprestimo
Quantidade de dados em branco: 0.0


pontuacaoEmprestimo
Quantidade de dados em branco: 0.0


totalEmprestimo
Quantidade de dados em branco: 0.0


taxaJuros
Quantidade de dados em branco: 0.0


statusInadimplencia
Quantidade de dados em branco: 0.0


comprometimentoRendaPorcentagem
Quantidade de dados em branco: 0.0


pessoaInadimplente
Quantidade de dados em branco: 0.0


tempoUltimaSolicitacaoCredito
Quantidade de dados em branco: 0.0



Com o que foi feito acima conseguimos verificar as inconsistências. O proximo passo é a correção.

## Corrigir as inconsistências nos dados

Temos vários dados NULOS conforme foi verificamos acima, ainda não sabemos o que iremos fazer com os dados NULOS, dessa forma a solução que pensei foi criar um novo DataFrame SEM os dados NULOS, dessa forma teremos:

* DataFrame Com Nulos = Conjunto de dados contendo dados NULOS.
* DataFrame Sem Nulos = Conjunto de dados excluindo dados NULOS.

In [257]:
dataframe_com_nulos = dados

Para o dataframe_completo irei salvar em **.csv**.

In [258]:
dataframe_com_nulos.to_csv(r"C:\Users\Jose Eduardo\Documents\GitHub\challenge_alura_DataScience_2\Dados\dataframe_com_nulos.csv")

In [259]:
dataframe_sem_nulos = dados.dropna()
dataframe_sem_nulos.reset_index(inplace=True)
dataframe_sem_nulos.drop(["index"], axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_sem_nulos.drop(["index"], axis=1, inplace=True)


In [260]:
dataframe_sem_nulos.isnull().sum()

pessoaID                           0
solicitacaoID                      0
historicoID                        0
idadePessoa                        0
salarioAnualPessoa                 0
moradiaPessoa                      0
tempoTrabalhoPessoa                0
motivoEmprestimo                   0
pontuacaoEmprestimo                0
totalEmprestimo                    0
taxaJuros                          0
statusInadimplencia                0
comprometimentoRendaPorcentagem    0
pessoaInadimplente                 0
tempoUltimaSolicitacaoCredito      0
dtype: int64

Com isso criamos um novo DataFrame sem os valores Nulos.

Para o dataframe_sem_nulos devemos corrigir algumas inconsistências:

- Conforme verificado acima as colunas: **['idadePessoa', 'tempoTrabalhoPessoa', 'statusInadimplencia']** estão com **TIPOS INCORRETOS**

In [261]:
dataframe_sem_nulos['idadePessoa'] = dataframe_sem_nulos['idadePessoa'].astype(np.int64)
dataframe_sem_nulos.tempoTrabalhoPessoa = dataframe_sem_nulos.tempoTrabalhoPessoa.astype(np.int64)
dataframe_sem_nulos.statusInadimplencia = dataframe_sem_nulos.statusInadimplencia.astype(np.int64)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_sem_nulos['idadePessoa'] = dataframe_sem_nulos['idadePessoa'].astype(np.int64)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_sem_nulos.tempoTrabalhoPessoa = dataframe_sem_nulos.tempoTrabalhoPessoa.astype(np.int64)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_sem_nul

In [262]:
dataframe_sem_nulos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12420 entries, 0 to 12419
Data columns (total 15 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   pessoaID                         12420 non-null  object 
 1   solicitacaoID                    12420 non-null  object 
 2   historicoID                      12420 non-null  object 
 3   idadePessoa                      12420 non-null  int64  
 4   salarioAnualPessoa               12420 non-null  float64
 5   moradiaPessoa                    12420 non-null  object 
 6   tempoTrabalhoPessoa              12420 non-null  int64  
 7   motivoEmprestimo                 12420 non-null  object 
 8   pontuacaoEmprestimo              12420 non-null  object 
 9   totalEmprestimo                  12420 non-null  float64
 10  taxaJuros                        12420 non-null  float64
 11  statusInadimplencia              12420 non-null  int64  
 12  comprometimentoRen

Na coluna **['idadePessoa']** existem valores com 123 e 144 anos, são idades bem elevadas, tem grandes chances de serem outliers dos nossos dados.

In [263]:
dataframe_sem_nulos.idadePessoa.unique()

array([ 31,  29,  21,  22,  24,  23,  38,  26,  30,  25,  49,  41,  27,
        36,  56,  33,  28,  35,  34,  39,  43,  44,  32,  55,  37,  48,
        47,  45,  46,  58,  20,  53,  69,  51,  42,  40,  50,  52,  57,
        64,  54,  60, 144,  59,  63,  62,  61,  70,  66,  65,  73,  67],
      dtype=int64)

O valor de 123 anos foi retirado quando limpamos os dados NULOS, porém ainda consta o valor de 144 anos, iremos retirar essa linha para evitar erros futuros.

In [264]:
dataframe_sem_nulos.query('idadePessoa == 144')

Unnamed: 0,pessoaID,solicitacaoID,historicoID,idadePessoa,salarioAnualPessoa,moradiaPessoa,tempoTrabalhoPessoa,motivoEmprestimo,pontuacaoEmprestimo,totalEmprestimo,taxaJuros,statusInadimplencia,comprometimentoRendaPorcentagem,pessoaInadimplente,tempoUltimaSolicitacaoCredito
1708,5fi1GWSO-oQcb,TmOA2QC6-xk2y,171BCjoL-pNcN,144,200000.0,Hipotecada,4,Educativo,B,6000.0,11.86,0,0.03,N,2


In [265]:
dataframe_sem_nulos.idadePessoa = dataframe_sem_nulos.idadePessoa.drop(index=1708)
dataframe_sem_nulos.reset_index()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe_sem_nulos.idadePessoa = dataframe_sem_nulos.idadePessoa.drop(index=1708)


Unnamed: 0,index,pessoaID,solicitacaoID,historicoID,idadePessoa,salarioAnualPessoa,moradiaPessoa,tempoTrabalhoPessoa,motivoEmprestimo,pontuacaoEmprestimo,totalEmprestimo,taxaJuros,statusInadimplencia,comprometimentoRendaPorcentagem,pessoaInadimplente,tempoUltimaSolicitacaoCredito
0,0,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,31.0,19968.0,Aluguel,1,Educativo,B,2500.0,9.62,1,0.13,N,6
1,1,Hbz9PtI3-tOFs,bFMFchcv-UwQW,PkBixMJ3-3bad,29.0,42000.0,Aluguel,4,Empreendimento,G,1600.0,19.16,0,0.04,Y,6
2,2,iHar8HN7-1YkN,XqGa4BKn-WWe1,Sfj6mx0T-ixdS,21.0,45000.0,Aluguel,3,Pessoal,A,7200.0,9.38,0,0.16,N,4
3,3,y4pEWYBn-9PvH,2ZiNj6wr-h4jF,6PQh0Hls-oRmz,22.0,72000.0,Própria,1,Empreendimento,B,15000.0,10.25,0,0.21,N,4
4,4,t2CLBwpX-nu1u,lBEvYQ0q-Ej3C,5tHsILdx-PNcQ,24.0,81600.0,Aluguel,5,Empreendimento,C,8000.0,12.84,0,0.10,Y,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12415,12415,Fq62KEaz-3xZS,oE7OxjOb-M0os,3oTt3H7Y-zvaJ,25.0,69000.0,Aluguel,5,Melhora do lar,A,8500.0,6.92,1,0.12,N,4
12416,12416,3Nc47pRD-sOoq,ey2oe45x-gRBl,9pilhQPW-zkr4,21.0,45000.0,Aluguel,3,Pessoal,B,10000.0,10.25,0,0.22,N,2
12417,12417,Kpzf8Ll0-r5tA,mvTg1J3Z-I6HB,vahJw1oD-SxUA,31.0,41000.0,Aluguel,1,Médico,B,4000.0,10.00,0,0.10,N,10
12418,12418,o8MJQJNE-Finv,ffr3kplw-61FF,GhYJdT43-IBBK,27.0,98000.0,Aluguel,11,Melhora do lar,D,20000.0,16.00,1,0.20,N,8


In [273]:
dataframe_sem_nulos.iloc[1708]

pessoaID                           5fi1GWSO-oQcb
solicitacaoID                      TmOA2QC6-xk2y
historicoID                        171BCjoL-pNcN
idadePessoa                                  NaN
salarioAnualPessoa                      200000.0
moradiaPessoa                         Hipotecada
tempoTrabalhoPessoa                            4
motivoEmprestimo                       Educativo
pontuacaoEmprestimo                            B
totalEmprestimo                           6000.0
taxaJuros                                  11.86
statusInadimplencia                            0
comprometimentoRendaPorcentagem             0.03
pessoaInadimplente                             N
tempoUltimaSolicitacaoCredito                  2
Name: 1708, dtype: object