---

# **Teste Prático** | curva ABC

Você é um renomado analista no Banco de Bravos e recebeu da alta diretoria a tarefa de criar a curva ABC dos atuais correntistas do banco. Infelizmente, não existe uma integração entre as duas bases de dados disponíveis (correntistas_banco_bravos.csv e correntistas_obito.csv), dessa forma, todas as contas estão atualmente ativas não levando em consideração os óbitos. Sabendo disso, crie a curva ABC seguindo as diretrizes do banco informadas abaixo:

- A: >= 50%;
- B: >= 20% e < 50%;
- C: <20%;

#### O propósito da análise é demonstrar para os acionistas em quais famílias/alianças há a necessidade de intensificar o investimento para o próximo ano com base em seu patrimônio previsto para este ano.
---

> **Descrição dos atributos: correntistas_banco_bravos_1.csv**

| Coluna  | Descrição |
| ------- | --------- |
| Nome      | Nome do Titular do Correntista |
| Titulo | Título de Nobreza do Correntista |
| Genero   | Masculino (1) ou Feminino (0) |
| Cultura    | Civilização da qual o Correntista é originário |
| Mae | Nome da Mãe do Correntista |
| Pai | Nome do Pai do Correntista |
| Herdeiro | Nome do Herdeiro do Correntista |
| Familia | Famílias da qual o Correntista é aliado |
| Conjuge | Nome do Cônjuge do Correntista |
| Livro_1 | Presença do Correntista no Livro 1, Sim (1) ou Não(0) |
| Livro_2 | Presença do Correntista no Livro 2, Sim (1) ou Não(0) |
| Livro_3 | Presença do Correntista no Livro 3, Sim (1) ou Não(0) |
| Livro_4 | Presença do Correntista no Livro 4, Sim (1) ou Não(0) |
| Livro_5 | Presença do Correntista no Livro 5, Sim (1) ou Não(0) |
| Mae_viva | Informação se a Mãe do Correntista está viva, Sim (1) ou Não(0) |
| Pai_vivo | Informação se o Pai do Correntista está vivo, Sim (1) ou Não(0) |
| Herdeiro_vivo | Informação se o Herdeiro do Correntista está vivo, Sim (1) ou Não(0) |
| Conjuge_vivo | Informação se o Cônjuge do Correntista está vivo, Sim (1) ou Não(0) |
| Casado | Informação se o Correntista está casado, Sim (1) ou Não(0) |
| Nobreza | Informação se o Correntista é Nobre, Sim (1) ou Não(0) |
| Num_Parentes_Mortos | Número de Parentes Mortos | 
| Popular | Informação se o Correntista é Popular, Sim (1) ou Não(0) |
| Popularidade | Indicador de Popularidade |
| Divida | Valor da Dívida atual do Correntista |
| Capacidade_de_pagamento_anual | Capacidade de pagamento anual do Correntista |


In [2]:
# Importação das bibliotecas necessárias para realização do ETL
import pandas as pd
import numpy as np

In [3]:
# leitura do Arquivo
read_file = pd.read_csv("correntistas_banco_bravos_1.csv", sep=";", encoding = "ISO-8859-1")

In [4]:
# Excluir linha e Coluna geradas no momento de carregar o arquivo e que não tem informações que condizem com o arquivo original
read_file.drop('Unnamed: 25', axis=1,inplace = True)
read_file.drop(1946, axis=0, inplace=True)

In [5]:
# Renomear colunas para que fiquem condizentes com a Descrição dos atributos 
read_file = read_file.rename(columns={'name': 'Nome',
                                      'title': 'Titulo',
                                      'male': 'Genero',
                                      'culture': 'Cultura',
                                      'mother': 'Mae',
                                      'father': 'Pai',
                                      'heir': 'Herdeiro',
                                      'house': 'Familia',
                                      'spouse': 'Conjuge',
                                      'book1': 'Livro_1',
                                      'book2': 'Livro_2',
                                      'book3': 'Livro_3',
                                      'book4': 'Livro_4',
                                      'book5': 'Livro_5',
                                      'isAliveMother': 'Mae_viva',
                                      'isAliveFather': 'Pai_vivo',
                                      'isAliveHeir': 'Herdeiro_vivo',
                                      'isAliveSpouse': 'Conjuge_vivo',
                                      'isMarried': 'Casado',
                                      'isNoble': 'Nobreza',
                                      'numDeadRelations': 'Num_Parentes_Mortos',
                                      'isPopular': 'Popular',
                                      'popularity': 'Popularidade',
                                      'Dívida': 'Divida',
                                      'Capacidade de pagamento anual': 'Capacidade_de_pagamento_anual'})

In [6]:
# Visualização do Dataframe gerado
read_file

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Pai_vivo,Herdeiro_vivo,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual
0,Daenerys Targaryen,Andals,0.0,Valyrian,,,,House Targaryen,Drogo,1.0,...,,,0.0,1.0,1.0,15.0,1.0,1.000000,"R$ 61.115,00","R$ 1.000.000,00"
1,Tyrion Lannister,Hand of the King,1.0,,,,,House Lannnister,Tysha,1.0,...,,,1.0,1.0,1.0,12.0,1.0,1.000000,"R$ 12.104,00","R$ 700.000,00"
2,Cersei Lannister,Light of the West,0.0,Westerlands,,,,House Lannister,Robert Baratheon,1.0,...,,,1.0,1.0,1.0,9.0,1.0,1.000000,"R$ 54.158,00","R$ 700.000,00"
3,Arya Stark,Princess,0.0,Northmen,,,,House Starrkk,,1.0,...,,,,0.0,1.0,8.0,1.0,1.000000,"R$ 9.916,00","R$ 500.000,00"
4,Jon Snow,Lord Commander of the Night's Watch,1.0,Northmen,,,,House Starrkk,,1.0,...,,,,0.0,1.0,5.0,1.0,1.000000,"R$ 86.084,00","R$ 500.000,00"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1941,Orton Merryweather,Longtable,1.0,Reachmen,,,,House Merryweather,Taena of Myr,0.0,...,,,1.0,1.0,1.0,0.0,1.0,0.374582,"R$ 2.660,00","R$ 73.108,00"
1942,Matarys Targaryen,Prince,1.0,,,,,House Targaryen,,0.0,...,,,,0.0,1.0,0.0,0.0,0.100334,"R$ 51.608,00","R$ 70.473,00"
1943,Daena Targaryen,Princess,0.0,Valyrian,,,,House Targaryen,Baelor I Targaryen,0.0,...,,,0.0,1.0,1.0,7.0,0.0,0.227425,"R$ 32.304,00","R$ 64.028,00"
1944,Yormwell,Maester,0.0,,,,,,,0.0,...,,,,0.0,1.0,0.0,0.0,0.003344,"R$ 74.909,00","R$ 25.548,00"


> Na célula abaixo utilizei a função _info()_ para conseguir analisar:
> - o tamanho do dataframe,
> - a presença de valores nulos (vazios) e
> - o tipo de dado de cada coluna.

In [7]:
# Informações sobre o Dataframe
read_file.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1946 entries, 0 to 1945
Data columns (total 25 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Nome                           1946 non-null   object 
 1   Titulo                         938 non-null    object 
 2   Genero                         1946 non-null   float64
 3   Cultura                        677 non-null    object 
 4   Mae                            21 non-null     object 
 5   Pai                            26 non-null     object 
 6   Herdeiro                       23 non-null     object 
 7   Familia                        1519 non-null   object 
 8   Conjuge                        276 non-null    object 
 9   Livro_1                        1946 non-null   float64
 10  Livro_2                        1946 non-null   float64
 11  Livro_3                        1946 non-null   float64
 12  Livro_4                        1946 non-null   f

> Ao identificar que as Colunas "Dívida" e "Capacidade_de_pagamento_anual" precisariam ser modificadas de _object_ para _float_, criei uma função lambda (fn) para realizar o tratamento.

> Detectei também que as Colunas "Genero", "Livro_1", "Livro_2", "Livro_3", "Livro_4", "Livro_5", "Casado", "Nobreza", "Num_Parentes_Mortos" e "Popular" precisariam ser modificadas de _float_ para _int_, por isso criei uma função lambda (fn1) para realizar o outro tratamento.

> Na célula seguinte, apliquei as funções para as respectivas colunas.

In [8]:
# Função para tratamento dos dados (transformar objects em float ou int)
fn = lambda valor: float(valor.replace("R$", "").replace(".", "").replace(" ", "").replace(",", ".").replace("'", ""))
fn1 = lambda valor: int(valor)

In [9]:
# Aplicação das funções criadas
read_file['Divida'] = read_file['Divida'].apply(fn)
read_file['Capacidade_de_pagamento_anual'] = read_file['Capacidade_de_pagamento_anual'].apply(fn)
read_file['Genero'] = read_file['Genero'].apply(fn1)
read_file['Livro_1'] = read_file['Livro_1'].apply(fn1)
read_file['Livro_2'] = read_file['Livro_2'].apply(fn1)
read_file['Livro_3'] = read_file['Livro_3'].apply(fn1)
read_file['Livro_4'] = read_file['Livro_4'].apply(fn1)
read_file['Livro_5'] = read_file['Livro_5'].apply(fn1)
read_file['Casado'] = read_file['Casado'].apply(fn1)
read_file['Nobreza'] = read_file['Nobreza'].apply(fn1)
read_file['Num_Parentes_Mortos'] = read_file['Num_Parentes_Mortos'].apply(fn1)
read_file['Popular'] = read_file['Popular'].apply(fn1)

> Na célula abaixo utilizei a função _info()_ para conseguir analisar se as transformações foram aplicadas corretamente.

In [10]:
# Informações sobre o Dataframe
read_file.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1946 entries, 0 to 1945
Data columns (total 25 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Nome                           1946 non-null   object 
 1   Titulo                         938 non-null    object 
 2   Genero                         1946 non-null   int64  
 3   Cultura                        677 non-null    object 
 4   Mae                            21 non-null     object 
 5   Pai                            26 non-null     object 
 6   Herdeiro                       23 non-null     object 
 7   Familia                        1519 non-null   object 
 8   Conjuge                        276 non-null    object 
 9   Livro_1                        1946 non-null   int64  
 10  Livro_2                        1946 non-null   int64  
 11  Livro_3                        1946 non-null   int64  
 12  Livro_4                        1946 non-null   i

> Para facilitar a compreensão dos dados, realizei abaixo a soma dos dados faltantes em cada coluna.

In [11]:
# Soma dos valores nulos
read_file.isnull().sum()

Nome                                0
Titulo                           1008
Genero                              0
Cultura                          1269
Mae                              1925
Pai                              1920
Herdeiro                         1923
Familia                           427
Conjuge                          1670
Livro_1                             0
Livro_2                             0
Livro_3                             0
Livro_4                             0
Livro_5                             0
Mae_viva                         1925
Pai_vivo                         1920
Herdeiro_vivo                    1923
Conjuge_vivo                     1670
Casado                              0
Nobreza                             0
Num_Parentes_Mortos                 0
Popular                             0
Popularidade                        0
Divida                              0
Capacidade_de_pagamento_anual       0
dtype: int64

> Verifiquei se existia no dataframe algum nome de Correntistas repetido:

In [12]:
lista_nomes = pd.DataFrame(sorted(read_file['Nome'].unique()), columns = ['Nome'])
lista_nomes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1946 entries, 0 to 1945
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    1946 non-null   object
dtypes: object(1)
memory usage: 15.3+ KB


> **Leitura do arquivo com informações sobre os óbitos:**

In [13]:
# Carregando arquivo com informações sobre os óbitos
read_file2 = pd.read_csv("correntistas_obito_1.csv", sep=";")

In [14]:
read_file2 = read_file2.rename(columns={'Name': 'Nome',
                                      'Allegiances': 'Familia',
                                      'Gender': 'Genero',
                                      'Nobility': 'Nobreza'})

In [15]:
# Visualização do Dataframe
read_file2

Unnamed: 0,Nome,Familia,Genero,Nobreza
0,Aegon Frey (Jinglebell),,1,1
1,Adrack Humble,House Greyjoy,1,1
2,Aemon Targaryen (son of Maekar I),Night's Watch,1,1
3,Aenys Frey,,0,1
4,Aggar,House Greyjoy,1,0
...,...,...,...,...
176,Squint,House Greyjoy,1,0
177,Squirrel,Wildling,0,0
178,Yezzan Zo Qaggaz,,1,1
179,Torwynd the Tame,Wildling,1,0


> Inclui a coluna "Correntista-vivo", com o dado = 0 (signifcando _False_), para identificar que esses são os correntistas que já faleceram.

In [16]:
read_file2 = read_file2.assign(Correntista_vivo='0')

In [17]:
read_file2

Unnamed: 0,Nome,Familia,Genero,Nobreza,Correntista_vivo
0,Aegon Frey (Jinglebell),,1,1,0
1,Adrack Humble,House Greyjoy,1,1,0
2,Aemon Targaryen (son of Maekar I),Night's Watch,1,1,0
3,Aenys Frey,,0,1,0
4,Aggar,House Greyjoy,1,0,0
...,...,...,...,...,...
176,Squint,House Greyjoy,1,0,0
177,Squirrel,Wildling,0,0,0
178,Yezzan Zo Qaggaz,,1,1,0
179,Torwynd the Tame,Wildling,1,0,0


> Realizei a junção de ambos Dataframes _read_file_ (ativos) e _read_file2_ (óbitos), identificando as informações em comum  para que carregasse todos os dados sem gerar duplicidades.

In [19]:
correntistas = pd.merge(read_file, read_file2, how='outer')

In [21]:
# Visualização do novo Dataframe
correntistas

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Herdeiro_vivo,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo
0,Daenerys Targaryen,Andals,0,Valyrian,,,,House Targaryen,Drogo,1.0,...,,0.0,1.0,1,15.0,1.0,1.0,61115.0,1000000.0,
1,Tyrion Lannister,Hand of the King,1,,,,,House Lannnister,Tysha,1.0,...,,1.0,1.0,1,12.0,1.0,1.0,12104.0,700000.0,
2,Cersei Lannister,Light of the West,0,Westerlands,,,,House Lannister,Robert Baratheon,1.0,...,,1.0,1.0,1,9.0,1.0,1.0,54158.0,700000.0,
3,Arya Stark,Princess,0,Northmen,,,,House Starrkk,,1.0,...,,,0.0,1,8.0,1.0,1.0,9916.0,500000.0,
4,Jon Snow,Lord Commander of the Night's Watch,1,Northmen,,,,House Starrkk,,1.0,...,,,0.0,1,5.0,1.0,1.0,86084.0,500000.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2093,Squint,,1,,,,,House Greyjoy,,,...,,,,0,,,,,,0
2094,Squirrel,,0,,,,,Wildling,,,...,,,,0,,,,,,0
2095,Yezzan Zo Qaggaz,,1,,,,,,,,...,,,,1,,,,,,0
2096,Torwynd the Tame,,1,,,,,Wildling,,,...,,,,0,,,,,,0


> Ao analisar a soma dos dados faltantes na células abaixo, confirmei que precisaria incluir na coluna Correntista_vivo a informação de qual correntista está vivo:

In [22]:
correntistas.isnull().sum()

Nome                                0
Titulo                           1160
Genero                              0
Cultura                          1421
Mae                              2077
Pai                              2072
Herdeiro                         2075
Familia                           427
Conjuge                          1822
Livro_1                           152
Livro_2                           152
Livro_3                           152
Livro_4                           152
Livro_5                           152
Mae_viva                         2077
Pai_vivo                         2072
Herdeiro_vivo                    2075
Conjuge_vivo                     1822
Casado                            152
Nobreza                             0
Num_Parentes_Mortos               152
Popular                           152
Popularidade                      152
Divida                            152
Capacidade_de_pagamento_anual     152
Correntista_vivo                 1917
dtype: int64

> Inseri a informação dos correntistas que estão vivos (mudar de Nan para 1), que significa _True_.

In [23]:
correntistas['Correntista_vivo'] = correntistas['Correntista_vivo'].fillna(1)

> Ao somar novamente os dados faltantes na células abaixo, confirmei que os dados foram preenchidos corretamente e a coluna "Correntista_vivo" não possui mais nenhuma célula _NaN_.

In [25]:
correntistas.isnull().sum()

Nome                                0
Titulo                           1160
Genero                              0
Cultura                          1421
Mae                              2077
Pai                              2072
Herdeiro                         2075
Familia                           427
Conjuge                          1822
Livro_1                           152
Livro_2                           152
Livro_3                           152
Livro_4                           152
Livro_5                           152
Mae_viva                         2077
Pai_vivo                         2072
Herdeiro_vivo                    2075
Conjuge_vivo                     1822
Casado                            152
Nobreza                             0
Num_Parentes_Mortos               152
Popular                           152
Popularidade                      152
Divida                            152
Capacidade_de_pagamento_anual     152
Correntista_vivo                    0
dtype: int64

> Verifiquei se algum correntista era Mãe, Pai, Cônjuge ou Herdeito de algum outro correntista. Consegui perceber nas células abaixo que não houve nenhuma ocorrência:

In [26]:
# Verificando se algum correntista é mãe de outro correntista
correntistas[correntistas['Nome'] == correntistas['Mae']]

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Herdeiro_vivo,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo


In [27]:
# Verificando se algum correntista é pai de outro correntista
correntistas[correntistas['Nome'] == correntistas['Pai']]

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Herdeiro_vivo,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo


In [28]:
# Verificando se algum correntista é Cônjuge de outro correntista
correntistas[correntistas['Nome'] == correntistas['Conjuge']]

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Herdeiro_vivo,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo


In [29]:
# Verificando se algum correntista é Herdeiro de outro correntista
correntistas[correntistas['Nome'] == correntistas['Herdeiro']]

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Herdeiro_vivo,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo


> Atualizei o Dataframe _correntistas_ mantendo apenas os Correntistas vivos:

In [30]:
correntistas = correntistas[correntistas['Correntista_vivo'] == 1]

> Para ter certeza que os dados foram carregados corretamente, utilizei a função _nunique()_ para encontrar os valores exclusivos no eixo da coluna, principalmente da coluna "Correntista_vivo".

In [267]:
# verificando quantidades de dados únicos em cada coluna
correntistas.nunique()

Nome                             1917
Titulo                            261
Genero                              2
Cultura                            64
Mae                                17
Pai                                20
Herdeiro                           22
Familia                           349
Conjuge                           251
Livro_1                             2
Livro_2                             2
Livro_3                             2
Livro_4                             2
Livro_5                             2
Mae_viva                            2
Pai_vivo                            2
Herdeiro_vivo                       2
Conjuge_vivo                        2
Casado                              2
Nobreza                             2
Num_Parentes_Mortos                14
Popular                             2
Popularidade                      162
Divida                           1893
Capacidade_de_pagamento_anual    1886
Correntista_vivo                    1
dtype: int64

> Depois do tratamento realizado, eu ainda precisaria identificar qual era o potencial de investimento para cada Correntista. 

> Para isso, criei a coluna "Saldo_para_investimento" preenchida com o valor que o Correntista ainda teria disponível para investir (calculando o resultado da subtração:  [Capacidade_de_pagamento_anual] - [Divida]

In [31]:
correntistas['Saldo_para_investimento'] = correntistas['Capacidade_de_pagamento_anual'] - correntistas['Divida']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  correntistas['Saldo_para_investimento'] = correntistas['Capacidade_de_pagamento_anual'] - correntistas['Divida']


In [32]:
# Visualização do novo Dataframe atualizado
correntistas

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo,Saldo_para_investimento
0,Daenerys Targaryen,Andals,0,Valyrian,,,,House Targaryen,Drogo,1.0,...,0.0,1.0,1,15.0,1.0,1.000000,61115.0,1000000.0,1,938885.0
1,Tyrion Lannister,Hand of the King,1,,,,,House Lannnister,Tysha,1.0,...,1.0,1.0,1,12.0,1.0,1.000000,12104.0,700000.0,1,687896.0
2,Cersei Lannister,Light of the West,0,Westerlands,,,,House Lannister,Robert Baratheon,1.0,...,1.0,1.0,1,9.0,1.0,1.000000,54158.0,700000.0,1,645842.0
3,Arya Stark,Princess,0,Northmen,,,,House Starrkk,,1.0,...,,0.0,1,8.0,1.0,1.000000,9916.0,500000.0,1,490084.0
4,Jon Snow,Lord Commander of the Night's Watch,1,Northmen,,,,House Starrkk,,1.0,...,,0.0,1,5.0,1.0,1.000000,86084.0,500000.0,1,413916.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1941,Orton Merryweather,Longtable,1,Reachmen,,,,House Merryweather,Taena of Myr,0.0,...,1.0,1.0,1,0.0,1.0,0.374582,2660.0,73108.0,1,70448.0
1942,Matarys Targaryen,Prince,1,,,,,House Targaryen,,0.0,...,,0.0,1,0.0,0.0,0.100334,51608.0,70473.0,1,18865.0
1943,Daena Targaryen,Princess,0,Valyrian,,,,House Targaryen,Baelor I Targaryen,0.0,...,0.0,1.0,1,7.0,0.0,0.227425,32304.0,64028.0,1,31724.0
1944,Yormwell,Maester,0,,,,,,,0.0,...,,0.0,1,0.0,0.0,0.003344,74909.0,25548.0,1,-49361.0


> Para visualizar melhor o impacto dos dados faltantes, calculei o percentual de dados faltantes em cada coluna:

In [34]:
((correntistas.isnull().sum() / correntistas.shape[0]) * 100).round(2)

Nome                              0.00
Titulo                           51.38
Genero                            0.00
Cultura                          65.21
Mae                              98.90
Pai                              98.64
Herdeiro                         98.80
Familia                          22.27
Conjuge                          85.76
Livro_1                           0.00
Livro_2                           0.00
Livro_3                           0.00
Livro_4                           0.00
Livro_5                           0.00
Mae_viva                         98.90
Pai_vivo                         98.64
Herdeiro_vivo                    98.80
Conjuge_vivo                     85.76
Casado                            0.00
Nobreza                           0.00
Num_Parentes_Mortos               0.00
Popular                           0.00
Popularidade                      0.00
Divida                            0.00
Capacidade_de_pagamento_anual     0.00
Correntista_vivo         

> Criei um novo dataframe apenas com os investidores para os quais o saldo para investir acima de zero.

In [35]:
curva_abc = correntistas[correntistas['Saldo_para_investimento'] > 0]

In [36]:
# Visualização do novo Dataframe criado
curva_abc

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Conjuge_vivo,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo,Saldo_para_investimento
0,Daenerys Targaryen,Andals,0,Valyrian,,,,House Targaryen,Drogo,1.0,...,0.0,1.0,1,15.0,1.0,1.000000,61115.0,1000000.0,1,938885.0
1,Tyrion Lannister,Hand of the King,1,,,,,House Lannnister,Tysha,1.0,...,1.0,1.0,1,12.0,1.0,1.000000,12104.0,700000.0,1,687896.0
2,Cersei Lannister,Light of the West,0,Westerlands,,,,House Lannister,Robert Baratheon,1.0,...,1.0,1.0,1,9.0,1.0,1.000000,54158.0,700000.0,1,645842.0
3,Arya Stark,Princess,0,Northmen,,,,House Starrkk,,1.0,...,,0.0,1,8.0,1.0,1.000000,9916.0,500000.0,1,490084.0
4,Jon Snow,Lord Commander of the Night's Watch,1,Northmen,,,,House Starrkk,,1.0,...,,0.0,1,5.0,1.0,1.000000,86084.0,500000.0,1,413916.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1935,Jasper Arryn,Eyrie,1,,,,,House Arryn,,0.0,...,,0.0,1,1.0,0.0,0.043478,41577.0,52087.0,1,10510.0
1939,Tytos Brax,Ser,1,,,,,House Brax,,1.0,...,,0.0,1,0.0,0.0,0.043478,8741.0,28388.0,1,19647.0
1941,Orton Merryweather,Longtable,1,Reachmen,,,,House Merryweather,Taena of Myr,0.0,...,1.0,1.0,1,0.0,1.0,0.374582,2660.0,73108.0,1,70448.0
1942,Matarys Targaryen,Prince,1,,,,,House Targaryen,,0.0,...,,0.0,1,0.0,0.0,0.100334,51608.0,70473.0,1,18865.0


In [37]:
# Leitura do % de dados faltantes
((curva_abc.isnull().sum() / curva_abc.shape[0]) * 100).round(2)

Nome                              0.00
Titulo                           50.67
Genero                            0.00
Cultura                          63.73
Mae                              99.07
Pai                              98.76
Herdeiro                         99.07
Familia                          22.69
Conjuge                          85.91
Livro_1                           0.00
Livro_2                           0.00
Livro_3                           0.00
Livro_4                           0.00
Livro_5                           0.00
Mae_viva                         99.07
Pai_vivo                         98.76
Herdeiro_vivo                    99.07
Conjuge_vivo                     85.91
Casado                            0.00
Nobreza                           0.00
Num_Parentes_Mortos               0.00
Popular                           0.00
Popularidade                      0.00
Divida                            0.00
Capacidade_de_pagamento_anual     0.00
Correntista_vivo         

> No resultado acima, podemos perceber que a coluna "Família" possui 22,69% dos dados faltantes.

> Devido ao fato que o propósito da análise é demonstrar para os acionistas em quais FAMÍLIAS há a necessidade de intensificar o investimento para o próximo ano com base em seu patrimônio previsto para este ano, entendi como mais adequado eliminar os correntistas que não tivessem essa informação:

In [38]:
# Apagar as linhas com dado faltantes na coluna "Família"
curva_abc.dropna(subset=['Familia'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  curva_abc.dropna(subset=['Familia'], inplace=True)


In [39]:
# Conferindo o % de dados faltantes, principalmente se a coluna "Família" ficou zerada.
((curva_abc.isnull().sum() / curva_abc.shape[0]) * 100).round(2)

Nome                               0.00
Titulo                            45.98
Genero                             0.00
Cultura                           66.09
Mae                              100.00
Pai                              100.00
Herdeiro                         100.00
Familia                            0.00
Conjuge                           82.57
Livro_1                            0.00
Livro_2                            0.00
Livro_3                            0.00
Livro_4                            0.00
Livro_5                            0.00
Mae_viva                         100.00
Pai_vivo                         100.00
Herdeiro_vivo                    100.00
Conjuge_vivo                      82.57
Casado                             0.00
Nobreza                            0.00
Num_Parentes_Mortos                0.00
Popular                            0.00
Popularidade                       0.00
Divida                             0.00
Capacidade_de_pagamento_anual      0.00


> Para montar a curva ABC de clientes, precisamos descobrir o percentual do saldo de potencial investimento do correntista dentro da listagem.

> Esse percentual é obtido através da fórmula: Saldo_para_investimento do correntista divido pela soma total do Saldo_para_investimento.

> Inclui a coluna "total_%" para receber esse cálculo, utilizando 5 casas decimais para que o futuro arrendondamento no posterior dashboard fique adequado:

In [40]:
curva_abc['total_%'] = (curva_abc['Saldo_para_investimento'] / curva_abc['Saldo_para_investimento'].sum()).round(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  curva_abc['total_%'] = (curva_abc['Saldo_para_investimento'] / curva_abc['Saldo_para_investimento'].sum()).round(5)


In [41]:
# Visualização do novo Dataframe atualizado
curva_abc

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Casado,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo,Saldo_para_investimento,total_%
0,Daenerys Targaryen,Andals,0,Valyrian,,,,House Targaryen,Drogo,1.0,...,1.0,1,15.0,1.0,1.000000,61115.0,1000000.0,1,938885.0,0.03895
1,Tyrion Lannister,Hand of the King,1,,,,,House Lannnister,Tysha,1.0,...,1.0,1,12.0,1.0,1.000000,12104.0,700000.0,1,687896.0,0.02853
2,Cersei Lannister,Light of the West,0,Westerlands,,,,House Lannister,Robert Baratheon,1.0,...,1.0,1,9.0,1.0,1.000000,54158.0,700000.0,1,645842.0,0.02679
3,Arya Stark,Princess,0,Northmen,,,,House Starrkk,,1.0,...,0.0,1,8.0,1.0,1.000000,9916.0,500000.0,1,490084.0,0.02033
4,Jon Snow,Lord Commander of the Night's Watch,1,Northmen,,,,House Starrkk,,1.0,...,0.0,1,5.0,1.0,1.000000,86084.0,500000.0,1,413916.0,0.01717
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1935,Jasper Arryn,Eyrie,1,,,,,House Arryn,,0.0,...,0.0,1,1.0,0.0,0.043478,41577.0,52087.0,1,10510.0,0.00044
1939,Tytos Brax,Ser,1,,,,,House Brax,,1.0,...,0.0,1,0.0,0.0,0.043478,8741.0,28388.0,1,19647.0,0.00081
1941,Orton Merryweather,Longtable,1,Reachmen,,,,House Merryweather,Taena of Myr,0.0,...,1.0,1,0.0,1.0,0.374582,2660.0,73108.0,1,70448.0,0.00292
1942,Matarys Targaryen,Prince,1,,,,,House Targaryen,,0.0,...,0.0,1,0.0,0.0,0.100334,51608.0,70473.0,1,18865.0,0.00078


> Para conseguir realizar a classificação da curva ABC solicitada, o primeiro passo foi criar um novo Dataframe que recebesse a soma do total do saldo disponível para investimento, agrupado por família, organizado pelo Saldo_para_investimento, em ordem de descrescente:

In [42]:
curva_abc_agrp = pd.DataFrame(curva_abc.groupby(['Familia'])['Saldo_para_investimento'].agg('sum'))
curva_abc_agrp.sort_values(by = 'Saldo_para_investimento', ascending = False, inplace = True)
curva_abc_agrp = curva_abc_agrp.reset_index()
curva_abc_agrp

Unnamed: 0,Familia,Saldo_para_investimento
0,House Targaryen,1931435.0
1,House Lannister,1522647.0
2,House Frey,1455924.0
3,Night's Watch,1261657.0
4,House Starrkk,904000.0
...,...,...
250,House Hewett,1067.0
251,Brotherhood without Banners,1012.0
252,House Chester,754.0
253,House Lorch,721.0


> O segundo passo foi atualizar o Dataframe inserindo as colunas "total_%" e "cumulativo_%".

> A coluna "total_%" recebe o percentual do saldo de potencial investimento da família dentro da listagem, seguindo a ordem descrescente. Esse percentual é obtido através da fórmula: Saldo_para_investimento da Família divido pela soma total do Saldo_para_investimento.

> A coluna "cumulativo_%" recebe a soma acumulada da coluna "total_%".

In [43]:
curva_abc_agrp['total_%'] = curva_abc_agrp['Saldo_para_investimento'] / curva_abc_agrp['Saldo_para_investimento'].sum()*100
curva_abc_agrp['cumulativo_%'] = curva_abc_agrp['Saldo_para_investimento'].cumsum() / curva_abc_agrp['Saldo_para_investimento'].sum()*100

In [45]:
# Visualização do novo Dataframe atualizado
curva_abc_agrp

Unnamed: 0,Familia,Saldo_para_investimento,total_%,cumulativo_%
0,House Targaryen,1931435.0,8.011832,8.011832
1,House Lannister,1522647.0,6.316129,14.327961
2,House Frey,1455924.0,6.039353,20.367314
3,Night's Watch,1261657.0,5.233510,25.600824
4,House Starrkk,904000.0,3.749904,29.350728
...,...,...,...,...
250,House Hewett,1067.0,0.004426,99.987195
251,Brotherhood without Banners,1012.0,0.004198,99.991393
252,House Chester,754.0,0.003128,99.994520
253,House Lorch,721.0,0.002991,99.997511


> Para classificar os correntistas seguindo os critérios da curva ABC, eles são ranqueados de acordo com o valor do "Saldo_para_investimento". No topo da lista (A) estão os clientes com o maior valor disponível (e consequentemente, maior potencial de investimento).

> Cada correntista é classificado em uma das curvas de acordo com a participação acumulada até a sua posição no ranking. A regra utilizada na classificação foi a repassada como diretriszes do Banco:

> - Curva A: clientes onde o faturamento acumulado ficou de 0% a 50%.
> - Curva B: clientes onde o faturamento acumulado ficou entre 50% a 80% .
> - Curva C: clientes restantes.

In [46]:
# Código para estabelecer os critérios de classificação e inserção da coluna "Classificacao" com os dados resultantes.
diretrizes = [
    (curva_abc_agrp['cumulativo_%'] <= 50.0) ,
    (curva_abc_agrp['cumulativo_%'] > 50.0) & (curva_abc_agrp['cumulativo_%'] < 80.0),
    (curva_abc_agrp['cumulativo_%'] >= 80.0)]
classificacao = ['A', 'B', 'C']
curva_abc_agrp['Classificacao'] = np.select(diretrizes, classificacao, default='Not Specified')

In [47]:
# Visualização do novo Dataframe atualizado
curva_abc_agrp

Unnamed: 0,Familia,Saldo_para_investimento,total_%,cumulativo_%,Classificacao
0,House Targaryen,1931435.0,8.011832,8.011832,A
1,House Lannister,1522647.0,6.316129,14.327961,A
2,House Frey,1455924.0,6.039353,20.367314,A
3,Night's Watch,1261657.0,5.233510,25.600824,A
4,House Starrkk,904000.0,3.749904,29.350728,A
...,...,...,...,...,...
250,House Hewett,1067.0,0.004426,99.987195,C
251,Brotherhood without Banners,1012.0,0.004198,99.991393,C
252,House Chester,754.0,0.003128,99.994520,C
253,House Lorch,721.0,0.002991,99.997511,C


> O intuito a partir disso é incluir a classificação da Família na listagem Final, que será utilizada para criação do Dashboard.

> Para isso, primeiramente precisei criar um dataframe que receba os dados que precisarei: Família e Classificação.

In [48]:
curva_abc_agrp1 = curva_abc_agrp[['Familia','Classificacao']]

In [49]:
# Visualização do novo Dataframe criado
curva_abc_agrp1

Unnamed: 0,Familia,Classificacao
0,House Targaryen,A
1,House Lannister,A
2,House Frey,A
3,Night's Watch,A
4,House Starrkk,A
...,...,...
250,House Hewett,C
251,Brotherhood without Banners,C
252,House Chester,C
253,House Lorch,C


> Realizei a junção de ambos Dataframes curva_abc (Correntistas atualizados) e curva_abc_agrp1 (Família Classificada), identificando as informações em comum para que carregasse o dado de Classificação sem gerar duplicidades.

In [50]:
curva_abc_final = pd.merge(left=curva_abc, right=curva_abc_agrp1, on='Familia', how='inner')

In [52]:
# Visualização do Dataframe gerado
curva_abc_final

Unnamed: 0,Nome,Titulo,Genero,Cultura,Mae,Pai,Herdeiro,Familia,Conjuge,Livro_1,...,Nobreza,Num_Parentes_Mortos,Popular,Popularidade,Divida,Capacidade_de_pagamento_anual,Correntista_vivo,Saldo_para_investimento,total_%,Classificacao
0,Daenerys Targaryen,Andals,0,Valyrian,,,,House Targaryen,Drogo,1.0,...,1,15.0,1.0,1.000000,61115.0,1000000.0,1,938885.0,0.03895,A
1,Brynden Rivers,Ser,1,Valyrian,,,,House Targaryen,,0.0,...,1,4.0,1.0,0.605351,36111.0,76108.0,1,39997.0,0.00166,A
2,Rhaenys Targaryen,Queen,0,Valyrian,,,,House Targaryen,Aegon I Targaryen,1.0,...,1,1.0,0.0,0.277592,1985.0,35874.0,1,33889.0,0.00141,A
3,Mushroom,,1,,,,,House Targaryen,,0.0,...,0,0.0,0.0,0.046823,64548.0,72090.0,1,7542.0,0.00031,A
4,Illyrio Mopatis,Magister,1,Pentoshi,,,,House Targaryen,Cousin to the Prince of Pentos,1.0,...,1,0.0,1.0,0.394649,16483.0,42092.0,1,25609.0,0.00106,A
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
741,Ygritte,,1,Wildling,,,,Mance Rayder,,0.0,...,0,0.0,0.0,0.244147,64593.0,76666.0,1,12073.0,0.00050,C
742,Qarl Shepherd,,0,Ironborn,,,,House Shepherd,,0.0,...,0,0.0,0.0,0.006689,40113.0,47430.0,1,7317.0,0.00030,C
743,Cedrik Storm,,0,,,,,House Buckler,,0.0,...,0,0.0,0.0,0.003344,3211.0,37819.0,1,34608.0,0.00144,C
744,Triston of Tally Hill,Ser,0,,,,,House Sunglass,,0.0,...,1,0.0,0.0,0.030100,53542.0,79671.0,1,26129.0,0.00108,C


> Atualizei o Dataframe Final apenas com as informações inerentes a construção do Dashboard e na sequência adequada:

In [53]:
curva_abc_final = curva_abc_final.reindex(columns=['Classificacao','Familia','Saldo_para_investimento','total_%','Nome'])

In [54]:
# Visualização do Dataframe Final
curva_abc_final

Unnamed: 0,Classificacao,Familia,Saldo_para_investimento,total_%,Nome
0,A,House Targaryen,938885.0,0.03895,Daenerys Targaryen
1,A,House Targaryen,39997.0,0.00166,Brynden Rivers
2,A,House Targaryen,33889.0,0.00141,Rhaenys Targaryen
3,A,House Targaryen,7542.0,0.00031,Mushroom
4,A,House Targaryen,25609.0,0.00106,Illyrio Mopatis
...,...,...,...,...,...
741,C,Mance Rayder,12073.0,0.00050,Ygritte
742,C,House Shepherd,7317.0,0.00030,Qarl Shepherd
743,C,House Buckler,34608.0,0.00144,Cedrik Storm
744,C,House Sunglass,26129.0,0.00108,Triston of Tally Hill


In [55]:
# Conferência do % de dados faltantes
((curva_abc_final.isnull().sum() / curva_abc_final.shape[0]) * 100).round(2)

Classificacao              0.0
Familia                    0.0
Saldo_para_investimento    0.0
total_%                    0.0
Nome                       0.0
dtype: float64

In [293]:
# Gerar o arquivo csv utilizado para criação do Dashboard
curva_abc_final.to_csv("curva_abc_final.csv", sep=",", index=False)