# Projeto - Classificação - Inclusão Financeira na África


## Considerações iniciais

A inclusão financeira continua a ser um dos principais obstáculos ao desenvolvimento econômico e humano na África. Por exemplo, no Quênia, Ruanda, Tanzânia e Uganda, apenas 9,1 milhões de adultos (14% dos adultos), têm acesso ou usam uma conta bancária comercial.

Em 2008, o nível de inclusão financeira na África Subsaariana era de pouco mais de 23%. Em 2018, esse número quase dobrou. No Togo, Mazamesso Assih, ministro de finanças, coordena uma estratégia de inclusão financeira com bancos parceiros. Ele afirma que garantir acesso a serviços financeiros básicos para a população, é fundamental para impulsionar a economia Africana.

Em 2022, conforme destacado no último relatório do Banco Central da África Ocidental, atingiu-se uma das mais altas taxas de inclusão financeira da região, próxima de 82%. Uma parcela significativa desse aumento veio do aumento dos serviços financeiros digitais.

Assih afirma também, que existem três razões principais pelas quais as nações africanas devem apostar na inclusão financeira:

**1)** Tornar os serviços financeiros mais acessíveis promove o empoderamento das pessoas mais vulneráveis, especialmente as mulheres.

**2)** Combater redes criminosas, passar de uma economia exclusivamente monetária para uma infraestrutura financeira digital torna mais fácil para as autoridades rastrear transações e lidar com contrabandistas e traficantes.

**3)** impulsionará a conectividade dos setores público e privado para um crescimento sustentável, apoiando as start-ups africanas.

## O Problema de Negócio

O objetivo desta competição é criar um modelo de aprendizado de máquina para prever quais indivíduos vão ou não utilizar uma conta bancária. Os modelos e soluções desenvolvidos devem fornecer uma indicação do estado da inclusão financeira no Quênia, Ruanda, Tanzânia e Uganda.

## Descrição do dados

Os dados necessários podem ser encontrados no [repositório da atividade](https://www.kaggle.com/c/inclusao-financeira-na-africa). No arquivo *train.csv* você encontrará:


- **country**: Pais de Origem.
- **year**: Ano da Inclusão
- **uniqueid**: Id do Usuário.
- **bank_account**: Possui ou Não a Conta no Banco.
- **location_type**: Tipo de Localidade (Rural...)
- **cellphone_access**: Possui ou Não Celular.
- **household_size**: Tamanho da Casa.
- **age_of_respondent**: Idade do Usuário.
- **gender_of_respondent**: Gênero do Usuário.
- **relationship_with_head**: Status com o Dono da Conta.
- **marital_status**: Situação Civil.
- **education_level**: Nível de Educação.
- **job_type**: - Tipo de Trabalho.

# Etapas do Projeto

1. Análise exploratória 
2. Preparação e limpeza dos dados
3. Seleção de atributos
4. Construção do modelo
5. Avaliação do modelo
6. Otimização do modelo

# Desenvolvimento do Projeto

## Imports 

In [17]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import mean_squared_error as MSE
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

## Importando dados

In [28]:
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')

## Análise exploratória

In [19]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11762 entries, 0 to 11761
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   country                 11762 non-null  object
 1   year                    11762 non-null  int64 
 2   uniqueid                11762 non-null  object
 3   location_type           11762 non-null  object
 4   cellphone_access        11762 non-null  object
 5   household_size          11762 non-null  int64 
 6   age_of_respondent       11762 non-null  int64 
 7   gender_of_respondent    11762 non-null  object
 8   relationship_with_head  11762 non-null  object
 9   marital_status          11762 non-null  object
 10  education_level         11762 non-null  object
 11  job_type                11762 non-null  object
 12  uid                     11762 non-null  object
 13  bank_account            11762 non-null  object
dtypes: int64(3), object(11)
memory usage: 1.3+ MB


In [30]:
df_train.shape

(11762, 14)

In [26]:
df_train.head(50)

Unnamed: 0,country,year,uniqueid,location_type,cellphone_access,household_size,age_of_respondent,gender_of_respondent,relationship_with_head,marital_status,education_level,job_type,uid,bank_account
0,Rwanda,2016,uniqueid_4858,Rural,Yes,6,45,Male,Head of Household,Divorced/Seperated,Primary education,Farming and Fishing,Rwanda_uniqueid_4858,No
1,Tanzania,2017,uniqueid_3015,Urban,No,4,33,Female,Head of Household,Single/Never Married,Primary education,Self employed,Tanzania_uniqueid_3015,No
2,Rwanda,2016,uniqueid_103,Rural,Yes,7,43,Male,Head of Household,Married/Living together,Secondary education,Farming and Fishing,Rwanda_uniqueid_103,No
3,Rwanda,2016,uniqueid_4582,Rural,No,6,35,Female,Head of Household,Married/Living together,Primary education,Farming and Fishing,Rwanda_uniqueid_4582,No
4,Tanzania,2017,uniqueid_2854,Urban,Yes,2,30,Male,Head of Household,Single/Never Married,Primary education,Informally employed,Tanzania_uniqueid_2854,No
5,Kenya,2018,uniqueid_5704,Urban,Yes,2,57,Female,Spouse,Married/Living together,Vocational/Specialised training,Self employed,Kenya_uniqueid_5704,No
6,Tanzania,2017,uniqueid_4831,Urban,Yes,1,25,Female,Head of Household,Divorced/Seperated,Tertiary education,Informally employed,Tanzania_uniqueid_4831,No
7,Tanzania,2017,uniqueid_3231,Rural,Yes,3,41,Female,Head of Household,Married/Living together,Primary education,Informally employed,Tanzania_uniqueid_3231,No
8,Rwanda,2016,uniqueid_390,Rural,Yes,5,33,Male,Head of Household,Married/Living together,Primary education,Self employed,Rwanda_uniqueid_390,No
9,Tanzania,2017,uniqueid_4088,Urban,Yes,2,35,Female,Spouse,Single/Never Married,Primary education,Self employed,Tanzania_uniqueid_4088,No


In [22]:
df_train.describe()

Unnamed: 0,year,household_size,age_of_respondent
count,11762.0,11762.0,11762.0
mean,2016.983336,3.793913,38.602364
std,0.848669,2.225423,16.334624
min,2016.0,1.0,16.0
25%,2016.0,2.0,26.0
50%,2017.0,3.0,35.0
75%,2018.0,5.0,48.0
max,2018.0,21.0,100.0
