In [1]:
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
from datetime import date
#from IPython.display import display

In [2]:
sns.set_style("dark")

pd.set_option('display.float_format', lambda x: '%.3f' % x)

pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 100)
pd.set_option('display.min_rows', 100)
pd.set_option('display.expand_frame_repr', True)

# Educação de nível superior no Brasil - Contratos FIES

### Integrantes do Grupo
- Marcos Vinicius Araujo
- Breno Marot
- Gabriel Banaggia


## Primeiros passos 

Este dataset se refere a participantes do programa de Financiamtnso de
Instituições de Ensino Superior (FIES) no Brasil. Estão disponíveis tanto dados
a respeito dos contratos celebrados entre os estudantes e o Governo Federal, 
como suas informações demográficas.

In [3]:
# Lendo o dataset

df = pd.read_csv('.\\data\\education.csv', sep=';', index_col='id_masked')
df.head()

Unnamed: 0_level_0,safra_entrada,dt_nascimento,vl_renda_percapta,vl_renda_familiar_bruta_mensal,nu_percentual_solicitado,sexo,ds_raca_cor,ds_estado_civil,sg_uf_curso,no_municipio_curso,no_curso,co_curso,ultimo_aditamento,tipo_ultimo_aditamento,qtd_cursada_total,qt_semestre_financiamento,semestre_encerramento,banco,st_fase_contrato,vl_total_liberado,vl_saldo_devedor,nu_dias_atraso,vl_saldo_devedor_atrasado,vl_nota_enem_considerada
id_masked,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
654,20135,1983-11-10,35600,106800,10000,F,BRANCO,DIVORCIADO,MS,DOURADOS,ADMINISTRACAO,54656.0,20140.0,Encerramento,2.0,2.0,12014.0,,,,,,,
968,20140,1983-07-01,191685,191685,10000,F,PARDO,CASADO,MA,SAO LUIS,ENFERMAGEM,96713.0,201500.0,Encerramento,2.0,2.0,22015.0,,,,,,,
1067,20135,1989-12-07,270000,270000,10000,F,NEGRO,SOLTEIRO,RO,CACOAL,DIREITO,49820.0,201700.0,Renovacao,10.0,10.0,,BB,A,5790267.0,5572623.0,0.0,0.0,
2214,20125,1979-10-08,27299,81898,10000,F,PARDO,SOLTEIRO,SE,ARACAJU,ENFERMAGEM,118882.0,201600.0,Renovacao,10.0,10.0,,CX,A,5615908.0,6423679.0,1025.0,1417086.0,
2298,20130,1989-04-09,120000,120000,10000,F,PARDO,CASADO,RJ,CABO FRIO,FISIOTERAPIA,82838.0,20150.0,Encerramento,3.0,3.0,12015.0,,,,,,,


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2864538 entries, 654 to 2864538
Data columns (total 21 columns):
 #   Column                     Dtype  
---  ------                     -----  
 0   safra_entrada              object 
 1   dt_nascimento              object 
 2   renda_per_capita           object 
 3   renda_familiar             object 
 4   percentual_solicitado      object 
 5   sexo                       object 
 6   cor_raca                   object 
 7   estado_civil               object 
 8   uf_curso                   object 
 9   curso                      object 
 10  tipo_ultimo_aditamento     object 
 11  qtd_semestres_cursados     float64
 12  qtd_semestres_financiados  float64
 13  semestre_encerramento      float64
 14  banco                      object 
 15  st_fase_contrato           object 
 16  vl_total_liberado          object 
 17  vl_saldo_devedor           object 
 18  num_dias_atraso            float64
 19  vl_saldo_devedor_atrasado  object 
 20  vl_no

In [5]:
# Removendo colunas menos informativas
df.drop(
    ['co_curso',
    'ultimo_aditamento',
    'no_municipio_curso',], 
    axis=1, 
    inplace=True
)

In [12]:
# Renomeando colunas para ter nomes mais diretos
df.rename(
    columns={
        'vl_renda_percapta': 'renda_per_capita',
        'vl_renda_familiar_bruta_mensal': 'renda_familiar',
        'nu_percentual_solicitado': 'percentual_solicitado',
        'ds_raca_cor': 'cor_raca',
        'ds_estado_civil': 'estado_civil',
        'sg_uf_curso': 'uf_curso',
        'no_curso': 'curso',
        'qtd_cursada_total': 'qtd_semestres_cursados',
        'qt_semestre_financiamento': 'qtd_semestres_financiados',
        'nu_dias_atraso': 'qtd_dias_atraso'        
    },
    inplace=True
)

In [None]:
%timeit df

In [8]:
df.describe()

Unnamed: 0,qtd_cursada_total,qt_semestre_financiamento,semestre_encerramento,nu_dias_atraso,vl_nota_enem_considerada
count,2864537.0,2864532.0,207621.0,2749362.0,925210.0
mean,6.343,8.191,16528.037,617.194,536.258
std,3.575,2.254,4976.018,863.347,295.535
min,1.0,0.0,12010.0,0.0,0.0
25%,3.0,7.0,12015.0,0.0,497.1
50%,7.0,8.0,12018.0,112.0,533.9
75%,10.0,10.0,22014.0,1112.0,573.46
max,22.0,26.0,22021.0,7352.0,32901.0


## Performance do dataset

Um passo importante para focar é na performance do dataset e a alteração para tipagem correta. Com eles, podemos diminuir o tempo de execução das operações.

[Documentação do pandas sobre performance](https://pandas.pydata.org/docs/user_guide/enhancingperf.html)

In [None]:
# A execução desta célula ocasiona um erro que será tratado logo a seguir.
# Ela foi mantida em sua forma original para se evidenciar o processo
# de tratamento que os dados receberam.

# Operações para aprimoramento da performance
# df['dt_nascimento'] = pd.to_datetime(df['dt_nascimento'], yearfirst=True, format="%Y-%m-%d")
# df['renda_per_capita'] = df['renda_per_capita'].apply(lambda x : float(str(x).replace(',', '.')))
# df['renda_familiar'] = df['renda_familiar'].apply(lambda x : float(str(x).replace(',', '.')))
# df['percentual_solicitado'] = df['percentual_solicitado'].apply(lambda x : float(str(x).replace(',', '.')))
# df['vl_total_liberado'] = df['vl_total_liberado'].apply(lambda x : float(str(x).replace(',', '.')))
# df['vl_saldo_devedor'] = df['vl_saldo_devedor'].apply(lambda x : float(str(x).replace(',', '.')))
# df['qtd_dias_atraso'] = df['qtd_dias_atraso'].fillna(0).astype(int)
# df['vl_saldo_devedor_atrasado'] = df['vl_saldo_devedor_atrasado'].apply(lambda x : float(str(x).replace(',', '.')))
# df['qtd_semestres_cursados'] = df['qtd_semestres_cursados'].fillna(0).astype(int)
# df['qtd_semestres_financiados'] = df['qtd_semestres_financiados'].fillna(0).astype(int)
# df['semestre_encerramento'] = df['semestre_encerramento'].astype(str)

In [None]:
# Investigação do erro ocasionado pela célula anterior.

# A partir da lista de índices, acessa o que está na posição com datetime
# problemática indicada e retorna seu valor.
df.loc[df.index[2516155], 'dt_nascimento']

In [None]:
# Investigando anos de nascimento para realizar correções possíveis
df.dt_nascimento.apply(lambda x: str(x)[:4]).value_counts()

In [None]:
# Corrige a linha problemática
df.loc[df.index[2516155], 'dt_nascimento'] = df.loc[df.index[2516155], 'dt_nascimento'].replace("00", "19")
df.loc[df.index[2516155], 'dt_nascimento']

In [None]:
# Performance
df['dt_nascimento'] = pd.to_datetime(df['dt_nascimento'], yearfirst=True, format="%Y-%m-%d")
df['renda_per_capita'] = df['renda_per_capita'].apply(lambda x : float(str(x).replace(',', '.')))
df['renda_familiar'] = df['renda_familiar'].apply(lambda x : float(str(x).replace(',', '.')))
df['percentual_solicitado'] = df['percentual_solicitado'].apply(lambda x : float(str(x).replace(',', '.')))
df['vl_total_liberado'] = df['vl_total_liberado'].apply(lambda x : float(str(x).replace(',', '.')))
df['vl_saldo_devedor'] = df['vl_saldo_devedor'].apply(lambda x : float(str(x).replace(',', '.')))
df['qtd_dias_atraso'] = df['qtd_dias_atraso'].fillna(0).astype(int)
df['vl_saldo_devedor_atrasado'] = df['vl_saldo_devedor_atrasado'].apply(lambda x : float(str(x).replace(',', '.')))
df['qtd_semestres_cursados'] = df['qtd_semestres_cursados'].fillna(0).astype(int)
df['qtd_semestres_financiados'] = df['qtd_semestres_financiados'].fillna(0).astype(int)
df['semestre_encerramento'] = df['semestre_encerramento'].astype(str)

In [None]:
df.info()

In [None]:
%timeit df

In [None]:
# Conferindo percentual de linhas sem dados inválidos
df['banco'].count() / df['banco'].size

In [None]:
df.info()

# Análise Exploratória

## Analisando cursos

In [None]:
df.corr(numeric_only=True)

In [None]:
freq_curso = df['curso'].value_counts(normalize=True)

freq_curso[25::-1].plot(kind='barh', color='red', 
                        title='25 cursos mais frequentes')

In [None]:
f'Percentual de pessoas nos 25 cursos mais frequentes:{freq_curso[:50].sum() / freq_curso.sum() * 100 : .2f}%'

## Safra de entrada

In [None]:
df['safra_entrada'].unique()

In [None]:
df['safra_entrada'] = df['safra_entrada'].apply(lambda x : x.replace('S', '.'))

df['safra_entrada'].unique()

## Data de Nascimento

In [None]:
def calculate_age(born):
    today = date.today()
    return today.year - born.year - ((today.month, today.day) < (born.month, born.day))

In [None]:
df['idade'] = df['dt_nascimento'].apply(calculate_age)

In [None]:
sns.histplot(
    data=df['idade'],
    stat='count',
    bins=20
)

## Renda

In [None]:
df[['renda_per_capita', 'renda_familiar' ]].describe()

In [None]:
(df['renda_familiar'] \
    .loc[df['renda_familiar'].isna()] \
    .count()
,
 
df['renda_per_capita'] \
    .loc[df['renda_per_capita'].isna()] \
    .count())

In [None]:
df_rendas = df[['renda_per_capita', 'renda_familiar' ]]

sns.boxplot(
    data = df_rendas,
    showfliers=False
)

## Nota do ENEM

In [None]:
qto_null = df['vl_nota_enem_considerada'].isnull().sum()
percent_null = qto_null / df['vl_nota_enem_considerada'].size * 100

plt.pie(
    [percent_null, 100 - percent_null],
    labels=['Valores Nulos', 'Valores Não Nulos'],
    colors=['red', 'green']
)
plt.show()

In [None]:
df_enem_existe = df.loc[~df['vl_nota_enem_considerada'].isnull()]
df_enem_existe.head()

In [None]:
df_enem_existe['vl_nota_enem_considerada'].corr(df_enem_existe['renda_per_capita'])

In [None]:
corr_total = df.corr(numeric_only=True)
cmap = sns.diverging_palette(220, 10)

sns.heatmap(corr_total, 
            annot=True, 
            cmap=cmap, 
            vmax=1,
            vmin=-1, 
            center=0, 
            square=True,
            linewidth=.5,
            cbar_kws={"shrink":.5},
           )


In [None]:
corr_apenas_enem = df_enem_existe.corr(numeric_only=True)
cmap = sns.diverging_palette(220, 10)

sns.heatmap(corr_apenas_enem, 
            annot=True, 
            cmap=cmap, 
            vmax=1,
            vmin=-1, 
            center=0, 
            square=True,
            linewidth=.5,
            cbar_kws={"shrink":.5},
           )

## Percentual Solicitado

In [None]:
df['percentual_solicitado'].value_counts().sort_index(ascending=False)

In [None]:
sns.histplot(
    data=df['percentual_solicitado'],
    stat='count',
    bins=20
)

In [None]:
cat_percent = pd.cut(df['percentual_solicitado'], 
    bins=[df['percentual_solicitado'].min(), 60, 80, 100, 1000], 
    labels=['< 60%', '< 80%', '< 100%', '= 100%'],
    right=False    
)
cat_percent

In [None]:
def without_hue(plot, feature):
    total = len(feature)
    for p in ax.patches:
        percentage = '{:.1f}%'.format(100 * p.get_height()/total)
        x = p.get_x() + p.get_width() / 2 - 0.05
        y = p.get_y() + p.get_height()
        ax.annotate(percentage, (x, y), size = 12)
    plt.show()

In [None]:
ax = sns.histplot(
    data=cat_percent,

)
without_hue(ax, cat_percent)


## Sexo

In [None]:
ax = sns.histplot(
    data=df['sexo'],
    stat='count'
)

without_hue(ax, df['sexo'])

## Cor/Raça

No Censo, O IBGE usa somente 5 categorias fechadas para a pergunta sobre Cor/Raça.

In [None]:
ax = sns.histplot(
    data=df['cor_raca'],
    stat='count'
)

without_hue(ax, df['cor_raca'])

## Estado Civil

In [None]:
ax = sns.histplot(
    data=df['estado_civil'],
    stat='count'
)

without_hue(ax, df['estado_civil'])

## Banco do Financiamento

In [None]:
ax = sns.histplot(
    data=df['banco'],
    stat='count'
)

without_hue(ax, df['banco'])

## Valor total liberado

In [None]:
# Quantidade de linhas sem informação sobre 'Valor total liberado'
df['vl_total_liberado'].isna().sum()

In [None]:
# Percentual de linhas sem informação sobre 'Valor total liberado'
perc = df['vl_total_liberado'].isna().sum() / len(df.index)
print(f'{(perc * 100):.1f}%')

### (esses valores parecem muito estranhos...)

In [None]:
sns.histplot(
    data=df['vl_total_liberado'].dropna(),
    stat='count',
    bins=20
)

In [None]:
cat_percent = pd.cut(df['vl_total_liberado'].dropna(), 
    bins=5, 
    right=False    
)
cat_percent

## Número de Dias em Atraso

In [None]:
# Quantidade de linhas sem informação sobre 'Número de Dias em Atraso'
df['qtd_dias_atraso'].isna().sum()

In [None]:
sns.histplot(
    data=df['qtd_dias_atraso'],
    stat='count',
    bins=20
)

In [None]:
cat_percent = pd.cut(df['qtd_dias_atraso'], 
    bins=[df['qtd_dias_atraso'].min(), 1, 1000, 2000, 8000], 
    labels=['< 1', '< 1000', '< 2000', '>= 2000'],
    right=False    
)
cat_percent

In [None]:
ax = sns.histplot(
    data=cat_percent,

)
without_hue(ax, cat_percent)

Falta fazer isso:

6. vl_saldo_devedor
7. vl_saldo_devedor_atrasado

# Removendo outliers

1. Remover idades estranhas

In [None]:
df['idade'].describe()

In [None]:
df.loc[df['idade'].idxmax()]

In [None]:
df = df.loc[df['idade'] <= 80]

df['idade'].describe()