#### LinkedIn: [Ailton Amorim de Menezes](https://www.linkedin.com/in/ailton-amorim-de-menezes-1228a0282/)
#### Kaggle: [Ailton Amorim de Menezes](https://www.kaggle.com/aiamenez/)
#### GitHub: [Ailton Amorim de Menezes](https://github.com/AiltonMenezes1980/)


Este notebook tem como objetivo combinar vários conjuntos de dados do Prouni de diferentes anos em um único conjunto de dados consolidado. Optei por essa abordagem por diversos motivos:

1. Análise abrangente:
   Ao combinar os conjuntos de dados do Prouni, posso realizar análises que consideram um período mais longo, abrangendo vários anos do programa. Isso permite identificar tendências, padrões e mudanças ao longo do tempo, fornecendo insights mais completos sobre o desempenho dos alunos, distribuição de bolsas e outros aspectos relacionados ao Prouni.

2. Eficiência de processamento:
   Ao tratar os dados do Prouni em conjunto, posso otimizar o uso dos recursos computacionais disponíveis. Utilizando técnicas adequadas para lidar com grandes volumes de dados, como amostragem ou processamento em lote, posso garantir a eficiência de processamento e análise.

3. Comparação direta:
   Com os dados consolidados do Prouni, é mais fácil realizar comparações diretas entre diferentes anos do programa. Posso identificar diferenças e semelhanças nos resultados, acompanhar a evolução de indicadores ao longo do tempo e explorar variações regionais. Essa visão comparativa pode fornecer insights valiosos para pesquisas e tomada de decisões no âmbito do programa.

4. Redução de complexidade:
   Trabalhar com um único conjunto de dados consolidado simplifica a análise do Prouni. Não é necessário alternar entre diferentes conjuntos de dados ou considerar particularidades individuais de cada ano separadamente. Isso economiza tempo e esforço na preparação dos dados e na realização de análises subsequentes.

Embora a abordagem de tratar os dados separadamente possa ter suas vantagens, a análise consolidada dos conjuntos de dados do Prouni permite uma visão mais abrangente e um entendimento mais completo do programa ao longo dos anos.

In [1]:
from platform import python_version
print(f"Versão do Python Usada Nesta Análise: {python_version()}")

Versão do Python Usada Nesta Análise: 3.11.4


In [2]:
import pandas as pd
import sqlite3

In [3]:
%reload_ext watermark
%watermark -a "Ailton Amorim de Menezes" --iversions

Author: Ailton Amorim de Menezes

pandas : 2.0.3
sqlite3: 2.6.0



In [4]:
df_2018 = pd.read_csv("dataset/pda-prouni-2018.csv", encoding = "utf-8", sep = ";")

In [5]:
df_2018.head()

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
0,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Letras - Espanhol,Noturno,***57897489**,F,Parda,15/07/1980,N,Nordeste,PE,RECIFE
1,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Letras - Português E Espanhol,Noturno,***76246461**,M,Branca,06/09/2000,N,Nordeste,PE,PAULISTA
2,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Psicologia,Vespertino,***39273455**,F,Parda,04/11/1998,N,Nordeste,PE,RECIFE
3,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Serviço Social,Noturno,***19076433**,F,Parda,29/09/1999,N,Nordeste,PE,RECIFE
4,2018,13,UNIVERSIDADE DE CAXIAS DO SUL,BOLSA INTEGRAL,EAD,Administração,Curso a distância,***11417080**,F,Branca,30/04/2000,N,Sul,RS,SAO FRANCISCO DE PAULA


In [6]:
colunas_apagar = ["CODIGO_EMEC_IES_BOLSA", "CPF_BENEFICIARIO_BOLSA"]

df_2018.drop(columns = colunas_apagar, inplace = True)

In [7]:
df_2018.head()

Unnamed: 0,ANO_CONCESSAO_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
0,2018,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Letras - Espanhol,Noturno,F,Parda,15/07/1980,N,Nordeste,PE,RECIFE
1,2018,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Letras - Português E Espanhol,Noturno,M,Branca,06/09/2000,N,Nordeste,PE,PAULISTA
2,2018,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Psicologia,Vespertino,F,Parda,04/11/1998,N,Nordeste,PE,RECIFE
3,2018,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Serviço Social,Noturno,F,Parda,29/09/1999,N,Nordeste,PE,RECIFE
4,2018,UNIVERSIDADE DE CAXIAS DO SUL,BOLSA INTEGRAL,EAD,Administração,Curso a distância,F,Branca,30/04/2000,N,Sul,RS,SAO FRANCISCO DE PAULA


In [8]:
df_2018.shape

(241032, 13)

In [9]:
df_2019 = pd.read_csv("dataset/pda-prouni-2019.csv", encoding = "utf-8", sep = ";")

In [10]:
df_2019.head()

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
0,2019.0,10.0,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EAD,Administração,Curso a distância,***03183970**,M,Branca,19/08/1993,N,Sul,PR,LONDRINA
1,2019.0,10.0,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EAD,Administração,Curso a distância,***92848904**,F,Branca,03/11/1999,N,Sul,PR,SAO JOSE DOS PINHAIS
2,2019.0,10.0,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EAD,Análise E Desenvolvimento De Sistemas,Curso a distância,***12457929**,M,Parda,02/04/1999,N,Sul,PR,QUATRO BARRAS
3,2019.0,10.0,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EAD,Análise E Desenvolvimento De Sistemas,Curso a distância,***21386908**,M,Branca,15/03/2000,N,Sul,PR,CURITIBA
4,2019.0,10.0,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EAD,Análise E Desenvolvimento De Sistemas,Curso a distância,***27405933**,M,Branca,23/05/1993,N,Sul,PR,SAO JOSE DOS PINHAIS


In [11]:
colunas_apagar = ["CODIGO_EMEC_IES_BOLSA", "CPF_BENEFICIARIO_BOLSA"]

df_2019.drop(columns = colunas_apagar, inplace = True)

In [12]:
df_2019.head()
df_2019.shape

(241032, 13)


Justificativa para a exclusão das colunas:

1. Privacidade dos beneficiários: O Prouni lida com informações pessoais dos beneficiários, como o CPF (Cadastro de Pessoa Física), que é uma informação sensível. Por questões de privacidade e segurança dos beneficiários, a exclusão da coluna "CPF_BENEFICIARIO_BOLSA" foi realizada, garantindo assim a proteção de dados sensíveis e evitando possíveis violações de privacidade.

2. Relevância para a análise em questão: A coluna "CODIGO_EMEC_IES_BOLSA" refere-se ao código da instituição de ensino no âmbito do Prouni. No contexto desta análise específica, que se concentra na faixa etária dos beneficiários e suas características demográficas, o código da instituição não é diretamente relevante. Portanto, a exclusão da coluna permite focar nas variáveis de interesse para a investigação em curso, simplificando o conjunto de dados e concentrando-se nas informações-chave.

Ao excluir essas colunas, o foco é direcionado para as variáveis mais relevantes e significativas para a análise em questão. Isso permite uma análise mais precisa e uma interpretação mais clara dos dados disponíveis, facilitando a identificação de padrões, tendências e insights valiosos relacionados à faixa etária dos beneficiários do Prouni.

Essa exclusão também está em conformidade com os princípios de proteção de dados e privacidade, garantindo a confidencialidade das informações pessoais dos beneficiários e seguindo as diretrizes éticas de análise de dados.

A exclusão das colunas mencionadas contribui para uma análise mais focalizada e consistente, fornecendo uma visão mais aprofundada sobre a faixa etária dos beneficiários e suas características demográficas relevantes no contexto do Programa Universidade para Todos.

In [13]:
df_2020 = pd.read_csv("dataset/pda-prouni-2020.csv", encoding = "latin-1", sep = ";")

In [14]:
df_2020.head()

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,MUNICIPIO,CAMPUS,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,DATA_NASCIMENTO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO,MUNICIPIO_BENEFICIARIO
0,2020,322,UNIVERSIDADE PAULISTA,IPATINGA,IPATINGA,INTEGRAL,EAD,PEDAGOGIA,CURSO A DISTÂNCIA,991.XXX.XXX-91,F,Parda,11/08/1973,N,SUDESTE,MG,GOVERNADOR VALADARES
1,2020,163,UNIVERSIDADE ESTÁCIO DE SÁ,FORTALEZA,EAD VIA CORPVS - CE,INTEGRAL,EAD,MARKETING,CURSO A DISTÂNCIA,067.XXX.XXX-01,M,Parda,13/05/1987,N,NORDESTE,CE,FORTALEZA
2,2020,17670,FACULDADE DE QUIXERAMOBIM,QUIXERAMOBIM,FACULDADE DE QUIXERAMOBIM - UNIQ,INTEGRAL,PRESENCIAL,FARMÁCIA,NOTURNO,623.XXX.XXX-27,M,Parda,23/07/2001,N,NORDESTE,CE,MOMBACA
3,2020,203,UNIVERSIDADE SÃO JUDAS TADEU,SAO PAULO,PAULISTA,PARCIAL,PRESENCIAL,DIREITO,MATUTINO,089.XXX.XXX-40,F,Branca,04/04/2003,N,NORDESTE,BA,IBITITA
4,2020,203,UNIVERSIDADE SÃO JUDAS TADEU,SAO PAULO,PAULISTA,INTEGRAL,PRESENCIAL,DIREITO,MATUTINO,173.XXX.XXX-09,F,Branca,07/12/1977,N,SUDESTE,SP,SAO PAULO


In [15]:
colunas_apagar = ["CODIGO_EMEC_IES_BOLSA", "CPF_BENEFICIARIO"]

df_2020.drop(columns = colunas_apagar, inplace = True)

In [16]:
df_2020.columns

Index(['ANO_CONCESSAO_BOLSA', 'NOME_IES_BOLSA', 'MUNICIPIO', 'CAMPUS',
       'TIPO_BOLSA', 'MODALIDADE_ENSINO_BOLSA', 'NOME_CURSO_BOLSA',
       'NOME_TURNO_CURSO_BOLSA', 'SEXO_BENEFICIARIO', 'RACA_BENEFICIARIO',
       'DATA_NASCIMENTO', 'BENEFICIARIO_DEFICIENTE_FISICO',
       'REGIAO_BENEFICIARIO', 'UF_BENEFICIARIO', 'MUNICIPIO_BENEFICIARIO'],
      dtype='object')

In [17]:
df_2018.columns

Index(['ANO_CONCESSAO_BOLSA', 'NOME_IES_BOLSA', 'TIPO_BOLSA',
       'MODALIDADE_ENSINO_BOLSA', 'NOME_CURSO_BOLSA', 'NOME_TURNO_CURSO_BOLSA',
       'SEXO_BENEFICIARIO_BOLSA', 'RACA_BENEFICIARIO_BOLSA',
       'DT_NASCIMENTO_BENEFICIARIO', 'BENEFICIARIO_DEFICIENTE_FISICO',
       'REGIAO_BENEFICIARIO_BOLSA', 'SIGLA_UF_BENEFICIARIO_BOLSA',
       'MUNICIPIO_BENEFICIARIO_BOLSA'],
      dtype='object')

In [18]:
df_2018.rename(columns={"ANO_CONCESSAO_BOLSA": "ANO_CONCESSAO", "NOME_IES_BOLSA": "NOME_IES", "MODALIDADE_ENSINO_BOLSA": "MODALIDADE_ENSINO",
                        "NOME_CURSO_BOLSA": "NOME_CURSO", "NOME_TURNO_CURSO_BOLSA": "NOME_TURNO_CURSO", "SEXO_BENEFICIARIO_BOLSA": "SEXO_BENEFICIARIO",
                        "RACA_BENEFICIARIO_BOLSA": "RACA_BENEFICIARIO", "DT_NASCIMENTO_BENEFICIARIO": "DATA_NASCIMENTO",
                        "REGIAO_BENEFICIARIO_BOLSA": "REGIAO_BENEFICIARIO", "SIGLA_UF_BENEFICIARIO_BOLSA": "UF_BENEFICIARIO",
                        "MUNICIPIO_BENEFICIARIO_BOLSA": "MUNICIPIO_BENEFICIARIO"
                       }, inplace = True) 

In [19]:
df_2019.rename(columns={"ANO_CONCESSAO_BOLSA": "ANO_CONCESSAO", "NOME_IES_BOLSA": "NOME_IES", "MODALIDADE_ENSINO_BOLSA": "MODALIDADE_ENSINO",
                        "NOME_CURSO_BOLSA": "NOME_CURSO", "NOME_TURNO_CURSO_BOLSA": "NOME_TURNO_CURSO", "SEXO_BENEFICIARIO_BOLSA": "SEXO_BENEFICIARIO",
                        "RACA_BENEFICIARIO_BOLSA": "RACA_BENEFICIARIO", "DT_NASCIMENTO_BENEFICIARIO": "DATA_NASCIMENTO",
                        "REGIAO_BENEFICIARIO_BOLSA": "REGIAO_BENEFICIARIO", "SIGLA_UF_BENEFICIARIO_BOLSA": "UF_BENEFICIARIO",
                        "MUNICIPIO_BENEFICIARIO_BOLSA": "MUNICIPIO_BENEFICIARIO"
                       }, inplace = True) 

In [20]:
df_2020.columns

Index(['ANO_CONCESSAO_BOLSA', 'NOME_IES_BOLSA', 'MUNICIPIO', 'CAMPUS',
       'TIPO_BOLSA', 'MODALIDADE_ENSINO_BOLSA', 'NOME_CURSO_BOLSA',
       'NOME_TURNO_CURSO_BOLSA', 'SEXO_BENEFICIARIO', 'RACA_BENEFICIARIO',
       'DATA_NASCIMENTO', 'BENEFICIARIO_DEFICIENTE_FISICO',
       'REGIAO_BENEFICIARIO', 'UF_BENEFICIARIO', 'MUNICIPIO_BENEFICIARIO'],
      dtype='object')

In [21]:
df_2018.columns

Index(['ANO_CONCESSAO', 'NOME_IES', 'TIPO_BOLSA', 'MODALIDADE_ENSINO',
       'NOME_CURSO', 'NOME_TURNO_CURSO', 'SEXO_BENEFICIARIO',
       'RACA_BENEFICIARIO', 'DATA_NASCIMENTO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO',
       'UF_BENEFICIARIO', 'MUNICIPIO_BENEFICIARIO'],
      dtype='object')

In [22]:
df_2020.rename(columns={"ANO_CONCESSAO_BOLSA": "ANO_CONCESSAO", "NOME_IES_BOLSA": "NOME_IES", "MODALIDADE_ENSINO_BOLSA": "MODALIDADE_ENSINO",
                        "NOME_CURSO_BOLSA": "NOME_CURSO", "NOME_TURNO_CURSO_BOLSA": "NOME_TURNO_CURSO"
                       }, inplace = True) 

Justificativa para a exclusão das colunas "MUNICIPIO" e "CAMPUS":

Consistência e padronização dos dados: A presença das colunas "MUNICIPIO" e "CAMPUS" em apenas um dos datasets pode gerar inconsistências e dificultar a análise comparativa entre os conjuntos de dados. Ao remover essas colunas, busca-se manter a consistência e padronização dos dados, evitando informações isoladas que possam prejudicar a integração e interpretação adequada dos dados.

Relevância para os objetivos da análise: Considerando os objetivos estabelecidos para a análise, verifica-se que as colunas "MUNICIPIO" e "CAMPUS" não apresentam uma contribuição significativa ou impacto direto nos resultados esperados. Ao excluir essas colunas, busca-se focar nos atributos mais relevantes e essenciais para a análise em questão, simplificando o conjunto de dados e facilitando a interpretação dos resultados obtidos.

Redução da complexidade e otimização da análise: A exclusão das colunas "MUNICIPIO" e "CAMPUS" resulta em um conjunto de dados mais conciso e menos complexo, permitindo uma análise mais eficiente e eficaz. A simplificação do conjunto de dados contribui para a redução de ruídos e informações desnecessárias, tornando a análise mais direcionada e focada nos aspectos-chave que influenciam os resultados desejados.

Facilidade na integração de dados: A presença de colunas exclusivas em apenas um dos datasets pode gerar desafios na integração dos dados. Ao excluir as colunas "MUNICIPIO" e "CAMPUS", busca-se facilitar a combinação dos datasets, promovendo uma harmonização dos atributos comuns e permitindo uma análise mais abrangente e coerente.

Dessa forma, a exclusão das colunas "MUNICIPIO" e "CAMPUS" é justificada pela necessidade de manter a consistência e padronização dos dados, focar nos atributos relevantes, reduzir a complexidade, otimizar a análise e facilitar a integração dos datasets.

In [23]:
colunas_apagar = ["MUNICIPIO", "CAMPUS"]

df_2020.drop(columns = colunas_apagar, inplace = True)

In [24]:
df_2020.shape

(166830, 13)

In [25]:
df_2018.columns

Index(['ANO_CONCESSAO', 'NOME_IES', 'TIPO_BOLSA', 'MODALIDADE_ENSINO',
       'NOME_CURSO', 'NOME_TURNO_CURSO', 'SEXO_BENEFICIARIO',
       'RACA_BENEFICIARIO', 'DATA_NASCIMENTO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO',
       'UF_BENEFICIARIO', 'MUNICIPIO_BENEFICIARIO'],
      dtype='object')

In [26]:
df_2019.columns

Index(['ANO_CONCESSAO', 'NOME_IES', 'TIPO_BOLSA', 'MODALIDADE_ENSINO',
       'NOME_CURSO', 'NOME_TURNO_CURSO', 'SEXO_BENEFICIARIO',
       'RACA_BENEFICIARIO', 'DATA_NASCIMENTO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO',
       'UF_BENEFICIARIO', 'MUNICIPIO_BENEFICIARIO'],
      dtype='object')

In [27]:
df_2020.columns

Index(['ANO_CONCESSAO', 'NOME_IES', 'TIPO_BOLSA', 'MODALIDADE_ENSINO',
       'NOME_CURSO', 'NOME_TURNO_CURSO', 'SEXO_BENEFICIARIO',
       'RACA_BENEFICIARIO', 'DATA_NASCIMENTO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO',
       'UF_BENEFICIARIO', 'MUNICIPIO_BENEFICIARIO'],
      dtype='object')

In [28]:
df_prouni = pd.concat([df_2018, df_2019, df_2020])

In [29]:
df_prouni.shape

(648894, 13)

In [30]:
df_prouni.isna().sum()

ANO_CONCESSAO                     15477
NOME_IES                          15477
TIPO_BOLSA                        15477
MODALIDADE_ENSINO                 15477
NOME_CURSO                        15515
NOME_TURNO_CURSO                  15477
SEXO_BENEFICIARIO                 15477
RACA_BENEFICIARIO                 15477
DATA_NASCIMENTO                   15477
BENEFICIARIO_DEFICIENTE_FISICO    15477
REGIAO_BENEFICIARIO               15477
UF_BENEFICIARIO                   15477
MUNICIPIO_BENEFICIARIO            15477
dtype: int64

In [31]:
missing_data = df_prouni[df_prouni['NOME_CURSO'].isnull()]
print(missing_data)

        ANO_CONCESSAO                                  NOME_IES TIPO_BOLSA  \
225555            NaN                                       NaN        NaN   
225556            NaN                                       NaN        NaN   
225557            NaN                                       NaN        NaN   
225558            NaN                                       NaN        NaN   
225559            NaN                                       NaN        NaN   
...               ...                                       ...        ...   
166789         2020.0       FACULDADE PRESIDENTE ANTÔNIO CARLOS   INTEGRAL   
166790         2020.0  FACULDADE EVANGELICA MACKENZIE DO PARANÁ   INTEGRAL   
166791         2020.0  FACULDADE EVANGELICA MACKENZIE DO PARANÁ   INTEGRAL   
166794         2020.0       FACULDADE PRESIDENTE ANTÔNIO CARLOS   INTEGRAL   
166820         2020.0          CENTRO UNIVERSITÁRIO DA AMAZÔNIA   INTEGRAL   

       MODALIDADE_ENSINO NOME_CURSO NOME_TURNO_CURSO SEXO_BENEF

In [32]:
count_missing = df_prouni['ANO_CONCESSAO'].isnull().sum()
print("Número de valores ausentes em 'ANO_CONCESSAO':", count_missing)

Número de valores ausentes em 'ANO_CONCESSAO': 15477


In [33]:
porc_ausentes_est_civil = (df_prouni["ANO_CONCESSAO"].isnull().sum() / len(df_prouni["ANO_CONCESSAO"])) * 100
print(f"Porcentagem de valores ausentes para a variável 'ANO_CONCESSAO': {porc_ausentes_est_civil:.2f}%")

Porcentagem de valores ausentes para a variável 'ANO_CONCESSAO': 2.39%


In [34]:
df_prouni.isna().sum()

ANO_CONCESSAO                     15477
NOME_IES                          15477
TIPO_BOLSA                        15477
MODALIDADE_ENSINO                 15477
NOME_CURSO                        15515
NOME_TURNO_CURSO                  15477
SEXO_BENEFICIARIO                 15477
RACA_BENEFICIARIO                 15477
DATA_NASCIMENTO                   15477
BENEFICIARIO_DEFICIENTE_FISICO    15477
REGIAO_BENEFICIARIO               15477
UF_BENEFICIARIO                   15477
MUNICIPIO_BENEFICIARIO            15477
dtype: int64

In [35]:
porc_ausentes = (df_prouni.isnull().sum() / len(df_prouni)) * 100
porc_ausentes = porc_ausentes.round(2)
print(f"Porcentagem de valores ausentes para cada coluna:\n{porc_ausentes}%")

Porcentagem de valores ausentes para cada coluna:
ANO_CONCESSAO                     2.39
NOME_IES                          2.39
TIPO_BOLSA                        2.39
MODALIDADE_ENSINO                 2.39
NOME_CURSO                        2.39
NOME_TURNO_CURSO                  2.39
SEXO_BENEFICIARIO                 2.39
RACA_BENEFICIARIO                 2.39
DATA_NASCIMENTO                   2.39
BENEFICIARIO_DEFICIENTE_FISICO    2.39
REGIAO_BENEFICIARIO               2.39
UF_BENEFICIARIO                   2.39
MUNICIPIO_BENEFICIARIO            2.39
dtype: float64%


Ao analisar o conjunto de dados, foi identificado que todas as variáveis possuem o mesmo número de valores ausentes, correspondendo a 2,39% do total de dados. Após uma investigação mais detalhada, constatou-se que esses valores ausentes correspondem a casos em que as informações não foram informadas.

Dessa forma, optou-se por manter esses valores ausentes no conjunto de dados por algumas razões fundamentais:

1. Preservação da integridade do conjunto de dados: Em vez de simplesmente remover os valores ausentes, mantê-los no conjunto de dados permite que essas informações sejam preservadas. Essa abordagem é especialmente útil caso haja necessidade de acompanhar a quantidade ou a distribuição dos valores ausentes ao longo do tempo ou comparar com outros atributos relacionados.

2. Impacto mínimo na análise dos dados: Como o número de valores ausentes corresponde a apenas 2,39% do total de dados, sua remoção poderia ter um impacto mínimo na análise subsequente. Dessa forma, optou-se por mantê-los no conjunto de dados para garantir a integridade e a completude das informações.

Portanto, ao manter os valores ausentes no conjunto de dados, você preservou a integridade das informações e minimizou o impacto na análise subsequente.

In [36]:
df_prouni = df_prouni.fillna('Outro')

In [37]:
df_prouni.isna().sum()

ANO_CONCESSAO                     0
NOME_IES                          0
TIPO_BOLSA                        0
MODALIDADE_ENSINO                 0
NOME_CURSO                        0
NOME_TURNO_CURSO                  0
SEXO_BENEFICIARIO                 0
RACA_BENEFICIARIO                 0
DATA_NASCIMENTO                   0
BENEFICIARIO_DEFICIENTE_FISICO    0
REGIAO_BENEFICIARIO               0
UF_BENEFICIARIO                   0
MUNICIPIO_BENEFICIARIO            0
dtype: int64

In [38]:
cnn = sqlite3.connect("database/prouni.db")

In [39]:
prouni = df_prouni.to_sql("prouni", cnn, if_exists="replace")

In [40]:
query = "SELECT * FROM prouni"
prouni = pd.read_sql(query, cnn)

In [41]:
prouni.head()

Unnamed: 0,index,ANO_CONCESSAO,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,NOME_TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,DATA_NASCIMENTO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO,MUNICIPIO_BENEFICIARIO
0,0,2018.0,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Letras - Espanhol,Noturno,F,Parda,15/07/1980,N,Nordeste,PE,RECIFE
1,1,2018.0,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Letras - Português E Espanhol,Noturno,M,Branca,06/09/2000,N,Nordeste,PE,PAULISTA
2,2,2018.0,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Psicologia,Vespertino,F,Parda,04/11/1998,N,Nordeste,PE,RECIFE
3,3,2018.0,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,Presencial,Serviço Social,Noturno,F,Parda,29/09/1999,N,Nordeste,PE,RECIFE
4,4,2018.0,UNIVERSIDADE DE CAXIAS DO SUL,BOLSA INTEGRAL,EAD,Administração,Curso a distância,F,Branca,30/04/2000,N,Sul,RS,SAO FRANCISCO DE PAULA
