ANÁLISE DE DADOS UTILIZANDO PYTHON

1º EATAPA - DADOS
   
Será realizada a análise de dados referente a Educação Superior no Brasil, para isso, foram utilizadas base de dados disponibilizadas pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira Legislação e Documentos - INEP.

Diante da diversidade que há no Brasil e da atual discusão referente a inclusão social e a adoção de politicas públicas em prol das minorias. Esta análise visa identificar o quantitativo de alunos indigenas e com deficiência que concluíram um curso superior do ano de 2017 no Brasil. Bem como a relação desse quantitativo com o quantitativo global da população indigena e da população de pessoas com deficiência.

Foram utilizados os dados diponíveis no link: http://portal.inep.gov.br/microdados, opção Censo da Educação superior, do ano de 2017.


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import glob
plt.style.use('ggplot')

#Extraindo as bases ano 2017

#Ano 2017

data_curso = pd.read_csv("Desktop\Dados\curso.csv", sep="|", dtype=object, encoding="ANSI")
Diretorio= r"Desktop\Dados\aluno.csv"
data_aluno = pd.read_csv(Diretorio, sep="|", dtype=object, encoding="ANSI")


2º ETAPA - TRATAMENTO DOS DADOS

2.1 LIMPEZA E PREPARAÇÃO DOS DADOS

Nesta etapa foram tratados:
- Os dados foram manipulados realizando a junção e combinação entre tabelas.
- Os dados ausentes. 
- Foram identificados os dados ausentes e substituídos por dados.




In [12]:
# Criando Data Frames
aluno = pd.DataFrame(data_aluno, columns=['CO_CURSO','CO_IES','CO_ALUNO_CURSO','TP_DEFICIENCIA','IN_DEFICIENCIA_AUDITIVA',
                                          'IN_DEFICIENCIA_FISICA','IN_DEFICIENCIA_INTELECTUAL','IN_DEFICIENCIA_MULTIPLA',
                                          'IN_DEFICIENCIA_SURDEZ','IN_DEFICIENCIA_SURDOCEGUEIRA','IN_DEFICIENCIA_BAIXA_VISAO',
                                          'IN_DEFICIENCIA_CEGUEIRA','IN_DEFICIENCIA_SUPERDOTACAO','IN_TGD_AUTISMO_INFANTIL',
                                          'IN_TGD_TRANSTOR_DESINTEGRATIVO','TP_SITUACAO','TP_COR_RACA','CO_UF_NASCIMENTO'])


curso = pd.DataFrame(data_curso, columns=['CO_CURSO', 'CO_IES' ,'NO_CURSO'])

# Concatenando os data frames

#aluno_curso = pd.concat([aluno, curso], axis=0, join='inner')
aluno_curso = pd.merge(aluno, curso, on=['CO_CURSO','CO_IES'], how='inner')
aluno_curso.info()
# Renomeando colunas 



<class 'pandas.core.frame.DataFrame'>
Int64Index: 11589194 entries, 0 to 11589193
Data columns (total 19 columns):
CO_CURSO                          object
CO_IES                            object
CO_ALUNO_CURSO                    object
TP_DEFICIENCIA                    object
IN_DEFICIENCIA_AUDITIVA           object
IN_DEFICIENCIA_FISICA             object
IN_DEFICIENCIA_INTELECTUAL        object
IN_DEFICIENCIA_MULTIPLA           object
IN_DEFICIENCIA_SURDEZ             object
IN_DEFICIENCIA_SURDOCEGUEIRA      object
IN_DEFICIENCIA_BAIXA_VISAO        object
IN_DEFICIENCIA_CEGUEIRA           object
IN_DEFICIENCIA_SUPERDOTACAO       object
IN_TGD_AUTISMO_INFANTIL           object
IN_TGD_TRANSTOR_DESINTEGRATIVO    object
TP_SITUACAO                       object
TP_COR_RACA                       object
CO_UF_NASCIMENTO                  object
NO_CURSO                          object
dtypes: object(19)
memory usage: 1.7+ GB


In [13]:
# Identificando dados faltantes

aluno_curso.isnull().sum()

CO_CURSO                                 0
CO_IES                                   0
CO_ALUNO_CURSO                           0
TP_DEFICIENCIA                           0
IN_DEFICIENCIA_AUDITIVA           11524223
IN_DEFICIENCIA_FISICA             11524223
IN_DEFICIENCIA_INTELECTUAL        11524223
IN_DEFICIENCIA_MULTIPLA           11524223
IN_DEFICIENCIA_SURDEZ             11524223
IN_DEFICIENCIA_SURDOCEGUEIRA      11524223
IN_DEFICIENCIA_BAIXA_VISAO        11524223
IN_DEFICIENCIA_CEGUEIRA           11524223
IN_DEFICIENCIA_SUPERDOTACAO       11524223
IN_TGD_AUTISMO_INFANTIL           11524223
IN_TGD_TRANSTOR_DESINTEGRATIVO    11524223
TP_SITUACAO                              0
TP_COR_RACA                              0
CO_UF_NASCIMENTO                   3410099
NO_CURSO                                 0
dtype: int64

In [14]:
# Substituindo os dados faltantes pela expressão "Não se aplica" e "Não informado"

aluno_curso.update(aluno_curso['IN_DEFICIENCIA_AUDITIVA'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_FISICA'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_INTELECTUAL'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_MULTIPLA'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_SURDEZ'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_SURDOCEGUEIRA'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_BAIXA_VISAO'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_CEGUEIRA'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_DEFICIENCIA_SUPERDOTACAO'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_TGD_AUTISMO_INFANTIL'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['IN_TGD_TRANSTOR_DESINTEGRATIVO'].fillna('Não se aplica'))
aluno_curso.update(aluno_curso['CO_UF_NASCIMENTO'].fillna('Não informado'))

3º ETAPA - APRESENTAÇÃO DOS RESULTADOS

PROBLEMAS:

1- IDENTIFICAR A QUANTIDADE DE ALUNOS COM DEFICIÊNCIA QUE CONCLUÍRAM O ENSINO SUPERIOR.

2- IDENTIFICAR A QUANTIDADE DE ALUNO POR DEFICIÊNCIA

3- QUAIS OS CURSOS POSSUI DEFICIENTES

4- QUAIS OS CURSOS QUE MAIS TIVERAM ALUNOS COM DEFICIÊNCIA COM QUE CONCLUIRAM, MATRICULA TRANCADA OU TRANSFERIDA



In [16]:
#Quantidade de alunos com deficiência que concluiram o Ensino Superior

#Situação Matrícula (TP_SITUACA)
#  6 - Formado
#  3 - Matrícula trancada
#  5 - Transferido 

#Alunos Indigenas (TP_DEFICIENCIA)
#0 - Não
#1 - Sim

def_concluido = aluno_curso[(aluno_curso.TP_SITUACAO == '6') & (aluno_curso.TP_DEFICIENCIA == '1')] [['CO_ALUNO_CURSO','TP_DEFICIENCIA', 'TP_SITUACAO']]
#def_concluido
print("\n\nAlunos com deficiência que concluiram o ensino superior\n",def_concluido['TP_DEFICIENCIA'].value_counts())



Alunos com deficiência que concluiram o ensino superior
 1    5060
Name: TP_DEFICIENCIA, dtype: int64


In [20]:
#Quantidade de alunos por deficiência  

#Aluno com deficiência (para todos os tipos de deficiência)
#0 - Não
#1 - Sim

qtd_por_def_auditiva = aluno_curso[(aluno_curso.IN_DEFICIENCIA_AUDITIVA == '1')]
qtd_por_def_fisica =  aluno_curso[(aluno_curso.IN_DEFICIENCIA_FISICA == '1')]     
qtd_por_def_intelec =  aluno_curso[(aluno_curso.IN_DEFICIENCIA_INTELECTUAL == '1')]                             
qtd_por_def_multipla = aluno_curso[(aluno_curso.IN_DEFICIENCIA_MULTIPLA == '1')]
qtd_por_def_surdez = aluno_curso[(aluno_curso.IN_DEFICIENCIA_SURDEZ == '1')]
qtd_por_def_surceg =  aluno_curso[(aluno_curso.IN_DEFICIENCIA_SURDOCEGUEIRA == '1')]                       
qtd_por_def_bvisao =   aluno_curso[(aluno_curso.IN_DEFICIENCIA_BAIXA_VISAO == '1')]                         
qtd_por_def_cegueira = aluno_curso[(aluno_curso.IN_DEFICIENCIA_CEGUEIRA == '1')]
qtd_por_def_superdot =  aluno_curso[(aluno_curso.IN_DEFICIENCIA_SUPERDOTACAO == '1')]                              
qtd_por_def_autismo =  aluno_curso[(aluno_curso.IN_TGD_AUTISMO_INFANTIL == '1')]                     
qtd_por_def_desinte =  aluno_curso[(aluno_curso.IN_TGD_TRANSTOR_DESINTEGRATIVO == '1')]    

print("Total de alunos com deficiência auditiva:",len(qtd_por_def_auditiva),
      "\nTotal de alunos com deficiência física:",len(qtd_por_def_fisica),
      "\nTotal de alunos com deficiência intelectual:",len(qtd_por_def_intelec),
      "\nTotal de alunos com deficiência multipla:",len(qtd_por_def_multipla),
      "\nTotal de alunos com deficiência surdez:",len(qtd_por_def_surdez),
      "\nTotal de alunos com deficiência surdocegueira:",len(qtd_por_def_surceg),
      "\nTotal de alunos com deficiência baixa visão:",len(qtd_por_def_bvisao),
      "\nTotal de alunos com deficiência cegueira:",len(qtd_por_def_cegueira),
      "\nTotal de alunos com deficiência Super Dotação:",len(qtd_por_def_superdot),
      "\nTotal de alunos com deficiência Autismo:",len(qtd_por_def_desinte),
      "\nTotal de alunos com transtorno desintegrativo:",len(qtd_por_def_desinte))

Total de alunos com deficiência auditiva: 7572 
Total de alunos com deficiência física: 20146 
Total de alunos com deficiência intelectual: 2724 
Total de alunos com deficiência multipla: 961 
Total de alunos com deficiência surdez: 2857 
Total de alunos com deficiência surdocegueira: 210 
Total de alunos com deficiência baixa visão: 14326 
Total de alunos com deficiência cegueira: 2909 
Total de alunos com deficiência Super Dotação: 1475 
Total de alunos com deficiência Autismo: 298 
Total de alunos com transtorno desintegrativo: 298


In [21]:
# Quais cursos possui deficiêntes

cursos_def = aluno_curso[aluno_curso.TP_DEFICIENCIA == '1'] [['CO_ALUNO_CURSO','NO_CURSO']]
cursos_def['NO_CURSO'].value_counts()
print("\n\nCurso com deficiêntes:\n",cursos_def['NO_CURSO'].value_counts())
      
# Quais cursos com maior número de deficientes formados, matricula trancada ou transferida

def_concluido_curso = aluno_curso[(aluno_curso.TP_SITUACAO == '6') & (aluno_curso.TP_DEFICIENCIA == '1')] [['CO_ALUNO_CURSO','NO_CURSO', 'TP_DEFICIENCIA', 'TP_SITUACAO']]
def_concluido_curso['NO_CURSO'].value_counts()
print("\n\nCurso com deficiêntes que concluiram o ensino superior\n",def_concluido_curso['NO_CURSO'].value_counts()) 

def_trancada_curso = aluno_curso[(aluno_curso.TP_SITUACAO == '3') & (aluno_curso.TP_DEFICIENCIA == '1')] [['CO_ALUNO_CURSO','NO_CURSO', 'TP_DEFICIENCIA', 'TP_SITUACAO']]
def_trancada_curso['NO_CURSO'].value_counts()
print("\n\nCurso com deficiêntes com matrículas trancadas\n",def_trancada_curso['NO_CURSO'].value_counts()) 

def_transferencia_curso = aluno_curso[(aluno_curso.TP_SITUACAO == '5') & (aluno_curso.TP_DEFICIENCIA == '1')] [['CO_ALUNO_CURSO','NO_CURSO', 'TP_DEFICIENCIA', 'TP_SITUACAO']]
def_transferencia_curso['NO_CURSO'].value_counts()
print("\n\nCurso com deficiêntes com matriculas transferidas\n",def_transferencia_curso['NO_CURSO'].value_counts())




Curso com deficiêntes que concluiram o ensino superior
 DIREITO                                                                                                5225
PEDAGOGIA                                                                                              4311
ADMINISTRAÇÃO                                                                                          4142
PSICOLOGIA                                                                                             1841
CIÊNCIAS CONTÁBEIS                                                                                     1813
EDUCAÇÃO FÍSICA                                                                                        1763
ENGENHARIA CIVIL                                                                                       1485
GESTÃO DE RECURSOS HUMANOS                                                                             1226
SERVIÇO SOCIAL                                                                

QUESTÕES SOBRE INDIGENAS

5- QUAL QUANTIDADE DE ALUNOS INDIGENAS QUE CONCLUÍRAM O ENSINO SUPERIOR

6- QUAL A QUANTIDADE DE ALUNO INDIGENAS POR CURSO

7- QUAIS OS CURSOS QUE MAIS TIVERAM ALUNOS INDIGENAS FORMADOS, COM MATRICULA TRANCADA OU TRANSFERIDA




In [28]:
#Quantidade de alunos Indígena que concluiram o Ensino Superior

#Situação Matrícula (TP_SITUACA)
#  6 - Formado
#  3 - Matrícula trancada
#  5 - Transferido 

#Aluno Indígena (TP_COR_RACA)
#5 - Indígena

total_aluno_indigena = aluno_curso[(aluno_curso.TP_COR_RACA == '5')]

print("Alunos Indígenas que cursam o Ensino Superior em 2017:",len(total_aluno_indigena))
                                   
aluno_indigena = aluno_curso[(aluno_curso.TP_SITUACAO == '6') & (aluno_curso.TP_COR_RACA == '5')] [['CO_ALUNO_CURSO','TP_COR_RACA','TP_SITUACAO']]
#aluno_indigena
print("\n\nAlunos Indígenas que concluiram o Ensino Superior:",len(aluno_indigena))


Alunos Indígenas que cursam o Ensino Superior em 2017: 83155


Alunos Indígenas que concluiram o Ensino Superior: 4954


In [23]:
#Cursos que possui Indígenas

cursos_indigena = aluno_curso[aluno_curso.TP_COR_RACA == '5'] [['CO_ALUNO_CURSO','NO_CURSO']]
cursos_indigena['NO_CURSO'].value_counts()
print("\n\nCursos que possui Indígenas\n",cursos_indigena['NO_CURSO'].value_counts())



Cursos que possui Indígenas
 DIREITO                                                        7909
PEDAGOGIA                                                      6837
ADMINISTRAÇÃO                                                  5081
ENFERMAGEM                                                     4195
ENGENHARIA CIVIL                                               3864
CIÊNCIAS CONTÁBEIS                                             3153
EDUCAÇÃO FÍSICA                                                3139
PSICOLOGIA                                                     2912
NUTRIÇÃO                                                       2743
FISIOTERAPIA                                                   2499
FARMÁCIA                                                       2102
ODONTOLOGIA                                                    1646
GESTÃO DE RECURSOS HUMANOS                                     1645
SERVIÇO SOCIAL                                                 1310
ARQUITETURA E URB

In [30]:
# Quais cursos com maior número de Indígenas formados, matricula trancada ou transferida

cursos_indigena_formado = aluno_curso[(aluno_curso.TP_SITUACAO == '6') & (aluno_curso.TP_COR_RACA == '5' )] [['CO_ALUNO_CURSO','NO_CURSO', 'TP_COR_RACA', 'TP_SITUACAO']]
cursos_indigena_formado['NO_CURSO'].value_counts()
print("\n\nCurso com Indígenas que concluiram o ensino superior\n",cursos_indigena_formado['NO_CURSO'].value_counts()) 

cursos_indigena_trancada = aluno_curso[(aluno_curso.TP_SITUACAO == '3') & (aluno_curso.TP_COR_RACA == '5')] [['CO_ALUNO_CURSO','NO_CURSO', 'TP_COR_RACA', 'TP_SITUACAO']]
cursos_indigena_trancada['NO_CURSO'].value_counts()
print("\n\nCurso com Indígenas com matrículas trancadas\n",cursos_indigena_trancada['NO_CURSO'].value_counts()) 

cursos_indigena_transferido = aluno_curso[(aluno_curso.TP_SITUACAO == '5') & (aluno_curso.TP_COR_RACA == '5')] [['CO_ALUNO_CURSO','NO_CURSO', 'TP_COR_RACA', 'TP_SITUACAO']]
cursos_indigena_transferido['NO_CURSO'].value_counts()
print("\n\nCurso com Indígenas com matriculas transferidas\n",cursos_indigena_transferido['NO_CURSO'].value_counts())



Curso com Indígenas que concluiram o ensino superior
 DIREITO                                                            717
ADMINISTRAÇÃO                                                      355
PEDAGOGIA                                                          302
ENGENHARIA CIVIL                                                   217
EDUCAÇÃO FÍSICA                                                    191
CIÊNCIAS CONTÁBEIS                                                 166
ENFERMAGEM                                                         159
GESTÃO DE RECURSOS HUMANOS                                         149
LICENCIATURA INTERCULTURAL INDÍGENA                                142
SERVIÇO SOCIAL                                                     114
FISIOTERAPIA                                                       110
LOGÍSTICA                                                           93
CIÊNCIAS BIOLÓGICAS                                                 92
PSICOLOGIA           