In [22]:
import pandas as pd
import os
import datetime as dt

pd.options.display.max_columns = 10000

In [2]:
# Funcao para listar as pastas dentro de um arquivo
def listar_pastas(caminho):
    pastas = []
    for item in os.listdir(caminho):
        item_caminho = os.path.join(caminho, item)
        if os.path.isdir(item_caminho):
            pastas.append(item)
    return pastas

In [3]:
# Caminho onde se encontram todas as bases que podemos utilizar
caminho_principal = r'base-dados-brutos-e-scripts-passos-magicos\csv_output\Tabelas\\'

In [4]:
# Verificando todas as bases que podemos utilizar
lista_bases = listar_pastas(caminho_principal)
lista_bases

['Outras tabelas',
 'TbAbatimento',
 'TbAluno',
 'TbCampoDinamico',
 'TbCaptacao',
 'TbDiario',
 'TbFase',
 'TbHistorico',
 'TbMeta',
 'TbProfessor',
 'TbResponsavel',
 'TbSerie',
 'TbSituacaoAlunoDisciplina',
 'TbTurma']

In [31]:
# Quantidade de alunos
# Explorar
df_aluno = pd.read_csv(caminho_principal + r"TbAluno\Merge\merged_data.csv") 

In [32]:
df_aluno.shape

(49089, 116)

In [9]:
# Printando todas as colunas para que possamos analisar
for c in df_aluno.columns:
    print(c)

IdAlunoRotinaEducacaoInfantil
IdAluno
IdTurma_x
Data
IdProfessorResponsavel
IdUsuarioResponsavel
IdFormularioRotinaEducacaoInfantil
IdAlunoObs
IdTipoOcorrencia
StImpedimento
DataOcorrencia_x
IdUsuarioRegistro
ObservacaoRegistro
DataLiberacao
IdUsuarioLiberacao
ObservacaoLiberacao
DataInclusao
StExibirInternet
IdProfessorRegistro
DataInicialAtestado
DataFinalAtestado
IdResponsavel_x
IdTurma_y
IdSituacaoAlunoTurma_x
DataSituacaoAtivo
DataSituacaoInativo
IdFaseNotaInicial_x
OrdemChamada
DataHoraEfetivacaoMatricula
IdUsuarioEfetivacaoMatricula
IdAlunoCursoSuperior
ProblemaAutorizadoMatricula
IdUsuarioAutorizacaoMatricula
StAlunoTurmaNaoPermitePParcial
ES_IdCurriculoOptativa
IdResponsavelFinanceiro
IdTipoResponsavelFinanceiro
IdResponsavelSecundario
IdTipoResponsavelSecundario
IdMotivoInativacao
IdEstabEnsinoInativacao
ComentarioInativacao
Comentario
IdPlanoPagamento_PreMatricula
IdPlanoPagamento_Matricula
SituacaoExcecao_IdSituacaoAlunoTurma
SituacaoExcecao_IdUsuario
SituacaoExcecao_DataRe

In [8]:
# Contar o número de alunos únicos na base de dados
print(f'Há {df_aluno.IdAluno.nunique()} e alunos distintos na base, sendo de {df_aluno.IdTurma_x.nunique()} turmas diferentes!!')

Há 8 e 6 alunos distintos na base, sendo de 5 turmas diferentes!!


In [13]:
# Vericando quantidade de registros por alunos
df_aluno.IdAluno.value_counts()

773     20412
727     14875
1147     9984
1174     1550
747      1200
1310      504
740       300
1267      264
Name: IdAluno, dtype: int64

In [18]:
# Vericando etinia de cada um dos alunos (e se há duplicadas)
df_aluno[['IdAluno','CorRaca']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,IdAluno,CorRaca
0,727,B
1,740,R
2,747,R
3,773,B
4,1147,B
5,1174,P
6,1267,B
7,1310,B


In [29]:
# Vericando data de nascimento e idade de cada um dos alunos atualmente
df_aluno['DataNascimento'] = pd.to_datetime(df_aluno['DataNascimento'])

# A subtração das datas foi feita, e o resultado foi dividido por 365 para converter de dias para anos (idade).
df_aluno['Idade'] = (dt.date.today() - df_aluno['DataNascimento'].dt.date).apply(lambda x: x.days // 365)

df_aluno[['IdAluno','DataNascimento', 'Idade']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,IdAluno,DataNascimento,Idade
0,727,2001-07-23 03:00:00,23
1,740,1995-06-23 03:00:00,29
2,747,1997-09-14 03:00:00,26
3,773,2001-01-28 02:00:00,23
4,1147,2003-11-22 00:00:00,20
5,1174,2003-11-09 02:00:00,20
6,1267,2001-01-06 02:00:00,23
7,1310,2001-10-15 00:00:00,22


In [20]:
# Vericando se os alunos possuem algum tipo de deficiencia
df_aluno[['IdAluno','StDeficienciaCegueira','StDeficienciaBaixaVisao','StDeficienciaSurdez',
          'StDeficienciaAuditiva','StDeficienciaFisica','StDeficienciaSurdoCegueira',
          'StDeficienciaMultipla','StDeficienciaMental']].drop_duplicates().reset_index(drop=True)

Unnamed: 0,IdAluno,StDeficienciaCegueira,StDeficienciaBaixaVisao,StDeficienciaSurdez,StDeficienciaAuditiva,StDeficienciaFisica,StDeficienciaSurdoCegueira,StDeficienciaMultipla,StDeficienciaMental
0,727,False,False,False,False,False,False,False,False
1,740,False,False,False,False,False,False,False,False
2,747,False,False,False,False,False,False,False,False
3,773,False,False,False,False,False,False,False,False
4,1147,False,False,False,False,False,False,False,False
5,1174,False,False,False,False,False,False,False,False
6,1267,False,False,False,False,False,False,False,False
7,1310,False,False,False,False,False,False,False,False


In [36]:
# Explorando cursos de interesses
df_curso_interesse = pd.read_csv(r"base-dados-brutos-e-scripts-passos-magicos\csv_output\Tabelas\TbCaptacao\Originais anonimizados\TbCaptacaoCursoInteresse.csv")
df = pd.read_csv(r"base-dados-brutos-e-scripts-passos-magicos\csv_output\Tabelas\TbCaptacao\Originais anonimizados\TbCaptacaoOrigemLead.csv")

In [37]:
df.head()

Unnamed: 0,IdCaptacaoOrigemLead,NomeCaptacaoOrigemLead
0,1,"Redes sociais (Facebook, Instagram ou Twitter)"
1,2,Indicação de amigos ou parentes
2,3,Revista
3,4,Jornal
4,5,Televisão


In [35]:
df_curso_interesse.head(500)

Unnamed: 0,IdCaptacaoCursoInteresse,IdUnidade,StAtivo,NomeCursoInteresse
0,1,1,True,Ensino Fundamental - 1º Ano
1,2,1,True,Educação Infantil - Nível 1
2,3,1,True,Educação Infantil - Nível 2
3,4,1,True,Educação Infantil - Nível 3
4,5,1,True,Educação Infantil - Nível 4
5,6,1,True,Educação Infantil - Nível 5
6,7,1,True,Ensino Fundamental - 2º Ano
7,8,1,True,Ensino Fundamental - 3º Ano
8,9,1,True,Ensino Fundamental - 4º Ano
9,10,1,True,Ensino Fundamental - 5º Ano


In [34]:
df_curso_interesse.NomeCursoInteresse.value_counts()

Ensino Fundamental - 1º Ano    1
Ensino Fundamental - 5º Ano    1
Ensino Médio - 2º Série        1
Ensino Médio - 1ª Série        1
Ensino Fundamental - 9º Ano    1
Ensino Fundamental - 8º Ano    1
Ensino Fundamental - 7º Ano    1
Ensino Fundamental - 6º Ano    1
Ensino Fundamental - 4º Ano    1
Educação Infantil - Nível 1    1
Ensino Fundamental - 3º Ano    1
Ensino Fundamental - 2º Ano    1
Educação Infantil - Nível 5    1
Educação Infantil - Nível 4    1
Educação Infantil - Nível 3    1
Educação Infantil - Nível 2    1
Ensino Médio - 3º Série        1
Name: NomeCursoInteresse, dtype: int64