<a href="https://colab.research.google.com/github/guigoalmeida/machinelearning-escolavirtual/blob/main/0_Pr%C3%A9via_extraindo_dados_da_EVG_completo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Precisamos conseguir extrair adequadamente os dados disponíveis em https://emnumeros.escolavirtual.gov.br/dados-abertos/ para dar início ao projeto. 

Segundo as informações fornecidas, os dados possuem a seguinte estrutura: 

INFORMAÇÕES ADICIONAIS

Codificação de Caractere | UTF-8
---|---
Formato da Base| CSV
Delimitador de Colunas | Vertical Bar
Qualificador de Texto| Nenhum

OS dados, compactados, podem ser baixados em ftp://extracoesevg.enap.gov.br/20210312_escolavirtual_dadosabertos_matriculas_utf8.rar, ou em ftp://extracoesevg.enap.gov.br/20210312_escolavirtual_dadosabertos_matriculas_utf8.tar

Aparentemente, extrações diárias são realizadas - o código inicial possui uma marca temporal - 2021-03-12 corresponde a 12 de março de 2021. 

Importante conhecermos o dicionário de dados (disponível em https://emnumeros.escolavirtual.gov.br/dados-abertos/dicionario/), até para podermos verificar os tipos de dados esperados e validarmos colunas, conteúdos e variáveis: 

Ordem	| Dado	| Nome Campo| Tipo	| Descrição
---|---|---|---|---
1	| Código de Matrícula |	cod_matricula	| Numérico |	Identificador de cada matrícula realizada pelo aluno. Identifica de forma única a inscrição/matrícula do aluno no banco da Secretaria Virtual
2| 	Data da Matrícula| 	dt_matricula	| Datetime| 	Data e horário em que o aluno realizou sua matrícula
3| 	CPF| 	cpf| 	Numérico| 	CPF do aluno conforme indicado por ele em seu cadastro
4| 	Nome do Aluno| 	nome| 	Alfanumérico	| Nome completo do aluno conforme indicado por ele em seu cadastro
5| 	Sexo do Aluno| 	sexo	| Alfanumérico| 	Sexo do aluno conforme indicado por ele em seu cadastro
6| 	Ano de Nascimento do Aluno| 	data_nascimento	| Numérico| 	Ano de nascimento do aluno conforme indicado por ele em seu cadastro
7| 	Pais de Origem do Aluno| 	nacionalidade	| Alfanumérico| 	Pais de nascimento do aluno conforme indicado por ele em seu cadastro
8| 	Usuário do Aluno no Portal da Enap| 	login_liferay	| Alfanumérico	| E-mail do aluno utilizado como login (usuário) na Escola Virtual
9| 	Código da Turma/Oferta| 	cod_turma	| Numérico| 	Código da turma/oferta de um curso no banco de dados da Escola Virtual. Identifica de forma única a turma/oferta no banco
10| 	Nome da Turma/Oferta| 	nome_turma	| Alfanumérico| 	Nome da turma/oferta de um curso da Escola Virtual
11	| Modalidade da Turma/Oferta	| modalidade_turma	| Alfanumérico| 	Modalidade de oferta da turma de um curso conforme configuração da turma na Escola Virtual (A distância, Presencial, Semi-presencial)
12| 	Código do Curso	| cod_curso| 	Numérico| 	Código do curso no banco de dados da Escola Virtual
13| 	Nome do Curso| 	nome_curso| 	Alfanumérico| 	Nome do curso conforme cadastro realizado na Escola Virtual
14| 	Carga Horária do Curso (Módulo)| 	carga_horaria	| Numérico| 	Carga horária do curso conforme cadastro realizado na Escola Virtual
15| 	Data de Início das Inscrições	| dt_inicio_insc| 	Date| 	Data de início do período de inscrições conforme configuração da oferta da Escola Virtual
16| 	Data de Término das Inscrições	| dt_fim_insc| 	Date| 	Data de término do período de inscrições conforme configuração da oferta da Escola Virtual
17| 	Data de Início das Aulas| 	dt_inicio	| Date| 	Data de início do curso para o aluno conforme configuração da oferta da Escola Virtual
18| 	Data de Término das Aulas| 	dt_fim| 	Date| 	Data de término do curso para o aluno conforme configuração da turma no WebCef
19| 	Situação da Turma/Oferta	| sit_turma| 	Alfanumérico| 	Situação da turma/oferta de um curso (Turma Cancelada, Turma em aberto, Turma Encerrada)
20	| Situação da Matrícula do Aluno| 	sit_matricula	| Alfanumérico| Desistente = Aluno que não terminou o curso; Trancada = Aluno que não terminou o curso, mas entrou na plataforma e solicitou o trancamento; Concluído = Aluno que terminou o curso com êxito; Não Concluído = Aluno que ainda está realizando; Reprovado = Aluno que não obteve nota para emitir o certificado.
21	| Esfera de Poder da Experência Profissional| 	poder| 	Alfanumérico| 	Esfera de porder constante na experência profissional mais recente, considerando a data de atualização dos dados pelo aluno, conforme indicado por ele em seu cadastro.
22| 	Esfera de Governo da Experência Profissional	| esfera| 	Alfanumérico| 	Esfera de governo constante na experência profissional mais recente, considerando a data de atualização dos dados pelo aluno, conforme indicado por ele em seu cadastro.
23| 	Instituição da Experência Profissional	| instituicao| 	Alfanumérico	| Instituição constante na experência profissional mais recente, considerando a data de atualização dos dados pelo aluno, conforme indicado por ele em seu cadastro.
24| 	Munícipio do Usuário| 	municipio	| Alfanumérico| 	Munícipio de residência do aluno.
25	| UF do Usuário	| uf| 	Alfanumérico	| UF de residência do usuário.
26	| Conteudista| 	conteudista| 	Alfanumérico| 	Conteudista que elaborou o curso.

In [None]:
# importando o CSV a partir do link com os separadores e encodings corretos:
# aparentemente, estamos usando o mesmo caderno de forma compartilhada. Em momento oportuno, vale separarmos (ou harmonizarmos o endereço que usamos para path):
# o arquivo está disponível nesse link do google drive: https://drive.google.com/file/d/1KAnYQ7l6ZZAjRX-CnXBNHWMLHX79oKeJ/view?usp=sharing

#csv path do João(?):
#csv_path = '/content/drive/MyDrive/Colab Notebooks/dados/20210308_escolavirtual_dadosabertos_matriculas_utf8.csv'

#csv path do Guilherme:
csv_path = '/content/drive/MyDrive/Colab Notebooks/ML_bootcamp/Dados/20210308_escolavirtual_dadosabertos_matriculas_utf8.csv'
df = pd.read_csv(
     csv_path,
     sep='|',
     encoding='UTF-16', 
     usecols=['cod_matricula', 'dt_matricula', 'cpf',  'nome', 'sexo',
              'data_nascimento',  'nacionalidade',  'login_liferay',  
              'cod_turma',  'nome_turma', 'modalidade_turma', 'cod_curso',  
              'nome_curso', 'carga_horaria',  'dt_inicio_insc', 'dt_fim_insc', 
              'dt_inicio',  'dt_fim', 'sit_turma',  'sit_matricula',  'poder',
              'esfera', 'instituicao',  'municipio_pessoa', 'uf_pessoa',
              'conteudista'])
#df


UnicodeDecodeError: ignored

Nosso processo de extração teve alguns problemas. 

O primeiro deles é que, apesar de o dataset original declarar ser UTF-8, na prática, ele é UTF-16 (descobrimos isso a partir de uma análise do dataset via VS Code). 

O segundo é que o separador '|' é utilizado, e teve que ser nomeado. Ainda assim - havia casos de linhas supostamente com mais colunas do que a tabela original. Isso indica que alguns campos podem, eventualmente, estar usando o separador '|' como caractere, gerando essa disparidade e 'quebrando' a tabela. 

A proposta inicial foi de usar os nomes das colunas, conforme apresentado no dicionário de dados (https://emnumeros.escolavirtual.gov.br/dados-abertos/dicionario/), associada ao usecols. 

Isso funcionou, mas com erros e limitações. Com alguma frequencia, algumas palavras de uma coluna vazam para a coluna seguinte. Veja-se, por exemplo, a quantidade de itens da coluna 24 (Município do usuario) que 'invadiram' a coluna 25 (uf do usuário)

In [None]:
df.uf_pessoa.unique()

array(['CE', 'BA', 'MG', 'SP', nan, 'PR', 'RS', 'GO', 'PI', 'DF', 'AM',
       'RJ', 'ES', 'SC', 'MS', 'PA', 'PB', 'RR', 'RN', 'MT', 'MA', 'SE',
       'AL', 'TO', 'PE', 'AC', 'RO', 'Florianópolis ', 'AP', 'Pelotas ',
       'Alfredo Wagner', 'Aurora', 'Fraiburgo', 'Caparaó', 'Natal',
       'Cachoeira do Arari', 'Barras', 'Guidoval', 'Formoso do Araguaia',
       'Araçatuba ', 'Barbacena', 'Santa Maria ', 'Guarulhos ',
       'Canoinhas', 'Colônia Leopoldina', 'Itabira', 'Baixo Guandu',
       'Juiz de Fora ', 'São Gabriel da Palha', 'Cururupu', 'Trindade',
       'São Paulo ', 'São Sebastião da Bela Vista', 'Goiânia ', 'Taió',
       'Uberaba ', 'Santa Rita do Sapucaí', 'Rolândia', 'Brasília ',
       'Cuiabá', 'Cruz Machado', 'Feijó', 'Cruzeiro do Sul', 'Sarzedo',
       'Araxá', 'Miradouro', 'Santarém ', 'Luziânia ', 'Petrolina ',
       'São Francisco do Sul', 'Manaus', 'Caratinga', 'Navegantes',
       'Duque de Caxias ', 'São Tomé', 'Piracema', 'Morretes',
       'Igarapava', 'T

Veja-se também a coluna escolhida para 'target': 

In [None]:
df.sit_matricula.unique()


array(['Desistente', 'Reprovado', 'Concluida', 'Trancada',
       'Não Concluído', 'CONFIRMADA          '], dtype=object)

Este "confirmada", originalmente, não pertence ao 'target'. também deve ser de coluna anterior. 

Na 'força bruta', podemos tentar identificar onde e quando os dados começam a vazar. Começemos pela coluna mais suspeita: 'nome do curso', coluna 13, composta por 288 strings diferentes. 

Olhemos as outras colunas. Nossa  hipótese é que uma coluna com grande quantidade de strings variadas - como a de nomes de cursos - possa ser a suspeita. Olhando uma coluna anterior, a própria coluna, e a coluna seguinte, podemos validar essa hipótese. 



In [None]:
#coluna anterior, aparentemente normal - todos os valores de código de curso - 282 diferentes - sao numéricos 
print(len(df.cod_curso.unique()))
print(df.cod_curso.unique())

282
[ 72 130 114 163 165 104 217  78  57  74 149 150 148 215   6 117 298  26
  81  24  84 106  25   4 115 141 315  46  10 153  11 103 116 312 136 212
 278 257 339 249 170 260 259 111 325 265 186 145 137 134  92  98 244  91
  96 107 127 211  12  76  77 135 299  58  59  60  61 336 318  35 129 241
 310 125 175 281 198 309 209 296 269 236 251 267 237  93  27  95 373 356
 120 254 302 276 334 305 300 331  73  41 273  47  49  48 293 288 206 123
  28 290 252 270 369 128 239 287  21 238 132 131  51 225 245  43  42  97
 144 277 297 143 275 119 146 183  80 223 113  40 317 201 243 240 286 284
  34 261 372   9  52 152  33 147 341 332 306 347 247 313 140   8 142 258
 234 222 274 268 248 200 124 330 338 308 311 235 122 335 283 322 345 184
 172 329 230 219 358 112 346 196 359 304 253 229 279 264  83 301 314 118
 320 250   5  63 333 202  68  30 282 231  23  86 362 272 242  75 307 323
 280 342 319 357 326 271 213 349 246 256 328 197  13  50 321 139 360 343
  39 266 377 365 214 228 218 210  99  22  69  7

In [None]:
# passemos ao número de cursos. Aparentemente, há mais cursos do que códigos de curso. Mas a primeira vista não vimos nada de errado nos campos - todos são strings. 
print(len(df.nome_curso.unique()))
print(df.nome_curso.unique())

288
['Noções Gerais de Direitos Autorais'
 'Direitos Humanos: Uma Declaração Universal'
 'Introdução ao Estudo da Economia do Setor Público'
 'Gestão Pessoal - Base da Liderança'
 'Cidadania Fiscal: Uma Receita para o Brasil'
 'Introdução à Gestão de Projetos'
 'Prevenção à lavagem de dinheiro e ao financiamento do terrorismo'
 'Gestão Estratégica de Pessoas e Planos de Carreira'
 'Siconv para Convenentes 1 - Visão Geral'
 'Sistema Eletrônico de Informações - SEI! USAR'
 'Promoção dos direitos da população em situação de rua'
 'Das políticas às ações: direitos da pessoa idosa no Brasil'
 'Conselhos dos Direitos da Pessoa Idosa'
 'Fiscalização de Projetos e Obras de Engenharia' 'Atendimento ao Cidadão'
 'Introdução à Vigilância Sanitária' 'Curso de Compostagem'
 'Formação de Pregoeiros'
 'A Previdência Social dos Servidores Públicos: Regime Próprio e Regime de Previdência'
 'Logística de Suprimentos - Lei nº 8.666/93, Pregão e Registro de Preços'
 'Provas no Processo Administrativo Disc

In [None]:
# passemos ao item seguinte, 14,  carga_horaria dos cursos. Se houver valor que não seja numérico, é sinal de que algum texto vazou do anterior na conversão do csv para o dataframe: 
print(len(df.carga_horaria.unique()))
print(df.carga_horaria.unique())

51
['10' '20' '30' '50' '40' '100' '8' '60' '35' '36' '28' '16' '15' '12'
 '25' '80' '5' '24' '49' '250' '2' '4' '26' '45' '21'
 ' M2 - Solicitação de Recursos para Ações de Resposta' 20 35 30 10 50 40
 16 100 8 60 25 80 15 5 12 28 26 24 36 250 45 2 49 4 21]



Parece que encontramos!' M2 - Solicitação de Recursos pra Ações de Resposta'


Olhando o próprio portal, encontramos nosso suspeito com a boca na botija: https://escolavirtual.gov.br/curso/349. O curso se chama "S2ID - Municipal | M2 - Solicitação de Recursos para Ações de Resposta". Ele usa no nome o separador '|", e portanto cria uma coluna a mais - e joga os dados correspondentes para as colunas subsequentes, bagunçando o resto do dataframe. 

Supostamente, editando o CSV original e trocando o 'pipe' ou seja,  alterando todas as strings 

'S2ID - Municipal | M2 - Solicitação de Recursos para Ações de Resposta' 
para 

'S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta', 

e depois recriando o dataframe, o problema se resolveria. 

Vamos tentar fazer isso. 


In [None]:
import re
import io

In [None]:
# depois de rodar o código, marcamos como 'comentado'. assim, evitamos recriar um dataset de um giga a cada rodada... 


#código de substituição de strings encontrado em https://stackoverflow.com/questions/47336108/python-replace-a-string-in-a-csv-file e adaptado:
#código de utilização de io para permitir o encoding utf 16 le aqui - https://stackoverflow.com/questions/10058591/how-can-i-open-utf-16-files-on-python-2-x/10058718, com documentação aqui - https://docs.python.org/3/library/io.html#io.open



# # abrir o  csv e ler como string de texto
# with io.open(csv_path, 'r', encoding='utf-16-le') as f:
#      csv_text = f.read()

# # substituir
# find_str = 'S2ID - Municipal | M2 - Solicitação de Recursos para Ações de Resposta'
# replace_str = 'S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta'
# new_csv_str = re.sub(find_str, replace_str, csv_text)
# # abrir e salvar o arquivo novo 
new_csv_path = '/content/drive/MyDrive/Colab Notebooks/ML_bootcamp/Dados/20210308_escolavirtual_dadosabertos_matriculas_utf16_consertado.csv' 
# with open(new_csv_path, 'w') as f:
#      f.write(new_csv_str)

Aparentemente, funcionou. Vamos criar outro dataframe para tentar identificar? 



In [None]:

# importando o CSV a partir do link com os separadores e encodings corretos:


#csv path do novo arquivo:
csv_path_fix = '/content/drive/MyDrive/Colab Notebooks/ML_bootcamp/Dados/20210308_escolavirtual_dadosabertos_matriculas_utf16_consertado.csv'
df_fix = pd.read_csv(
     csv_path_fix,
     sep='|',
     #encoding='UTF-16', 
     usecols=['cod_matricula', 'dt_matricula', 'cpf',  'nome', 'sexo',
              'data_nascimento',  'nacionalidade',  'login_liferay',  
              'cod_turma',  'nome_turma', 'modalidade_turma', 'cod_curso',  
              'nome_curso', 'carga_horaria',  'dt_inicio_insc', 'dt_fim_insc', 
              'dt_inicio',  'dt_fim', 'sit_turma',  'sit_matricula',  'poder',
              'esfera', 'instituicao',  'municipio_pessoa', 'uf_pessoa',
              'conteudista'])
df_fix


  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,cod_matricula,dt_matricula,cpf,nome,sexo,data_nascimento,nacionalidade,login_liferay,cod_turma,nome_turma,modalidade_turma,cod_curso,nome_curso,carga_horaria,dt_inicio_insc,dt_fim_insc,dt_inicio,dt_fim,sit_turma,sit_matricula,poder,esfera,instituicao,municipio_pessoa,uf_pessoa,conteudista
0,810778,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1232,Turma JUN/2019,A distância,72,Noções Gerais de Direitos Autorais,10,2019-05-31,2019-06-27,2019-06-11,2019-07-11,CONCLUIDA,Desistente,,,,Caucaia,CE,NUTEAD - UEPG
1,810115,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1193,Turma JUN/2019,A distância,130,Direitos Humanos: Uma Declaração Universal,20,2019-05-31,2019-06-27,2019-06-11,2019-07-11,CONCLUIDA,Reprovado,,,,Caucaia,CE,MMFDH
2,810417,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1221,Turma JUN/2019,A distância,114,Introdução ao Estudo da Economia do Setor Público,30,2019-05-31,2019-06-27,2019-06-11,2019-07-21,CONCLUIDA,Concluida,,,,Caucaia,CE,STN
3,815247,2019-06-12,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1240,Turma JUN/2019,A distância,163,Gestão Pessoal - Base da Liderança,50,2019-05-31,2019-06-27,2019-06-12,2019-08-11,CONCLUIDA,Concluida,,,,Caucaia,CE,RFB
4,810696,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1173,Turma JUN/2019,A distância,165,Cidadania Fiscal: Uma Receita para o Brasil,20,2019-05-31,2019-06-27,2019-06-11,2019-07-11,CONCLUIDA,Desistente,,,,Caucaia,CE,RFB
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4192233,811186,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1199,Turma JUN/2019,A distância,107,Planejamento Estratégico para Organizações Púb...,40,2019-05-31,2019-06-27,2019-06-11,2019-07-31,CONCLUIDA,Concluida,,,,Caucaia,CE,Ministério da Economia
4192234,815324,2019-06-12,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1174,Turma JUN/2019,A distância,122,MROSC - Planejamento e Transparência,20,2019-05-31,2019-06-27,2019-06-12,2019-07-12,CONCLUIDA,Desistente,,,,Caucaia,CE,Ministério da Economia
4192235,809551,2019-06-10,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1234,Turma JUN/2019,A distância,129,Educação em Direitos Humanos,30,2019-05-31,2019-06-27,2019-06-10,2019-07-20,CONCLUIDA,Concluida,,,,Caucaia,CE,MMFDH
4192236,810748,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1279,Turma JUN/2019,A distância,172,Educação Fiscal - Estado e Tributação,40,2019-05-31,2019-06-27,2019-06-11,2019-07-31,CONCLUIDA,Desistente,,,,Caucaia,CE,Enap


Aparentemente funcionou! E com um efeito colateral positivo: Quando lemos e reescrevemos o arquivo para gerar uma nova planilha, ele acabou gravando em UTF-8, aparentemente, dispensando novo encoding. 

Vamos explorar as medidas que davam erro para identificar. 

Por exemplo: 


In [None]:
#tentando no item 14, carga_horaria, comparando os dois dataframes
print(len(df.carga_horaria.unique()))
print(len(df_fix.carga_horaria.unique()))
print(df.carga_horaria.unique())
print(df_fix.carga_horaria.unique())

51
51
['10' '20' '30' '50' '40' '100' '8' '60' '35' '36' '28' '16' '15' '12'
 '25' '80' '5' '24' '49' '250' '2' '4' '26' '45' '21'
 ' M2 - Solicitação de Recursos para Ações de Resposta' 20 35 30 10 50 40
 16 100 8 60 25 80 15 5 12 28 26 24 36 250 45 2 49 4 21]
['10' '20' '30' '50' '40' '100' '8' '60' '35' '36' '28' '16' '15' '12'
 '25' '80' '5' '24' '49' '250' '2' '4' '26' '45' '21'
 'S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta'
 20 35 30 10 50 40 16 100 8 60 25 80 15 5 12 28 26 24 36 250 45 2 49 4 21]


Estranho! O dado vazou, mas agora com o nome completo! 

Precisamos verificar se existe algum problema em camada anterior. 



In [None]:
#Começando por comparar as de nome do curso: 

print(len(df.nome_curso.unique()))
print(len(df_fix.nome_curso.unique()))
print(df.nome_curso.unique())
print(df_fix.nome_curso.unique())

#ao que parece, o nome do curso foi consertado entre uma e outra, mas ainda há um s2id qparentemente com problemas. 

288
288
['Noções Gerais de Direitos Autorais'
 'Direitos Humanos: Uma Declaração Universal'
 'Introdução ao Estudo da Economia do Setor Público'
 'Gestão Pessoal - Base da Liderança'
 'Cidadania Fiscal: Uma Receita para o Brasil'
 'Introdução à Gestão de Projetos'
 'Prevenção à lavagem de dinheiro e ao financiamento do terrorismo'
 'Gestão Estratégica de Pessoas e Planos de Carreira'
 'Siconv para Convenentes 1 - Visão Geral'
 'Sistema Eletrônico de Informações - SEI! USAR'
 'Promoção dos direitos da população em situação de rua'
 'Das políticas às ações: direitos da pessoa idosa no Brasil'
 'Conselhos dos Direitos da Pessoa Idosa'
 'Fiscalização de Projetos e Obras de Engenharia' 'Atendimento ao Cidadão'
 'Introdução à Vigilância Sanitária' 'Curso de Compostagem'
 'Formação de Pregoeiros'
 'A Previdência Social dos Servidores Públicos: Regime Próprio e Regime de Previdência'
 'Logística de Suprimentos - Lei nº 8.666/93, Pregão e Registro de Preços'
 'Provas no Processo Administrativo 

In [None]:
#tentando a variável anterior: 

print(len(df.cod_curso.unique()))
print(len(df_fix.cod_curso.unique()))
print(df.cod_curso.unique())
print(df_fix.cod_curso.unique())

282
282
[ 72 130 114 163 165 104 217  78  57  74 149 150 148 215   6 117 298  26
  81  24  84 106  25   4 115 141 315  46  10 153  11 103 116 312 136 212
 278 257 339 249 170 260 259 111 325 265 186 145 137 134  92  98 244  91
  96 107 127 211  12  76  77 135 299  58  59  60  61 336 318  35 129 241
 310 125 175 281 198 309 209 296 269 236 251 267 237  93  27  95 373 356
 120 254 302 276 334 305 300 331  73  41 273  47  49  48 293 288 206 123
  28 290 252 270 369 128 239 287  21 238 132 131  51 225 245  43  42  97
 144 277 297 143 275 119 146 183  80 223 113  40 317 201 243 240 286 284
  34 261 372   9  52 152  33 147 341 332 306 347 247 313 140   8 142 258
 234 222 274 268 248 200 124 330 338 308 311 235 122 335 283 322 345 184
 172 329 230 219 358 112 346 196 359 304 253 229 279 264  83 301 314 118
 320 250   5  63 333 202  68  30 282 231  23  86 362 272 242  75 307 323
 280 342 319 357 326 271 213 349 246 256 328 197  13  50 321 139 360 343
  39 266 377 365 214 228 218 210  99  22  6

Descobrimos que antes do nome do curso, não há problemas. 
Vamos tentar analisar as linhas que contém esse erro, na versão original. Para tanto, vamos desenhar uma função que identifica e replica as linhas em que uma string aparecer. Depois, vamos rodar essa função tanto no documento original quanto no documento 'consertado', para ver que erro aconteceu: 

In [None]:
# daqui - https://thispointer.com/python-search-strings-in-a-file-and-get-line-numbers-of-lines-containing-the-string/

import re
import io

def search_string_in_file(file_name, string_to_search, encoding):
    """Search for the given string in file and return lines containing that string,
    along with line numbers"""
    line_number = 0
    list_of_results = []
    # Open the file in read only mode
    with io.open(file_name, 'r', encoding=encoding) as read_obj:#
        # Read all lines in the file one by one
        for line in read_obj:
            # For each line, check if line contains the string
            line_number += 1
            #print(line_number)
            if string_to_search in line:
                # If yes, then add the line number & line as a tuple in the list
                #print(line)
                list_of_results.append((line_number, line.rstrip()))
    # Return list of tuples containing line numbers and lines where string is found
    return list_of_results

In [None]:
search_string_in_file(csv_path,'M2 - Solicitação de Recursos para Ações de Resposta', 'utf-16-le')

[(2589,
  '4252699|2021-01-27|479.***.***.41|Guilherme Evangelista da Silva|masculino|1999-12-15|0||5831|Turma JAN/2021|A distância|349|S2ID - Municipal | M2 - Solicitação de Recursos para Ações de Resposta|40|2020-12-29|2021-02-01|2021-01-27|2021-02-26|CONFIRMADA          |Concluida||||Florianópolis |SC|MDR'),
 (12447,
  '4037704|2020-12-02|259.***.***.00|GUSTAVO ANTONIO REISSIG|masculino|1955-10-13|0||5731|Turma DEZ/2020|A distância|349|S2ID - Municipal | M2 - Solicitação de Recursos para Ações de Resposta|40|2020-11-29|2021-01-01|2020-12-02|2021-01-21|CONFIRMADA          |Concluida|Executivo|Federal|Ministério da Economia|Pelotas |RS|MDR'),
 (12901,
  '4224600|2021-01-21|511.***.***.04|Gustavo Barcelos Tomé|masculino|1962-10-03|0||5831|Turma JAN/2021|A distância|349|S2ID - Municipal | M2 - Solicitação de Recursos para Ações de Resposta|40|2020-12-29|2021-02-01|2021-01-21|2021-02-20|CONFIRMADA          |Não Concluído|Executivo|Municipal||Alfredo Wagner|SC|MDR'),
 (18966,
  '3950439|2

In [None]:
search_string_in_file(csv_path_fix, 'M2 - Solicitação de Recursos para Ações de Resposta', 'utf-8')

[(540,
  '2884632|2020-04-16|139.***.***.81|Guilherme Cruzatto Cancela|masculino|1999-01-15|0||2534|Turma ABR/2020|A distância|286|S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta- M1 - Registro e Reconhecimento|40|2020-03-31|2020-05-01|2020-04-16|2020-06-05|CONCLUIDA           |Desistente||Municipal||Ubá|MG|MDR'),
 (2270,
  '1829176|2020-04-06|055.***.***.70|Guilherme dos Santos Leite Nery|masculino|1984-08-08|0||2534|Turma ABR/2020|A distância|286|S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta- M1 - Registro e Reconhecimento|40|2020-03-31|2020-05-01|2020-04-06|2020-05-26|CONCLUIDA           |Desistente||||Rio de Janeiro |RJ|MDR'),
 (2589,
  '4252699|2021-01-27|479.***.***.41|Guilherme Evangelista da Silva|masculino|1999-12-15|0||5831|Turma JAN/2021|A distância|349|S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta|S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta|40|2020-12-29|2021-02-01|2021-01-27

Percebemos que nossa regex de substituição não funcionou. 

Ele substituiu, por exemplo, na linha 2589, de 

* "S2ID - Municipal | M2 - Solicitação de Recursos para Ações de Resposta" 

para 

* "S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta|S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta|.

Por sua vez, substituiu , na linha 540, de 

* S2ID - Municipal - M1 - Registro e Reconhecimento

para 

* S2ID - Municipal - M2 - Solicitação de Recursos para Ações de Resposta- M1 - Registro e Reconhecimento

Em outras palavras: nossa função regex de substituição está comproblemas: está acrescentando, ao invés de substituir, e está inclusive incluindo onde encontra o radical inicial, e não a expressão toda. 

In [None]:
print('primeiro caso')
print('linha original')
print(df.iloc[2587])
print(' ')
print ('tentativa de correção')
print(df_fix.iloc[2587])
print(' ')
print('segundo caso')
print('linha original')
print(df.iloc[538])
print(' ')
print ('tentativa de correção')
print(df_fix.iloc[538])

primeiro caso
linha original
cod_matricula                                                 4252699
dt_matricula                                               2021-01-27
cpf                                                    479.***.***.41
nome                                   Guilherme Evangelista da Silva
sexo                                                        masculino
data_nascimento                                            1999-12-15
nacionalidade                                                       0
login_liferay                                                     NaN
cod_turma                                                        5831
nome_turma                                             Turma JAN/2021
modalidade_turma                                          A distância
cod_curso                                                         349
nome_curso                                          S2ID - Municipal 
carga_horaria        M2 - Solicitação de Recursos para Ações 

In [None]:
#Depois de rodado, comentamos tudo, assim não criamos um novo csv de 1 GB a cada rodada. 
# spoiler: o problema é que faltava 'escapar' o caractere |, fazendo um \|, ao definir a RegEx de substituição. 

          # #Vamos rever nosso algoritmo de RegEx de conversão: 

# substituição via REGEX
# importar... 
import re
import io
csv_path = '/content/drive/MyDrive/Colab Notebooks/ML_bootcamp/Dados/20210308_escolavirtual_dadosabertos_matriculas_utf8.csv'
# abrir CSV e ler como texto: 
with io.open(csv_path, 'r', encoding='utf-16-le') as f:
    csv_text = f.read()
# substituir: 
find_str = '\| M2 - Solicitação de Recursos para Ações de Resposta'
replace_str = '- M2 - Solicitação de Recursos para Ações de Resposta'
new_csv_str = re.sub(find_str, replace_str, csv_text)
# abrir o novo arquivo e salvar 
new_csv_path = '/content/drive/MyDrive/Colab Notebooks/ML_bootcamp/Dados/20210308_testebug.csv' # or whatever path and name you want
with open(new_csv_path, 'w') as f:
    f.write(new_csv_str)


Testando pra ver se o novo dataframe funcionou... criando o dataframe e indo direto para a primeira coluna que tinha erro:

# Comece daqui para rodar o relatório final

In [None]:
import pandas as pd
import numpy as np

final_csv_path = '/content/drive/MyDrive/Colab Notebooks/ML_bootcamp/Dados/20210308_testebug.csv'
df_final = pd.read_csv(
     final_csv_path ,
     sep='|',
     encoding='UTF8')
df_final 

Unnamed: 0,cod_matricula,dt_matricula,cpf,nome,sexo,data_nascimento,nacionalidade,login_liferay,cod_turma,nome_turma,modalidade_turma,cod_curso,nome_curso,carga_horaria,dt_inicio_insc,dt_fim_insc,dt_inicio,dt_fim,sit_turma,sit_matricula,poder,esfera,instituicao,municipio_pessoa,uf_pessoa,conteudista
0,810778,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1232,Turma JUN/2019,A distância,72,Noções Gerais de Direitos Autorais,10,2019-05-31,2019-06-27,2019-06-11,2019-07-11,CONCLUIDA,Desistente,,,,Caucaia,CE,NUTEAD - UEPG
1,810115,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1193,Turma JUN/2019,A distância,130,Direitos Humanos: Uma Declaração Universal,20,2019-05-31,2019-06-27,2019-06-11,2019-07-11,CONCLUIDA,Reprovado,,,,Caucaia,CE,MMFDH
2,810417,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1221,Turma JUN/2019,A distância,114,Introdução ao Estudo da Economia do Setor Público,30,2019-05-31,2019-06-27,2019-06-11,2019-07-21,CONCLUIDA,Concluida,,,,Caucaia,CE,STN
3,815247,2019-06-12,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1240,Turma JUN/2019,A distância,163,Gestão Pessoal - Base da Liderança,50,2019-05-31,2019-06-27,2019-06-12,2019-08-11,CONCLUIDA,Concluida,,,,Caucaia,CE,RFB
4,810696,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1173,Turma JUN/2019,A distância,165,Cidadania Fiscal: Uma Receita para o Brasil,20,2019-05-31,2019-06-27,2019-06-11,2019-07-11,CONCLUIDA,Desistente,,,,Caucaia,CE,RFB
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4192233,811186,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1199,Turma JUN/2019,A distância,107,Planejamento Estratégico para Organizações Púb...,40,2019-05-31,2019-06-27,2019-06-11,2019-07-31,CONCLUIDA,Concluida,,,,Caucaia,CE,Ministério da Economia
4192234,815324,2019-06-12,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1174,Turma JUN/2019,A distância,122,MROSC - Planejamento e Transparência,20,2019-05-31,2019-06-27,2019-06-12,2019-07-12,CONCLUIDA,Desistente,,,,Caucaia,CE,Ministério da Economia
4192235,809551,2019-06-10,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1234,Turma JUN/2019,A distância,129,Educação em Direitos Humanos,30,2019-05-31,2019-06-27,2019-06-10,2019-07-20,CONCLUIDA,Concluida,,,,Caucaia,CE,MMFDH
4192236,810748,2019-06-11,605.***.***.77,Guilherme carvalho pinheiro,masculino,1992-10-21,0,,1279,Turma JUN/2019,A distância,172,Educação Fiscal - Estado e Tributação,40,2019-05-31,2019-06-27,2019-06-11,2019-07-31,CONCLUIDA,Desistente,,,,Caucaia,CE,Enap


In [None]:
#tentando no item 14, carga_horaria, comparando os dois dataframes
print('bugado')
print(len(df.carga_horaria.unique()))
print(df.carga_horaria.unique())
print('consertado')
print(len(df_final.carga_horaria.unique()))
print(df_final.carga_horaria.unique())

bugado
51
['10' '20' '30' '50' '40' '100' '8' '60' '35' '36' '28' '16' '15' '12'
 '25' '80' '5' '24' '49' '250' '2' '4' '26' '45' '21'
 ' M2 - Solicitação de Recursos para Ações de Resposta' 20 35 30 10 50 40
 16 100 8 60 25 80 15 5 12 28 26 24 36 250 45 2 49 4 21]
consertado
25
[ 10  20  30  50  40 100   8  60  35  36  28  16  15  12  25  80   5  24
  49 250   2   4  26  45  21]


In [None]:
# para confirmar, a coluna que usaremos como target: 

print('bugado')
print(len(df.sit_matricula.unique()))
print(df.sit_matricula.unique())
print('consertado')
print(len(df_final.sit_matricula.unique()))
print(df_final.sit_matricula.unique())


bugado
6
['Desistente' 'Reprovado' 'Concluida' 'Trancada' 'Não Concluído'
 'CONFIRMADA          ']
consertado
5
['Desistente' 'Reprovado' 'Concluida' 'Trancada' 'Não Concluído']


In [None]:
print('primeiro caso')
print('linha original')
print(df.iloc[2587])
print(' ')
print ('tentativa de correção')
print(df_final.iloc[2587])
print(' ')
print('segundo caso')
print('linha original')
print(df.iloc[538])
print(' ')
print ('tentativa de correção')
print(df_final.iloc[538])
   

primeiro caso
linha original
cod_matricula                                                 4252699
dt_matricula                                               2021-01-27
cpf                                                    479.***.***.41
nome                                   Guilherme Evangelista da Silva
sexo                                                        masculino
data_nascimento                                            1999-12-15
nacionalidade                                                       0
login_liferay                                                     NaN
cod_turma                                                        5831
nome_turma                                             Turma JAN/2021
modalidade_turma                                          A distância
cod_curso                                                         349
nome_curso                                          S2ID - Municipal 
carga_horaria        M2 - Solicitação de Recursos para Ações 

ANTES DE PASSSAR PARA A PRÓXIMA FASE, ALGUNS APRENDIZADOS: 

* não confie no que a base diz: mesmo alegando ser utf-8, era utf-16. 
* um caractere só pode estragar a base: um | no nome do campo, quando | também é separador, tem o poder de estragar a base. 
* um caractere só pode estragar o código: nas tentativas de reparação, gastamos horas para identificar que o caractere |, que tentávamos substituir, era na verdade um comando 'ou' no ambito da regex. A falta de um caractere de escape '\|' custou um bom trabalho. 

Podemos terminar com uma exploração inicial dos dados da base, com o Pandas Profiling. 

E começar de verdade, já com dados limpos e arrumados, no próximo caderno. Até lá!

In [None]:
#importando pandas profile, uma biblioteca para análise exploratoria de dados de forma informatizada
import sys
!{sys.executable} -m pip install -U pandas-profiling[notebook]
!jupyter nbextension enable --py widgetsnbextension

Requirement already up-to-date: pandas-profiling[notebook] in /usr/local/lib/python3.7/dist-packages (2.11.0)
Enabling notebook extension jupyter-js-widgets/extension...
      - Validating: [32mOK[0m


In [None]:

# rodando o pandas profiling, temos uma boa dimensão do dataframe para reflexão e conclusões. 
# o processo, no entanto, pode durar alguns minutos. 
# como o processo demanda muita memória, estamos rodando com o 'minimal = True'. 
# se travar com frequencia, recomenda-se ativar apenas a partir da criação do df_final. 

from pandas_profiling import ProfileReport
profile = ProfileReport(df_final, minimal=True)
profile.to_notebook_iframe()
profile.to_file("output.html")

Summarize dataset:   0%|          | 0/34 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]