# About  

The goal of this notebook is for me to practice my ability of transforming and cleaning data from a data source and releasing something that can be used for further analysis.

## On the Dataset

The data used here was collected from a open source dataset from the brazilian government. It contains information about all the projects and extension programs from the brazilian university _Universidade Federal do Triângulo Mineiro_ (UFTM) in the second semester of 2022 (period known as 2022/02). The link to download the dataset can be found [here](https://dados.gov.br/dados/conjuntos-dados/programas-e-projetos-de-extenso). I downloaded it and stored in the `./datasets/` folder with the name: `2022-2_extensions.csv`.

`Resource Name: "Informações Acadêmicas - Programas e Projetos de Extensão Universitária - 2022/02 [CSV]"`

## Requirements

Execute the cell below to download all the required libraries used in this notebook.

In [63]:
%pip install virtualenv # Install virtualenv if not already installed
%virtualenv uftm-cleaning # Create a new virtual environment
%source myenv/bin/activate # Activate the virtual environment
%pip install -r requirements.txt # Install dependencies from requirements.txt

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


UsageError: Line magic function `%virtualenv` not found.


# The Code

## Imports

In [64]:
import pandas as pd


## Exploring the dataset

In [65]:
df = pd.read_csv('datasets/2021-2_extensions.csv')
df

Unnamed: 0,ATIVIDADES DE EXTENSÃO REGISTRADAS NA PRÓ-REITORIA DE EXTENSÃO UNIVERSITÁRIA (PROEXT) EM 2021 E HOMOLOGADAS PELO CONSELHO DE EXTENSÃO UNIVERSITÁRIA (COEXT),Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,Registro,Título da Atividade,Coordenador da Atividade,Unidade UFTM,Modalidade,Área Temática Principal,Início,Término,Envio,Data do Registro,Edital,Órgão Financeiro,Valores (R$)
1,01/2021,VIII CVIP - Curso de Verão em Imunoparasitologia,Carlo Jose Freire de Oliveira,PROPPG,Curso,Saúde,01/02/2021,04/02/2021,31/12/2020,08/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----
2,02/2021,O Controle Regulatório como base para a Otimiz...,Lucas Pereira Pires,ICTE,Evento,Tecnologia e Produção,22/01/2021,28/01/2021,06/01/2021,18/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
3,03/2021,Suporte Avançado de Vida em Pediatria,Fabiana Jorge Bueno Galdino Barsam,HC,Curso,Saúde,29/01/2021,01/02/2021,30/12/2020,21/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----
4,04/2021,Jornal Ambientando: Engenharia Ambiental da UF...,Carla Eloisa Diniz dos Santos,ICTE,Projeto,Comunicação,10/02/2021,10/02/2023,08/01/2021,21/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
...,...,...,...,...,...,...,...,...,...,...,...,...,...
340,340/2021,Liga de Análises Clínicas (LAC),ALEXANDRE DE PAULA ROGERIO,ICS,Programa,Educação,06/12/2021,16/12/2022,21/10/2021,13/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
341,341/2021,II Jornada do Setembro Amarelo,TOMAS ROTELLI DE OLIVEIRA FERREIRA,ICS,Evento,Educação,20/9/2021,30/09/2021,9/12/2021,23/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
342,342/2021,Liga Acadêmica de Psicobiologia - L-Psicobio,Sionaldo Eduardo Ferreira,ICBN,Liga Acadêmica (Programa),Saúde,01/03/2021,01/12/2021,19/12/2020,12/01/2021,SIGProj - Edital PIBEX nº 07/2020 - sem bolsa,PROEXT-UFTM,----
343,,,,,,,,,,,,,


Immediately, there are some things we can notice.

* The first row of the file contains what appears to be the title of the dataset, while the columns are in the second row.
* The last row contains the date when the dataset was last updated. This is good information, but it's still metadata that is not relevant to be inside the dataset itself. Also, the second last row is empty, probably for organizational purposes in a spreadsheet.
* The first column is a "register" column, being the index column of the dataset.

In [66]:
df = pd.read_csv('datasets/2021-2_extensions.csv', skiprows=[0])
df = df.iloc[:-2]
df

Unnamed: 0,Registro,Título da Atividade,Coordenador da Atividade,Unidade UFTM,Modalidade,Área Temática Principal,Início,Término,Envio,Data do Registro,Edital,Órgão Financeiro,Valores (R$)
0,01/2021,VIII CVIP - Curso de Verão em Imunoparasitologia,Carlo Jose Freire de Oliveira,PROPPG,Curso,Saúde,01/02/2021,04/02/2021,31/12/2020,08/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----
1,02/2021,O Controle Regulatório como base para a Otimiz...,Lucas Pereira Pires,ICTE,Evento,Tecnologia e Produção,22/01/2021,28/01/2021,06/01/2021,18/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
2,03/2021,Suporte Avançado de Vida em Pediatria,Fabiana Jorge Bueno Galdino Barsam,HC,Curso,Saúde,29/01/2021,01/02/2021,30/12/2020,21/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----
3,04/2021,Jornal Ambientando: Engenharia Ambiental da UF...,Carla Eloisa Diniz dos Santos,ICTE,Projeto,Comunicação,10/02/2021,10/02/2023,08/01/2021,21/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
4,05/2021,Seminário de Comemoração do Centenário de Paul...,José Henrique Singolano Néspoli,ICENE,Curso,Educação,16/02/2021,19/04/2021,19/01/2021,21/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
...,...,...,...,...,...,...,...,...,...,...,...,...,...
337,338/2021,V Simpósio da Liga Acadêmica de Saúde Esportiv...,DANIEL FERREIRA MOREIRA LOBATO,PROPPG,Evento,Saúde,10/12/2021,10/12/2021,26/11/2021,06/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
338,339/2021,Curso de Capacitação da Rede de Atendimento a...,AILTON DE SOUZA ARAGAO,ICS,Curso,Direitos Humanos e Justiça,21/12/2021,29/12/2021,23/11/2021,09/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
339,340/2021,Liga de Análises Clínicas (LAC),ALEXANDRE DE PAULA ROGERIO,ICS,Programa,Educação,06/12/2021,16/12/2022,21/10/2021,13/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
340,341/2021,II Jornada do Setembro Amarelo,TOMAS ROTELLI DE OLIVEIRA FERREIRA,ICS,Evento,Educação,20/9/2021,30/09/2021,9/12/2021,23/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----


Here, I've dealt with the row issues. The columns appear to be well defined. Now, we shall analyze them individually.

## Column-testing

### Registro

This column has the purpose of being an index. Some questions arise here:

* Are there duplicate values? There shouldn't exist any.
* The pattern seems to be \<ID\>/\<YEAR\>, with \<ID\> being a identity number that grows one by one and the year is always 2021, since this is a database for the year of 2021. Let's look at it.

In [67]:
no_duplicates = len(df['Registro']) == len(set(df['Registro']))
pattern_checker = [str(id+1).zfill(2)+'/2021' for id in range(len(df['Registro']))]
pattern_valid = pattern_checker == list(df['Registro'])

print(f'Are there duplicates? \n{not no_duplicates}\n\n')
print(f'Is the <ID><YEAR> pattern correct? \n{pattern_valid}')

Are there duplicates? 
False


Is the <ID><YEAR> pattern correct? 
False


Surprisingly, the expected pattern doesn't work for that column. Let's see why.

In [68]:
register_list = list(df['Registro'])
len(pattern_checker) - len(register_list)

0

They have the same length. So let's check the different elements.

In [69]:
for register in pattern_checker:
    if register not in register_list:
        print(register)

300/2021
316/2021
326/2021
333/2021
335/2021
337/2021


It's handy that the initial part of the value has a similar structure to what we're expecting. We can easily search the place the value it's supposed to be at.

In [70]:
df.iloc[[299, 315, 325, 332, 334, 336]]

Unnamed: 0,Registro,Título da Atividade,Coordenador da Atividade,Unidade UFTM,Modalidade,Área Temática Principal,Início,Término,Envio,Data do Registro,Edital,Órgão Financeiro,Valores (R$)
299,300/2021 (Nº de registro alterado - ver planil...,I ENCONTRO DE TÉCNICO-ADMINISTRATIVOS EM EDUCA...,WALESKA DAYSE DIAS DE SOUSA,ICENE,Evento,Trabalho,22/03/2022,24/03/2022,05/10/2021,07/10/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
315,316/2021 (proposta cancelada),"Prospecção de oportunidades de Pesquisa, Desen...",DOUGLAS MOURA MIRANDA,Núcleo de Inovação Tecnológica,Programa,Tecnologia e Produção,1/12/2021,30/11/2026,19/10/2021,28/10/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
325,326/2021 (Nº de registro alterado - ver planil...,Anatomia descritiva e funcional do sistema art...,LEONARDO AUGUSTO LOMBARDI,ICBN,Curso,Saúde,17/01/2022,28/01/2022,22/10/2021,17/11/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
332,333/2021 (Nº de registro alterado - ver planil...,VIII SIMPÓSIO INTERNACIONAL DE ESTUDOS LINGUÍS...,ANA AMELIA CALAZANS DA ROSA,IELACHS,Evento,Educação,03/05/2022,06/05/2022,18/11/2021,24/11/2021,SIEX - Fluxo Contínuo,FUNEPU,"23.850,73"
334,335/2021 (Nº de registro alterado - ver planil...,Doação de Sangue - compromisso social,SHEILA SOARES SILVA,ICS,Projeto,Saúde,03/01/2022,31/10/2022,23/11/2021,03/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
336,337/2021 (Nº de registro alterado - ver planil...,Guia Digital Ilustrado das Angiospermas do Bai...,POLYANA NORONHA SOARES,ICENE,Projeto,Educação,06/01/2022,06/07/2022,26/11/2021,06/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----


It's easy to see now that that column contains some additional information in some rows. Let's separate that into another column.

In [71]:
def extract_info_from_register(
        register: str,
        year: str
    ) -> str:
    split_reg = register.split(year)
    if (split_reg[1] == ''):
        return '----'
    else:
        return split_reg[1]

def remove_info_in_register(
        register: str,
        year: str      
    ) -> str:
    split_reg = register.split(year)
    return split_reg[0]+year

df['Informação Registro'] = df.apply(lambda x: extract_info_from_register(x['Registro'], '2021'), axis = 1)
df['Registro'] = df.apply(lambda x: remove_info_in_register(x['Registro'], '2021'), axis = 1)
df

Unnamed: 0,Registro,Título da Atividade,Coordenador da Atividade,Unidade UFTM,Modalidade,Área Temática Principal,Início,Término,Envio,Data do Registro,Edital,Órgão Financeiro,Valores (R$),Informação Registro
0,01/2021,VIII CVIP - Curso de Verão em Imunoparasitologia,Carlo Jose Freire de Oliveira,PROPPG,Curso,Saúde,01/02/2021,04/02/2021,31/12/2020,08/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----,----
1,02/2021,O Controle Regulatório como base para a Otimiz...,Lucas Pereira Pires,ICTE,Evento,Tecnologia e Produção,22/01/2021,28/01/2021,06/01/2021,18/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----,----
2,03/2021,Suporte Avançado de Vida em Pediatria,Fabiana Jorge Bueno Galdino Barsam,HC,Curso,Saúde,29/01/2021,01/02/2021,30/12/2020,21/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----,----
3,04/2021,Jornal Ambientando: Engenharia Ambiental da UF...,Carla Eloisa Diniz dos Santos,ICTE,Projeto,Comunicação,10/02/2021,10/02/2023,08/01/2021,21/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----,----
4,05/2021,Seminário de Comemoração do Centenário de Paul...,José Henrique Singolano Néspoli,ICENE,Curso,Educação,16/02/2021,19/04/2021,19/01/2021,21/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----,----
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
337,338/2021,V Simpósio da Liga Acadêmica de Saúde Esportiv...,DANIEL FERREIRA MOREIRA LOBATO,PROPPG,Evento,Saúde,10/12/2021,10/12/2021,26/11/2021,06/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----,----
338,339/2021,Curso de Capacitação da Rede de Atendimento a...,AILTON DE SOUZA ARAGAO,ICS,Curso,Direitos Humanos e Justiça,21/12/2021,29/12/2021,23/11/2021,09/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----,----
339,340/2021,Liga de Análises Clínicas (LAC),ALEXANDRE DE PAULA ROGERIO,ICS,Programa,Educação,06/12/2021,16/12/2022,21/10/2021,13/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----,----
340,341/2021,II Jornada do Setembro Amarelo,TOMAS ROTELLI DE OLIVEIRA FERREIRA,ICS,Evento,Educação,20/9/2021,30/09/2021,9/12/2021,23/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----,----


Now that column works better and the information is kept elsewhere. I'll just change the order of the columns to have both information closer and make it more readable.

In [80]:
target_col_name = 'Informação Registro'
first_part_cols = ['Registro']
second_part_cols = [col for col in df.columns if col not in first_part_cols and col != target_col_name]
second_part_cols
df = df[first_part_cols + [target_col_name] + second_part_cols]
df.head()

Unnamed: 0,Registro,Informação Registro,Título da Atividade,Coordenador da Atividade,Unidade UFTM,Modalidade,Área Temática Principal,Início,Término,Envio,Data do Registro,Edital,Órgão Financeiro,Valores (R$)
0,01/2021,----,VIII CVIP - Curso de Verão em Imunoparasitologia,Carlo Jose Freire de Oliveira,PROPPG,Curso,Saúde,01/02/2021,04/02/2021,31/12/2020,08/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----
1,02/2021,----,O Controle Regulatório como base para a Otimiz...,Lucas Pereira Pires,ICTE,Evento,Tecnologia e Produção,22/01/2021,28/01/2021,06/01/2021,18/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
2,03/2021,----,Suporte Avançado de Vida em Pediatria,Fabiana Jorge Bueno Galdino Barsam,HC,Curso,Saúde,29/01/2021,01/02/2021,30/12/2020,21/01/2021,SIGProj - Ed. Fluxo Contínuo - 10/2017 - sem f...,Não Tem Recurso Financeiro,----
3,04/2021,----,Jornal Ambientando: Engenharia Ambiental da UF...,Carla Eloisa Diniz dos Santos,ICTE,Projeto,Comunicação,10/02/2021,10/02/2023,08/01/2021,21/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
4,05/2021,----,Seminário de Comemoração do Centenário de Paul...,José Henrique Singolano Néspoli,ICENE,Curso,Educação,16/02/2021,19/04/2021,19/01/2021,21/01/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----


In [79]:
df.iloc[[299, 315, 325, 332, 334, 336]]

Unnamed: 0,Registro,Informação Registro,Título da Atividade,Coordenador da Atividade,Unidade UFTM,Modalidade,Área Temática Principal,Início,Término,Envio,Data do Registro,Edital,Órgão Financeiro,Valores (R$)
299,300/2021,(Nº de registro alterado - ver planilha de 2022),I ENCONTRO DE TÉCNICO-ADMINISTRATIVOS EM EDUCA...,WALESKA DAYSE DIAS DE SOUSA,ICENE,Evento,Trabalho,22/03/2022,24/03/2022,05/10/2021,07/10/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
315,316/2021,(proposta cancelada),"Prospecção de oportunidades de Pesquisa, Desen...",DOUGLAS MOURA MIRANDA,Núcleo de Inovação Tecnológica,Programa,Tecnologia e Produção,1/12/2021,30/11/2026,19/10/2021,28/10/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
325,326/2021,(Nº de registro alterado - ver planilha de 2022),Anatomia descritiva e funcional do sistema art...,LEONARDO AUGUSTO LOMBARDI,ICBN,Curso,Saúde,17/01/2022,28/01/2022,22/10/2021,17/11/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
332,333/2021,(Nº de registro alterado - ver planilha de 2022),VIII SIMPÓSIO INTERNACIONAL DE ESTUDOS LINGUÍS...,ANA AMELIA CALAZANS DA ROSA,IELACHS,Evento,Educação,03/05/2022,06/05/2022,18/11/2021,24/11/2021,SIEX - Fluxo Contínuo,FUNEPU,"23.850,73"
334,335/2021,(Nº de registro alterado - ver planilha de 2022),Doação de Sangue - compromisso social,SHEILA SOARES SILVA,ICS,Projeto,Saúde,03/01/2022,31/10/2022,23/11/2021,03/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----
336,337/2021,(Nº de registro alterado - ver planilha de 2022),Guia Digital Ilustrado das Angiospermas do Bai...,POLYANA NORONHA SOARES,ICENE,Projeto,Educação,06/01/2022,06/07/2022,26/11/2021,06/12/2021,SIEX - Fluxo Contínuo,Não Tem Recurso Financeiro,----


With that, the column "Registro" is done.

### Título da Atividade