# DAY 1

Um dos objetivos de uma biblioteca é garantir que os materiais informacionais estejam sendo utilizados. Os empréstimos realizados podem ser um indicador, mesmo que de forma básica (pois você não consegue garantir que haja uma leitura ou utilização real).

Por este motivo, entender a quantidade de empréstimos se torna importante.

Questões de diferentes perspectivas podem surgir como:


A quantidade de empréstimos está aumentando ou diminuindo ao decorrer dos últimos anos?
Em quais bibliotecas do sistema estão a maior quantidade de empréstimos?
Quais são os temas mais emprestados? E os menos?

Com estas e outras informações será possível entender o cenário e apresentá-lo à diretoria das bibliotecas, para que possam tomar melhores decisões na melhoria da infraestrutura, dos recursos e processos da unidade de informação.

Mas para que tudo isso seja realizado, você precisará começar com a coleta e organização dos dados para que possa trabalhar com eles nas próximas análises.

Borá lá?!

Você trabalhará com dados apenas dos últimos 10 anos disponíveis. Por isso, importe para seu Jupyter Notebook os dados de:


**[Empréstimos dos acervos das bibliotecas de UFRN](https://github.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/tree/main/Dia_1-Importando_dados/Datasets/dados_emprestimos)**

**[Exemplares do acervo](https://github.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/blob/main/Dia_1-Importando_dados/Datasets/dados_exemplares.parquet)**


Dados baixados? Ok, mas são diversas tabelas diferentes e isso dificulta o trabalho. Portanto, o seu primeiro passo é unificar em um único Dataframe todos os dados pertinentes para a análise.

Comece pelos empréstimos e você terá os dados das transações. Depois, mescle com os dados do acervo, para que você possa entender, por exemplo, de qual biblioteca era o material emprestado ou a qual tema ele se referia. Elas se relacionam pela coluna de código de barras de cada material.

Lembre-se que é muito comum receber dados nulos ou duplicados, por isso não deixe de fazer a limpeza.

###DICA
Você pode importar os dados diretamente do Github para seu notebook apenas passando o endereço do link “Raw” como origem.

Confira a documentação do Pandas das diferentes formas de entrada de dados.

###EXTRA

Deixei este [artigo da Alura](https://www.alura.com.br/artigos/arquivos-parquet) explicando um pouco mais sobre o formato de arquivo Apache Parquet e também esse meu texto que explica como você pode jogar fora os dados usando o Pandas.

Após finalizado, não deixe de postar seus resultados nas redes sociais e me marcar.
Ficarei muito feliz de ver o seu trabalho!

Boa jornada!

##1.1 IMPORTANDO OS DADOS

In [75]:
import pandas as pd

### Dados empréstimos

In [76]:
dados_emprestimos_2010_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20101.csv")
dados_emprestimos_2010_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20102.csv")
dados_emprestimos_2011_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20111.csv")
dados_emprestimos_2011_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20112.csv")
dados_emprestimos_2012_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20121.csv")
dados_emprestimos_2012_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20122.csv")
dados_emprestimos_2013_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20131.csv")
dados_emprestimos_2013_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20132.csv")
dados_emprestimos_2014_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20141.csv")
dados_emprestimos_2014_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20142.csv")
dados_emprestimos_2015_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20151.csv")
dados_emprestimos_2015_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20152.csv")
dados_emprestimos_2016_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20161.csv")
dados_emprestimos_2016_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20162.csv")
dados_emprestimos_2017_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20171.csv")
dados_emprestimos_2017_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20172.csv")
dados_emprestimos_2018_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20181.csv")
dados_emprestimos_2018_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20182.csv")
dados_emprestimos_2019_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20191.csv")
dados_emprestimos_2019_2 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20192.csv")
dados_emprestimos_2020_1 = pd.read_csv("https://raw.githubusercontent.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/main/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20201.csv")

### Dados parquet Acervo

In [77]:
dados_acervo = pd.read_parquet("https://github.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/raw/main/Dia_1-Importando_dados/Datasets/dados_exemplares.parquet")

##1.2 JUNTANDO OS DADOS EM APENAS UM DATAFRAME

###Primeiro concatenando os dados do empréstimo

In [78]:
dados_emprestimos = pd.concat([dados_emprestimos_2010_1, dados_emprestimos_2010_2, dados_emprestimos_2011_1,
                               dados_emprestimos_2011_2, dados_emprestimos_2012_1, dados_emprestimos_2012_2,
                               dados_emprestimos_2013_1, dados_emprestimos_2013_2, dados_emprestimos_2014_1,
                               dados_emprestimos_2014_2, dados_emprestimos_2015_1, dados_emprestimos_2015_2,
                               dados_emprestimos_2016_1, dados_emprestimos_2016_2, dados_emprestimos_2017_1,
                               dados_emprestimos_2017_2, dados_emprestimos_2018_1, dados_emprestimos_2018_2,
                               dados_emprestimos_2019_1, dados_emprestimos_2019_2, dados_emprestimos_2020_1])

In [79]:
dados_emprestimos.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario
0,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023000.0,ALUNO DE GRADUAÇÃO
1,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2008023000.0,ALUNO DE GRADUAÇÃO
2,709686,2006017618,2010/01/26 08:07:01.738000000,2010/01/04 08:08:44.081000000,2010/02/25 07:36:25.800000000,2008112000.0,ALUNO DE PÓS-GRADUAÇÃO
3,709687,L184117,2010/01/18 11:07:46.470000000,2010/01/04 08:24:21.284000000,2010/02/03 08:58:45.692000000,200721100.0,ALUNO DE GRADUAÇÃO
4,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023000.0,ALUNO DE GRADUAÇÃO


In [80]:
dados_acervo.head()

Unnamed: 0_level_0,id_exemplar,codigo_barras,colecao,biblioteca,status_material,localizacao,registro_sistema
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,5,L000003,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,694,1
1,4,L000002,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,688,1
2,3,L000001,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,638,1
3,7,L000114,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,616,5
5,10,L000041,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,657,15


### Verificando a relação das tabelas, serão mescladas usando a coluna codigo_barras

In [81]:
dados_mesclados = pd.merge(dados_emprestimos, dados_acervo, on='codigo_barras', how='inner')

In [82]:
dados_mesclados.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,registro_sistema
0,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023000.0,ALUNO DE GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225
1,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023000.0,ALUNO DE GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225
2,726965,L095049,2010/03/31 12:41:08.684000000,2010/03/01 12:40:56.212000000,2010/04/30 14:42:35.366000000,2009122000.0,ALUNO DE PÓS-GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225
3,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2008023000.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009
4,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2008023000.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009


##1.3 LIMPEZA DOS DADOS

### Verificando os tipos de dados

In [83]:
dados_mesclados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2072558 entries, 0 to 2072557
Data columns (total 13 columns):
 #   Column                Dtype  
---  ------                -----  
 0   id_emprestimo         int64  
 1   codigo_barras         object 
 2   data_renovacao        object 
 3   data_emprestimo       object 
 4   data_devolucao        object 
 5   matricula_ou_siape    float64
 6   tipo_vinculo_usuario  object 
 7   id_exemplar           int64  
 8   colecao               object 
 9   biblioteca            object 
 10  status_material       object 
 11  localizacao           int64  
 12  registro_sistema      int64  
dtypes: float64(1), int64(4), object(8)
memory usage: 221.4+ MB


### Verificando os dados duplicados

somando a quantidade de dados duplicados

In [84]:
dados_mesclados.duplicated().sum()

36

criando uma lista de dados duplicados

In [85]:
filtro = dados_mesclados.duplicated()

In [86]:
dados_mesclados[filtro]

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,registro_sistema
1,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023000.0,ALUNO DE GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225
4,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2008023000.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009
82,709686,2006017618,2010/01/26 08:07:01.738000000,2010/01/04 08:08:44.081000000,2010/02/25 07:36:25.800000000,2008112000.0,ALUNO DE PÓS-GRADUAÇÃO,195347,Acervo Circulante,Biblioteca Setorial Prof. Rodolfo Helinski - E...,REGULAR,640,75019
101,709687,L184117,2010/01/18 11:07:46.470000000,2010/01/04 08:24:21.284000000,2010/02/03 08:58:45.692000000,200721100.0,ALUNO DE GRADUAÇÃO,131639,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,609,44494
238,709698,2009047725,2010/01/18 14:44:41.163000000,2010/01/04 09:21:19.099000000,2010/02/02 12:02:38.444000000,2009047000.0,ALUNO DE GRADUAÇÃO,281004,Acervo Circulante,Biblioteca Setorial do Centro Ciências da Saúd...,REGULAR,651,123552
239,709698,2009047725,2010/01/18 14:44:41.163000000,2010/01/04 09:21:19.099000000,2010/02/02 12:02:38.444000000,2009047000.0,ALUNO DE GRADUAÇÃO,281004,Acervo Circulante,Biblioteca Setorial do Centro Ciências da Saúd...,REGULAR,651,123552
336,709704,2006021442,2010/01/17 18:56:43.923000000,2010/01/04 09:58:46.522000000,2010/02/01 13:59:02.528000000,2008010000.0,ALUNO DE GRADUAÇÃO,199419,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,699,77866
337,709704,2006021442,2010/01/17 18:56:43.923000000,2010/01/04 09:58:46.522000000,2010/02/01 13:59:02.528000000,2008010000.0,ALUNO DE GRADUAÇÃO,199419,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,699,77866
338,709704,2006021442,2010/01/17 18:56:43.923000000,2010/01/04 09:58:46.522000000,2010/02/01 13:59:02.528000000,2008010000.0,ALUNO DE GRADUAÇÃO,199419,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,699,77866
339,709704,2006021442,2010/01/17 18:56:43.923000000,2010/01/04 09:58:46.522000000,2010/02/01 13:59:02.528000000,2008010000.0,ALUNO DE GRADUAÇÃO,199419,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,699,77866


###Removendo os dados duplicados

In [87]:
dados_mesclados.drop_duplicates(inplace=True)

In [88]:
dados_mesclados.duplicated().sum()

0

### Verificando dados nulos

In [89]:
dados_mesclados.isna()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,registro_sistema
0,False,False,True,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,True,False,False,False,False,False,False,False,False,False,False
5,False,False,True,False,False,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2072553,False,False,True,False,False,False,False,False,False,False,False,False,False
2072554,False,False,True,False,False,False,False,False,False,False,False,False,False
2072555,False,False,True,False,False,False,False,False,False,False,False,False,False
2072556,False,False,True,False,True,False,False,False,False,False,False,False,False


In [90]:
dados_mesclados.isna().sum()

id_emprestimo                 0
codigo_barras                 0
data_renovacao          1162077
data_emprestimo               0
data_devolucao             6178
matricula_ou_siape         2893
tipo_vinculo_usuario          0
id_exemplar                   0
colecao                       0
biblioteca                    0
status_material               0
localizacao                   0
registro_sistema              0
dtype: int64

In [91]:
dados_mesclados.isna().sum().sum()

1171148

#DAY 2

Hoje é o segundo dia do seu desafio #7DaysOfCode com Python Pandas, bora praticar?


Ontem você importou e organizou os dados. Hoje, você irá começar a manipulá-los, ou seja, tirar o que não for necessário, agrupar dados, atribuir novas informações, etc.


Claro, os dados precisam fazer sentido e estar preparados para o contexto da análise a ser realizada. Por isso, a “limpeza” dos dados é uma parte essencial em um projeto de ciência de dados.


Você irá iniciar a limpeza e atribuir mais contexto aos seus dados para depois aprofundar-se nas análises.


A Ciência de Dados é uma área interdisciplinar que abrange programação, matemática/estatística e conhecimento do negócio. Seu objetivo é extrair de dados, informações úteis que agregam valor e resolvem problemas. Entender o negócio é fundamental para que não se tenha análises sem explicações ou mesmo sem o foco necessário para a resolução dos problemas.


Você deve ter visto que tem uma coluna identificada como “localização” e diversos números nela, mas você sabe o que significam estes números?



"Os itens do acervo em uma biblioteca são organizados por um sistema de classificação de acordo com o respectivo tema. Existem diversos sistemas, mas este conjunto está de acordo com a CDU - Classificação Decimal Universal. Esta classificação é decimal, pois varia de acordo com a classe de cada assunto:



000 a 099: Generalidades. Ciência e conhecimento.

100 a 199: Filosofia e psicologia.

200 a 299: Religião.

300 a 399: Ciências sociais.

400 a 499: Classe vaga. Provisoriamente não ocupada.

500 a 599: Matemática e ciências naturais.

600 a 699: Ciências aplicadas.

700 a 799: Belas artes.

800 a 899: Linguagem. Língua. Linguística.

900 a 999: Geografia. Biografia. História.



Portanto, se um material tiver um código de localização 720, ele está dentro da classe geral de “Belas Artes”; ou se tiver um código 028, estará dentro da classe geral de “Generalidades. Ciência e conhecimento”.

Para isso, crie uma nova coluna com os valores da localização, para refletir a respectiva classe geral na CDU.


Você precisará ainda excluir alguns dados e modificar outros.  


A coluna "registro_sistema", por exemplo, não está fazendo sentido para essa análise, por isso você pode exclui-la.
Já a coluna da matricula (“matricula_ou_siape”) não está com um formato muito legível. Transforme-a em formato String.

###DICA
Para mapear os valores, você pode usar uma lógica condicional de acordo com a numeração e armazená-los em uma lista.

In [92]:
dados_mesclados.columns

Index(['id_emprestimo', 'codigo_barras', 'data_renovacao', 'data_emprestimo',
       'data_devolucao', 'matricula_ou_siape', 'tipo_vinculo_usuario',
       'id_exemplar', 'colecao', 'biblioteca', 'status_material',
       'localizacao', 'registro_sistema'],
      dtype='object')

### Mapeando o CDU

In [93]:
def mapear_classe(codigo):
    if 0 <= codigo <= 99:
        return "Generalidades. Ciência e conhecimento"
    elif 100 <= codigo <= 199:
        return "Filosofia e psicologia"
    elif 200 <= codigo <= 299:
        return "Religião"
    elif 300 <= codigo <= 399:
        return "Ciências sociais"
    elif 400 <= codigo <= 499:
        return "Classe vaga. Provisoriamente não ocupada"
    elif 500 <= codigo <= 599:
        return "Matemática e ciências naturais"
    elif 600 <= codigo <= 699:
        return "Ciências aplicadas"
    elif 700 <= codigo <= 799:
        return "Belas artes"
    elif 800 <= codigo <= 899:
        return "Linguagem. Língua. Linguística"
    elif 900 <= codigo <= 999:
        return "Geografia. Biografia. História"
    else:
        return "Classe não identificada"

In [94]:
dados_mesclados.loc[:, 'classe_cdu'] = dados_mesclados['localizacao'].apply(mapear_classe)

In [95]:
dados_mesclados.isna().sum()

id_emprestimo                 0
codigo_barras                 0
data_renovacao          1162077
data_emprestimo               0
data_devolucao             6178
matricula_ou_siape         2893
tipo_vinculo_usuario          0
id_exemplar                   0
colecao                       0
biblioteca                    0
status_material               0
localizacao                   0
registro_sistema              0
classe_cdu                    0
dtype: int64

In [96]:
dados_mesclados


Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,registro_sistema,classe_cdu
0,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2.008023e+09,ALUNO DE GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225,Ciências aplicadas
2,726965,L095049,2010/03/31 12:41:08.684000000,2010/03/01 12:40:56.212000000,2010/04/30 14:42:35.366000000,2.009122e+09,ALUNO DE PÓS-GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225,Ciências aplicadas
3,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2.008023e+09,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009,Ciências aplicadas
5,717763,L167050,,2010/02/11 11:16:30.335000000,2010/03/04 08:54:32.262000000,2.008050e+09,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009,Ciências aplicadas
6,729996,L167050,2010/03/17 09:08:26.874000000,2010/03/04 13:36:26.599000000,2010/03/31 18:04:29.669000000,2.007226e+08,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009,Ciências aplicadas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2072553,2989018,2009036492,,2020/03/17 19:49:10.187000000,2020/12/03 08:12:20.000000000,2.015011e+10,ALUNO DE GRADUAÇÃO,274820,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,676,120845,Ciências aplicadas
2072554,2989020,2014062640,,2020/03/17 19:51:15.700000000,2021/01/07 11:16:28.000000000,2.019004e+10,ALUNO DE GRADUAÇÃO,1157915,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,228,213248,Religião
2072555,2989032,2018003324,,2020/03/17 20:00:11.416000000,2021/08/30 13:29:44.000000000,2.019102e+10,ALUNO DE PÓS-GRADUAÇÃO,1317173,Acervo Circulante,Biblioteca Setorial da Faculdade de Ciências d...,REGULAR,784,255835,Belas artes
2072556,2989049,2006024313,,2020/03/17 20:47:18.741000000,,2.015013e+10,ALUNO DE GRADUAÇÃO,206073,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,663,82178,Ciências aplicadas


### Excluindo coluna 'registro_sistema'

In [97]:
dados_mesclados.drop(columns=['registro_sistema'],inplace=True)

### Modificando os dados da matrícula

In [101]:
dados_mesclados['matricula_ou_siape'] = dados_mesclados['matricula_ou_siape'].astype('string')

In [102]:
dados_mesclados.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,classe_cdu
0,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023265.0,ALUNO DE GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,Ciências aplicadas
2,726965,L095049,2010/03/31 12:41:08.684000000,2010/03/01 12:40:56.212000000,2010/04/30 14:42:35.366000000,2009121584.0,ALUNO DE PÓS-GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,Ciências aplicadas
3,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2008023265.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,Ciências aplicadas
5,717763,L167050,,2010/02/11 11:16:30.335000000,2010/03/04 08:54:32.262000000,2008050352.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,Ciências aplicadas
6,729996,L167050,2010/03/17 09:08:26.874000000,2010/03/04 13:36:26.599000000,2010/03/31 18:04:29.669000000,200722565.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,Ciências aplicadas
