<a href="https://colab.research.google.com/github/LuizGustavo8/7DaysOfCode/blob/main/7DaysOfCode.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dia 1 - Explorar dados de empréstimos dos acervos do sistema de bibliotecas da UFRN.

Desafio: Dados baixados? Ok, mas são diversas tabelas diferentes e isso dificulta o trabalho. Portanto, o seu primeiro passo é **unificar** em um único Dataframe todos os dados pertinentes para a análise.

Comece pelos **empréstimos** e você terá os dados das transações. Depois, **mescle** com os dados do **acervo**, para que você possa entender, por exemplo, de qual biblioteca era o material emprestado ou a qual tema ele se referia. Elas se relacionam pela coluna de **código de barras** de cada material.

Lembre-se que é muito comum receber **dados nulos** ou **duplicados**, por isso não deixe de fazer a **limpeza**.

Importando bibliotecas:

In [1]:
import pandas as pd

In [2]:
import glob

Importando os dados diretamente do Github para o notebook:

In [3]:
!git clone https://github.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas.git

Cloning into '7_Days_of_Code_Alura-Python-Pandas'...
remote: Enumerating objects: 282, done.[K
remote: Counting objects: 100% (62/62), done.[K
remote: Compressing objects: 100% (62/62), done.[K
remote: Total 282 (delta 29), reused 0 (delta 0), pack-reused 220[K
Receiving objects: 100% (282/282), 82.88 MiB | 6.60 MiB/s, done.
Resolving deltas: 100% (102/102), done.
Updating files: 100% (33/33), done.


Esquema para ler os múltiplos arquivos csv, definindo o data frame para os empréstimos:

In [4]:
path = f'/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/'

In [5]:
all_files = glob.glob(path + "*.csv")

In [6]:
all_files

['/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20141.csv',
 '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20122.csv',
 '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20111.csv',
 '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20191.csv',
 '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20151.csv',
 '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20201.csv',
 '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20171.csv',
 '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos/emprestimos-20131.csv',
 '/content/7_Days_of_Code_Alura-Python-P

In [7]:
li = []

In [8]:
for filename in all_files:
        df = pd.read_csv(filename)
        li.append(df)

df_emprestimos = pd.concat(li, axis=0, ignore_index=True)

In [9]:
df_emprestimos.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario
0,1659526,Y018631,,2014/01/02 07:27:19.018000000,2014/01/27 14:07:45.000000000,2011020000.0,ALUNO DE GRADUAÇÃO
1,1659527,2011018134,2014/02/02 18:59:52.193000000,2014/01/02 07:57:33.780000000,2014/02/27 16:56:46.000000000,3456619.0,DOCENTE
2,1659528,2013011501,2014/02/02 18:59:51.423000000,2014/01/02 07:57:33.891000000,2014/02/27 16:56:51.000000000,3456619.0,DOCENTE
3,1659529,2012052570,,2014/01/02 08:01:27.966000000,2014/01/21 07:16:23.000000000,2013037000.0,ALUNO DE GRADUAÇÃO
4,1659530,2012029554,2014/01/13 09:05:33.092000000,2014/01/02 08:04:35.150000000,2014/01/20 18:04:37.000000000,2013013000.0,ALUNO DE GRADUAÇÃO


Importando os dados dos exemplares, arquivo parquet:

In [10]:
parquet_path = '/content/7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_exemplares.parquet'

parquet_data = pd.read_parquet(parquet_path)

df_exemplares = parquet_data

In [11]:
df_exemplares.head()

Unnamed: 0_level_0,id_exemplar,codigo_barras,colecao,biblioteca,status_material,localizacao,registro_sistema
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,5,L000003,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,694,1
1,4,L000002,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,688,1
2,3,L000001,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,638,1
3,7,L000114,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,616,5
5,10,L000041,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,657,15


## Análisando os dados

### Empréstimos

In [12]:
df_emprestimos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2258018 entries, 0 to 2258017
Data columns (total 7 columns):
 #   Column                Dtype  
---  ------                -----  
 0   id_emprestimo         int64  
 1   codigo_barras         object 
 2   data_renovacao        object 
 3   data_emprestimo       object 
 4   data_devolucao        object 
 5   matricula_ou_siape    float64
 6   tipo_vinculo_usuario  object 
dtypes: float64(1), int64(1), object(5)
memory usage: 120.6+ MB


In [13]:
df_emprestimos.describe(include = object)

Unnamed: 0,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,tipo_vinculo_usuario
count,2258018,972298,2258018,2251547,2258018
unique,276757,970947,2257902,2229749,8
top,2010091988,2010/11/03 00:00:00.000000000,2010/01/04 09:58:46.549000000,2012/07/02 12:35:12.024000000,ALUNO DE GRADUAÇÃO
freq,196,30,7,12,1769197


Convertendo ID e Matrícula em string e os campos de data para datetime:

In [14]:
df_emprestimos['matricula_ou_siape'] = df_emprestimos['matricula_ou_siape'].astype(str).str.rstrip('.0')
df_emprestimos['id_emprestimo'] = df_emprestimos['id_emprestimo'].astype(str)
df_emprestimos[['data_emprestimo', 'data_renovacao', 'data_devolucao']] = df_emprestimos[['data_emprestimo', 'data_renovacao', 'data_devolucao']].apply(pd.to_datetime)

In [15]:
df_emprestimos.value_counts()

id_emprestimo  codigo_barras  data_renovacao           data_emprestimo          data_devolucao           matricula_ou_siape  tipo_vinculo_usuario  
709705         2009032168     2010-01-17 18:56:43.909  2010-01-04 09:58:46.549  2010-01-20 13:14:34.464  200800989           ALUNO DE GRADUAÇÃO        7
709704         2006021442     2010-01-17 18:56:43.923  2010-01-04 09:58:46.522  2010-02-01 13:59:02.528  200800989           ALUNO DE GRADUAÇÃO        7
709698         2009047725     2010-01-18 14:44:41.163  2010-01-04 09:21:19.099  2010-02-02 12:02:38.444  2009046838          ALUNO DE GRADUAÇÃO        3
2461099        2012008348     2016-06-27 20:35:46.855  2016-06-14 11:20:33.254  2016-07-11 14:37:29.000  2015021539          ALUNO DE GRADUAÇÃO        2
2351386        2015005192     2016-01-16 07:41:19.537  2016-01-02 10:02:44.507  2016-01-30 07:52:07.000  2015315556          ALUNO MÉDIO/TÉCNICO       2
                                                                                       

Há alguns valores duplicados, vamos remove-los:

In [16]:
df_emprestimos = df_emprestimos.drop_duplicates()

In [17]:
df_emprestimos.value_counts()

id_emprestimo  codigo_barras  data_renovacao           data_emprestimo          data_devolucao       matricula_ou_siape  tipo_vinculo_usuario  
10000000       2015036976     2017-08-29 20:19:14.111  2017-08-16 16:21:35.442  2017-09-27 15:04:18  2012937973          ALUNO DE GRADUAÇÃO        1
2651525        2014077389     2018-05-17 18:54:15.716  2018-05-02 13:43:52.357  2018-05-29 14:16:35  2014078143          ALUNO DE GRADUAÇÃO        1
2651494        2010033801     2018-05-16 09:59:44.446  2018-05-02 13:17:16.834  2018-05-24 13:43:42  2014070548          ALUNO DE GRADUAÇÃO        1
2651495        2011001533     2018-05-16 09:59:44.414  2018-05-02 13:17:16.886  2018-05-24 13:43:45  2014070548          ALUNO DE GRADUAÇÃO        1
2651496        2014007624     2018-05-16 06:05:41.939  2018-05-02 13:17:21.503  2018-06-01 12:48:32  2015075781          ALUNO DE GRADUAÇÃO        1
                                                                                                               

In [18]:
df_emprestimos.isnull().sum()

id_emprestimo                 0
codigo_barras                 0
data_renovacao          1285709
data_emprestimo               0
data_devolucao             6471
matricula_ou_siape            0
tipo_vinculo_usuario          0
dtype: int64

Podemos verificar a existência de valores nulos, mas por serem referentes a data de renovação e devolução, os campos em questão podem fazer referência a livros que foram devolvidos sem renovação ou que nunca foram devolvidos, portanto é pertinente manter esses dados.

### Exemplares

In [19]:
df_exemplares.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 546237 entries, 0 to 568584
Data columns (total 7 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   id_exemplar       546237 non-null  int64 
 1   codigo_barras     546237 non-null  object
 2   colecao           546237 non-null  object
 3   biblioteca        546237 non-null  object
 4   status_material   546237 non-null  object
 5   localizacao       546237 non-null  int64 
 6   registro_sistema  546237 non-null  int64 
dtypes: int64(3), object(4)
memory usage: 33.3+ MB


Convertendo ID e Registro em string:

In [20]:
df_exemplares[['id_exemplar', 'registro_sistema']] = df_exemplares[['id_exemplar', 'registro_sistema']].astype(str)

In [21]:
df_exemplares.head()

Unnamed: 0_level_0,id_exemplar,codigo_barras,colecao,biblioteca,status_material,localizacao,registro_sistema
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,5,L000003,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,694,1
1,4,L000002,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,688,1
2,3,L000001,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,638,1
3,7,L000114,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,616,5
5,10,L000041,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,657,15


In [22]:
df_exemplares.value_counts()

id_exemplar  codigo_barras  colecao            biblioteca                                                                                status_material  localizacao  registro_sistema
10           L000041        Acervo Circulante  Biblioteca Central Zila Mamede                                                            ESPECIAL         657          15                  1
254150       2008039472     Acervo Circulante  Biblioteca Central Zila Mamede                                                            REGULAR          645          108478              1
254163       2008045487     Dissertações       Biblioteca Setorial Prof. Francisco Gurgel De Azevedo - Instituto Química - IQ            ESPECIAL         682          14666               1
254162       2008045103     Acervo Circulante  Biblioteca Central Zila Mamede                                                            REGULAR          660          108488              1
254161       2008021587     Acervo Circulante  Biblioteca Ce

In [23]:
df_exemplares.isnull().sum()

id_exemplar         0
codigo_barras       0
colecao             0
biblioteca          0
status_material     0
localizacao         0
registro_sistema    0
dtype: int64

Não há duplicados e não há valores nulos.

Unindo os DataFrames:

In [24]:
df_biblioteca = df_emprestimos.merge(df_exemplares)

In [25]:
df_biblioteca.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,registro_sistema
0,1659527,2011018134,2014-02-02 18:59:52.193,2014-01-02 07:57:33.780,2014-02-27 16:56:46,3456619,DOCENTE,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,165162
1,1703037,2011018134,NaT,2014-02-28 08:13:09.605,2014-03-14 14:07:44,2014030918,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,165162
2,1714286,2011018134,2014-03-31 08:53:53.825,2014-03-17 09:24:28.104,2014-04-16 12:32:57,2013043386,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,165162
3,1346651,2011018134,NaT,2012-10-10 09:48:48.663,2012-10-19 18:53:53,2010029542,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,165162
4,1358549,2011018134,NaT,2012-10-24 21:05:15.769,2012-11-19 19:46:16,2008013979,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,165162


# Dia 2 - Classificação CDU

Desafio: Você deve ter visto que tem uma coluna identificada como “localização” e diversos números nela, mas você sabe o que significam estes números?


"Os itens do acervo em uma biblioteca são organizados por um sistema de classificação de acordo com o respectivo tema. Existem diversos sistemas, mas este conjunto está de acordo com a CDU - Classificação Decimal Universal. Esta classificação é decimal, pois varia de acordo com a classe de cada assunto:


000 a 099: Generalidades. Ciência e conhecimento.
100 a 199: Filosofia e psicologia.
200 a 299: Religião.
300 a 399: Ciências sociais.
400 a 499: Classe vaga. Provisoriamente não ocupada.
500 a 599: Matemática e ciências naturais.
600 a 699: Ciências aplicadas.
700 a 799: Belas artes.
800 a 899: Linguagem. Língua. Linguística.
900 a 999: Geografia. Biografia. História."

Portanto, se um material tiver um código de localização 720, ele está dentro da classe geral de “Belas Artes”; ou se tiver um código 028, estará dentro da classe geral de “Generalidades. Ciência e conhecimento”.

Criando uma nova coluna com os valores da localização, para refletir a respectiva classe geral na CDU.

In [26]:
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 0) & (df_biblioteca['localizacao'] <= 99), 'assunto_livro'] = 'Generalidades_ciencia_e_conhecimento'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 100) & (df_biblioteca['localizacao'] <= 199), 'assunto_livro'] = 'Filosofia_psicologia'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 200) & (df_biblioteca['localizacao'] <= 299), 'assunto_livro'] = 'Religiao'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 300) & (df_biblioteca['localizacao'] <= 399), 'assunto_livro'] = 'Ciencias_sociais'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 400) & (df_biblioteca['localizacao'] <= 499), 'assunto_livro'] = 'Classe_vaga'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 500) & (df_biblioteca['localizacao'] <= 599), 'assunto_livro'] = 'Matematica_ciencias_naturais'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 600) & (df_biblioteca['localizacao'] <= 699), 'assunto_livro'] = 'Ciencias_aplicadas'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 700) & (df_biblioteca['localizacao'] <= 799), 'assunto_livro'] = 'Belas_artes'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 800) & (df_biblioteca['localizacao'] <= 899), 'assunto_livro'] = 'Linguagem_lingua_linguistica'
df_biblioteca.loc[(df_biblioteca['localizacao'] >= 900) & (df_biblioteca['localizacao'] <= 999), 'assunto_livro'] = 'Geografia_biografia_historia'
df_biblioteca.loc[(df_biblioteca['localizacao'].isna()), 'assunto_livro'] = 'Nao_catalogado'


Você precisará ainda excluir alguns dados e modificar outros.  

A coluna "registro_sistema", por exemplo, não está fazendo sentido para essa análise, por isso você pode exclui-la.

In [30]:
df_biblioteca = df_biblioteca.drop(['registro_sistema'], axis=1)

In [31]:
df_biblioteca.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,assunto_livro
0,1659527,2011018134,2014-02-02 18:59:52.193,2014-01-02 07:57:33.780,2014-02-27 16:56:46,3456619,DOCENTE,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,Ciencias_aplicadas
1,1703037,2011018134,NaT,2014-02-28 08:13:09.605,2014-03-14 14:07:44,2014030918,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,Ciencias_aplicadas
2,1714286,2011018134,2014-03-31 08:53:53.825,2014-03-17 09:24:28.104,2014-04-16 12:32:57,2013043386,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,Ciencias_aplicadas
3,1346651,2011018134,NaT,2012-10-10 09:48:48.663,2012-10-19 18:53:53,2010029542,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,Ciencias_aplicadas
4,1358549,2011018134,NaT,2012-10-24 21:05:15.769,2012-11-19 19:46:16,2008013979,ALUNO DE GRADUAÇÃO,918593,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,619,Ciencias_aplicadas


Não será necessário converter "matricula_ou_siape" em string pois já fizemos isso na filtrando os dados no dia anterior