# Dia 4 - Trabalhando com Vari√°veis Categ√≥ricas

No quarto desafio do #7DaysOfCode, o objetivo ser√° entender a quantidade de empr√©stimos a partir das vari√°veis categ√≥ricas do conjunto de dados.

Vamos nessa!

## üéØ Objetivo

Este notebook tem como objetivo analisar vari√°veis categ√≥ricas presentes no conjunto de dados de empr√©stimos de uma rede de bibliotecas. A inten√ß√£o √© fornecer informa√ß√µes estrat√©gicas para a diretoria com base nos padr√µes de uso dos servi√ßos.

Ser√£o analisadas vari√°veis como:
- Tipo de v√≠nculo dos usu√°rios
- Cole√ß√£o
- Biblioteca
- Classifica√ß√£o geral da CDU

Al√©m da an√°lise quantitativa por frequ√™ncia, ser√£o levantadas poss√≠veis implica√ß√µes e estrat√©gias baseadas nas observa√ß√µes.


## üß† O que s√£o vari√°veis categ√≥ricas?

Vari√°veis categ√≥ricas (ou qualitativas) representam caracter√≠sticas n√£o-num√©ricas, e podem ser classificadas como:

- **Nominais**: categorias sem ordem natural (ex: nomes, cores, tema do livro)
- **Ordinais**: categorias com ordem impl√≠cita (ex: n√≠vel de escolaridade)

Elas se diferem das vari√°veis quantitativas (como n√∫mero de p√°ginas ou empr√©stimos), pois n√£o s√£o representadas por n√∫meros com significado matem√°tico direto.

O desafio consiste em compreender como essas vari√°veis influenciam os empr√©stimos e que insights podem ser gerados para apoio √† gest√£o.


### Importando bibliotecas e ajustando as configura√ß√µes de gr√°fico

In [18]:
import pandas as pd
import matplotlib.pyplot as plt

# Configura√ß√µes gerais de visualiza√ß√£o
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8-muted')

### Importando os arquivos `.csv`

In [20]:
dataset_completo = pd.read_csv('../desafio04/dataset_completo.csv')

# Verificando uma amostra dos dados
dataset_completo.head(3)

  dataset_completo = pd.read_csv('../desafio04/dataset_completo.csv')


Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,classe_cdu
0,709684,L095049,,2010-01-04 07:44:10.721,2010-01-05 16:26:12.662,2008023000.0,ALUNO DE GRADUA√á√ÉO,13259.0,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,Ci√™ncias aplicadas
1,709685,L167050,,2010-01-04 07:44:10.750,2010-01-12 07:34:13.934,2008023000.0,ALUNO DE GRADUA√á√ÉO,70865.0,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,Ci√™ncias aplicadas
2,709686,2006017618,2010-01-26 08:07:01.738,2010-01-04 08:08:44.081,2010-02-25 07:36:25.800,2008112000.0,ALUNO DE P√ìS-GRADUA√á√ÉO,195347.0,Acervo Circulante,Biblioteca Setorial Prof. Rodolfo Helinski - E...,REGULAR,640,Ci√™ncias aplicadas


In [21]:
# Identificando vari√°veis categ√≥ricas
dataset_completo.dtypes

id_emprestimo             int64
codigo_barras            object
data_renovacao           object
data_emprestimo          object
data_devolucao           object
matricula_ou_siape      float64
tipo_vinculo_usuario     object
id_exemplar             float64
colecao                  object
biblioteca               object
status_material          object
localizacao               int64
classe_cdu               object
dtype: object

### Distribui√ß√£o de Empr√©stimos por Tipo de V√≠nculo

In [30]:
# Frequ√™ncia absoluta

frequencia_vinculo = dataset_completo['tipo_vinculo_usuario'].value_counts()
frequencia_vinculo.head(3)

tipo_vinculo_usuario
ALUNO DE GRADUA√á√ÉO        1771903
ALUNO DE P√ìS-GRADUA√á√ÉO     320074
DOCENTE                     78285
Name: count, dtype: int64

In [31]:
# Frequ√™ncia relativa

percentual_vinculo = dataset_completo['tipo_vinculo_usuario'].value_counts(normalize=True)*100
percentual_vinculo.head(3)

tipo_vinculo_usuario
ALUNO DE GRADUA√á√ÉO        78.341120
ALUNO DE P√ìS-GRADUA√á√ÉO    14.151427
DOCENTE                    3.461213
Name: proportion, dtype: float64

In [48]:
# Criando um dataset com as duas tabelas combinadas

vinculo = pd.concat([frequencia_vinculo, percentual_vinculo.round(2)], axis=1)

vinculo = vinculo.reset_index()
vinculo.columns = ['tipo_vinculo_usuario', 'quantidade', 'percentual (%)']
vinculo

Unnamed: 0,tipo_vinculo_usuario,quantidade,percentual (%)
0,ALUNO DE GRADUA√á√ÉO,1771903,78.34
1,ALUNO DE P√ìS-GRADUA√á√ÉO,320074,14.15
2,DOCENTE,78285,3.46
3,SERVIDOR T√âCNICO-ADMINISTRATIVO,34178,1.51
4,ALUNO M√âDIO/T√âCNICO,29986,1.33
5,DOCENTE EXTERNO,24606,1.09
6,USU√ÅRIO EXTERNO,2741,0.12
7,OUTROS,6,0.0


### Distribui√ß√£o de Empr√©stimos por Cole√ß√£o

In [37]:
# Frequ√™ncia absoluta

frequencia_colecao = dataset_completo['colecao'].value_counts()
frequencia_colecao.head(3)

colecao
Acervo Circulante    2053120
Multimeios              7954
Monografias             4021
Name: count, dtype: int64

In [38]:
# Frequ√™ncia relativa

percentual_colecao = dataset_completo['colecao'].value_counts(normalize=True)*100
percentual_colecao.head(3)

colecao
Acervo Circulante    99.063846
Multimeios            0.383784
Monografias           0.194015
Name: proportion, dtype: float64

In [49]:
# Criando um dataset com as duas tabelas combinadas

colecao = pd.concat([frequencia_colecao, percentual_colecao.round(2)], axis=1)

colecao = colecao.reset_index()
colecao.columns = ['colecao', 'quantidade', 'percentual (%)']
colecao

Unnamed: 0,colecao,quantidade,percentual (%)
0,Acervo Circulante,2053120,99.06
1,Multimeios,7954,0.38
2,Monografias,4021,0.19
3,Disserta√ß√µes,2406,0.12
4,Obras de Refer√™ncia,1954,0.09
5,Publica√ß√µes de Autores do RN,866,0.04
6,Publica√ß√µes da UFRN,764,0.04
7,Teses,714,0.03
8,Folhetos,271,0.01
9,Necessidades Educacionais Espec√≠ficas,130,0.01


### Distribui√ß√£o de Empr√©stimos por Biblioteca

In [41]:
# Frequ√™ncia absoluta

frequencia_biblioteca = dataset_completo['biblioteca'].value_counts()
frequencia_biblioteca.head(3)

biblioteca
Biblioteca Central Zila Mamede                                                           1426122
Biblioteca Setorial do Centro Ci√™ncias da Sa√∫de - CCS                                     118614
Biblioteca Setorial da Faculdade de Ci√™ncias da Sa√∫de do Trairi - FACISA - Santa Cruz      77609
Name: count, dtype: int64

In [42]:
# Frequ√™ncia relativa

percentual_biblioteca = dataset_completo['biblioteca'].value_counts(normalize=True)*100
percentual_biblioteca.head(3)

biblioteca
Biblioteca Central Zila Mamede                                                           68.810946
Biblioteca Setorial do Centro Ci√™ncias da Sa√∫de - CCS                                     5.723172
Biblioteca Setorial da Faculdade de Ci√™ncias da Sa√∫de do Trairi - FACISA - Santa Cruz     3.744665
Name: proportion, dtype: float64

In [50]:
# Criando um dataset com as duas tabelas combinadas

biblioteca = pd.concat([frequencia_biblioteca, percentual_biblioteca.round(2)], axis=1)

biblioteca = biblioteca.reset_index()
biblioteca.columns = ['biblioteca', 'quantidade', 'percentual (%)']
biblioteca

Unnamed: 0,biblioteca,quantidade,percentual (%)
0,Biblioteca Central Zila Mamede,1426122,68.81
1,Biblioteca Setorial do Centro Ci√™ncias da Sa√∫d...,118614,5.72
2,Biblioteca Setorial da Faculdade de Ci√™ncias d...,77609,3.74
3,Biblioteca Setorial Prof. Alberto Moreira Camp...,66447,3.21
4,Biblioteca Setorial Prof¬™. Maria L√∫cia da Cost...,61478,2.97
5,Biblioteca Setorial Bertha Cruz Enders - ¬≠Esco...,46040,2.22
6,Biblioteca Setorial do Centro de Ci√™ncias Huma...,40744,1.97
7,Biblioteca Setorial Dr. Paulo Bezerra - EMCM/R...,32097,1.55
8,Biblioteca Setorial Prof¬™. Maria Jos√© Mamede G...,29089,1.4
9,Biblioteca Setorial Prof. Rodolfo Helinski - E...,27219,1.31


In [53]:
biblioteca['percentual (%)'].mean()

np.float64(4.545454545454546)

### Distribui√ß√£o de Empr√©stimos por Classe do CDU

In [44]:
# Frequ√™ncia absoluta

frequencia_cdu = dataset_completo['classe_cdu'].value_counts()
frequencia_cdu.head(3)

classe_cdu
Ci√™ncias aplicadas                       1425473
Ci√™ncias sociais                          369536
Generalidades. Ci√™ncia e conhecimento     251778
Name: count, dtype: int64

In [45]:
# Frequ√™ncia relativa

percentual_cdu = dataset_completo['classe_cdu'].value_counts(normalize=True)*100
percentual_cdu.head(3)

classe_cdu
Ci√™ncias aplicadas                       63.024416
Ci√™ncias sociais                         16.338289
Generalidades. Ci√™ncia e conhecimento    11.131857
Name: proportion, dtype: float64

In [51]:
# Criando um dataset com as duas tabelas combinadas

cdu = pd.concat([frequencia_cdu, percentual_cdu.round(2)], axis=1)

cdu = cdu.reset_index()
cdu.columns = ['classe_cdu', 'quantidade', 'percentual (%)']
cdu

Unnamed: 0,classe_cdu,quantidade,percentual (%)
0,Ci√™ncias aplicadas,1425473,63.02
1,Ci√™ncias sociais,369536,16.34
2,Generalidades. Ci√™ncia e conhecimento,251778,11.13
3,Matem√°tica e ci√™ncias naturais,68744,3.04
4,Religi√£o,62295,2.75
5,Filosofia e psicologia,60563,2.68
6,Geografia. Biografia. Hist√≥ria,7989,0.35
7,Belas artes,7911,0.35
8,Linguagem. L√≠ngua. Lingu√≠stica,7490,0.33


### üìä An√°lise dos Empr√©stimos de Livros

#### üîπ Perfil dos Usu√°rios (tipo_vinculo_usuario)

Os alunos de gradua√ß√£o s√£o, de longe, o grupo que mais realiza empr√©stimos, respondendo por 78,34% do total. Em seguida, v√™m os alunos de p√≥s-gradua√ß√£o (14,15%). Docentes e servidores t√©cnico-administrativos aparecem com uma participa√ß√£o significativamente menor, e o p√∫blico externo √© praticamente inexistente.

Tipo de V√≠nculo	Quantidade	Percentual (%)
ALUNO DE GRADUA√á√ÉO	1.771.903	78.34
ALUNO DE P√ìS-GRADUA√á√ÉO	320.074	14.15
DOCENTE	78.285	3.46
SERVIDOR T√âCNICO-ADMINISTRATIVO	34.178	1.51
ALUNO M√âDIO/T√âCNICO	29.986	1.33
DOCENTE EXTERNO	24.606	1.09
USU√ÅRIO EXTERNO	2.741	0.12
OUTROS	6	0.00

üìå Conclus√£o: O acervo serve majoritariamente aos estudantes, especialmente da gradua√ß√£o. H√° oportunidade para engajamento maior de docentes e p√∫blico externo.

#### üìö Cole√ß√µes Mais Emprestadas (colecao)

A cole√ß√£o "Acervo Circulante" domina os empr√©stimos com 99,06% do total. As demais cole√ß√µes t√™m participa√ß√£o praticamente simb√≥lica, como Multimeios e Monografias.

Cole√ß√£o	Quantidade	Percentual (%)
Acervo Circulante	2.053.120	99.06
Multimeios	7.954	0.38
Monografias	4.021	0.19
Disserta√ß√µes	2.406	0.12
...	...	...

üìå Conclus√£o: Como esperado, o acervo circulante √© o principal recurso. As cole√ß√µes especiais ou institucionais parecem subutilizadas.

#### üèõÔ∏è Bibliotecas com Mais Empr√©stimos (biblioteca)

A Biblioteca Central Zila Mamede lidera com folga: 68,81% dos empr√©stimos. As demais bibliotecas apresentam n√∫meros significativamente menores, sendo que as 8 √∫ltimas somam menos de 2% no total.

Biblioteca	Quantidade	Percentual (%)
Biblioteca Central Zila Mamede	1.426.122	68.81
Biblioteca CCS	118.614	5.72
Biblioteca FACISA	77.609	3.74
...	...	...
Biblioteca √Årvore do Conhecimento - IPP	919	0.04
Biblioteca do N√∫cleo de Ensino Superior do Serid√≥	617	0.03

üìå Conclus√£o: A concentra√ß√£o na biblioteca central pode refletir maior acervo, fluxo de alunos ou localiza√ß√£o. Bibliotecas setoriais poderiam ser mais exploradas.

#### üß† Classes CDU

As obras mais emprestadas pertencem √†s Ci√™ncias Aplicadas (63%), seguidas por Ci√™ncias Sociais (16%) e Generalidades (11%).

Classe CDU	Quantidade	Percentual (%)
Ci√™ncias aplicadas	1.425.473	63.02
Ci√™ncias sociais	369.536	16.34
Generalidades	251.778	11.13
Matem√°tica e ci√™ncias naturais	68.744	3.04
...	...	...

üìå Conclus√£o: A predomin√¢ncia das ci√™ncias aplicadas pode estar ligada aos cursos mais ativos ou √† pr√≥pria demanda da comunidade universit√°ria.

### Criando uma fun√ß√£o para gerar as tabelas

In [54]:
def gerar_tabela(df, coluna):
    """
    Gera uma tabela de frequ√™ncia absoluta e relativa (percentual)
    para uma coluna categ√≥rica.
    
    Par√¢metros:
    - df: DataFrame
    - coluna: nome da coluna (string)
    
    Retorna:
    - DataFrame com contagem e percentual
    """

    freq = df[coluna].value_counts(dropna=False)
    percentual = df[coluna].value_counts(normalize=True, dropna=False) * 100
    tabela = pd.concat([freq, percentual.round(2)], axis=1)

    return tabela

### Uso da fun√ß√£o

In [57]:
gerar_tabela(dataset_completo, 'tipo_vinculo_usuario')
gerar_tabela(dataset_completo, 'colecao')
gerar_tabela(dataset_completo, 'biblioteca')
gerar_tabela(dataset_completo, 'classe_cdu')

Unnamed: 0_level_0,count,proportion
classe_cdu,Unnamed: 1_level_1,Unnamed: 2_level_1
Ci√™ncias aplicadas,1425473,63.02
Ci√™ncias sociais,369536,16.34
Generalidades. Ci√™ncia e conhecimento,251778,11.13
Matem√°tica e ci√™ncias naturais,68744,3.04
Religi√£o,62295,2.75
Filosofia e psicologia,60563,2.68
Geografia. Biografia. Hist√≥ria,7989,0.35
Belas artes,7911,0.35
Linguagem. L√≠ngua. Lingu√≠stica,7490,0.33


### üìä An√°lise Estrat√©gica dos Empr√©stimos nas Bibliotecas

A an√°lise dos dados de empr√©stimos revela insights valiosos sobre o perfil de usu√°rios e o comportamento de uso das bibliotecas do sistema. A distribui√ß√£o dos empr√©stimos por tipo de v√≠nculo mostra com clareza quais grupos utilizam mais os servi√ßos, permitindo √† diretoria direcionar a√ß√µes espec√≠ficas para p√∫blicos menos ativos ou refor√ßar estrat√©gias para os mais frequentes.

A an√°lise das cole√ß√µes mais emprestadas oferece um panorama claro sobre os temas e formatos mais demandados. Isso subsidia decis√µes quanto √† aquisi√ß√£o, renova√ß√£o ou at√© descarte de itens menos utilizados, al√©m de abrir espa√ßo para campanhas de promo√ß√£o de acervos pouco explorados.

A compara√ß√£o entre as bibliotecas com maior e menor volume de empr√©stimos ajuda a identificar desequil√≠brios que podem estar ligados a fatores como tamanho do acervo, infraestrutura, localiza√ß√£o, hor√°rio de funcionamento ou at√© a√ß√µes de engajamento. Isso oferece √† diretoria a chance de aplicar pol√≠ticas espec√≠ficas para nivelar o desempenho entre unidades.

A classifica√ß√£o tem√°tica CDU dos itens emprestados fornece uma vis√£o precisa dos assuntos mais buscados pelos usu√°rios. A compreens√£o desses dados √© crucial para estrat√©gias de curadoria, comunica√ß√£o e desenvolvimento de novos programas educacionais ou culturais.

Por fim, destacamos a cria√ß√£o de uma fun√ß√£o automatizada para gera√ß√£o de tabelas de frequ√™ncia e percentual, permitindo que essa an√°lise seja facilmente replicada com outras vari√°veis e em novos ciclos de dados.

Recomenda√ß√µes futuras incluem: an√°lise cruzada com dados demogr√°ficos dos usu√°rios, estudo da taxa de renova√ß√£o de empr√©stimos, integra√ß√£o com indicadores de ocupa√ß√£o das bibliotecas e avalia√ß√£o temporal de empr√©stimos para identificar sazonalidades.

Esses dados fornecem uma base s√≥lida para a formula√ß√£o de pol√≠ticas, otimiza√ß√£o de recursos e tomada de decis√µes orientadas por evid√™ncias.