# Dia 4 - Trabalhando com Variáveis Categóricas

No quarto desafio do #7DaysOfCode, o objetivo será entender a quantidade de empréstimos a partir das variáveis categóricas do conjunto de dados.

Vamos nessa!

## 🎯 Objetivo

Este notebook tem como objetivo analisar variáveis categóricas presentes no conjunto de dados de empréstimos de uma rede de bibliotecas. A intenção é fornecer informações estratégicas para a diretoria com base nos padrões de uso dos serviços.

Serão analisadas variáveis como:
- Tipo de vínculo dos usuários
- Coleção
- Biblioteca
- Classificação geral da CDU

Além da análise quantitativa por frequência, serão levantadas possíveis implicações e estratégias baseadas nas observações.


## 🧠 O que são variáveis categóricas?

Variáveis categóricas (ou qualitativas) representam características não-numéricas, e podem ser classificadas como:

- **Nominais**: categorias sem ordem natural (ex: nomes, cores, tema do livro)
- **Ordinais**: categorias com ordem implícita (ex: nível de escolaridade)

Elas se diferem das variáveis quantitativas (como número de páginas ou empréstimos), pois não são representadas por números com significado matemático direto.

O desafio consiste em compreender como essas variáveis influenciam os empréstimos e que insights podem ser gerados para apoio à gestão.


### Importando bibliotecas e ajustando as configurações de gráfico

In [18]:
import pandas as pd
import matplotlib.pyplot as plt

# Configurações gerais de visualização
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8-muted')

### Importando os arquivos `.csv`

In [20]:
dataset_completo = pd.read_csv('../desafio04/dataset_completo.csv')

# Verificando uma amostra dos dados
dataset_completo.head(3)

  dataset_completo = pd.read_csv('../desafio04/dataset_completo.csv')


Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,classe_cdu
0,709684,L095049,,2010-01-04 07:44:10.721,2010-01-05 16:26:12.662,2008023000.0,ALUNO DE GRADUAÇÃO,13259.0,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,Ciências aplicadas
1,709685,L167050,,2010-01-04 07:44:10.750,2010-01-12 07:34:13.934,2008023000.0,ALUNO DE GRADUAÇÃO,70865.0,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,Ciências aplicadas
2,709686,2006017618,2010-01-26 08:07:01.738,2010-01-04 08:08:44.081,2010-02-25 07:36:25.800,2008112000.0,ALUNO DE PÓS-GRADUAÇÃO,195347.0,Acervo Circulante,Biblioteca Setorial Prof. Rodolfo Helinski - E...,REGULAR,640,Ciências aplicadas


In [21]:
# Identificando variáveis categóricas
dataset_completo.dtypes

id_emprestimo             int64
codigo_barras            object
data_renovacao           object
data_emprestimo          object
data_devolucao           object
matricula_ou_siape      float64
tipo_vinculo_usuario     object
id_exemplar             float64
colecao                  object
biblioteca               object
status_material          object
localizacao               int64
classe_cdu               object
dtype: object

### Distribuição de Empréstimos por Tipo de Vínculo

In [30]:
# Frequência absoluta

frequencia_vinculo = dataset_completo['tipo_vinculo_usuario'].value_counts()
frequencia_vinculo.head(3)

tipo_vinculo_usuario
ALUNO DE GRADUAÇÃO        1771903
ALUNO DE PÓS-GRADUAÇÃO     320074
DOCENTE                     78285
Name: count, dtype: int64

In [31]:
# Frequência relativa

percentual_vinculo = dataset_completo['tipo_vinculo_usuario'].value_counts(normalize=True)*100
percentual_vinculo.head(3)

tipo_vinculo_usuario
ALUNO DE GRADUAÇÃO        78.341120
ALUNO DE PÓS-GRADUAÇÃO    14.151427
DOCENTE                    3.461213
Name: proportion, dtype: float64

In [48]:
# Criando um dataset com as duas tabelas combinadas

vinculo = pd.concat([frequencia_vinculo, percentual_vinculo.round(2)], axis=1)

vinculo = vinculo.reset_index()
vinculo.columns = ['tipo_vinculo_usuario', 'quantidade', 'percentual (%)']
vinculo

Unnamed: 0,tipo_vinculo_usuario,quantidade,percentual (%)
0,ALUNO DE GRADUAÇÃO,1771903,78.34
1,ALUNO DE PÓS-GRADUAÇÃO,320074,14.15
2,DOCENTE,78285,3.46
3,SERVIDOR TÉCNICO-ADMINISTRATIVO,34178,1.51
4,ALUNO MÉDIO/TÉCNICO,29986,1.33
5,DOCENTE EXTERNO,24606,1.09
6,USUÁRIO EXTERNO,2741,0.12
7,OUTROS,6,0.0


### Distribuição de Empréstimos por Coleção

In [37]:
# Frequência absoluta

frequencia_colecao = dataset_completo['colecao'].value_counts()
frequencia_colecao.head(3)

colecao
Acervo Circulante    2053120
Multimeios              7954
Monografias             4021
Name: count, dtype: int64

In [38]:
# Frequência relativa

percentual_colecao = dataset_completo['colecao'].value_counts(normalize=True)*100
percentual_colecao.head(3)

colecao
Acervo Circulante    99.063846
Multimeios            0.383784
Monografias           0.194015
Name: proportion, dtype: float64

In [49]:
# Criando um dataset com as duas tabelas combinadas

colecao = pd.concat([frequencia_colecao, percentual_colecao.round(2)], axis=1)

colecao = colecao.reset_index()
colecao.columns = ['colecao', 'quantidade', 'percentual (%)']
colecao

Unnamed: 0,colecao,quantidade,percentual (%)
0,Acervo Circulante,2053120,99.06
1,Multimeios,7954,0.38
2,Monografias,4021,0.19
3,Dissertações,2406,0.12
4,Obras de Referência,1954,0.09
5,Publicações de Autores do RN,866,0.04
6,Publicações da UFRN,764,0.04
7,Teses,714,0.03
8,Folhetos,271,0.01
9,Necessidades Educacionais Específicas,130,0.01


### Distribuição de Empréstimos por Biblioteca

In [41]:
# Frequência absoluta

frequencia_biblioteca = dataset_completo['biblioteca'].value_counts()
frequencia_biblioteca.head(3)

biblioteca
Biblioteca Central Zila Mamede                                                           1426122
Biblioteca Setorial do Centro Ciências da Saúde - CCS                                     118614
Biblioteca Setorial da Faculdade de Ciências da Saúde do Trairi - FACISA - Santa Cruz      77609
Name: count, dtype: int64

In [42]:
# Frequência relativa

percentual_biblioteca = dataset_completo['biblioteca'].value_counts(normalize=True)*100
percentual_biblioteca.head(3)

biblioteca
Biblioteca Central Zila Mamede                                                           68.810946
Biblioteca Setorial do Centro Ciências da Saúde - CCS                                     5.723172
Biblioteca Setorial da Faculdade de Ciências da Saúde do Trairi - FACISA - Santa Cruz     3.744665
Name: proportion, dtype: float64

In [50]:
# Criando um dataset com as duas tabelas combinadas

biblioteca = pd.concat([frequencia_biblioteca, percentual_biblioteca.round(2)], axis=1)

biblioteca = biblioteca.reset_index()
biblioteca.columns = ['biblioteca', 'quantidade', 'percentual (%)']
biblioteca

Unnamed: 0,biblioteca,quantidade,percentual (%)
0,Biblioteca Central Zila Mamede,1426122,68.81
1,Biblioteca Setorial do Centro Ciências da Saúd...,118614,5.72
2,Biblioteca Setorial da Faculdade de Ciências d...,77609,3.74
3,Biblioteca Setorial Prof. Alberto Moreira Camp...,66447,3.21
4,Biblioteca Setorial Profª. Maria Lúcia da Cost...,61478,2.97
5,Biblioteca Setorial Bertha Cruz Enders - ­Esco...,46040,2.22
6,Biblioteca Setorial do Centro de Ciências Huma...,40744,1.97
7,Biblioteca Setorial Dr. Paulo Bezerra - EMCM/R...,32097,1.55
8,Biblioteca Setorial Profª. Maria José Mamede G...,29089,1.4
9,Biblioteca Setorial Prof. Rodolfo Helinski - E...,27219,1.31


In [53]:
biblioteca['percentual (%)'].mean()

np.float64(4.545454545454546)

### Distribuição de Empréstimos por Classe do CDU

In [44]:
# Frequência absoluta

frequencia_cdu = dataset_completo['classe_cdu'].value_counts()
frequencia_cdu.head(3)

classe_cdu
Ciências aplicadas                       1425473
Ciências sociais                          369536
Generalidades. Ciência e conhecimento     251778
Name: count, dtype: int64

In [45]:
# Frequência relativa

percentual_cdu = dataset_completo['classe_cdu'].value_counts(normalize=True)*100
percentual_cdu.head(3)

classe_cdu
Ciências aplicadas                       63.024416
Ciências sociais                         16.338289
Generalidades. Ciência e conhecimento    11.131857
Name: proportion, dtype: float64

In [51]:
# Criando um dataset com as duas tabelas combinadas

cdu = pd.concat([frequencia_cdu, percentual_cdu.round(2)], axis=1)

cdu = cdu.reset_index()
cdu.columns = ['classe_cdu', 'quantidade', 'percentual (%)']
cdu

Unnamed: 0,classe_cdu,quantidade,percentual (%)
0,Ciências aplicadas,1425473,63.02
1,Ciências sociais,369536,16.34
2,Generalidades. Ciência e conhecimento,251778,11.13
3,Matemática e ciências naturais,68744,3.04
4,Religião,62295,2.75
5,Filosofia e psicologia,60563,2.68
6,Geografia. Biografia. História,7989,0.35
7,Belas artes,7911,0.35
8,Linguagem. Língua. Linguística,7490,0.33


### 📊 Análise dos Empréstimos de Livros

#### 🔹 Perfil dos Usuários (tipo_vinculo_usuario)

Os alunos de graduação são, de longe, o grupo que mais realiza empréstimos, respondendo por 78,34% do total. Em seguida, vêm os alunos de pós-graduação (14,15%). Docentes e servidores técnico-administrativos aparecem com uma participação significativamente menor, e o público externo é praticamente inexistente.

Tipo de Vínculo	Quantidade	Percentual (%)
ALUNO DE GRADUAÇÃO	1.771.903	78.34
ALUNO DE PÓS-GRADUAÇÃO	320.074	14.15
DOCENTE	78.285	3.46
SERVIDOR TÉCNICO-ADMINISTRATIVO	34.178	1.51
ALUNO MÉDIO/TÉCNICO	29.986	1.33
DOCENTE EXTERNO	24.606	1.09
USUÁRIO EXTERNO	2.741	0.12
OUTROS	6	0.00

📌 Conclusão: O acervo serve majoritariamente aos estudantes, especialmente da graduação. Há oportunidade para engajamento maior de docentes e público externo.

#### 📚 Coleções Mais Emprestadas (colecao)

A coleção "Acervo Circulante" domina os empréstimos com 99,06% do total. As demais coleções têm participação praticamente simbólica, como Multimeios e Monografias.

Coleção	Quantidade	Percentual (%)
Acervo Circulante	2.053.120	99.06
Multimeios	7.954	0.38
Monografias	4.021	0.19
Dissertações	2.406	0.12
...	...	...

📌 Conclusão: Como esperado, o acervo circulante é o principal recurso. As coleções especiais ou institucionais parecem subutilizadas.

#### 🏛️ Bibliotecas com Mais Empréstimos (biblioteca)

A Biblioteca Central Zila Mamede lidera com folga: 68,81% dos empréstimos. As demais bibliotecas apresentam números significativamente menores, sendo que as 8 últimas somam menos de 2% no total.

Biblioteca	Quantidade	Percentual (%)
Biblioteca Central Zila Mamede	1.426.122	68.81
Biblioteca CCS	118.614	5.72
Biblioteca FACISA	77.609	3.74
...	...	...
Biblioteca Árvore do Conhecimento - IPP	919	0.04
Biblioteca do Núcleo de Ensino Superior do Seridó	617	0.03

📌 Conclusão: A concentração na biblioteca central pode refletir maior acervo, fluxo de alunos ou localização. Bibliotecas setoriais poderiam ser mais exploradas.

#### 🧠 Classes CDU

As obras mais emprestadas pertencem às Ciências Aplicadas (63%), seguidas por Ciências Sociais (16%) e Generalidades (11%).

Classe CDU	Quantidade	Percentual (%)
Ciências aplicadas	1.425.473	63.02
Ciências sociais	369.536	16.34
Generalidades	251.778	11.13
Matemática e ciências naturais	68.744	3.04
...	...	...

📌 Conclusão: A predominância das ciências aplicadas pode estar ligada aos cursos mais ativos ou à própria demanda da comunidade universitária.

### Criando uma função para gerar as tabelas

In [54]:
def gerar_tabela(df, coluna):
    """
    Gera uma tabela de frequência absoluta e relativa (percentual)
    para uma coluna categórica.
    
    Parâmetros:
    - df: DataFrame
    - coluna: nome da coluna (string)
    
    Retorna:
    - DataFrame com contagem e percentual
    """

    freq = df[coluna].value_counts(dropna=False)
    percentual = df[coluna].value_counts(normalize=True, dropna=False) * 100
    tabela = pd.concat([freq, percentual.round(2)], axis=1)

    return tabela

### Uso da função

In [57]:
gerar_tabela(dataset_completo, 'tipo_vinculo_usuario')
gerar_tabela(dataset_completo, 'colecao')
gerar_tabela(dataset_completo, 'biblioteca')
gerar_tabela(dataset_completo, 'classe_cdu')

Unnamed: 0_level_0,count,proportion
classe_cdu,Unnamed: 1_level_1,Unnamed: 2_level_1
Ciências aplicadas,1425473,63.02
Ciências sociais,369536,16.34
Generalidades. Ciência e conhecimento,251778,11.13
Matemática e ciências naturais,68744,3.04
Religião,62295,2.75
Filosofia e psicologia,60563,2.68
Geografia. Biografia. História,7989,0.35
Belas artes,7911,0.35
Linguagem. Língua. Linguística,7490,0.33


### 📊 Análise Estratégica dos Empréstimos nas Bibliotecas

A análise dos dados de empréstimos revela insights valiosos sobre o perfil de usuários e o comportamento de uso das bibliotecas do sistema. A distribuição dos empréstimos por tipo de vínculo mostra com clareza quais grupos utilizam mais os serviços, permitindo à diretoria direcionar ações específicas para públicos menos ativos ou reforçar estratégias para os mais frequentes.

A análise das coleções mais emprestadas oferece um panorama claro sobre os temas e formatos mais demandados. Isso subsidia decisões quanto à aquisição, renovação ou até descarte de itens menos utilizados, além de abrir espaço para campanhas de promoção de acervos pouco explorados.

A comparação entre as bibliotecas com maior e menor volume de empréstimos ajuda a identificar desequilíbrios que podem estar ligados a fatores como tamanho do acervo, infraestrutura, localização, horário de funcionamento ou até ações de engajamento. Isso oferece à diretoria a chance de aplicar políticas específicas para nivelar o desempenho entre unidades.

A classificação temática CDU dos itens emprestados fornece uma visão precisa dos assuntos mais buscados pelos usuários. A compreensão desses dados é crucial para estratégias de curadoria, comunicação e desenvolvimento de novos programas educacionais ou culturais.

Por fim, destacamos a criação de uma função automatizada para geração de tabelas de frequência e percentual, permitindo que essa análise seja facilmente replicada com outras variáveis e em novos ciclos de dados.

Recomendações futuras incluem: análise cruzada com dados demográficos dos usuários, estudo da taxa de renovação de empréstimos, integração com indicadores de ocupação das bibliotecas e avaliação temporal de empréstimos para identificar sazonalidades.

Esses dados fornecem uma base sólida para a formulação de políticas, otimização de recursos e tomada de decisões orientadas por evidências.