# Alura - 7 Days of Code - Dados - Machine Learning

![7DayOfCode-Logo](../imgs/7DaysOfCode-Logo.jpg)

Autor: Leonardo Simões

---
## Sumário
- [1.Introdução](#introduction)
- [2.Objetivo](#objectives)
- [3.Desenvolvimento](#development)
- [4.Conclusão](#conclusion)
- [Referências](#references)

---
<a id='introduction'></a>
## 1. Introdução

Durante os 7 Days de Python Pandas, você vai treinar suas habilidades de manipulação, visualização e análise de dados utilizando Python Pandas.


---
<a id='objectives'></a>
## 2. Objetivo

O objetivo será explorar os dados de empréstimos dos acervos do sistema de bibliotecas da UFRN e, para isso, você passará por diversas funcionalidades que o Pandas pode oferecer, desde a importação de diversos formatos de dados, agregações, divisões e transformações de tabelas, e até a exportação de tabelas estilizadas com sua análise pronta para ser inserida em alguma aplicação.

---
<a id='development'></a>
## 3. Desenvolvimento

---
<a id='day_1'></a>
### 3.1. Dia 1

In [1]:
# Verificação da versão do Python
from platform import python_version
print('Versão do Python: ', python_version())

Versão do Python:  3.11.2


In [2]:
# Imports das bibliotecas mais usadas
import os
import glob
import pandas as pd

In [3]:
# Alterar a exibição de float para duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

In [4]:
# Versões das bibliotecas mais usadas
print('Pandas versão ' + pd.__version__)

Pandas versão 1.5.3


In [5]:
# Função para carregar os dados de todos os arquivos csv de uma pasta
def carregar_dados_csv(pasta = 'dados'):
    
    # Obtenha a lista de arquivos CSV na pasta
    arquivos_csv = glob.glob(os.path.join(pasta, '*.csv'))

    # Verifique o caminho completo para a pasta
    # caminho_completo = os.path.join(os.getcwd(), pasta)
    
    # Obtenha a lista de arquivos CSV na pasta
    # arquivos_csv = glob.glob(os.path.join(caminho_completo, '*.csv'))
    
    # Verifique se existem arquivos CSV na pasta
    if not arquivos_csv:
        print("Nenhum arquivo CSV encontrado na pasta.")
        # print(f"Nenhum arquivo CSV encontrado na pasta {caminho_completo}.")
        
        return None
    else:
        # Carregue o primeiro arquivo CSV em um DataFrame inicial
        df = pd.read_csv(arquivos_csv[0])
        
        # Itere sobre os demais arquivos CSV e concatene-os no DataFrame inicial
        for arquivo in arquivos_csv[1:]:
            df_temp = pd.read_csv(arquivo)
            df = pd.concat([df, df_temp], ignore_index=True)
        
        # Remove valores duplicados
        df.drop_duplicates(inplace=True)
        assert df.duplicated().sum() == 0

        return df

In [6]:
# Carrega os dados de todos os arquivos csv de uma pasta em um único dataframe
df1 = carregar_dados_csv()
df1.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario
0,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023265.0,ALUNO DE GRADUAÇÃO
1,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2008023265.0,ALUNO DE GRADUAÇÃO
2,709686,2006017618,2010/01/26 08:07:01.738000000,2010/01/04 08:08:44.081000000,2010/02/25 07:36:25.800000000,2008112114.0,ALUNO DE PÓS-GRADUAÇÃO
3,709687,L184117,2010/01/18 11:07:46.470000000,2010/01/04 08:24:21.284000000,2010/02/03 08:58:45.692000000,200721119.0,ALUNO DE GRADUAÇÃO
8,709688,2007027500,2010/01/19 15:59:26.464000000,2010/01/04 08:27:33.569000000,2010/02/03 13:06:30.662000000,2009045971.0,ALUNO DE GRADUAÇÃO


In [7]:
# Exibe as dimensões de df
df1.shape

(2257981, 7)

In [8]:
# Informações do DataFrame
df1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2257981 entries, 0 to 2258017
Data columns (total 7 columns):
 #   Column                Dtype  
---  ------                -----  
 0   id_emprestimo         int64  
 1   codigo_barras         object 
 2   data_renovacao        object 
 3   data_emprestimo       object 
 4   data_devolucao        object 
 5   matricula_ou_siape    float64
 6   tipo_vinculo_usuario  object 
dtypes: float64(1), int64(1), object(5)
memory usage: 137.8+ MB


In [9]:
# Exibe valores nulos por coluna
df1.isna().sum()

id_emprestimo                 0
codigo_barras                 0
data_renovacao          1285709
data_emprestimo               0
data_devolucao             6471
matricula_ou_siape         3170
tipo_vinculo_usuario          0
dtype: int64

In [10]:
# Função para carregar os dados no arquivo parquet
def carregar_dados_parquet(arquivo='dados/dados_exemplares.parquet'):
    df = pd.read_parquet(arquivo)
    
    assert df.isna().sum().sum() == 0
    assert df.duplicated().sum() == 0
        
    return df

In [11]:
# Carrega os dados do arquivo parquet
df2 = carregar_dados_parquet()
df2.head()

Unnamed: 0_level_0,id_exemplar,codigo_barras,colecao,biblioteca,status_material,localizacao,registro_sistema
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,5,L000003,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,694,1
1,4,L000002,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,688,1
2,3,L000001,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,638,1
3,7,L000114,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,616,5
5,10,L000041,Acervo Circulante,Biblioteca Central Zila Mamede,ESPECIAL,657,15


In [12]:
# Função para unir dois dataframes com merge (interseção)
def unir_dataframes(df1, df2):
    df = df1.merge(df2)
    assert df.duplicated().sum() == 0
    
    return df

In [13]:
# Une dois dataframes
df = unir_dataframes(df1, df2)
df.head()

Unnamed: 0,id_emprestimo,codigo_barras,data_renovacao,data_emprestimo,data_devolucao,matricula_ou_siape,tipo_vinculo_usuario,id_exemplar,colecao,biblioteca,status_material,localizacao,registro_sistema
0,709684,L095049,,2010/01/04 07:44:10.721000000,2010/01/05 16:26:12.662000000,2008023265.0,ALUNO DE GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225
1,726965,L095049,2010/03/31 12:41:08.684000000,2010/03/01 12:40:56.212000000,2010/04/30 14:42:35.366000000,2009121584.0,ALUNO DE PÓS-GRADUAÇÃO,13259,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,630,4225
2,709685,L167050,,2010/01/04 07:44:10.750000000,2010/01/12 07:34:13.934000000,2008023265.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009
3,717763,L167050,,2010/02/11 11:16:30.335000000,2010/03/04 08:54:32.262000000,2008050352.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009
4,729996,L167050,2010/03/17 09:08:26.874000000,2010/03/04 13:36:26.599000000,2010/03/31 18:04:29.669000000,200722565.0,ALUNO DE GRADUAÇÃO,70865,Acervo Circulante,Biblioteca Central Zila Mamede,REGULAR,647,25009


In [14]:
# Verfica as dimensões dos 3 dataframes
df.shape, df1.shape, df2.shape

((2072522, 13), (2257981, 7), (546237, 7))

---
<a id='day_2'></a>
### 3.2. Dia 2

In [15]:
# Função que mapea o CDU por 'localização'
def mapear_cdu_para_area(cdu):
    if cdu < 100:
        return 'Generalidades'
    elif cdu < 200:
        return 'Filosofia e psicologia'
    elif cdu < 300:
        return 'Religião'
    elif cdu < 400:
        return 'Ciências sociais'
    elif cdu < 500:
        return 'Classe vaga'
    elif cdu < 600:
        return 'Matemática e ciências naturais'
    elif cdu < 700:
        return 'Ciências aplicadas'
    elif cdu < 800:
        return 'Belas artes'
    elif cdu < 900:
        return 'Linguagem'
    else:
        return 'Geografia. Biografia. História.'

In [16]:
# Exibe as colunas de df
df.columns

Index(['id_emprestimo', 'codigo_barras', 'data_renovacao', 'data_emprestimo',
       'data_devolucao', 'matricula_ou_siape', 'tipo_vinculo_usuario',
       'id_exemplar', 'colecao', 'biblioteca', 'status_material',
       'localizacao', 'registro_sistema'],
      dtype='object')

In [17]:
# Cria coluna 'CDU_geral' a partir da coluna 'localizacao'
df['CDU_geral'] = ''
df['CDU_geral'] = df['localizacao'].apply(mapear_cdu_para_area)
df['CDU_geral'].unique()

array(['Ciências aplicadas', 'Linguagem', 'Ciências sociais',
       'Geografia. Biografia. História.',
       'Matemática e ciências naturais', 'Religião', 'Generalidades',
       'Filosofia e psicologia', 'Belas artes'], dtype=object)

In [18]:
# Verifica se a coluna 'CDU_geral' foi criada
assert 'CDU_geral' in df.columns

In [19]:
# Remove coluna 'registro_sistema'
df.drop(columns=['registro_sistema'],inplace=True)

In [20]:
# Verifica se a coluna 'registro_sistema' foi removida
assert 'registro_sistema' not in df.columns

In [21]:
# Altera o tipo de 'matricula_ou_siape' para string
df['matricula_ou_siape'] = df['matricula_ou_siape'].astype('string')

In [22]:
# Verifica se o tipo de 'matricula_ou_siape' é String
assert df['matricula_ou_siape'].dtype == pd.StringDtype()

---
<a id='conclusion'></a>
## 4. Conclusão

---
<a id='references'></a>
## Referências

Alura - 7 Days of Code - Dados - Python Pandas:
https://7daysofcode.io/matricula/pandas
 , acessado em 24/09/2023.

Github - FranciscoFoz - 7_Days_of_Code_Alura-Python-Pandas:
https://github.com/FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas/tree/main
 , acessado em 24/09/2023.

---
<div style="text-align: center"> Copyright &copy; 2023 | Leonardo Simões | All Rights Reserved </div>

---