## Extracao dos Dados

In [1]:
# Importando a biblioteca pandas
import pandas as pd

In [2]:
# Extraindo as informacoes da fonte de dados (arquivos .csv) e salvando em DataFrames
books = pd.read_csv('/Users/rafaelciriello/Data Engineer/Projects/personal_library_data_project/data/books.csv')
loans = pd.read_csv('/Users/rafaelciriello/Data Engineer/Projects/personal_library_data_project/data/loans.csv')
wishlist = pd.read_csv('/Users/rafaelciriello/Data Engineer/Projects/personal_library_data_project/data/wishlist.csv')

In [3]:
# Exibindo uma previa das informacoes extraidas
books.head(n = 2)

Unnamed: 0,titulo,paginas,ano,genero,localizacao,lido,classificacao,autor,pais,nascimento
0,Dom Casmurro,280.0,1899.0,Romance,E,False,-,Machado de Assis,BR,1839.0
1,,,,,,,,,,


In [4]:
loans.head(n = 2)

Unnamed: 0,nome_pessoa,data_emprestimo,data_devolucao,livro_emprestado
0,joão silva,2023-08-15,2023-09-01,Dom Casmurro
1,ana biachinni,2023-08-20,,1984


In [5]:
wishlist.head(n = 2)

Unnamed: 0,titulo,nome_autor,sobrenome_autor,lancamento,comentarios,capa_livro
0,A Casa dos Espíritos,Isabel,Allende,1982,O realismo mágico desta obra me atrai,
1,A Menina que Roubava Livros,Markus,Zusak,2005,Segunda Guerra Mundial desperta minha curiosi...,convencional


## Transformacao e Limpeza dos Dados

Agora que realizamos a extracao dos dados de nossos arquivos em formato csv vamos realizar a limpeza e o tratamendo destes dados utilizando os Data Frames gerados durante o processo de extracao.

### Data Frame "books"

- Vamos analisar o Data Frame e identificar quais dados devemos tratar
- Podemos notar que ele contem dados para alimentar duas tabelas do nosso Banco de Dados ("book" e "author") 
- Notamos os seguintes problemas na nossa base de dados:
    1. Existem linhas de registros completamente vazias (ex: linha 1)
    2. Existem registros duplicados (ex: 1984, linha 2 e linha 19)
    3. A coluna genero tem dos valore para a mesma classificacao (ex: linha 2'Ficção Científica' e linha 20 "Ficção")
    4. A coluna coluna classificacao possui "-" quando nao ha uma avaliacao do livro (ex: linha 0)
    5. A coluna pais apresenta a sigla "BR" em alguns registros (ex: linha 0)

In [6]:
books

Unnamed: 0,titulo,paginas,ano,genero,localizacao,lido,classificacao,autor,pais,nascimento
0,Dom Casmurro,280.0,1899.0,Romance,E,False,-,Machado de Assis,BR,1839.0
1,,,,,,,,,,
2,1984,328.0,1949.0,Ficção Científica,F,True,2,George Orwell,Reino Unido,1903.0
3,A Revolução dos Bichos,144.0,1945.0,Ficção Científica,C,True,4,George Orwell,Reino Unido,1903.0
4,O Grande Gatsby,180.0,1925.0,Romance,D,False,-,F. Scott Fitzgerald,Estados Unidos,1896.0
5,O Hobbit,310.0,1937.0,Fantasia,E,True,3,J.R.R. Tolkien,Reino Unido,1892.0
6,,,,,,,,,,
7,O Apanhador no Campo de Centeio,224.0,1951.0,Romance,A,True,4,J.D. Salinger,Estados Unidos,1919.0
8,Crime e Castigo,671.0,1866.0,Romance,F,True,2,Fiodor Dostoievski,Rússia,1821.0
9,Anna Karenina,864.0,1877.0,Romance,B,True,4,Lev Tolstói,Rússia,1828.0


#### 1. Linhas Vazias

In [7]:
# verificando se existem linhas completamente vazias nos dados
# True indica a existencia de linhas(axis=1) vazias no DF
books.isnull().all(axis=1).any()

True

In [8]:
# Removendo linhas vazias do DataFrame
books = books.dropna(how = 'any')

In [9]:
# Verificando se a exclusao foi realizada
# False indica que nao ha presenca de linhas vazias no DF
books.isnull().all(axis=1).any()

False

#### 2. Registros Duplicados

In [10]:
# O comando abaixo retorna True caso haja regsistros duplicados e False em caso negativo
books.duplicated().any()

True

In [11]:
# Por se tratar de um conjunto de dados relativamente pequeno
# Podemos verificar a ocorrencia de duplicatas de forma visual, ordenando os livros por titulo por exemplo
books.sort_values(by='titulo').head(n = 2)

Unnamed: 0,titulo,paginas,ano,genero,localizacao,lido,classificacao,autor,pais,nascimento
2,1984,328.0,1949.0,Ficção Científica,F,True,2,George Orwell,Reino Unido,1903.0
19,1984,328.0,1949.0,Ficção Científica,F,True,2,George Orwell,Reino Unido,1903.0


In [12]:
# Neste nosso exemplo sabemos que a biblioteca possui apenas um exemplar de cada livro
# Desta forma, vamos realizar a exclusao dos registros duplicados no DF
books = books.drop_duplicates()

In [13]:
# Verificando se a exclusao foi realizada com sucesso
# False indica que nao existem registros duplicados
books.duplicated().any()

False

#### 3. Tratando dados na coluna "genero"

In [14]:
# Substituindo valores na coluna genero
# Quando o valor nesta coluna for igual a "Ficção Científica" sera substituido por "Ficção"
books['genero'] = books['genero'].replace({'Ficção Científica': 'Ficção'})

#### 4. Tratando dados na coluna "cassificacao"

In [15]:
# Substituindo valores na coluna classificacao
# Quando o valor desta coluna for igual a "-" sera substituiso por nulo (valor ausente)
books['classificacao'] = books['classificacao'].replace({'-': pd.NA})

#### 5. Tratando dados na coluna "pais"

In [16]:
# Substituindo valores na coluna pais
# Quando o valor nesta coluna for igual a sigla "BR" sera substituido por "Brasil"
books['pais'] = books['pais'].replace({'BR': 'Brasil'})

#### 6. Renomeando as colunas do Data Frame

In [17]:
# Renomeando as colunas do Data Frame com os mesmos nomes das colunas do Banco de Dados
books.columns = [['title', 'pages', 'year', 'genre', 'location', 'read', 'rating', 'author', 'country', 'birth']]

#### 7. Separando o Data Frame em dois Data Frames

In [18]:
# Vamos separar estas informacoes em dois DF diferentes
# Vamos organizar as colunas da mesma forma que aparecem no nosso Banco de Dados
author = books[['author', 'country', 'birth']]
book = books[['title', 'year', 'genre', 'pages', 'location', 'read', 'rating']]

#### 8. Salvando os dados em arquivos csv

In [35]:
# Salvando os dados tratados em arquivos csv para posterior carregamento no Banco de Dados
# Estou usando uma pasta chamada "clean data" para facilitar o entendimento e organizar os arquivos
# O "index = False" no comando abaixo evita que o indice gerado no DF seja salvo no arquivo
author.to_csv('/Users/rafaelciriello/Data Engineer/Projects/personal_library_data_project/clean data/author.csv', index = False)
book.to_csv('/Users/rafaelciriello/Data Engineer/Projects/personal_library_data_project/clean data/book.csv', index = False)

### Data Frame "loans"

In [37]:
loans

Unnamed: 0,nome_pessoa,data_emprestimo,data_devolucao,livro_emprestado
0,joão silva,2023-08-15,2023-09-01,Dom Casmurro
1,ana biachinni,2023-08-20,,1984
2,paulo strongs,2023-08-25,2023-09-15,A Revolução dos Bichos
3,carla fernandes,2023-08-18,,Cem Anos de Solidão
4,andré nascimento,2023-08-22,,O Grande Gatsby
5,maria madalena,2023-08-27,2023-09-17,O Hobbit
6,joão silva,2023-08-30,,O Senhor dos Anéis: A Sociedade do Anel


In [13]:
# renomear as colunas de acordo com o banco de dados
# tratar o nome das pessoas para que os nomes fiquem no formato (title)
# subistituir os valores vazios da coluna data de devolucao por null
# coluna livro emprestado deve ser substituida pelo id do resoectivo livro (fk)

#### DataFrame df_wishlist

In [14]:
df_wishlist

Unnamed: 0,titulo,nome_autor,sobrenome_autor,lancamento,comentarios,capa_livro
0,A Casa dos Espíritos,Isabel,Allende,1982,O realismo mágico desta obra me atrai,
1,A Menina que Roubava Livros,Markus,Zusak,2005,Segunda Guerra Mundial desperta minha curiosi...,convencional
2,A Sangue Frio,Truman,Capote,1966,Gosto de livros baseados em eventos reai,qualquer uma
3,A Sombra do Vento,Carlos Ruiz,Zafón,2001,A premissa de uma livraria misteriosa me inte...,dura
4,As Crônicas de Nárnia,C.S.,Lewis,1950,Este é o início de uma série clássica de fant...,
5,O Estrangeiro,Albert,Camus,1942,Gosto de obras filosóficas,-
6,Laranja Mecânica,Anthony,Burgess,1962,A abordagem da violência e controle social,amarela com flores
7,Admirável Mundo Novo,Aldous,Huxley,1932,A crítica à sociedade de consumo e o uso da t...,nao importa
8,Os Miseráveis,Victor,Hugo,1862,Clássico da literatura francesa,
9,O Som e a Fúria,William,Faulkner,1929,A estrutura narrativa complexa e a análise ps...,


In [15]:
# juntar o nome e o sobrenome do autor em apenas uma coluna
# renomear as colunas da tabela de acordo com o banco de dados para facilitar o entendimento
# excluir a coluna capa_livro que nao sera armazenada no banco de dados

In [19]:
df_books.dtypes

titulo            object
paginas          float64
ano              float64
genero            object
localizacao       object
lido              object
classificacao     object
autor             object
pais              object
nascimento       float64
dtype: object

In [22]:
df_books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   titulo         46 non-null     object 
 1   paginas        46 non-null     float64
 2   ano            46 non-null     float64
 3   genero         46 non-null     object 
 4   localizacao    46 non-null     object 
 5   lido           46 non-null     object 
 6   classificacao  44 non-null     object 
 7   autor          46 non-null     object 
 8   pais           46 non-null     object 
 9   nascimento     46 non-null     float64
dtypes: float64(3), object(7)
memory usage: 4.0+ KB


In [23]:
df_books.head(n = 3)

Unnamed: 0,titulo,paginas,ano,genero,localizacao,lido,classificacao,autor,pais,nascimento
0,Dom Casmurro,280.0,1899.0,Romance,E,False,-,Machado de Assis,BR,1839.0
1,,,,,,,,,,
2,1984,328.0,1949.0,Ficção Científica,F,True,2,George Orwell,Reino Unido,1903.0


In [27]:
df_author = df_books[['autor', 'pais', 'nascimento']]