# Importando Bibliotecas

In [79]:
import numpy as np
import pandas as pd


# Inicializando Dataframes

In [80]:
df = pd.read_csv('exame_cmc13_dados_teste.csv', sep=';')
df.columns

Index(['Unnamed: 0.1', 'Unnamed: 0', 'user_id', 'age', 'isbn', 'rating',
       'book_title', 'book_author', 'year_of_publication', 'publisher',
       'img_l', 'Language', 'Category', 'city', 'state', 'country'],
      dtype='object')

# Tratando Dados

Vemos campos que não são mencionados e que, provavelmente, se referem apenas a identificações internas dos livros: 'Unnamed: 0.1' e 'Unnamed: 0'. Vamos excluí-los.

In [81]:
df = df.drop(['Unnamed: 0.1', 'Unnamed: 0'], axis=1)

Vamos começar a exluir colunas inúteis para a análise. Em um primeiro momento, podemos excluir as colunas de identificação do usuário:

In [82]:
df = df.drop(['user_id'], axis=1)

Agora, vamos filtrar as localidades. Para simplificar a análise, contaremos que leitores de um mesmo país têm gostos semelhantes, excluindo a necessidade de identificadores de cidades e estados. Isso também é permitido pelo fato de haver uma variedade de países:

In [83]:
df['country'].value_counts()

usa                      25623
canada                    3096
united kingdom             655
australia                  434
germany                    258
                         ...  
queensland, australia        1
pakistan                     1
england                      1
kenya                        1
burma                        1
Name: country, Length: 116, dtype: int64

Existem 116 países no dataset. Excluindo colunas referentes a localidades:

In [84]:
df = df.drop(['city', 'state'], axis=1)

Análise da linguagem dos livros:

In [85]:
df['Language'].value_counts()

en    21670
9     11125
Name: Language, dtype: int64

Veja que apenas duas classificações foram categorizadas: en (inglês) e 9 (provavelmente um placeholder ou erro de obtenção de dados). Como a análise desses dois classificadores não nos fornece tanta informação, é razoável excluir tal coluna.

In [86]:
df = df.drop(['Language'], axis=1)

Podemos excluir as colunas 'isbn' porque se refere a uma identificação do livro, redundante com o título, e 'img_l', pois, apesar de a capa certamente ser importante para a escolha de um livro, apenas o link da imagem não adiciona tanto à análise.

In [87]:
df = df.drop(['isbn', 'img_l'], axis=1)

Veja que as colunas de idade e ano de publicação estão sendo tratadas como floats. Convertendo ambas para int:

In [88]:
df['age'] = df['age'].astype(int)
df['year_of_publication'] = df['year_of_publication'].astype(int)
df

Unnamed: 0,age,rating,book_title,book_author,year_of_publication,publisher,Category,country
0,35,3,The Hours: A Novel,Michael Cunningham,2002,Picador,['Fiction'],usa
1,34,10,Seven Up (A Stephanie Plum Novel),Janet Evanovich,2002,St. Martin's Paperbacks,9,usa
2,33,10,The Handmaid's Tale,Margaret Atwood,1989,Fawcett Books,['British and Irish fiction (Fictional works b...,usa
3,33,8,The Notebook,Nicholas Sparks,1998,Warner Books,9,usa
4,44,0,When the Wind Blows,James Patterson,1999,Warner Vision,['Fiction'],usa
...,...,...,...,...,...,...,...,...
32790,59,0,Four Blind Mice,James Patterson,2002,"Little, Brown",9,usa
32791,34,9,The Red Tent (Bestselling Backlist),Anita Diamant,1998,Picador USA,['Fiction'],usa
32792,25,0,The Rainmaker,JOHN GRISHAM,1996,Dell,['Fiction'],usa
32793,55,0,Morality for Beautiful Girls (No.1 Ladies Dete...,Alexander McCall Smith,2002,Anchor,['Fiction'],usa
