# Analise do Scraping de livros 

## Importação de Bibliotecas

In [43]:
import pandas as pd #Biblioteca principal para analise de dados
import  plotly.express as px #Biblioteca principal de graficos

## Lendo a base de dados

In [44]:
df=pd.read_csv("ScrapingBooks.csv")
df

Unnamed: 0.1,Unnamed: 0,Nome,Autor,Editora,Ano,preço
0,0,A idade média passo a passo,Vincent Carpentier,Claro Enigma,2014,"R$ 10,02"
1,1,Cidadania: um projeto em construção,Andre Botelho e Lilia Moritz Schwarcz,Claro Enigma,2013,"R$ 6,00"
2,2,O que é arte contemporânea?,"Klein, Jacky E Klein, Suzy",Claro Enigma,2019,"R$ 15,00"
3,3,A Grécia antiga passo a passo,Eric Dars,Claro Enigma,2015,"R$ 16,89"
4,4,A pré-história passo a passo,Hildegard Feist; Colette Swinnen; Loic Mehee,Claro Enigma,2014,"R$ 6,00"
...,...,...,...,...,...,...
83,83,A Pré-história Passo a Passo,Collete Swinnen,Claro Enigma,2010,"R$ 25,00"
84,84,Crescente 1977-1990,Duda Machado,Claro Enigma,1990,"R$ 165,00"
85,85,Crescente 1977-1990,Duda Machado Com Dedicatoria,Claro Enigma,1990,"R$ 278,00"
86,86,Minima Lirica (1982-1989),Paulo Henriques Britto,Claro Enigma,1989,"R$ 58,00"


## Vendo as informaçoes da colunas

In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88 entries, 0 to 87
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  88 non-null     int64 
 1   Nome        88 non-null     object
 2   Autor       88 non-null     object
 3   Editora     88 non-null     object
 4   Ano         88 non-null     object
 5   preço       88 non-null     object
dtypes: int64(1), object(5)
memory usage: 4.3+ KB


## Reitrando uma coluna indesejada

In [46]:
df=df.drop("Unnamed: 0", axis=1) #Retirei o index que o próprio pandas faz na hora de criar o dataframe

In [47]:
df.info() #Analisando se a coluna foi retirada

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88 entries, 0 to 87
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nome     88 non-null     object
 1   Autor    88 non-null     object
 2   Editora  88 non-null     object
 3   Ano      88 non-null     object
 4   preço    88 non-null     object
dtypes: object(5)
memory usage: 3.6+ KB


## Tratamento da base de dados

In [48]:
# Retirando o R$ e a virgula dos dados da coluna de preços que seja possivel a conversão de Object(String) pata float
df["preço"]=df["preço"].str.replace("R$", "").str.replace(",", "") 
df["preço"]=df["preço"].astype(float) #transformando de Object para float
df["preço"]=df["preço"]/100 #Após a conversao para float as casa decimais dos valores da coluna desapareceram, então adiconei elas novamente divindido-as por 100


## Analise exploratória

In [49]:
df['Autor'].value_counts().reset_index() #Analisando o Autor com mais obras na base de dados

Unnamed: 0,Autor,count
0,Antje Damm,5
1,Murilo Badaró,4
2,Drauzio Varella,3
3,Lilia Moritz Schwarcz,3
4,João Moura Jr,3
...,...,...
56,Jacky Klein Suzy Klein,1
57,Isabel Lustosa,1
58,Francisco Bastos,1
59,Ricardo Teperman,1


In [58]:
 #Alguns dados estavam sem registos da editora, então so coloquei nesta variavel os dados que tinham a editora
livrosEditoraRegistrados=df = df.loc[df['Editora'] != "Sem registros"]
editorasMaisFreq=livrosEditoraRegistrados["Editora"].value_counts().reset_index() #Vi qual das editoras presentes na base de dados tinha a maior quantidade de livros 
px.pie(editorasMaisFreq, names="Editora", values="count", hole=.3) #Fiz o grafico de pizza para uma melhor visualização dos dados


In [54]:
top10LivrosCaros=df[["Nome","Editora", "preço"]].sort_values(by="preço", ascending=False).reset_index().head(10) #Analisei os livros mais caros da base de dados(top 10)
top10LivrosCaros.drop('index', axis=1) #Retirei a coluna de index que foi feita após o a analise

Unnamed: 0,Nome,Editora,preço
0,O Maior de Todos os Mistérios,Claro Enigma,332.82
1,O Maior de Todos os Mistérios,Claro Enigma,332.82
2,Crescente 1977-1990,Claro Enigma,278.0
3,Crescente 1977-1990,Claro Enigma,165.0
4,Páginas Amarelas,Claro Enigma,97.35
5,Páginas Amarelas,Claro Enigma,97.35
6,Minima Lirica (1982-1989),Claro Enigma,58.0
7,Compromissos de Irmandades Mineiras do Século ...,Claro Enigma,50.0
8,Artes indígenas,Claro Enigma,40.0
9,Viagens para lugares que eu nunca fui,Companhia das Letrinhas,38.0


In [62]:
df["Ano"].value_counts().reset_index() #De que ano a maioria dos livros são 

Unnamed: 0,Ano,count
0,2011,12
1,2013,10
2,1988,10
3,2014,7
4,2008,6
5,2015,5
6,2016,5
7,2012,5
8,2020,3
9,1990,3


# Relatório de Análise de Dados - Estante Virtual

## Introdução

Este projeto realizou uma análise de dados a partir de um **web scraping** feito no site **Estante Virtual**, coletando informações sobre livros disponíveis. O objetivo foi identificar padrões relacionados aos autores, editoras, anos de publicação e preços dos livros.

## Metodologia

Os dados foram extraídos automaticamente utilizando técnicas de scraping com **Python**. Foram analisadas informações como:
- Nome do autor
- Editora
- Preço
- Ano de publicação

## Resultados

### Autores com Mais Publicações

A maioria dos livros foi escrita pelos seguintes autores:

| Autor                   | Quantidade de Livros |
|-------------------------|----------------------|
| **Antje Damm**           | 5                    |
| **Murilo Badaró**        | 4                    |
| **Drauzio Varella**      | 3                    |
| **Lilia Moritz Schwarcz**| 3                    |

### Editoras

A editora predominante entre os livros analisados foi a **Claro Enigma**, responsável por **90% dos livros** presentes na base de dados.

### Livro Mais Caro

O livro mais caro identificado na análise foi da editora **Claro Enigma**, com o título:

- **O Maior de Todos os Mistérios** - **R$ 332,82**

### Ano de Publicação

A maioria dos livros foi publicada no ano de **2011**, indicando que esse período possui uma quantidade relevante de publicações em relação aos demais anos analisados.

## Conclusão

A análise mostra uma predominância da editora **Claro Enigma** e dos autores **Antje Damm**, **Murilo Badaró**, **Drauzio Varella**, e **Lilia Moritz Schwarcz**. Além disso, foi observado que o livro mais caro da base de dados também pertence à editora **Claro Enigma**, e a maior parte dos livros foi publicada em **2011**.
