# Livros - csv

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('/content/livros.csv')
df.head()

Unnamed: 0,Book,Author(s),Original language,First published,Approximate sales in millions,Genre
0,A Tale of Two Cities,Charles Dickens,English,1859,200.0,Historical fiction
1,The Little Prince (Le Petit Prince),Antoine de Saint-Exupéry,French,1943,200.0,Novella
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy
3,And Then There Were None,Agatha Christie,English,1939,100.0,Mystery
4,Dream of the Red Chamber (紅樓夢),Cao Xueqin,Chinese,1791,100.0,Family saga


In [3]:
df.shape

(174, 6)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 174 entries, 0 to 173
Data columns (total 6 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Book                           174 non-null    object 
 1   Author(s)                      174 non-null    object 
 2   Original language              174 non-null    object 
 3   First published                174 non-null    int64  
 4   Approximate sales in millions  174 non-null    float64
 5   Genre                          118 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 8.3+ KB


In [5]:
df.columns

Index(['Book', 'Author(s)', 'Original language', 'First published',
       'Approximate sales in millions', 'Genre'],
      dtype='object')

In [6]:
# renomear as colunas para o portugues
traducao = {
    'Book':'livro',
    'Author(s)':'autor',
    'Original language':'idioma_original',
    'First published':'ano_publicacao',
    'Approximate sales in millions':'vendas',
    'Genre':'genero'
}

df.rename(columns=traducao, inplace=True)
df.head()

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero
0,A Tale of Two Cities,Charles Dickens,English,1859,200.0,Historical fiction
1,The Little Prince (Le Petit Prince),Antoine de Saint-Exupéry,French,1943,200.0,Novella
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy
3,And Then There Were None,Agatha Christie,English,1939,100.0,Mystery
4,Dream of the Red Chamber (紅樓夢),Cao Xueqin,Chinese,1791,100.0,Family saga


In [7]:
# dados nulos
df.isnull().sum()

Unnamed: 0,0
livro,0
autor,0
idioma_original,0
ano_publicacao,0
vendas,0
genero,56


In [8]:
df['autor'].value_counts().head(10)

Unnamed: 0_level_0,count
autor,Unnamed: 1_level_1
J. K. Rowling,7
Dan Brown,3
Suzanne Collins,3
Roald Dahl,3
George Orwell,2
Ken Follett,2
E. L. James,2
Albert Camus,2
Erskine Caldwell,2
Cao Xueqin,1


In [9]:
df[df['autor'] == 'J. K. Rowling']

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy
10,Harry Potter and the Chamber of Secrets,J. K. Rowling,English,1998,77.0,Fantasy
11,Harry Potter and the Prisoner of Azkaban,J. K. Rowling,English,1999,65.0,Fantasy
12,Harry Potter and the Goblet of Fire,J. K. Rowling,English,2000,65.0,Fantasy
13,Harry Potter and the Order of the Phoenix,J. K. Rowling,English,2003,65.0,Fantasy
14,Harry Potter and the Half-Blood Prince,J. K. Rowling,English,2005,65.0,Fantasy
15,Harry Potter and the Deathly Hallows,J. K. Rowling,English,2007,65.0,Fantasy


In [10]:
# Cria um novo DataFrame apenas com os autores únicos encontrados na coluna 'autor' do DataFrame original (df)
# .unique() retorna uma lista com cada autor aparecendo apenas uma vez
# Isso é necessário para que possamos gerar um único ID para cada autor
autores_unicos = pd.DataFrame(df['autor'].unique(), columns=['autor'])

# Cria uma nova coluna chamada 'autor_id' no DataFrame de autores únicos
# Atribui um ID numérico sequencial a cada autor, começando de 1
# Isso garante que cada autor tenha um identificador exclusivo e consistente
autores_unicos['autor_id'] = autores_unicos.index + 1

# Faz um merge (junção) entre o DataFrame original (df) e o DataFrame de autores únicos (autores_unicos)
# A junção é feita com base na coluna 'autor' (chave de correspondência)
# O tipo de junção é 'left', o que significa que todas as linhas do df original são mantidas
# e os IDs correspondentes dos autores são adicionados na nova coluna 'autor_id'
df = df.merge(autores_unicos, on='autor', how='left')

# Isso serve para verificar se a coluna 'autor_id' foi corretamente adicionada e associada
df.head()

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero,autor_id
0,A Tale of Two Cities,Charles Dickens,English,1859,200.0,Historical fiction,1
1,The Little Prince (Le Petit Prince),Antoine de Saint-Exupéry,French,1943,200.0,Novella,2
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy,3
3,And Then There Were None,Agatha Christie,English,1939,100.0,Mystery,4
4,Dream of the Red Chamber (紅樓夢),Cao Xueqin,Chinese,1791,100.0,Family saga,5


In [11]:
df[df['autor'] == 'J. K. Rowling']

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero,autor_id
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy,3
10,Harry Potter and the Chamber of Secrets,J. K. Rowling,English,1998,77.0,Fantasy,3
11,Harry Potter and the Prisoner of Azkaban,J. K. Rowling,English,1999,65.0,Fantasy,3
12,Harry Potter and the Goblet of Fire,J. K. Rowling,English,2000,65.0,Fantasy,3
13,Harry Potter and the Order of the Phoenix,J. K. Rowling,English,2003,65.0,Fantasy,3
14,Harry Potter and the Half-Blood Prince,J. K. Rowling,English,2005,65.0,Fantasy,3
15,Harry Potter and the Deathly Hallows,J. K. Rowling,English,2007,65.0,Fantasy,3


In [12]:
generos_unicos = pd.DataFrame(df['genero'].unique(), columns=['genero'])
generos_unicos['genero_id'] = generos_unicos.index + 1
df = df.merge(generos_unicos, on='genero', how='left')
df.head()

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero,autor_id,genero_id
0,A Tale of Two Cities,Charles Dickens,English,1859,200.0,Historical fiction,1,1
1,The Little Prince (Le Petit Prince),Antoine de Saint-Exupéry,French,1943,200.0,Novella,2,2
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy,3,3
3,And Then There Were None,Agatha Christie,English,1939,100.0,Mystery,4,4
4,Dream of the Red Chamber (紅樓夢),Cao Xueqin,Chinese,1791,100.0,Family saga,5,5


In [13]:
df[df['autor'] == 'J. K. Rowling']

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero,autor_id,genero_id
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy,3,3
10,Harry Potter and the Chamber of Secrets,J. K. Rowling,English,1998,77.0,Fantasy,3,3
11,Harry Potter and the Prisoner of Azkaban,J. K. Rowling,English,1999,65.0,Fantasy,3,3
12,Harry Potter and the Goblet of Fire,J. K. Rowling,English,2000,65.0,Fantasy,3,3
13,Harry Potter and the Order of the Phoenix,J. K. Rowling,English,2003,65.0,Fantasy,3,3
14,Harry Potter and the Half-Blood Prince,J. K. Rowling,English,2005,65.0,Fantasy,3,3
15,Harry Potter and the Deathly Hallows,J. K. Rowling,English,2007,65.0,Fantasy,3,3


In [14]:
autores = pd.DataFrame(df['autor'].unique(), columns=['nome'])
generos = pd.DataFrame(df['genero'].unique(), columns=['genero'])

In [15]:
with open('autores.sql', 'w', encoding='utf-8') as f:
  for _, row in autores.iterrows():
        nome = row['nome'].replace("'", "''")  # aspas simples para SQL
        f.write(f"INSERT INTO autores (nome) VALUES ('{nome}');\n")

In [16]:
df['genero'] = df['genero'].fillna('Unknown')
df.head(20)

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero,autor_id,genero_id
0,A Tale of Two Cities,Charles Dickens,English,1859,200.0,Historical fiction,1,1
1,The Little Prince (Le Petit Prince),Antoine de Saint-Exupéry,French,1943,200.0,Novella,2,2
2,Harry Potter and the Philosopher's Stone,J. K. Rowling,English,1997,120.0,Fantasy,3,3
3,And Then There Were None,Agatha Christie,English,1939,100.0,Mystery,4,4
4,Dream of the Red Chamber (紅樓夢),Cao Xueqin,Chinese,1791,100.0,Family saga,5,5
5,The Hobbit,J. R. R. Tolkien,English,1937,100.0,Fantasy,6,3
6,"The Lion, the Witch and the Wardrobe",C. S. Lewis,English,1950,85.0,"Fantasy, Children's fiction",7,6
7,She: A History of Adventure,H. Rider Haggard,English,1887,83.0,Adventure,8,7
8,Vardi Wala Gunda (वर्दी वाला गुंडा),Ved Prakash Sharma,Hindi,1992,80.0,Detective,9,8
9,The Da Vinci Code,Dan Brown,English,2003,80.0,Mystery thriller,10,9


In [17]:
df['genero'].isnull().sum()

np.int64(0)

In [18]:
generos = pd.DataFrame(df['genero'].unique(), columns=['genero'])
generos

Unnamed: 0,genero
0,Historical fiction
1,Novella
2,Fantasy
3,Mystery
4,Family saga
...,...
76,"Historical fiction, war novel"
77,Erotica
78,Science fiction
79,Dystopian fiction


In [19]:
!pip install -q deep-translator

from deep_translator import GoogleTranslator

# Supondo que você tenha um DataFrame chamado generos com a coluna 'genero'
generos['genero_pt'] = generos['genero'].apply(
    lambda x: GoogleTranslator(source='auto', target='pt').translate(x)
)

generos.head()

Unnamed: 0,genero,genero_pt
0,Historical fiction,Ficção histórica
1,Novella,Novella
2,Fantasy,Fantasia
3,Mystery,Mistério
4,Family saga,Saga da família


In [20]:
generos['genero_pt'] = generos['genero_pt'].replace('Novella', 'Novela')
generos.head()

Unnamed: 0,genero,genero_pt
0,Historical fiction,Ficção histórica
1,Novella,Novela
2,Fantasy,Fantasia
3,Mystery,Mistério
4,Family saga,Saga da família


In [21]:
generos['genero_pt'] = generos['genero_pt'].str.lower()
generos.head()

Unnamed: 0,genero,genero_pt
0,Historical fiction,ficção histórica
1,Novella,novela
2,Fantasy,fantasia
3,Mystery,mistério
4,Family saga,saga da família


In [22]:
generos.shape

(81, 2)

In [23]:
with open('generos.sql', 'w', encoding='utf-8') as f:
    for nome in generos['genero_pt']:
        nome_escapado = nome.replace("'", "''")  # aspas simples para SQL
        f.write(f"INSERT INTO generos (nome) VALUES ('{nome_escapado}');\n")

In [24]:
with open('livros.sql', 'w', encoding='utf-8') as f:
    for _, row in df.iterrows():
        nome_livro = row['livro'].replace("'", "''")  # Escapa aspas simples
        idioma = row['idioma_original'].replace("'", "''")
        ano = int(row['ano_publicacao'])
        vendas = float(row['vendas'])
        autor_id = int(row['autor_id'])
        genero_id = int(row['genero_id'])

        sql = (
            f"INSERT INTO livros (nome, idioma, ano_publicacao, vendas, autor_id, genero_id) "
            f"VALUES ('{nome_livro}', '{idioma}', {ano}, {vendas:.2f}, {autor_id}, {genero_id});\n"
        )
        f.write(sql)

# Lojas - API

In [25]:
# https://raw.githubusercontent.com/guilhermeonrails/datas-csv/refs/heads/main/comentarios.json

In [26]:
import pandas as pd

api = 'https://raw.githubusercontent.com/guilhermeonrails/datas-csv/refs/heads/main/comentarios.json'
df_comentarios = pd.read_json(api)
df_comentarios.head()

Unnamed: 0,id,livro,nome,sobrenome,comentario
0,1,The Dukan Diet,Danielle,Johnson,Achei a história envolvente e bem escrita.
1,2,"The Lion, the Witch and the Wardrobe",Joshua,Walker,Esperava mais do enredo.
2,3,James and the Giant Peach,Jill,Rhodes,Personagens cativantes e trama surpreendente.
3,4,The Very Hungry Caterpillar,Patricia,Miller,Achei a história envolvente e bem escrita.
4,5,Bridget Jones's Diary,Robert,Johnson,Um dos melhores que já li.


In [27]:
df_comentarios.shape

(10000, 5)

In [28]:
df.head(2)

Unnamed: 0,livro,autor,idioma_original,ano_publicacao,vendas,genero,autor_id,genero_id
0,A Tale of Two Cities,Charles Dickens,English,1859,200.0,Historical fiction,1,1
1,The Little Prince (Le Petit Prince),Antoine de Saint-Exupéry,French,1943,200.0,Novella,2,2


In [29]:
df_comentarios = df_comentarios.merge(
    df[['livro']].reset_index().rename(columns={'index': 'id_livro'}),
    on='livro',
    how='left'
)
df_comentarios.head()

Unnamed: 0,id,livro,nome,sobrenome,comentario,id_livro
0,1,The Dukan Diet,Danielle,Johnson,Achei a história envolvente e bem escrita.,163
1,2,"The Lion, the Witch and the Wardrobe",Joshua,Walker,Esperava mais do enredo.,6
2,3,James and the Giant Peach,Jill,Rhodes,Personagens cativantes e trama surpreendente.,62
3,4,The Very Hungry Caterpillar,Patricia,Miller,Achei a história envolvente e bem escrita.,35
4,5,Bridget Jones's Diary,Robert,Johnson,Um dos melhores que já li.,173


In [30]:
df_comentarios.isnull().sum()

Unnamed: 0,0
id,0
livro,0
nome,0
sobrenome,0
comentario,0
id_livro,0


In [31]:
print(f"{df_comentarios['id_livro'].max()} {df_comentarios['id_livro'].min()}")

173 0


In [32]:
df_comentarios[df_comentarios['id_livro'] == 0]

Unnamed: 0,id,livro,nome,sobrenome,comentario,id_livro
138,139,A Tale of Two Cities,Daniel,Tran,"Um pouco lento no início, mas depois melhora.",0
192,193,A Tale of Two Cities,Richard,Phillips,Simplesmente maravilhoso!,0
447,448,A Tale of Two Cities,James,Cruz,"Um pouco lento no início, mas depois melhora.",0
494,495,A Tale of Two Cities,Julia,Moore,Um dos melhores que já li.,0
524,525,A Tale of Two Cities,Sonia,Williams,Esperava mais do enredo.,0
663,664,A Tale of Two Cities,Nicholas,Martin,Esperava mais do enredo.,0
1641,1642,A Tale of Two Cities,Kurt,French,Achei a história envolvente e bem escrita.,0
1759,1760,A Tale of Two Cities,Christopher,Munoz,"Uma leitura incrível, recomendo!",0
1921,1922,A Tale of Two Cities,Leslie,Patterson,"Boa leitura, mas não é meu estilo.",0
2210,2211,A Tale of Two Cities,Kayla,Wright,"Uma leitura incrível, recomendo!",0


In [33]:
df_comentarios['id_livro'] += 1
print(f"{df_comentarios['id_livro'].max()} {df_comentarios['id_livro'].min()}")

174 1


In [34]:
# Substitui valores nulos por NULL e escapa aspas
def format_value(value):
    if pd.isna(value):
        return 'NULL'
    elif isinstance(value, str):
        value = value.replace("'", "''")  # Escapa aspas simples para SQL
        return f"'{value}'"
    else:
        return str(value)

# Nome do arquivo
output_file = "comentarios.sql"

# Abrir o arquivo e escrever os INSERTs
with open(output_file, 'w', encoding='utf-8') as f:
    for _, row in df_comentarios.iterrows():
        values = (
            format_value(row['id_livro']),
            format_value(row['nome']),
            format_value(row['sobrenome']),
            format_value(row['comentario'])
        )
        sql = f"INSERT INTO comentarios (livro_id, nome, sobrenome, comentario) VALUES ({', '.join(values)});\n"
        f.write(sql)

print(f"Arquivo '{output_file}' gerado com sucesso.")

Arquivo 'comentarios.sql' gerado com sucesso.
