<a href="https://colab.research.google.com/github/lucassdeandrade/DBricks/blob/main/module_1_class.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | SQL: Base de dados & Linguagem SQL
Caderno de **Aula**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução ao Google Colab;</li>
  <li>Bases de dados relacionais;</li>
  <li>Introdução ao SQL;</li>
  <li>Introdução ao AWS Console;</li>
  <li>Armazenamento de dados com AWS S3;</li>
  <li>Computação em SQL com AWS Athena.</li>
</ol>

---

# **Aulas**

## 1\. Introdução ao Google Colab

> Ferramenta web autogerênciada de cadernos (*notebooks*).

### **1.1. Ferramenta web**



*   Crie uma conta Google em [gmail.com](https://gmail.com);
*   Acesse o Google Colab através do endereço [colab.research.google.com](https://colab.research.google.com/).




### **1.2. Autogerênciada**



*   A Google provisiona uma máquina virtual para você;
*   A máquina virtual dura no máximo 12h.



### **1.3. Cadernos (*notebooks*)**

Um **caderno** é um documento *web* composto por um conjunto de elementos (células) de texto e código:


*   Células de **texto** podem ser editados com o editor da ferramenta, HTML ou Markdown;
*   ~Células de **código** são exclusivamente para a linguagem de programação Python~.



## 2\. Bases de Dados Relacionais

### **2.1. Físico**

Conceitos relacionados ao armazenamento físico dos dados.

 - Sistema Gerenciador de Base de Dados (SGBD)

> Software que gerencia o armazenamento físico de dados.

Alguns exemplos:

- [MySQL](https://www.mysql.com/);
- [PostgreSQL](https://www.postgresql.org/);
- [MariaDB](https://mariadb.org/);
- [Oracle](https://www.oracle.com/br/index.html)

### **2.2. Lógico**

Conceitos relacionados a organização lógica dos dados.

- Tabela

> Estrutura lógica e tabular de dados organizados em linhas e colunas.

- Base de Dado

> Conjunto lógico de tabelas.

## 3\. Introdução ao SQL

### **3.1. Definição**

A linguagem de consulta estruturada, do inglês *structured query language* ou SQL, é uma linguagem de programação declarativa para interação com os dados armazenados nas tabelas de uma base de dados. Existe uma versão padrão do SQL registrada no ANSI, mas cada SGBD tem a sua própria versão.

Os códigos SQL são conhecidos como *queries* e são divididas em dois grandes grupos:

 - **DDL**: Linguagem de definição de dados;
 - **DML**: Linguagem de manipulação de dados.

Para exemplificar esses conceitos, vamos utilizar a tabela abaixo, com dados de clientes de uma instituição financeira.

| id        | idade | sexo | dependentes | escolaridade | tipo_cartao | limite_credito | valor_transacoes_12m | qtd_transacoes_12m |
|-----------|-------|------|---|--------------|-|----------------|----------|----|
| 768805383 | 45    | M    | 3 | ensino medio | blue | 12.691,51      | 1.144,90 | 42 |
| 818770008 | 49    | F    | 5 | mestrado     | blue | 8.256,96      | 1.291,45 | 33 |
| 713982108 | 51    | M    | 3 | mestrado     | blue | 3.418,56      | 1.887,72 | 20 |

### **3.2. DDL**

Linguagem de definição de dados, do inglês *Data Definition Language* ou DDL são instruções para criar/excluir/alterar tabelas e inserir/remover/atualizar dados.

**Query 1:** Criar/excluir a tabela de `clientes`.



```sql
CREATE TABLE clientes (
  id BIGINT,
  idade BIGINT,
  sexo STRING,
  dependentes BIGINT,
  escolaridade STRING,
  tipo_cartao STRING,
  limite_credito DOUBLE,
  valor_transacoes_12m DOUBLE,
  qtd_transacoes_12m BIGINT
);
```

**Query 2:** Excluir a tabela de `clientes`.

```sql
DROP TABLE clientes;
```

**Query 3:** Inserir os dados na tabela de `clientes`.



```sql
INSERT INTO clientes VALUES (768805383, 45, 'M', 3, 'ensino medio', 'blue', 12691.51, 1144.90, 42);
INSERT INTO clientes VALUES (818770008, 49, 'F', 5, 'mestrado', 'blue', 8256.96, 1291.45, 33);
INSERT INTO clientes VALUES (713982108, 51, 'M', 3, 'mestrado', 'blue', 3418.56, 1887.72, 20);
```

**Query 4:** Remover os dados das mulheres na tabela de `clientes`.



```sql
DELETE FROM clientes WHERE sexo = 'F';
```

### **3.3. DML**

Linguagem de manipulação de dados, do inglês *Data Manipulation Language* ou DML são instruções para manipular (selecionar, filtrar, agregar, limitar, etc.) os dados armazenados em tabelas.

**Query 1:** Selecionar o id, a idade e o limite de crédito dos clientes homens da tabela de `clientes`, ordenados por idade de maneira decrescente.

```sql
SELECT id, idade, limite_credito FROM clientes WHERE sexo = 'M' ORDER BY idade DESC;
```

| id        | idade | limite_credito |
|-----------|-------|----------------|
| 713982108 | 51    |   3418.56      |
| 768805383 | 45    |  12691.51      |

**Query 2:** Selecionar a média da idade dos clientes por sexo da tabela de `clientes`.

```sql
SELECT sexo, AVG(idade) AS "media_idade_por_sexo" FROM clientes GROUP BY sexo;
```

| sexo | media_idade_por_sexo |
|------|----------------------|
| M    | 48                   |
| F    | 49                   |

## 4\. Introdução ao AWS Console

A Amazon Web Service (AWS) é uma plataforma de computação em nuvem. Ela oferece uma série de serviços de computação, armanezamento de dados, etc. Vamos utilizar dois serviços da plataforma para construir o nosso SGBD e aprender o SQL:

 - AWS [S3](https://aws.amazon.com/pt/s3/): Serviço de armazenamento de dados;
 - AWS [Athena](https://aws.amazon.com/pt/athena/): Serviços de computação em SQL.

> **Atenção:** Todo serviço utilizado tem um custo associado! Se a sua conta da AWS é nova, você é elegível a diversos serviços gratuitos (por tempo/quota de uso, etc.). Confira nesse [link](https://aws.amazon.com/pt/free) a oferta atual (elas podem mudar ao longo do tempo).

Para criar a sua conta na plataforma, basta acessar este [link](https://portal.aws.amazon.com/).

## 5\. Armazenamento de dados com AWS S3

### **5.1. Definição**

O AWS [S3](https://aws.amazon.com/pt/s3/) é um serviço de armazenameto distribuido e sem servidor que atua como um repositório de dados. O serviço é inspirado no famoso projeto *open source* [Apache Hadoop](https://hadoop.apache.org/).



### **5.2. Funcionamento**

1. Um *bucket* é uma partição lógica de dados, como uma pasta do seu computador;
2. Um objeto é um dado que você armazena dentro de um um *bucket*;
3. Outros serviços da plataforma podem acessar os dados armazenados.

### **5.3. Definição de Preço**

O AWS [S3](https://aws.amazon.com/pt/s3/) cobra por volume de dados armazenado. O preço atual é complexo, mas inicia-se com 0,0405 USD por *gigabyte* (GB) armazenado (0,21 BRL aproximadamente). Você deve sempre consultar o preço na página web do serviço ([link](https://aws.amazon.com/pt/s3/pricing/?nc=sn&loc=4)).

## 6\. Computação em SQL com o AWS Athena

### **6.1. Definição**

O AWS [Athena](https://aws.amazon.com/pt/athena/) é um serviço de computação distribuida e sem servidor que atua como um motor de consulta (*query engine*). Por trás dos panos, ele implementa na infrastrutura computacional da AWS um projeto *open source* chamado [Presto](https://prestodb.io/).



### **6.2. Funcionamento**

1. Transforma uma *query* em código;
2. Processa os arquivos armazenados no AWS S3 com o código gerado;
3. Retorna os resultados no console.

### **6.3. Definição de Preço**

O AWS [Athena](https://aws.amazon.com/pt/athena/) cobra por consulta. O preço atual é de 9,00 USD por *terabyte* escaneado (47,46 BRL aproximadamente). Você deve sempre consultar o preço na página web do serviço ([link](https://aws.amazon.com/pt/athena/pricing/?nc=sn&loc=3)).

In [None]:
import pandas as pd

In [None]:
arquivo = ('utlc_apps.csv')

df = pd.read_csv(arquivo)
df


Unnamed: 0,original_index,review_text,review_text_processed,review_text_tokenized,polarity,rating,kfold_polarity,kfold_rating
0,2483729,eu curtindo muito,eu curtindo muito,"['eu', 'curtindo', 'muito']",1.0,5.0,1,1
1,2865805,Aplicativo absurdamente caro e o valor para se...,aplicativo absurdamente caro e o valor para se...,"['aplicativo', 'absurdamente', 'caro', 'valor'...",0.0,1.0,1,1
2,2734161,Não é mais tão simples com o novo layout,nao e mais tao simples com o novo layout,"['nao', 'mais', 'tao', 'simples', 'com', 'novo...",1.0,4.0,1,1
3,2066362,"Estava com um problema para acessar, porém con...","estava com um problema para acessar, porem con...","['estava', 'com', 'um', 'problema', 'para', 'a...",1.0,5.0,1,1
4,2521806,Eu gostei muito do jogo tenho no celular da mi...,eu gostei muito do jogo tenho no celular da mi...,"['eu', 'gostei', 'muito', 'do', 'jogo', 'tenho...",1.0,5.0,1,1
...,...,...,...,...,...,...,...,...
1039530,2805325,legal!,legal!,['legal'],1.0,4.0,10,10
1039531,1957980,"Mt bom o app ,assim dá pra ficar por dentro da...","mt bom o app ,assim da pra ficar por dentro da...","['mt', 'bom', 'app', 'assim', 'da', 'pra', 'fi...",1.0,5.0,10,10
1039532,2276693,Ele é Ok,ele e ok,"['ele', 'ok']",0.0,1.0,10,10
1039533,2146223,Excelente aplicativo para treinar os conhecime...,excelente aplicativo para treinar os conhecime...,"['excelente', 'aplicativo', 'para', 'treinar',...",1.0,5.0,10,10


In [None]:
from pyspark.sql import SparkSession

# Cria uma SparkSession
spark = SparkSession.builder \
    .appName("testespark") \
    .getOrCreate()

print("SparkSession criada com sucesso!")


SparkSession criada com sucesso!


In [None]:
!pip install pyspark



In [None]:
df = spark.read.format("csv")\
.option("header", "True")\
.option("inferSchema","True")\
.load("utlc_apps.csv"/*.csv")

SyntaxError: unterminated string literal (detected at line 4) (<ipython-input-8-0abca51d1141>, line 4)

In [None]:
df = spark.read.format("csv") \
    .option("header", "True") \
    .option("inferSchema", "True") \
    .load("utlc_apps.csv")

df.show(10)  # Exibe as primeiras linhas do DataFrame


+--------------+--------------------+---------------------+---------------------+--------+------+--------------+------------+
|original_index|         review_text|review_text_processed|review_text_tokenized|polarity|rating|kfold_polarity|kfold_rating|
+--------------+--------------------+---------------------+---------------------+--------+------+--------------+------------+
|       2483729|   eu curtindo muito|    eu curtindo muito| ['eu', 'curtindo'...|     1.0|   5.0|             1|           1|
|       2865805|Aplicativo absurd...| aplicativo absurd...| ['aplicativo', 'a...|     0.0|   1.0|             1|           1|
|       2734161|Não é mais tão si...| nao e mais tao si...| ['nao', 'mais', '...|     1.0|   4.0|             1|           1|
|       2066362|Estava com um pro...| estava com um pro...| ['estava', 'com',...|     1.0|   5.0|             1|           1|
|       2521806|Eu gostei muito d...| eu gostei muito d...| ['eu', 'gostei', ...|     1.0|   5.0|             1|      

In [None]:
df.count()

1039535

In [None]:
df.head(10)

[Row(original_index=2483729, review_text='eu curtindo muito', review_text_processed='eu curtindo muito', review_text_tokenized="['eu', 'curtindo', 'muito']", polarity='1.0', rating='5.0', kfold_polarity='1', kfold_rating='1'),
 Row(original_index=2865805, review_text='Aplicativo absurdamente caro e o valor para se tornar prêmio é ainda muito mais caro. Joguei dinheiro no lixo', review_text_processed='aplicativo absurdamente caro e o valor para se tornar premio e ainda muito mais caro. joguei dinheiro no lixo', review_text_tokenized="['aplicativo', 'absurdamente', 'caro', 'valor', 'para', 'se', 'tornar', 'premio', 'ainda', 'muito', 'mais', 'caro', 'joguei', 'dinheiro', 'no', 'lixo']", polarity='0.0', rating='1.0', kfold_polarity='1', kfold_rating='1'),
 Row(original_index=2734161, review_text='Não é mais tão simples com o novo layout', review_text_processed='nao e mais tao simples com o novo layout', review_text_tokenized="['nao', 'mais', 'tao', 'simples', 'com', 'novo', 'layout']", pol

In [None]:
df.write.format("parquet")\
.mode("overwrite")\
.save("utlc_apps.parquet")

In [None]:
df_parquet = spark.read.format("parquet")\
.load("utlc_apps.parquet")

In [None]:
df_parquet.count()

1039535

In [None]:
df_parquet.show(5)

+--------------+--------------------+---------------------+---------------------+--------+------+--------------+------------+
|original_index|         review_text|review_text_processed|review_text_tokenized|polarity|rating|kfold_polarity|kfold_rating|
+--------------+--------------------+---------------------+---------------------+--------+------+--------------+------------+
|       2483729|   eu curtindo muito|    eu curtindo muito| ['eu', 'curtindo'...|     1.0|   5.0|             1|           1|
|       2865805|Aplicativo absurd...| aplicativo absurd...| ['aplicativo', 'a...|     0.0|   1.0|             1|           1|
|       2734161|Não é mais tão si...| nao e mais tao si...| ['nao', 'mais', '...|     1.0|   4.0|             1|           1|
|       2066362|Estava com um pro...| estava com um pro...| ['estava', 'com',...|     1.0|   5.0|             1|           1|
|       2521806|Eu gostei muito d...| eu gostei muito d...| ['eu', 'gostei', ...|     1.0|   5.0|             1|      

In [None]:
pip install pyodbc

Collecting pyodbc
  Downloading pyodbc-5.2.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.7 kB)
Downloading pyodbc-5.2.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (346 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/346.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.4/346.2 kB[0m [31m4.1 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m337.9/346.2 kB[0m [31m6.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m346.2/346.2 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyodbc
Successfully installed pyodbc-5.2.0


In [None]:
import pyodbc
import pandas as pd

dados_conexao = (
    "Driver={SQL SERVER};"
    "SEVER=LUCAS;"
    "DATABASE=Contoso"

)



conexao = pyodbc.connect(dados_conexao)
print("Tudo Ok")

Error: ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'SQL SERVER' : file not found (0) (SQLDriverConnect)")

In [None]:
!apt-get update
!apt-get install -y unixodbc-dev
!apt-get install -y msodbcsql17
!apt-get install -y tdsodbc

import pyodbc
import pandas as pd

dados_conexao = (
    "Driver={ODBC Driver 17 for SQL Server};"  # Changed driver name
    "Server=LUCAS;"  # Corrected 'SEVER' to 'Server'
    "Database=Contoso;" # Added semicolon
    "UID=<your_username>;"  # Replace with your SQL Server username
    "PWD=<your_password>"  # Replace with your SQL Server password
)

conexao = pyodbc.connect(dados_conexao)
print("Tudo Ok")

0% [Working]            Hit:1 http://security.ubuntu.com/ubuntu jammy-security InRelease
0% [Waiting for headers] [Connected to cloud.r-project.org (18.160.213.93)] [Connected to r2u.stat.i                                                                                                    Hit:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
0% [Waiting for headers] [Connected to r2u.stat.illinois.edu (192.17.190.167)] [Connected to develop                                                                                                    Hit:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:4 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Hit:5 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:6 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:7 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Hit:8 http://archive.ubuntu.com/ubuntu j

Error: ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'ODBC Driver 17 for SQL Server' : file not found (0) (SQLDriverConnect)")

In [None]:
import pyodbc
import pandas as pd
import pyodbc
import pandas as pd

# Try ODBC Driver 17 first
dados_conexao = (
    "Driver={ODBC Driver 18 for SQL Server};"
    "Server=LUCAS;"
    "Database="
)

# Try ODBC Driver 17 first
dados_conexao = (
    "Driver={ODBC Driver 18 for SQL Server};"
    "Server=LUCAS;"
    "Database=Contoso"
)

In [None]:
conexao = pyodbc.connect(dados_conexao)
print("Tudo Ok")

Error: ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'ODBC Driver 18 for SQL Server' : file not found (0) (SQLDriverConnect)")

In [None]:
!apt-get update
!apt-get

Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:3 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Hit:4 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Get:5 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Hit:6 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Hit:7 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Fetched 129 kB in 2s (76.0 kB/s)
Reading package lists... Done
W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)
apt 2.4.13 (amd64)
Usage: ap

In [None]:
!pip install pyodbc

import pyodbc
import pandas as pd

# Ensure you have the correct ODBC Driver 18 for SQL Server installed:
#  - Download it from: https://learn.microsoft.com/en-us/sql/connect/odbc/download-odbc-driver-for-sql-server?view=sql-server-ver16

# Check the driver name:
#  - Go to Control Panel > Administrative Tools > ODBC Data Sources (64-bit)
#  - Look for the installed SQL Server driver and note its exact name.

# Update the connection string accordingly:
dados_conexao = (
    "Driver={ODBC Driver 18 for SQL Server};"  # Update with the correct driver name if needed
    "Server=LUCAS;"
    "Database=Contoso;"
    "UID=<your_username>;"  # Replace with your SQL Server username
    "PWD=<your_password>"  # Replace with your SQL Server password
    "Trusted_Connection=yes;"
)

conexao = pyodbc.connect(dados_conexao)
print("Tudo Ok")



Error: ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'ODBC Driver 18 for SQL Server' : file not found (0) (SQLDriverConnect)")

In [None]:
!pip install pyodbc
!apt-get update
!apt-get install -y unixodbc-dev
!apt-get install -y msodbcsql17

Get:1 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Get:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
Get:3 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:5 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Get:6 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Get:7 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ Packages [62.5 kB]
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Get:10 http://security.ubuntu.com/ubuntu jammy-security/main amd64 Packages [2,560 kB]
Hit:11 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Get:12 https://r2u.stat.illinois.edu/ubuntu jammy/main all Packages [8,602 kB]
Get:13 http://security.ubuntu.com/ubuntu jammy-security/

In [None]:
import platform
print(platform.architecture())


('64bit', 'ELF')


In [None]:
dados_conexao = (
    "Driver={ODBC Driver 18 for SQL Server};"
    "Server=SEU_SERVIDOR;"
    "Database=SEU_BANCO_DE_DADOS;"
    "UID=SEU_USUARIO;"
    "PWD=SUA_SENHA;"
    "Trusted_Connection=no;"
)


In [None]:
import pyodbc

try:
    conn = pyodbc.connect(
        "Driver={ODBC Driver 18 for SQL Server};"
        "Server=SEU_SERVIDOR;"
        "Database=SEU_BANCO_DE_DADOS;"
        "UID=SEU_USUARIO;"
        "PWD=SUA_SENHA;"
        "Trusted_Connection=no;"
    )
    print("Conexão bem-sucedida!")
except pyodbc.Error as e:
    print("Erro ao conectar:", e)


Erro ao conectar: ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'ODBC Driver 18 for SQL Server' : file not found (0) (SQLDriverConnect)")


In [None]:
pip install PyMuPDF googletrans==4.0.0-rc1


Collecting PyMuPDF
  Downloading pymupdf-1.25.2-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Collecting googletrans==4.0.0-rc1
  Downloading googletrans-4.0.0rc1.tar.gz (20 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting httpx==0.13.3 (from googletrans==4.0.0-rc1)
  Downloading httpx-0.13.3-py3-none-any.whl.metadata (25 kB)
Collecting hstspreload (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading hstspreload-2025.1.1-py3-none-any.whl.metadata (2.1 kB)
Collecting chardet==3.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading chardet-3.0.4-py2.py3-none-any.whl.metadata (3.2 kB)
Collecting idna==2.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading idna-2.10-py2.py3-none-any.whl.metadata (9.1 kB)
Collecting rfc3986<2,>=1.3 (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading rfc3986-1.5.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting httpcore==0.9.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Download

In [None]:
pip install translate pymupdf


Collecting translate
  Downloading translate-3.6.1-py2.py3-none-any.whl.metadata (7.7 kB)
Collecting libretranslatepy==2.1.1 (from translate)
  Downloading libretranslatepy-2.1.1-py3-none-any.whl.metadata (233 bytes)
Downloading translate-3.6.1-py2.py3-none-any.whl (12 kB)
Downloading libretranslatepy-2.1.1-py3-none-any.whl (3.2 kB)
Installing collected packages: libretranslatepy, translate
Successfully installed libretranslatepy-2.1.1 translate-3.6.1


In [None]:

import fitz  # PyMuPDF
from translate import Translator

def traduzir_pdf(input_pdf, output_pdf, src_lang="en", dest_lang="pt"):
    # Abrir o PDF
    doc = fitz.open(input_pdf)
    translator = Translator(from_lang=src_lang, to_lang=dest_lang)

    # Criar um novo PDF
    novo_pdf = fitz.open()

    for num, pagina in enumerate(doc, start=1):
        print(f"Traduzindo página {num} de {len(doc)}...")
        texto = pagina.get_text()
        if texto.strip():  # Traduzir somente se houver texto
            try:
                texto_traduzido = translator.translate(texto)
            except Exception as e:
                print(f"Erro ao traduzir a página {num}: {e}")
                texto_traduzido = texto  # Manter o texto original em caso de erro

            # Adicionar a página traduzida ao novo PDF
            nova_pagina = novo_pdf.new_page(width=pagina.rect.width, height=pagina.rect.height)
            nova_pagina.insert_text(fitz.Point(72, 72), texto_traduzido, fontsize=11)
        else:
            print(f"Página {num} está vazia ou sem texto.")

    # Salvar o PDF traduzido
    novo_pdf.save(output_pdf)
```python
import fitz  # PyMuPDF
from translate import Translator

def traduzir_pdf(input_pdf, output_pdf, src_lang="en", dest_lang="pt"):
    # Abrir o PDF
    doc = fitz.open(input_pdf)
    translator = Translator(from_lang=src_lang, to_lang=dest_lang)

    # Criar um novo PDF
    novo_pdf = fitz.open()

    for num, pagina in enumerate(doc, start=1):
        print(f"Traduzindo página {num} de {len(doc)}...")
        texto = pagina.get_text()
        if texto.strip():  # Traduzir somente se houver texto
            try:
                texto_traduzido = translator.translate(texto)
            except Exception as e:
                print(f"Erro ao traduzir a página {num}: {e}")
                texto_traduzido = texto  # Manter o texto original em caso de erro

            # Adicionar a página traduzida ao novo PDF
            nova_pagina = novo_pdf.new_page(width=pagina.rect.width, height=pagina.rect.height)
            nova_pagina.insert_text(fitz.Point(72, 72), texto_traduzido, fontsize=11)
        else:
            print(f"Página {num} está vazia ou sem texto.")

    # Salvar o PDF traduzido
    novo_pdf.save(output_pdf)
    novo_pdf.close()
    doc.close()
    print(f"Tradução concluída. Arquivo salvo como '{output_pdf}'.")

# Usar a função
traduzir_pdf("documento_original.pdf", "documento_traduzido.pdf")
```
from translate import Translator

def traduzir_pdf(input_pdf, output_pdf, src_lang="en", dest_lang="pt"):
    # Abrir o PDF
    doc = fitz.open(input_pdf)
    translator = Translator(from_lang=src_lang, to_lang=dest_lang)

    # Criar um novo PDF
    novo_pdf = fitz.open()

    for num, pagina in enumerate(doc, start=1):
        print(f"Traduzindo página {num} de {len(doc)}...")
        texto = pagina.get_text()
        if texto.strip():  # Traduzir somente se houver texto
            try:
                texto_traduzido = translator.translate(texto)
            except Exception as e:
                print(f"Erro ao traduzir a página {num}: {e}")
                texto_traduzido = texto  # Manter o texto original em caso de erro

            # Adicionar a página traduzida ao novo PDF
            nova_pagina = novo_pdf.new_page(width=pagina.rect.width, height=pagina.rect.height)
            nova_pagina.insert_text(fitz.Point(72, 72), texto_traduzido, fontsize=11)
        else:
            print(f"Página {num} está vazia ou sem texto.")

    # Salvar o PDF traduzido
    novo_pdf.save(output_pdf)
    novo_pdf.close()
    doc.close()
    print(f"Tradução concluída. Arquivo salvo como '{output_pdf}'.")

# Usar a função
traduzir_pdf("documento_original.pdf", "documento_traduzido.pdf")
```
def traduzir_pdf(input_pdf, output_pdf, src_lang="en", dest_lang="pt"):
    # Abrir o PDF
    doc = fitz.open(input_pdf)
    translator = Translator(from_lang=src_lang, to_lang=dest_lang)

    # Criar um novo PDF
    novo_pdf = fitz.open()

    for num, pagina in enumerate(doc, start=1):
        print(f"Traduzindo página {num} de {len(doc)}...")
        texto = pagina.get_text()
        if texto.strip():  # Traduzir somente se houver texto
            try:
                texto_traduzido = translator.translate(texto)
            except Exception as e:
                print(f"Erro ao traduzir a página {num}: {e}")
                texto_traduzido = texto  # Manter o texto original em caso de erro

            # Adicionar a página traduzida ao novo PDF
            nova_pagina = novo_pdf.new_page(width=pagina.rect.width, height=pagina.rect.height)
            nova_pagina.insert_text(fitz.Point(72, 72), texto_traduzido, fontsize=11)
        else:
            print(f"Página {num} está vazia ou sem texto.")

    # Salvar o PDF traduzido
    novo_pdf.save(output_pdf)
    novo_pdf.close()
    doc.close()
    print(f"Tradução concluída. Arquivo salvo como '{output_pdf}'.")

# Usar a função
traduzir_pdf("documento_original.pdf", "documento_traduzido.pdf")
```
    translator = Translator(from_lang=src_lang, to_lang=dest_lang)

    # Criar um novo PDF
    novo_pdf = fitz.open()

    for num, pagina in enumerate(doc, start=1):
        print(f"Traduzindo página {num} de {len(doc)}...")
        texto = pagina.get_text()
        if texto.strip():  # Traduzir somente se houver texto
            try:
                texto_traduzido = translator.translate(texto)
            except Exception as e:
                print(f"Erro ao traduzir a página {num}: {e}")
                texto_traduzido = texto  # Manter o texto original em caso de erro

            # Adicionar a página traduzida ao novo PDF
            nova_pagina = novo_pdf.new_page(width=pagina.rect.width, height=pagina.rect.height)
            nova_pagina.insert_text(fitz.Point(72, 72), texto_traduzido, fontsize=11)
        else:
            print(f"Página {num} está vazia ou sem texto.")

    # Salvar o PDF traduzido
    novo_pdf.save(output_pdf)
    novo_pdf.close()
    doc.close()
    print(f"Tradução concluída. Arquivo salvo como '{output_pdf}'.")

# Usar a função
traduzir_pdf("documento_original.pdf", "documento_traduzido.pdf")


SyntaxError: invalid syntax (<ipython-input-9-3d15fb8ee3e5>, line 30)