# Multi-Language Support in LlamaParse

LlamaParse supports users to specify a `language` parameter before uploading documents, giving users better OCR capabilities over non-English PDFs, parsing images into more accurate representations.

You can specify 80+ different languages: see this file for a full list of supported languages: https://github.com/run-llama/llama_parse/blob/main/llama_parse/base.py.

This notebook shows a demo of this in action. 

In [None]:
!pip install llama-index llama-parse

In [None]:
# llama-parse is async-first, running the sync code in a notebook requires the use of nest_asyncio
import nest_asyncio

nest_asyncio.apply()

import os

# os.environ["LLAMA_CLOUD_API_KEY"] = "llx-..."

## Load in a French PDF

We load in the 2022 annual report from Agence France Tresor.

In [None]:
!wget "https://www.dropbox.com/scl/fi/fxg17log5ydwoflhxmgrb/treasury_report.pdf?rlkey=mdintk0o2uuzkple26vc4v6fd&dl=1" -O treasury_report.pdf

In [None]:
from llama_parse import LlamaParse

parser = LlamaParse(result_type="text", language="fr")
documents = parser.load_data("./treasury_report.pdf")

Started parsing the file under job_id 476966e1-9e04-49e7-a5dc-952b053b8b94
......

In [None]:
print(documents[0].get_content()[1000:10000])

 ET GESTION DE LA DETTE DE L’ÉTAT
             P.56      FOCUS OAT VERTES
             P.60      CONTRÔLE DES RISQUES & POST-MARCHÉ
         Chiffres de l’exercice 2022                                                    P.64 À 105
             P.65      ACTIVITÉ DE L’AFT
             P.84      RAPPORT STATISTIQUE
         FICHES TECHNIQUES                   GLOSSAIRES                LISTE DES ABRÉVIATIONS
             P.106                                P.118                    P.122
                                                              AGENCE FRANCE TRÉSOR - RAPPORT D’ACTIVITÉ 2022      3
---
                                    Édito
                                                   111        Avec une croissance
                                                       de +2,5 %, la France a illustré
                                                      une nouvelle fois sa résilience
                                                       économique face aux chocs.
4  AGENCE F

## Download Chinese PDF

In [None]:
!wget "https://www.dropbox.com/scl/fi/g5ojyzk4m44hl7neut6vc/chinese_pdf.pdf?rlkey=45reu51kjvdvic6zucr8v9sh3&dl=1" -O chinese_pdf.pdf

--2024-02-28 16:41:26--  https://www.dropbox.com/scl/fi/g5ojyzk4m44hl7neut6vc/chinese_pdf.pdf?rlkey=45reu51kjvdvic6zucr8v9sh3&dl=1
Resolving www.dropbox.com (www.dropbox.com)... 162.125.13.18
Connecting to www.dropbox.com (www.dropbox.com)|162.125.13.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://uc7a03fdb7d960dbedb23e9298ab.dl.dropboxusercontent.com/cd/0/inline/COJ69Wg2e7wH9S0ELzl4j4znoonRSQS-JJrH6mxy_vcrvY-KV7f10kMyQH6IYmtfMh_9xcDNOYnLkWkwMTYItwE1XQB5nqXbjmLJ4jLbDrMeu7-b49m796ctxevwnp7k1_U/file?dl=1# [following]
--2024-02-28 16:41:27--  https://uc7a03fdb7d960dbedb23e9298ab.dl.dropboxusercontent.com/cd/0/inline/COJ69Wg2e7wH9S0ELzl4j4znoonRSQS-JJrH6mxy_vcrvY-KV7f10kMyQH6IYmtfMh_9xcDNOYnLkWkwMTYItwE1XQB5nqXbjmLJ4jLbDrMeu7-b49m796ctxevwnp7k1_U/file?dl=1
Resolving uc7a03fdb7d960dbedb23e9298ab.dl.dropboxusercontent.com (uc7a03fdb7d960dbedb23e9298ab.dl.dropboxusercontent.com)... 162.125.13.15
Connecting to uc7a03fdb7d960dbedb23e9298ab.dl.dropboxuse

In [None]:
from llama_parse import LlamaParse

parser = LlamaParse(result_type="text", language="ch_sim")
documents = parser.load_data("./chinese_pdf.pdf")

Started parsing the file under job_id 0089f0b6-29ee-4e94-a8bf-49a137666f15
..........

In [None]:
print(documents[0].get_content()[1000:10000])

中国投资有限责任公司2022年度报告                        5
---
企业文化与核心价值观
使命                           核心价值观
 致力于实现国家外汇资金多元化投资，在可接受风险范围内  责任              合力
 实现股东权益最大化，以服务于国家经济发展和深化金融体
 制改革的需要                      忠于使命、勤勉尽责       立足大局、有效协同
                             是公司遵奉的核心价值取向    是实现公司可持续发展的关键
 愿景                          专业              进取
 成为受人尊重的国际一流主权财富基金           坚持良好的专业精神和职业操守  求知进取、追求卓越
                             是公司成功的基石        是公司成功和发展壮大的内驱力
---
01                           我们将一以贯之地践行全球发展倡议，充分维护投资东道国利益，
                             积极投身可持续投资，助力世界经济实现更高质量、更有韧性的发展。
   致  辞
   3     中国投资有限责任公司2022年度报告  中国投资有限责任公司2022年度报告               4
---
                           “行之力则知愈进，知之深则行愈达。”站在新的历史起点上，中投公司
                           将继续秉承精益求精、追求卓越的专业精神，与国内外合作伙伴一起深化
                           合作，共聚力量、共迎挑战、共享成果，开启打造世界一流主权财富基金
                           的新篇章，为助力全球经济发展作出新贡献！                                   #Ave彭纯
                                                                                    

In [None]:
# download another copy with a different name to avoid hitting pdf cache
!wget "https://www.dropbox.com/scl/fi/g5ojyzk4m44hl7neut6vc/chinese_pdf.pdf?rlkey=45reu51kjvdvic6zucr8v9sh3&dl=1" -O chinese_pdf2.pdf

In [None]:
from llama_parse import LlamaParse

base_parser = LlamaParse(result_type="text", language="en")
base_documents = parser.load_data("./chinese_pdf2.pdf")

Started parsing the file under job_id 99538f59-24f7-4f1e-ab27-4081933fa5ee


In [None]:
print(base_documents[0].get_content()[1000:10000])