# Azure AI 数据

>[Azure AI Studio](https://ai.azure.com/) 提供了将数据上传到云存储以及从以下来源注册现有数据资产的功能：
>
>- `Microsoft OneLake`
>- `Azure Blob Storage`
>- `Azure Data Lake gen 2`

与 `AzureBlobStorageContainerLoader` 和 `AzureBlobStorageFileLoader` 相比，这种方法的优势在于可以无缝处理到云存储的身份验证。您可以使用基于*身份*的数据访问控制，或者使用基于*凭据*（例如 SAS 令牌、帐户密钥）的数据访问控制。对于基于凭据的数据访问，您无需在代码中指定密钥或设置密钥保管库——系统会为您处理这些。

本笔记本将介绍如何从 AI Studio 中的数据资产加载文档对象。

In [None]:
%pip install --upgrade --quiet  azureml-fsspec, azure-ai-generative

In [1]:
from azure.ai.resources.client import AIClient
from azure.identity import DefaultAzureCredential
from langchain_community.document_loaders import AzureAIDataLoader

In [None]:
# Create a connection to your project
client = AIClient(
    credential=DefaultAzureCredential(),
    subscription_id="<subscription_id>",
    resource_group_name="<resource_group_name>",
    project_name="<project_name>",
)

In [3]:
# get the latest version of your data asset
data_asset = client.data.get(name="<data_asset_name>", label="latest")

In [None]:
# load the data asset
loader = AzureAIDataLoader(url=data_asset.path)

In [4]:
loader.load()

[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpaa9xl6ch/fake.docx'}, lookup_index=0)]

## 指定 glob 模式
你也可以指定一个 glob 模式来更精细地控制要加载哪些文件。在下面的示例中，将只加载具有 `pdf` 扩展名的文件。

In [5]:
loader = AzureAIDataLoader(url=data_asset.path, glob="*.pdf")

In [6]:
loader.load()

[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpujbkzf_l/fake.docx'}, lookup_index=0)]