## Cargadores de documentos ("document Loaders")

Aprenderemos a cargar datos de: TXT, PDF, CSV, and Youtube

### TextLoader
Carga de un archivo de texto 

In [1]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("./directorio/ConstitucionArgentina.txt",
                       encoding='utf-8')
texto = loader.load()

In [2]:
print("Tipo de dato -\n", type(texto))
print("***********************************")
print("Texto completo -\n", texto)
print("***********************************")

Tipo de dato -
 <class 'list'>
***********************************
Texto completo -
 [Document(metadata={'source': './directorio/ConstitucionArgentina.txt'}, page_content='La Constitución de la Nación Argentina, que rige actualmente a la República Argentina, fue aprobada por una asamblea constituyente integrada por representantes de trece provincias, hecha en la ciudad de Santa Fe en el año 1853. El propósito de la Constitución de 1853 fue poner fin al ciclo de las guerras civiles y sentar las bases de la «unión nacional» mediante un régimen republicano y federal. Antes de esta Constitución hubo dos intentos constituyentes en 1819 y 1826, que no prosperaron por carecer de consenso entre las provincias. Con posterioridad otras diez provincias y una ciudad integraron la federación.\nEl texto ha sido reformado varias veces, estando vigente la redacción resultante de la reforma de 1994. En varias oportunidades el orden constitucional fue dejado sin efecto por golpes de Estado, el último de

In [3]:
print("Numero de Documents -\n", len(texto))
print("***********************************")
print("Tipo de dato -\n", type(texto[0]))
print("***********************************")


Numero de Documents -
 1
***********************************
Tipo de dato -
 <class 'langchain_core.documents.base.Document'>
***********************************


In [4]:
print("Extraer texto de Document -\n", type(texto[0].page_content))
print("***********************************")
print("Extraer metadatos de Document -\n", texto[0].metadata)
print("***********************************")
print("impresion parcial del texto -\n", texto[0].page_content[0:100])

Extraer texto de Document -
 <class 'str'>
***********************************
Extraer metadatos de Document -
 {'source': './directorio/ConstitucionArgentina.txt'}
***********************************
impresion parcial del texto -
 La Constitución de la Nación Argentina, que rige actualmente a la República Argentina, fue aprobada 


### CSVLoader

In [5]:
# Se importa la clase
from langchain_community.document_loaders import CSVLoader

In [6]:
# Datos bursatiles sobre Microsoft
loader = CSVLoader(file_path="./directorio/microsoft.csv")
data = loader.load()
print("Documento completo -\n", data)    # Imprimir documento completo
print("*************************************")
print("Numero de Documents -\n", len(data))
print("*************************************")


Documento completo -
 [Document(metadata={'source': './directorio/microsoft.csv', 'row': 0}, page_content='Date: 2014-12-31\nOpen: 46.73\nHigh: 47.439999\nLow: 46.450001\nClose: 46.450001\nAdj Close: 42.848763\nVolume: 21552500'), Document(metadata={'source': './directorio/microsoft.csv', 'row': 1}, page_content='Date: 2015-01-02\nOpen: 46.66\nHigh: 47.419998\nLow: 46.540001000000004\nClose: 46.759997999999996\nAdj Close: 43.134731\nVolume: 27913900'), Document(metadata={'source': './directorio/microsoft.csv', 'row': 2}, page_content='Date: 2015-01-05\nOpen: 46.369999\nHigh: 46.73\nLow: 46.25\nClose: 46.330002\nAdj Close: 42.738068\nVolume: 39673900'), Document(metadata={'source': './directorio/microsoft.csv', 'row': 3}, page_content='Date: 2015-01-06\nOpen: 46.380001\nHigh: 46.75\nLow: 45.540001000000004\nClose: 45.650002\nAdj Close: 42.110783000000005\nVolume: 36447900'), Document(metadata={'source': './directorio/microsoft.csv', 'row': 4}, page_content='Date: 2015-01-07\nOpen: 45.98

In [7]:
# Imprimir una fila. Se demuestra que cada fila ocupa una pagina.
print("Imprimir una fila -\n", data[10]) 
print("*************************************")
print("Imprimir el texto de una fila -\n", data[0].page_content[0:500])
print("*************************************")
print("Imprimir los metadatos -\n", data[2].metadata)

Imprimir una fila -
 page_content='Date: 2015-01-15
Open: 46.220001
High: 46.380001
Low: 45.41
Close: 45.48
Adj Close: 41.953959999999995
Volume: 32750800' metadata={'source': './directorio/microsoft.csv', 'row': 10}
*************************************
Imprimir el texto de una fila -
 Date: 2014-12-31
Open: 46.73
High: 47.439999
Low: 46.450001
Close: 46.450001
Adj Close: 42.848763
Volume: 21552500
*************************************
Imprimir los metadatos -
 {'source': './directorio/microsoft.csv', 'row': 2}


##### Imprimir todas las filas

In [8]:
loader = CSVLoader(file_path="./directorio/microsoft.csv")
data = loader.load()
datos = []
for document in data:
    content = document.page_content
    datos.append(content)
datos

['Date: 2014-12-31\nOpen: 46.73\nHigh: 47.439999\nLow: 46.450001\nClose: 46.450001\nAdj Close: 42.848763\nVolume: 21552500',
 'Date: 2015-01-02\nOpen: 46.66\nHigh: 47.419998\nLow: 46.540001000000004\nClose: 46.759997999999996\nAdj Close: 43.134731\nVolume: 27913900',
 'Date: 2015-01-05\nOpen: 46.369999\nHigh: 46.73\nLow: 46.25\nClose: 46.330002\nAdj Close: 42.738068\nVolume: 39673900',
 'Date: 2015-01-06\nOpen: 46.380001\nHigh: 46.75\nLow: 45.540001000000004\nClose: 45.650002\nAdj Close: 42.110783000000005\nVolume: 36447900',
 'Date: 2015-01-07\nOpen: 45.98\nHigh: 46.459998999999996\nLow: 45.490002000000004\nClose: 46.23\nAdj Close: 42.645817\nVolume: 29114100',
 'Date: 2015-01-08\nOpen: 46.75\nHigh: 47.75\nLow: 46.720001\nClose: 47.59\nAdj Close: 43.900375\nVolume: 29645200',
 'Date: 2015-01-09\nOpen: 47.610001000000004\nHigh: 47.82\nLow: 46.900002\nClose: 47.189999\nAdj Close: 43.531395\nVolume: 23942800',
 'Date: 2015-01-12\nOpen: 47.419998\nHigh: 47.540001000000004\nLow: 46.3600010

#### Carga de documentos en PDF

In [None]:
#! pip install pypdf

In [9]:
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("directorio/WorldBank.pdf")
pages = loader.load()

In [10]:
print("Numero de paginas -\n", len(pages))
print("*************************************")
print("Imprimir una pagina \n", pages[5])
print("*************************************")
print("Imprimir los primeros 500 caracteres -\n", pages[0].page_content[0:500])
print("*************************************")
print("Imprimir los metadatos -\n", pages[1].metadata)

Numero de paginas -
 336
*************************************
Imprimir una pagina 
 page_content='Part II   Transitions    67
3 Learning for work and life    68
Educational preparation of youth for work and life is low    68
A solid foundation: Improving the readiness for postprimary education    71Enhancing postprimary education opportunities    72
Better education choices by young people    81
Offering second chances    89
Spotlight: Vietnamese youth: Managing prosperity    94
4 Going to work    96
Y outh challenges in the labor market    96
What makes youth vulnerable in the labor market?    103Broadening labor market opportunities    106
Choosing to work and developing the skills to do so    111
Providing a springboard to reintegrate the most vulnerable    114
Spotlight: Do baby booms lead to employment busts? 
Not in OECD countries    120
5 Growing up healthy    122
Promoting the health of young people stimulates growth and 
reduces poverty and health care expenditures    123
Pub

#### Cargar transcripciones de audio de YouTube
Descarga con YouTubeLoader

In [44]:
#! pip install youtube-transcript-api pytube



In [11]:
# Trancripcion traducida del audio
from langchain_community.document_loaders import YoutubeLoader

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=O5nskjZ_GoI", 
    add_video_info=True,
    language=["en", "id"],
    translation="es",
)
audio = loader.load()
print(audio[0].page_content[:500])

Hola mundo, soy Carrie Anne y bienvenidos
a CrashCourse Computer Science. A lo largo de esta serie,
pasaremos de bits, bytes, transistores y puertas lógicas hasta sistemas operativos,
realidad virtual y robots. Vamos a cubrir mucho, pero sólo para
aclarar las cosas: NO le enseñaremos cómo programar. En cambio, exploraremos una variedad
de temas informáticos como disciplina y tecnología. Las computadoras son el alma del mundo actual. Si se apagaran repentinamente, de
repente, la red eléctrica se 


#### Carga de páginas web

In [1]:
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://www.espn.com/")
docs = loader.load()
print(docs[0].page_content[:500])

USER_AGENT environment variable not set, consider setting it to identify your requests.











ESPN - Serving Sports Fans. Anytime. Anywhere.




























































































        Skip to main content
    

        Skip to navigation
    

































<

>









MenuESPN





scores




NEW! Find where to watch all of your favorite sports!







NFLNBAMLBNCAAFNHLSoccer…WNBABoxingCFLNCAACricketF1GolfHorseLLWSMMANASCARNBA G LeagueNBA Summer LeagueNCAAMNCAAWNWSLOlympicsPLLProfessional WrestlingRaci


##### Limpiar caracteres de fin de linea, \n.

In [3]:
import re

docs[0].page_content = re.sub("\n\n+", "\n", docs[0].page_content)
print(docs[0].page_content )


ESPN - Serving Sports Fans. Anytime. Anywhere.
        Skip to main content
    
        Skip to navigation
    
<
>
MenuESPN
scores
NEW! Find where to watch all of your favorite sports!
NFLNBAMLBNCAAFNHLSoccer…WNBABoxingCFLNCAACricketF1GolfHorseLLWSMMANASCARNBA G LeagueNBA Summer LeagueNCAAMNCAAWNWSLOlympicsPLLProfessional WrestlingRacingRN BBRN FBRugbySports BettingTennisX GamesUFLFantasyWatchESPN BETESPN+
  
Subscribe Now
NCAA Football
U.S. Open: Women's Final
Fight Night: Burns vs. Brady
Premier Lacrosse League: Semifinals
MLB
The Breakdown with Peyton and Belichick
Fantasy Football Week 1 Playbook
Quick Links
2024 US Open
MLB Playoff Tracker
MLB Standings
2024 NFL Schedule
WNBA Rookie Tracker
Fantasy Football Rankings
Sign up: Fantasy Football
College Football Schedule
ESPN Radio: Listen Live
Watch Tennis on ESPN
Don't have ESPN? Get Instant Access
Favorites
      Manage Favorites
      
Customize ESPNCreate AccountLog InFantasy
Football
Baseball
Basketball
Hockey
ESPN Sites
ESPN

#### Descarga de artículos de arXiv.org
El sitio Arxiv.org guarda millones de artículos científicos. 

In [49]:
# Modulo de descarga
%pip install --upgrade --quiet  arxiv   
# Convierte de PDF a texto
!pip install --upgrade --quiet  pymupdf   

Note: you may need to restart the kernel to use updated packages.


##### https://info.arxiv.org
2406.17809 

In [5]:
from langchain_community.document_loaders import ArxivLoader

#docs = ArxivLoader(query="2406.17809").load()
docs = ArxivLoader(query="chatbot", load_max_docs=2).load()
print(len(docs))              # Cantidad de documentos descargados
print(docs[0].metadata)       # Recuperar los metadatos
docs[1].page_content[:400]    # Recuperar parte del contenido

#"1509.04264"

2
{'Published': '2021-04-10', 'Title': 'Designing Effective Interview Chatbots: Automatic Chatbot Profiling and Design Suggestion Generation for Chatbot Debugging', 'Authors': 'Xu Han, Michelle Zhou, Matthew Turner, Tom Yeh', 'Summary': 'Recent studies show the effectiveness of interview chatbots for information\nelicitation. However, designing an effective interview chatbot is non-trivial.\nFew tools exist to help designers design, evaluate, and improve an interview\nchatbot iteratively. Based on a formative study and literature reviews, we\npropose a computational framework for quantifying the performance of interview\nchatbots. Incorporating the framework, we have developed iChatProfile, an\nassistive chatbot design tool that can automatically generate a profile of an\ninterview chatbot with quantified performance metrics and offer design\nsuggestions for improving the chatbot based on such metrics. To validate the\neffectiveness of iChatProfile, we designed and conducted a between-

" \nAbstract \n \nWith the rapid development of artificial intelligence and \nbreakthroughs in machine learning and natural language \nprocessing, intelligent question-answering robots have \nbecome widely used in government affairs. This paper \nconducts a horizontal comparison between Guangdong \nProvince's government chatbots, ChatGPT, and Wenxin \nErnie, two large language models, to analyze the strengt"

#### Cargar el contenido de un directorio

In [2]:
# # Instalar paquetes
#!pip install python-magic-bin
#! pip install python-magic
#!pip install --upgrade --quiet  "unstructured[all-docs]"

Collecting python-magic-bin
  Downloading python_magic_bin-0.4.14-py2.py3-none-win_amd64.whl.metadata (710 bytes)
Downloading python_magic_bin-0.4.14-py2.py3-none-win_amd64.whl (409 kB)
Installing collected packages: python-magic-bin
Successfully installed python-magic-bin-0.4.14


In [10]:
from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader("./directorio", glob="*.pdf")
pages = loader.load()
print(len(pages))   # devuelve el número de documentos cargados.
for i in pages:
    print(i.metadata)

6
{'source': 'directorio\\Constitucion1853.pdf'}
{'source': 'directorio\\Estructuras.pdf'}
{'source': 'directorio\\Modulo2.pdf'}
{'source': 'directorio\\Modulo3.pdf'}
{'source': 'directorio\\Plata-o-Plomo-Bribe-DiTella.pdf'}
{'source': 'directorio\\WorldBank.pdf'}


In [11]:
# Mostrar cada documento. Segrega las funciones en documentos separados. Comparar con el script.
pages[3].page_content#[:100]

'ÍNDICE GENERAL\n\nPARTE V PRESENTACIONES VISUALES\n\nCAPÍTULO 1 GRÁFICOS\n\n1.1.\n\nplot()\n\n1.1.1. 1.1.2.\n\nAdornos Colores\n\n1.2.\n\nGráficos especiales\n\n1.3.\n\nggplot\n\n1.3.1.\n\nHistogramas, Diagramas de caja y de barra\n\n1.4.\n\nlevelplot()\n\n1.5.\n\nSeries temporales\n\n1.6 Técnicas gráficas en el Análisis Exploratorio de Datos (EDA)\n\nPARTE VI ESTRUCTURAS DE CONTROL\n\n1.6.\n\nVectorización\n\n1.7.\n\nIteración\n\n1.7.1. 1.7.2. 1.7.3. 1.7.4.\n\nbucle for bucle repeat bucle while familia apply(), lapply(), sapply(), tapply()\n\n1.8.\n\nCarga automatizada de archivos\n\n1.9.\n\nEstructuras de ejecución condicional Condición sin alternativas Condición con una alternativa Ejemplo C Condición con varias alternativas\n\n1.9.1. 1.9.2. 1.9.3. 1.9.4.\n\nPARTE VII\n\n1.10. Proyectos\n\n1.11.\n\nScripts\n\n1.11.2.\n\nBuenas prácticas en programación\n\nERROR! BOOKMARK NOT DEFINED.\n\n1\n\n2\n\n2 5 6\n\n9\n\n9 12\n\n13\n\n15\n\n15\n\n18\n\n19\n\n19 19 21 21 22\n\n24\n\n25 25 26 2

##### Cargar multiples extensiones
El sitio de LangChain muestra código para cargar archivos con diferentes extensiones ubicados en un mismo directorio. <br>
Ver:
https://github.com/langchain-ai/langchain/discussions/18559
