<a href="https://colab.research.google.com/github/Aigmented/docs/blob/main/aigmented_io_research_docs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dokumentacja Projektu Aigmented.io
Plik ten jest dokumentacją projektu Aigmented.io, innowacyjnego przedsięwzięcia w dziedzinie przetwarzania i indeksowania dokumentów PDF do wektorowej bazy danych, z następującym wykorzystaniem w systemie RAG (Retrieval-Augmented Generation). Celem tego projektu jest stworzenie proof of concept narzędzia, które umożliwi efektywniejszą analizę i dostęp do zawartości dokumentów PDF, otwierając nowe możliwości w obszarze przetwarzania danych.

Skupiamy się na trzech głównych założeniach, które są fundamentem naszego podejścia:


1.   **Przetwarzanie wejściowego pliku PDF:** Zadaniem jest analiza i przetworzenie dokumentów PDF w celu ekstrakcji danych, w tym tekstu, obrazów i tabel. Proces ten ma na celu przygotowanie dokumentów do dalszej analizy i indeksacji.
2.   **Podzielenie zawartości PDF na tekst, obrazki oraz tabele:** Dokładne rozdzielenie i klasyfikacja różnych typów zawartości zawartych w plikach PDF jest kluczowe dla efektywnego przetwarzania i analizy danych.
3.   O**pisanie obrazków i tabeli przy użyciu GPT-4V:** Wykorzystanie zaawansowanych modeli AI, takich jak GPT-4V, do generowania opisów i analizy skomplikowanych elementów nietekstowych w dokumentach. To podejście pozwala na głębsze zrozumienie i lepszą organizację informacji zawartych w dokumentach PDF.

## Główne Założenia Projektu
1. **Przetwarzanie wejściowego pliku PDF:** Opracowanie metod ekstrakcji danych z różnorodnych dokumentów PDF, z naciskiem na dokładność i efektywność.
2. **Podzielenie zawartości PDF:** Rozwój technik klasyfikacji i segmentacji danych, umożliwiających wyodrębnienie tekstu, obrazów i tabel jako oddzielnych, analizowanych elementów.
3. **Wykorzystanie GPT-4V:** Integracja zaawansowanych technologii AI w procesie opisywania i analizowania obrazów i tabel, co przyczyni się do zwiększenia dokładności i głębi analizy.


## Sekcja 1: Stan Obecny



Obecnie opieramy się na prostych funkcjach LangChain - gdzie używamy `ConversationalRetrievalChain` do zapytań, przymuje ona listę zapytań historycznych oraz dwa prompty. Jeden do przetworzenia zapytania w oparciu o historię rozmowy i drugi dodający kontekst z wektorowej bazy danych i odpowiadający na zapytanie.

In [1]:
!pip install langchain==0.0.300 chromadb==0.3.26

Collecting langchain==0.0.300
  Downloading langchain-0.0.300-py3-none-any.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting chromadb==0.3.26
  Downloading chromadb-0.3.26-py3-none-any.whl (123 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m123.6/123.6 kB[0m [31m14.0 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain==0.0.300)
  Downloading dataclasses_json-0.6.3-py3-none-any.whl (28 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain==0.0.300)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting langsmith<0.1.0,>=0.0.38 (from langchain==0.0.300)
  Downloading langsmith-0.0.75-py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.7/46.7 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
Collecting hnswlib>=0.7 (from chromadb==0.3.26)
  Downloading hnswlib-0.8.0.tar.gz (36 kB)
  Instal

In [None]:
from langchain import LLMChain, OpenAI, PromptTemplate
from langchain.chat_models import ChatOpenAI
from chromadb import chromadb
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.chains import ConversationalRetrievalChain
from langchain.chains.question_answering import load_qa_chain

chain = ConversationalRetrievalChain(
    retriever=collection.as_retriever(),
    combine_docs_chain=doc_chain,
    question_generator=question_generator,
    return_source_documents=True
)

## Sekcja 2: Wizja Przyszłości