In [16]:
pip install  transformers torch langchain-community youtube_transcript_api



# 1. RAG - Porozmawiaj z danymi
Można użyć `document_loaders` z biblioteki `langchain-community` żeby załadować różne typy danych i "porozmawiać z nimi" używając LLMów.

Biblioteka `langchain-community` oferuje wiele różnych loaderów, między innymi:
- [Web](https://python.langchain.com/docs/integrations/document_loaders/web_base/)
- [Twitter](https://python.langchain.com/docs/integrations/document_loaders/twitter/)
- [Discord](https://python.langchain.com/docs/integrations/document_loaders/discord/)
- [Github](https://python.langchain.com/docs/integrations/document_loaders/github/)
- [CSV](https://python.langchain.com/docs/integrations/document_loaders/csv/)
- [Youtube](https://python.langchain.com/docs/integrations/document_loaders/youtube_transcript/)

i wiele więcej.

### Zaimportować Loader
Na początek trzeba zaimportować odpowiedni moduł z `langchain_community.document_loaders`. [Tutaj](https://python.langchain.com/docs/integrations/document_loaders/) można znaleźć wszystkie dostępne opcje.

Niektóre loadery wymagają dodatkowych dependencji które trzeba samodzielnie doinstalować.

In [17]:
from langchain.document_loaders import PyPDFLoader

### Załadować dane
Stworzyć loader i użyć metody `load` żeby załadować dane.

In [18]:
loader = PyPDFLoader(file_path="zaliczenie.pdf")

data = loader.load()

### Załadować Model

In [35]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("unsloth/Llama-3.2-1B-Instruct")
model = AutoModelForCausalLM.from_pretrained("unsloth/Llama-3.2-1B-Instruct")

tokenizer_config.json:   0%|          | 0.00/54.7k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/454 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/978 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.47G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/234 [00:00<?, ?B/s]

### Zaimplementować funkcję `generate`


In [42]:
def generate(prompt: str) -> str:
    inputs = tokenizer(prompt, return_tensors="pt")

    outputs = model.generate(**inputs, max_new_tokens=256, temperature=0.7)

    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response


In [43]:
# Test the `generate` function
generate("what is the fastest car?")

"what is the fastest car? production car\nThe fastest production car is the Bugatti Chiron Super Sport 300+, with a top speed of 330 mph (531 km/h). However, it's worth noting that this car is a one-off limited edition, and it's not intended for public sale.\n\nThe fastest production car that is currently available for public sale is the Hennessey Venom F5, with a top speed of 301 mph (484 km/h). However, it's also a one-off limited edition, and it's not intended for public sale.\n\nHere are some other fast production cars:\n\n* Koenigsegg Agera RS: 273 mph (439 km/h)\n* Rimac C_Two: 258 mph (415 km/h)\n* Pagani Huayra BC: 238 mph (383 km/h)\n* SSC Tuatara: 238 mph (383 km/h)\n* Aston Martin Valkyrie: 225 mph (362 km/h)\n\nNote: The top speeds listed are manufacturer-claimed, and may not be verified by independent sources.\n\nIt's worth noting that there are other contenders for the fastest production car, such as the:\n\n* McLaren Speedtail: 225 mph (362 km/h)\n* Ferrari SF90 Stradale

### Napisać prompt
Napisać prompt bazowy na podstawie którego zostanie wygenerowana odpowiedź na `query` użytkownika w oparciu o dostępne dane.

In [44]:
BASE_PROMPT = """
You are an advanced assistant. Use the provided data to generate a precise and helpful response to the query below.

Query: {query}

Data:
{data}

Your response should be clear, concise, and directly address the query based on the data provided.
"""

### Wygenerować odpowiedź

In [45]:
query = "Help me improve this project."
prompt = BASE_PROMPT.format(query=query, data=data)

In [46]:
generate(prompt)

"\nYou are an advanced assistant. Use the provided data to generate a precise and helpful response to the query below.\n\nQuery: Help me improve this project.\n\nData:\n[Document(metadata={'source': 'zaliczenie.pdf', 'page': 0, 'page_label': '1'}, page_content='Wdrożenie innowacyjnej platformy Predictive Maintenance w \\nprzedsiębiorstwie produkcyjnym \\nMikołaj Szechniuk, Hubert Brzozowski, Kacper Miakinko \\n1. Wprowadzenie \\n1.1 Ogólna prezentacja kontekstu i problemu \\nW obliczu globalnej konkurencji i rosnących wymagań klientów \\nprzedsiębiorstwa produkcyjne potrzebują strategii pozwalających na \\nmaksymalizację dostępności maszyn oraz minimalizację kosztów napraw i \\nprzestojów. \\nTradycyjne podejście do utrzymania ruchu opiera się często na naprawach \\npoawaryjnych lub prewencyjnych w stałych odstępach czasu, co generuje \\nniepotrzebne koszty i nieprzewidywalne postoje. Rozwiązaniem jest wdrożenie \\nplatformy Predictive Maintenance, która, opierając się na danych z czuj

# 2. Prompt Chaining
Można łączyć wiele promptów jeden po drugim, aby przeprowadzać transformacje lub dodatkowe procesy na generowanych odpowiedziach przed osiągnięciem  pożądanego rezultatu.

Zadaniem będzie przekształcić zadanie programistyczne w gotowy fragment kodu, łącząc prompty w następujący łańcuch:
1. Wygenerować plan rozwiązania problemu (najlepiej w krokach)
2. Wygenerować dodatkowe kwestie, które należy wziąć pod uwagę
3. Wygenerować ostateczny kod

### Zdefiniować prompty

Prompt musi być odpowiednio sformatowany. Możesz użyć tagów HTML, markdown lub innych opcji formatowania.
W zapytaniach należy używać placeholderów.

In [47]:
GENERATE_PLAN_PROMPT = """
Given the following query:

Query: {query}

Please generate a step-by-step plan to solve the problem described in the query. Focus on clear and logical steps that will guide the resolution process. Avoid providing any code or implementation details.

Plan:
"""


In [48]:
GENERATE_CONSIDERATIONS_PROMPT = """
Based on the following query and plan:

Query: {query}
Plan:
{plan}

Please generate a list of additional considerations or constraints that should be taken into account when solving the problem. Avoid revising the plan or providing any code.

Considerations:
"""


In [49]:
GENERATE_CODE_PROMPT = """
Using the query, plan, and considerations provided below:

Query: {query}
Plan:
{plan}
Considerations:
{considerations}

Generate the final Python code that implements the solution to the problem described in the query. The code should follow the provided plan and account for the considerations. Do not include any explanations or comments outside the code.

Code:
"""


### Stwórzyć łańcuch

In [50]:
def run_chain(query: str) -> str:
    # 1. Generate a step-by-step plan
    print("Generating a step-by-step plan...")
    prompt = GENERATE_PLAN_PROMPT.format(query=query)
    plan = generate(prompt)
    print(plan)

    # 2. Generate additional considerations
    print("\n\nGenerating additional considerations...")
    prompt = GENERATE_CONSIDERATIONS_PROMPT.format(query=query, plan=plan)
    considerations = generate(prompt)
    print(considerations)

    # 3. Generate the final code snippet
    print("\n\nGenerating the final code snippet...")
    prompt = GENERATE_CODE_PROMPT.format(query=query, plan=plan, considerations=considerations)
    code = generate(prompt)
    print(code)

    return code

### Przetestować łańcuch

In [51]:
example_query_1 = "Write a Python function to find all prime numbers in a range from 1 to n."
example_query_2 = "Write a function that takes a list of words and a single word, and returns all the words in the list that are anagrams of the given word."
example_query_3 = "Whire a python program that can manage inserting into Red Black trees"

In [None]:
code_snippet = run_chain(example_query_1)

Generating a step-by-step plan...


In [None]:
from IPython.display import display, Code

# Display the generated code snippet
display(Code(code_snippet, language='python'))

Wkleić wygenerowany kod do komórki poniżej żeby sprawdzić czy działa poprawnie.

In [None]:
# Paste the generated code snippet here

# 3. Walidator tekstu - Zadanie domowe
Napisać walidator tekstu, który sprawdzi, czy tekst nie łamie żadnych reguł. Jeśli łamie, walidator powinien zwrócić odpowiednią informację.

### Zdefiniować kryteria

In [None]:
RULES = {
    "no_personal_info": "Should not contain any personal information.",
    "english_only": "Should be in English.",
    "no_questions": "Should not contain any questions.",
    # Feel free to add more rules here
}

### Zaimplementować walidator

In [None]:
VALIDATION_PROMPT = """
You are a validator. You need to ensure that the provided text meets the criteria.

<Criteria>
Code: {rule_code}
Description: {rule_description}
</Criteria>

<Text to check>
{text_to_check}
</Text to check>

# Output format
Output the result in the following JSON format:
{{
    "criteria_met": bool,  # True if the criteria is met, False otherwise
    "feedback": str  # Provide feedback if the criteria is not met, otherwise leave empty string
}}

Return just the JSON without any additional information or comments.
"""

In [None]:
import json


def validate_rule(text: str, rule_code: str) -> dict:
    # 1. Load the rule description from the RULES dictionary for the given `rule_code`
    # 2. Prepare the prompt using `VALIDATION_PROMPT` and `format` method
    # 3. Run the `generate` function
    # 4. Use `json.dumps` to transform the string output into a dictionary
    # 5. Add the `rule_code` to the dictionary
    # 6. Return the dictionary. The dictionary should contain the following keys: "criteria_met", "feedback", "rule_code"
    pass

### Przetestować walidator

In [None]:
def run_validator(text: str):
    for rule_code in RULES.keys():
        print(f"Checking rule '{rule_code}'...")
        result = validate_rule(text, rule_code)

        assert result["criteria_met"], f"Rule '{rule_code}' is not met. Feedback: {result['feedback']}"

        print("Rule is met.")

In [None]:
text_to_check = "My name is John and I like to play basketball. Do you know how to play basketball?"

In [None]:
run_validator(text_to_check)

### Zaimplementować funkcję anonimizacji `anonymize` - Zadanie dodatkowe
Jeśli tekst zawiera dane które łamią powyższe reguły (np. dane osobowe), funkcja `anonymize` ma podmienić te dane na placeholder.

In [None]:
ANONYMIZE_PROMPT = """
Your prompt here.
"""


def anonymize(text: str) -> str:
    # Implement the function that will replace the personal information with a placeholder
    # Make sure to return the anonymized text (string)
    pass

In [None]:
print(f"Checking rule 'no_personal_info'...")
result = validate_rule(text_to_check, rule_code="no_personal_info")

if not result["criteria_met"]:
    print("Personal information found. Anonymizing the text...")
    anonymized_text = anonymize(text_to_check)
    print(anonymized_text)

    print("Re-running the validation...")
    validate_rule(anonymized_text, rule_code="no_personal_info")

    assert result["criteria_met"], "Anonymized text still contains personal information. Refine your prompt."

print("Rule is met.")