<a href="https://colab.research.google.com/github/kapamawi/AI/blob/main/2_4_2___csv_finanse.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Setup

In [None]:
! pip install -qU cohere langchain langchain_cohere langchain_experimental pydantic

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m170.8/170.8 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m249.7/249.7 kB[0m [31m13.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m54.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.1/44.1 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.0/209.0 kB[0m [31m19.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m456.4/456.4 kB[0m [31m36.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m76.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m83.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Ten kod instaluje kilka pakietów Pythona, które są potrzebne do pracy z modelami językowymi i przetwarzaniem tekstu:

`pip` to narzędzie do instalacji pakietów Pythona. Flaga `-q` oznacza "tryb cichy" - ogranicza wyświetlanie szczegółów procesu instalacji do minimum. Flaga `-U` (lub `--upgrade`) oznacza aktualizację pakietów do najnowszych dostępnych wersji.

Instalowane pakiety to:

`cohere` - biblioteka umożliwiająca dostęp do modeli językowych firmy Cohere, które mogą być wykorzystane do różnych zadań przetwarzania języka naturalnego.

`langchain` - framework ułatwiający budowanie aplikacji wykorzystujących modele językowe. Dostarcza narzędzia do łączenia różnych komponentów w kompleksowe rozwiązania.

`langchain_cohere` - moduł integrujący LangChain z modelami Cohere.

`langchain_experimental` - zbiór eksperymentalnych funkcji i narzędzi dla LangChain, które są jeszcze w fazie testów.

`pydantic` - biblioteka do walidacji danych i zarządzania ustawieniami w Pythonie. Jest często używana z LangChain do definiowania schematów danych i konfiguracji.

Kod wykorzystuje wykrzyknik `!` na początku linii - to specjalna składnia używana w środowiskach Jupyter Notebook/Google Colab, która pozwala na wykonywanie poleceń systemowych bezpośrednio w komórce notebooka.

In [None]:
import os
from typing import List

import cohere
import langchain
import langchain_core
import langchain_experimental
import pandas as pd
from langchain.agents import Tool
from pydantic import BaseModel, Field
from langchain_experimental.utilities import PythonREPL
from google.colab import userdata

Ten kod importuje niezbędne biblioteki i komponenty do pracy z modelami językowymi i przetwarzaniem danych.

Z biblioteki standardowej Pythona importowany jest moduł `os`, który zapewnia funkcje do interakcji z systemem operacyjnym, oraz `typing` z typem `List`, używanym do precyzyjnego określania typów danych w kodzie.

Następnie importowane są główne biblioteki do pracy z modelami językowymi:
- `cohere` - dostarcza interfejs do modeli językowych Cohere
- `langchain` - framework do budowania aplikacji opartych o modele językowe
- `langchain_core` - zawiera podstawowe komponenty LangChain
- `langchain_experimental` - moduł z eksperymentalnymi funkcjami LangChain

Z biblioteki `pandas` importowany jest główny moduł jako `pd`. Pandas służy do analizy i manipulacji danymi, szczególnie w formie tabel.

Z modułu `langchain.agents` importowana jest klasa `Tool`, która pozwala definiować narzędzia używane przez agentów LangChain do wykonywania konkretnych zadań.

Z biblioteki `pydantic` importowane są `BaseModel` i `Field`. Pydantic służy do walidacji danych - `BaseModel` to podstawowa klasa do tworzenia modeli danych, a `Field` pozwala określać szczegółowe wymagania dla pól w modelu.

Z modułu eksperymentalnego LangChain importowany jest `PythonREPL` - narzędzie pozwalające na wykonywanie kodu Pythona w czasie rzeczywistym.

Na końcu z modułu `google.colab` importowana jest funkcjonalność `userdata`, która umożliwia dostęp do danych użytkownika w środowisku Google Colab.

Wszystkie te importy tworzą podstawę do budowy systemu, który może łączyć modele językowe z przetwarzaniem danych i wykonywaniem kodu Pythona.

In [None]:
class CFG:
  model = "command-r-plus"
  temperature = 0.1

Ta klasa `CFG` służy do przechowywania konfiguracji systemu. Jest to prosty sposób na zebranie w jednym miejscu parametrów, które będą wpływać na działanie modelu językowego.

Zdefiniowane są w niej dwa parametry:

`model = "command-r-plus"` określa, który model będzie używany do przetwarzania tekstu. "Command-r-plus" to konkretna wersja modelu, która została wybrana do tego zadania. Jest to istotne, ponieważ różne modele mogą mieć różne możliwości i charakterystyki działania.

`temperature = 0.1` kontroluje "kreatywność" modelu językowego. Temperatura 0.1 jest stosunkowo niska, co oznacza, że model będzie generował bardziej przewidywalne i spójne odpowiedzi.  

Umieszczenie tych parametrów w osobnej klasie konfiguracyjnej to dobra praktyka programistyczna - ułatwia zarządzanie ustawieniami i ich ewentualną zmianę w przyszłości. Zamiast szukać i modyfikować wartości w różnych miejscach kodu, mamy jeden centralny punkt kontroli nad zachowaniem systemu.

In [None]:
# api keys
os.environ['COHERE_API_KEY'] = userdata.get('cohereprod')
co = cohere.Client(api_key= userdata.get('cohereprod'))


Te linie kodu konfigurują dostęp do API Cohere.

Pierwsza linia ustawia klucz API Cohere jako zmienną środowiskową. Używa do tego funkcji `userdata.get('cohereprod')`, która pobiera zapisany wcześniej klucz API ze specjalnego miejsca w Google Colab, gdzie przechowywane są poufne dane użytkownika. Dzięki temu klucz API nie jest zapisany bezpośrednio w kodzie, co jest bezpieczniejszym rozwiązaniem.

Druga linia tworzy obiekt klienta Cohere (`co`), który będzie używany do komunikacji z API. Ten obiekt jest inicjalizowany tym samym kluczem API. Po utworzeniu tego obiektu można go używać do wysyłania zapytań do modeli językowych Cohere.

Ustawienie klucza API jako zmiennej środowiskowej jest przydatne, ponieważ wiele bibliotek automatycznie szuka go właśnie w zmiennych środowiskowych. Natomiast utworzenie obiektu klienta jest niezbędne do bezpośredniej interakcji z API Cohere.

# Data

In [None]:
income_statement = pd.read_csv('/content/income_statement.csv')
balance_sheet = pd.read_csv('/content/balance_sheet.csv')

In [None]:
income_statement.head(2)

Unnamed: 0.1,Unnamed: 0,index,RevenueFromContractWithCustomerExcludingAssessedTax,CostOfGoodsAndServicesSold,GrossProfit,ResearchAndDevelopmentExpense,SellingGeneralAndAdministrativeExpense,OperatingExpenses,OperatingIncomeLoss,NonoperatingIncomeExpense,IncomeLossFromContinuingOperationsBeforeIncomeTaxesExtraordinaryItemsNoncontrollingInterest,IncomeTaxExpenseBenefit,NetIncomeLoss,EarningsPerShareBasic,EarningsPerShareDiluted,WeightedAverageNumberOfSharesOutstandingBasic,WeightedAverageNumberOfDilutedSharesOutstanding
0,0,2017-10-01-2018-09-29,265595000000,163756000000.0,101839000000,14236000000.0,16705000000.0,30941000000.0,70898000000.0,2005000000.0,72903000000.0,13372000000.0,59531000000,3.0,2.98,19821510000.0,20000440000.0
1,1,2018-09-30-2018-12-29,84310000000,,32031000000,,,,,,,,19965000000,1.05,1.05,,


In [None]:
balance_sheet.head(2)

Unnamed: 0.1,Unnamed: 0,index,CashAndCashEquivalentsAtCarryingValue,MarketableSecuritiesCurrent,AccountsReceivableNetCurrent,InventoryNet,NontradeReceivablesCurrent,OtherAssetsCurrent,AssetsCurrent,MarketableSecuritiesNoncurrent,...,LongTermDebtNoncurrent,OtherLiabilitiesNoncurrent,LiabilitiesNoncurrent,Liabilities,CommitmentsAndContingencies,CommonStocksIncludingAdditionalPaidInCapital,RetainedEarningsAccumulatedDeficit,AccumulatedOtherComprehensiveIncomeLossNetOfTax,StockholdersEquity,LiabilitiesAndStockholdersEquity
0,0,2017-09-30,,,,,,,,,...,,,,,,,,,134047000000,
1,1,2018-09-29,,,,,,,,,...,,,,,,,,,107147000000,


# Narzędzia

In [None]:
python_repl = PythonREPL()
python_tool = Tool(
    name="python_repl",
    description="Executes python code and returns the result. The code runs in a static sandbox without interactive mode, so print output or save output to a file.",
    func=python_repl.run,
)
python_tool.name = "python_interpreter"


Ten fragment kodu tworzy narzędzie do wykonywania kodu Pythona w ramach systemu LangChain.

`python_repl = PythonREPL()` tworzy nowy obiekt REPL (Read-Eval-Print Loop), czyli interpreter Pythona, który może wykonywać kod w czasie rzeczywistym.

Następnie tworzony jest obiekt `Tool` z trzema parametrami:
- `name="python_repl"` - nazwa narzędzia
- `description` - opis wyjaśniający, że narzędzie wykonuje kod Python w izolowanym środowisku (sandboxie) i zaleca używanie funkcji print lub zapisywanie wyników do pliku
- `func=python_repl.run` - wskazuje funkcję, która będzie wykonywana gdy narzędzie jest używane. W tym przypadku jest to metoda `run` z wcześniej utworzonego obiektu `python_repl`

Ostatnia linia zmienia nazwę narzędzia na "python_interpreter". Jest to nadpisanie oryginalnej nazwy.

To narzędzie pozwala na bezpieczne wykonywanie kodu Pythona jako część większego systemu opartego o LangChain, z odpowiednimi ograniczeniami zapewniającymi bezpieczeństwo.

In [None]:

class ToolInput(BaseModel):
    code: str = Field(description="Python code to execute.")
python_tool.args_schema = ToolInput


Ta klasa definiuje schemat danych wejściowych dla narzędzia Python. Jest zbudowana na bazie Pydantic, który zapewnia walidację danych.

`ToolInput` dziedziczy po `BaseModel` z Pydantic, co daje jej możliwości walidacji i serializacji danych.

Klasa ma jedno pole:
- `code` typu `str` (string)
- `Field(description="Python code to execute.")` dodaje opis tego pola, wyjaśniający że ma ono zawierać kod Pythona do wykonania

Ostatnia linia `python_tool.args_schema = ToolInput` przypisuje ten schemat do wcześniej utworzonego narzędzia. Dzięki temu system wie, jakiego rodzaju dane wejściowe może przyjąć to narzędzie i jak je zwalidować przed użyciem.

Ta struktura zapewnia, że do narzędzia będzie przekazywany poprawny kod Pythona jako string i pomaga w dokumentacji API narzędzia.

In [None]:

def run_python_code(code: str) -> dict:
    """
    Function to run given python code
    """
    input_code = ToolInput(code=code)
    return {'python_answer': python_tool.func(input_code.code)}


Funkcja `run_python_code` służy jako interfejs do bezpiecznego wykonywania kodu Pythona.

Przyjmuje ona jeden parametr `code` typu string, który zawiera kod Pythona do wykonania.

Wewnątrz funkcji wykonywane są dwa kroki:
1. `input_code = ToolInput(code=code)` - tworzy obiekt `ToolInput` z przekazanym kodem. Na tym etapie kod przechodzi walidację zdefiniowaną wcześniej w klasie `ToolInput`.

2. `return {'python_answer': python_tool.func(input_code.code)}` - wykonuje kod za pomocą wcześniej zdefiniowanego narzędzia (`python_tool`) i zwraca wynik w formie słownika. Klucz 'python_answer' zawiera wynik wykonania kodu.

Zwracanie wyniku w formie słownika jest przydatne, gdy funkcja jest częścią większego systemu, ponieważ wyraźnie oznacza, co zawiera zwrócona wartość i ułatwia jej dalsze przetwarzanie.

In [None]:

functions_map = {
    "run_python_code": run_python_code,
}

tools = [
    {
        "name": "run_python_code",
        "description": "given a python code, runs it",
        "parameter_definitions": {
            "code": {
                "description": "executable python code",
                "type": "str",
                "required": True
            }
        }
    },]

Te struktury danych definiują narzędzia dostępne w systemie i sposób ich użycia.

`functions_map` to słownik, który mapuje nazwę funkcji na jej rzeczywistą implementację. W tym przypadku mamy jedno odwzorowanie - nazwa "run_python_code" jest powiązana z wcześniej zdefiniowaną funkcją `run_python_code`. Jest to prosty sposób na przechowywanie referencji do dostępnych funkcji.

`tools` to lista słowników opisujących dostępne narzędzia. Każde narzędzie jest opisane przez:
- `name` - nazwa narzędzia ("run_python_code")
- `description` - opis działania ("given a python code, runs it")
- `parameter_definitions` - definicje parametrów, które narzędzie przyjmuje

W definicji parametrów dla "code" określono:
- `description` - opis parametru ("executable python code")
- `type` - typ danych ("str")
- `required` - czy parametr jest wymagany (True)

Te struktury tworzą kompletny opis API narzędzia, który może być używany przez inne części systemu do prawidłowego wywoływania funkcji i walidacji danych wejściowych.

# Agent

In [None]:
def cohere_agent(
    message: str,
    preamble: str,
    tools: List[dict],
    force_single_step=False,
    verbose: bool = False,
) -> str:
    """
    Function to handle multi-step tool use api.

    Args:
        message (str): The message to send to the Cohere AI model.
        preamble (str): The preamble or context for the conversation.
        tools (list of dict): List of tools to use in the conversation.
        verbose (bool, optional): Whether to print verbose output. Defaults to False.

    Returns:
        str: The final response from the call.
    """

    counter = 1

    response = co.chat(
        model= CFG.model,
        message=message,
        preamble=preamble,
        tools=tools,
        force_single_step=force_single_step,
    )

    if verbose:
        print(f"\nrunning 0th step.")
        print(response.text)

    while response.tool_calls:
        tool_results = []

        if verbose:
            print(f"\nrunning {counter}th step.")

        for tool_call in response.tool_calls:
            output = functions_map[tool_call.name](**tool_call.parameters)
            outputs = [output]
            tool_results.append({"call": tool_call, "outputs": outputs})

            if verbose:
                print(
                    f"= running tool {tool_call.name}, with parameters: {tool_call.parameters}"
                )
                print(f"== tool results: {outputs}")

        response = co.chat(
            model= CFG.model,
            message="",
            chat_history=response.chat_history,
            preamble=preamble,
            tools=tools,
            force_single_step=force_single_step,
            tool_results=tool_results,
        )

        if verbose:
            print(response.text)

            counter += 1

    return response.text


Funkcja `cohere_agent` zarządza wieloetapowym procesem wykorzystania narzędzi przez model AI.

Przyjmuje parametry:
- `message` - wiadomość do wysłania do modelu Cohere
- `preamble` - kontekst lub wprowadzenie do rozmowy
- `tools` - lista dostępnych narzędzi
- `force_single_step` - wymusza pojedynczy krok wykonania
- `verbose` - włącza szczegółowe logowanie

Działa w następujący sposób:

1. Inicjuje licznik kroków (`counter`)

2. Wysyła pierwsze zapytanie do API Cohere za pomocą `co.chat()`, przekazując model, wiadomość, kontekst i dostępne narzędzia

3. Wchodzi w pętlę, która działa tak długo, jak model wskazuje potrzebę użycia narzędzi (`response.tool_calls`):
   - Dla każdego wywołania narzędzia:
     - Wykonuje odpowiednią funkcję z `functions_map`
     - Zbiera wyniki w `tool_results`
   - Wysyła kolejne zapytanie do modelu z wynikami użycia narzędzi
   - W trybie szczegółowym (`verbose`) wyświetla informacje o każdym kroku

4. Gdy model nie wymaga już użycia żadnych narzędzi, zwraca ostateczną odpowiedź

System ten pozwala modelowi na iteracyjne rozwiązywanie problemów poprzez wykonywanie kodu Pythona i wykorzystywanie wyników w kolejnych krokach rozumowania.

In [None]:
# sanity check

output = cohere_agent("can you use python to answer 1 + 1", None, tools, verbose=True)


running 0th step.
I will use Python to answer this question.

running 1th step.
= running tool run_python_code, with parameters: {'code': 'print(1+1)'}
== tool results: [{'python_answer': '2\n'}]
The answer is **2**.


# Tabela raz

In [None]:
question_dict ={
    'q1': ['what is the highest value of cost of goods and service?',169559000000],
    'q2': ['what is the largest gross profit margin?',0.3836194330595236],
    'q3': ['what is the minimum ratio of operating income loss divided by non operating income expense?',35.360599]
}

In [None]:
preamble = """
You are an expert who answers the user's question. You are working with a pandas dataframe in Python. The name of the dataframe is `income_statement.csv`.
Here is a preview of the dataframe:
{head_df}
""".format(head_df=income_statement.head(3).to_markdown())

print(preamble)


You are an expert who answers the user's question. You are working with a pandas dataframe in Python. The name of the dataframe is `income_statement.csv`.
Here is a preview of the dataframe:
|    |   Unnamed: 0 | index                 |   RevenueFromContractWithCustomerExcludingAssessedTax |   CostOfGoodsAndServicesSold |   GrossProfit |   ResearchAndDevelopmentExpense |   SellingGeneralAndAdministrativeExpense |   OperatingExpenses |   OperatingIncomeLoss |   NonoperatingIncomeExpense |   IncomeLossFromContinuingOperationsBeforeIncomeTaxesExtraordinaryItemsNoncontrollingInterest |   IncomeTaxExpenseBenefit |   NetIncomeLoss |   EarningsPerShareBasic |   EarningsPerShareDiluted |   WeightedAverageNumberOfSharesOutstandingBasic |   WeightedAverageNumberOfDilutedSharesOutstanding |
|---:|-------------:|:----------------------|------------------------------------------------------:|-----------------------------:|--------------:|--------------------------------:|--------------------------

In [None]:
for qsn,val in question_dict.items():
    print(f'question:{qsn}')
    question = val[0]
    answer = val[1]
    output = cohere_agent(question, preamble, tools, verbose=True)
    print(f'GT Answer:{val[1]}')
    print('-'*50)

question:q1

running 0th step.
I will write and execute Python code to find the highest value of 'CostOfGoodsAndServicesSold' in the 'income_statement.csv' dataframe.

running 1th step.
= running tool run_python_code, with parameters: {'code': 'import pandas as pd\n\ndf = pd.read_csv(\'income_statement.csv\')\n\n# Find the highest value of \'CostOfGoodsAndServicesSold\'\nhighest_cost = df[\'CostOfGoodsAndServicesSold\'].max()\n\nprint(f"The highest value of \'CostOfGoodsAndServicesSold\' is {highest_cost}")'}
== tool results: [{'python_answer': "The highest value of 'CostOfGoodsAndServicesSold' is 169559000000.0\n"}]
The highest value of 'CostOfGoodsAndServicesSold' is 169559000000.0.
GT Answer:169559000000
--------------------------------------------------
question:q2

running 0th step.
I will write and execute Python code to find the largest gross profit margin.

running 1th step.
= running tool run_python_code, with parameters: {'code': 'import pandas as pd\n\ndf = pd.read_csv("inco

Ta pętla przeprowadza testy systemu pytanie-odpowiedź z wykorzystaniem modelu Cohere.

Iteruje po elementach słownika `question_dict`, gdzie każdy element zawiera:
- klucz (`qsn`) - identyfikator pytania
- wartość (`val`) - lista zawierająca pytanie na pozycji 0 i prawidłową odpowiedź na pozycji 1

Dla każdego elementu:
1. Wyświetla identyfikator pytania
2. Przypisuje pytanie i odpowiedź do zmiennych
3. Wywołuje funkcję `cohere_agent` z:
   - pytaniem
   - wcześniej zdefiniowanym kontekstem (`preamble`)
   - dostępnymi narzędziami (`tools`)
   - włączonym trybem szczegółowym (`verbose=True`)
4. Wyświetla prawidłową odpowiedź (GT - Ground Truth)
5. Dodaje linię oddzielającą (`-` powtórzone 50 razy) dla lepszej czytelności wyników

Ta struktura pozwala na systematyczne testowanie systemu i porównywanie odpowiedzi modelu z prawidłowymi odpowiedziami.

# Tabele dwie

In [None]:
question_dict ={
    'q1': ['what is the ratio of the largest stockholders equity to the smallest revenue'],
}

In [None]:
# get the largest stockholders equity
x = balance_sheet['StockholdersEquity'].astype(float).max()
print(f"The largest stockholders equity value is: {x}")

# get the smallest revenue
y = income_statement['RevenueFromContractWithCustomerExcludingAssessedTax'].astype(float).min()
print(f"The smallest revenue value is: {y}")

# compute the ratio
ratio = x/y
print(f"Their ratio is: {ratio}")

The largest stockholders equity value is: 134047000000.0
The smallest revenue value is: 53809000000.0
Their ratio is: 2.4911631883142227


In [None]:
preamble = """
You are an expert who answers the user's question in complete sentences. You are working with two pandas dataframe in Python. Ensure your output is a string.

Here is a preview of the `income_statement.csv` dataframe:
{table_1}

Here is a preview of the `balance_sheet.csv` dataframe:
{table_2}
""".format(table_1=income_statement.head(3).to_markdown(),table_2=balance_sheet.head(3).to_markdown())


print(preamble)


You are an expert who answers the user's question in complete sentences. You are working with two pandas dataframe in Python. Ensure your output is a string.

Here is a preview of the `income_statement.csv` dataframe:
|    |   Unnamed: 0 | index                 |   RevenueFromContractWithCustomerExcludingAssessedTax |   CostOfGoodsAndServicesSold |   GrossProfit |   ResearchAndDevelopmentExpense |   SellingGeneralAndAdministrativeExpense |   OperatingExpenses |   OperatingIncomeLoss |   NonoperatingIncomeExpense |   IncomeLossFromContinuingOperationsBeforeIncomeTaxesExtraordinaryItemsNoncontrollingInterest |   IncomeTaxExpenseBenefit |   NetIncomeLoss |   EarningsPerShareBasic |   EarningsPerShareDiluted |   WeightedAverageNumberOfSharesOutstandingBasic |   WeightedAverageNumberOfDilutedSharesOutstanding |
|---:|-------------:|:----------------------|------------------------------------------------------:|-----------------------------:|--------------:|--------------------------------:

In [None]:
for qsn,val in question_dict.items():
    print(f'question:{qsn}')
    question = val[0]
    output = cohere_agent(question, preamble, tools, verbose=True)

question:q1

running 0th step.
I will write and execute Python code to find the ratio of the largest stockholders equity to the smallest revenue.

running 1th step.
= running tool run_python_code, with parameters: {'code': 'import pandas as pd\n\n# Read the CSV files into dataframes\nincome_statement = pd.read_csv(\'income_statement.csv\')\nbalance_sheet = pd.read_csv(\'balance_sheet.csv\')\n\n# Find the smallest revenue\nsmallest_revenue = income_statement[\'RevenueFromContractWithCustomerExcludingAssessedTax\'].min()\n\n# Find the largest stockholders equity\nlargest_stockholders_equity = balance_sheet[\'StockholdersEquity\'].max()\n\n# Calculate the ratio\nratio = largest_stockholders_equity / smallest_revenue\n\nprint(f"The ratio of the largest stockholders equity to the smallest revenue is {ratio:.2f}")'}
== tool results: [{'python_answer': 'The ratio of the largest stockholders equity to the smallest revenue is 2.49\n'}]
The ratio of the largest stockholders equity to the smalles

Ta pętla jest podobna do poprzedniej, ale prostsza - służy do testowania systemu pytanie-odpowiedź bez porównywania z wzorcowymi odpowiedziami.

Iteruje po elementach słownika `question_dict`, gdzie:
- `qsn` to identyfikator pytania
- `val` to lista, z której używany jest tylko pierwszy element (pytanie)

Dla każdego pytania:
1. Wyświetla jego identyfikator
2. Pobiera treść pytania z pierwszego elementu listy `val`
3. Wywołuje funkcję `cohere_agent` z parametrami:
   - pytanie
   - kontekst (`preamble`)
   - dostępne narzędzia (`tools`)
   - włączony tryb szczegółowy (`verbose=True`)

W przeciwieństwie do poprzedniej wersji, ta pętla nie wyświetla prawidłowych odpowiedzi ani linii oddzielających, skupia się wyłącznie na generowaniu odpowiedzi przez model.

# Błędy

In [None]:
preamble = """
You are an expert who answers the user's question. You are working with a pandas dataframe in Python. The name of the dataframe is `income_statement.csv`.
"""


In [None]:

question1 = "what is the highest value of cost of goods and service?"

output = cohere_agent(question1, preamble, tools, verbose=True)


running 0th step.
I will use Python to find the highest value of 'cost of goods and service'.

running 1th step.
= running tool run_python_code, with parameters: {'code': 'import pandas as pd\n\ndf = pd.read_csv(\'income_statement.csv\')\n\n# Find the highest value of \'Cost of Goods and Services\'\nhighest_cost = df[\'Cost of Goods and Services\'].max()\n\nprint(f"The highest value of \'Cost of Goods and Services\' is: {highest_cost}")'}
== tool results: [{'python_answer': "KeyError('Cost of Goods and Services')"}]
Sorry, I could not find the highest value of 'cost of goods and service' as there is no column named 'Cost of Goods and Services' in the dataframe.


In [None]:
preamble = """
You are an expert who answers the user's question. You are working with a pandas dataframe in Python. The name of the dataframe is `income_statement.csv`.
If you run into error, keep trying until you fix it. You may need to view the data to understand the error.
"""

question1 = "what is the highest value of cost of goods and service?"

output = cohere_agent(question1, preamble, tools, verbose=True)


running 0th step.
I will use Python to find the highest value of cost of goods and service.

running 1th step.
= running tool run_python_code, with parameters: {'code': 'import pandas as pd\n\ndf = pd.read_csv(\'income_statement.csv\')\n\n# Find the highest value of cost of goods and services\nhighest_cost = df[\'Cost of Goods and Services\'].max()\n\nprint(f"The highest value of cost of goods and services is: {highest_cost}")'}
== tool results: [{'python_answer': "KeyError('Cost of Goods and Services')"}]
I received an error. I will now view the data to understand the error.

running 2th step.
= running tool run_python_code, with parameters: {'code': "import pandas as pd\n\ndf = pd.read_csv('income_statement.csv')\n\nprint(df.columns)"}
== tool results: [{'python_answer': "Index(['Unnamed: 0', 'index',\n       'RevenueFromContractWithCustomerExcludingAssessedTax',\n       'CostOfGoodsAndServicesSold', 'GrossProfit',\n       'ResearchAndDevelopmentExpense',\n       'SellingGeneralAndA

# Narzędzie extra

In [None]:
def view_csv_data(path: str) -> dict:
    """
    Function to view the head, tail and shape of a given csv file.
    """
    df = pd.read_csv(path)

    return {
        "head": df.head().to_string(),
        "tail": df.tail().to_string(),
        "shape": str(df.shape),
    }

Ta funkcja służy do szybkiego przeglądu zawartości pliku CSV. Jest to przydatne narzędzie diagnostyczne, które pokazuje najważniejsze informacje o danych bez konieczności analizy całego pliku.

Funkcja przyjmuje jeden parametr:
- `path` - ścieżka do pliku CSV

Wewnątrz funkcji:
1. Wczytuje plik CSV do ramki danych Pandas (`pd.read_csv(path)`)
2. Zwraca słownik z trzema informacjami:
   - `head` - pierwsze wiersze danych (domyślnie 5) przekonwertowane na tekst
   - `tail` - ostatnie wiersze danych (domyślnie 5) przekonwertowane na tekst
   - `shape` - wymiary ramki danych (liczba wierszy i kolumn) jako tekst

Użycie `to_string()` zapewnia, że dane będą zwrócone w formie tekstowej, co jest przydatne przy wyświetlaniu lub dalszym przetwarzaniu.

In [None]:
functions_map = {
    "run_python_code": run_python_code,
    "view_csv_data": view_csv_data
}

tools = [
    {
        "name": "run_python_code",
        "description": "given a python code, runs it",
        "parameter_definitions": {
            "code": {
                "description": "executable python code",
                "type": "str",
                "required": True
            }
        }
    },
    {
        "name": "view_csv_data",
        "description": "give path to csv data and get head, tail and shape of the data",
        "parameter_definitions": {
            "path": {
                "description": "path to csv",
                "type": "str",
                "required": True
            }
        }
    },
]

Jest to rozszerzona wersja wcześniej zdefiniowanych struktur - dodano do nich nowe narzędzie do pracy z plikami CSV.

`functions_map` został rozszerzony o nową funkcję:
- `"view_csv_data"` wskazuje na funkcję `view_csv_data`

Lista `tools` została rozszerzona o nowy słownik opisujący narzędzie do przeglądania CSV:
- `name` - "view_csv_data"
- `description` - wyjaśnia, że narzędzie pokazuje nagłówek, koniec i wymiary danych CSV
- `parameter_definitions` - określa, że narzędzie przyjmuje jeden parametr `path`:
  - `description` - "path to csv"
  - `type` - "str"
  - `required` - True (parametr jest wymagany)

Teraz system ma dostęp do dwóch narzędzi:
- wykonywania kodu Pythona
- szybkiego przeglądania zawartości plików CSV

In [None]:
preamble = """
You are an expert who answers the user's question. You are working with a pandas dataframe in Python. The name of the dataframe is `income_statement.csv`.
Always view the data first to write flawless code.
"""

question1 = "what is the highest value of cost of goods and service?"

output = cohere_agent(question1, preamble, tools, verbose=True)


running 0th step.
I will first view the data to understand the column names and then write code to find the highest value of the cost of goods and services.

running 1th step.
= running tool view_csv_data, with parameters: {'path': 'income_statement.csv'}
== tool results: [{'head': '   Unnamed: 0                  index  RevenueFromContractWithCustomerExcludingAssessedTax  CostOfGoodsAndServicesSold   GrossProfit  ResearchAndDevelopmentExpense  SellingGeneralAndAdministrativeExpense  OperatingExpenses  OperatingIncomeLoss  NonoperatingIncomeExpense  IncomeLossFromContinuingOperationsBeforeIncomeTaxesExtraordinaryItemsNoncontrollingInterest  IncomeTaxExpenseBenefit  NetIncomeLoss  EarningsPerShareBasic  EarningsPerShareDiluted  WeightedAverageNumberOfSharesOutstandingBasic  WeightedAverageNumberOfDilutedSharesOutstanding\n0           0  2017-10-01-2018-09-29                                         265595000000                1.637560e+11  101839000000                   1.423600e+10     