<a href="https://colab.research.google.com/github/kapamawi/AI/blob/main/2_6_2__TrzechAgentowZeSpecyficznymiZadaniami.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Setup

In [None]:
!pip install -qU crewai==0.28.8 crewai_tools==0.1.6 langchain_community==0.0.29 openai

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.9/40.9 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m160.7/160.7 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.6/61.6 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.7/47.7 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m30.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m389.8/389.8 kB[0m [31m24.6 MB/s[0m eta [36

Ten kod instaluje kilka bibliotek Pythona za pomocą menedżera pakietów pip:

`crewai` w wersji 0.28.8 - biblioteka służąca do tworzenia i zarządzania zespołami agentów AI

`crewai_tools` w wersji 0.1.6 - zestaw narzędzi rozszerzających funkcjonalność biblioteki crewai

`langchain_community` w wersji 0.0.29 - biblioteka zawierająca komponenty do budowania aplikacji opartych na modelach językowych

`openai` - oficjalny pakiet OpenAI umożliwiający integrację z ich modelami AI

Flaga `-q` oznacza tryb "quiet" (cichy), który ogranicza wyświetlanie komunikatów podczas instalacji.

Flaga `-U` (lub `--upgrade`) oznacza, że jeśli któraś z tych bibliotek jest już zainstalowana, zostanie zaktualizowana do podanej wersji.

In [None]:
import os
from crewai import Agent, Task, Crew, Process
from openai import OpenAI
import time
import pandas as pd
from langchain_community.document_loaders.csv_loader import CSVLoader
from langchain.agents import Tool
from google.colab import userdata
import json
from pprint import pp as ppr

Ten kod importuje niezbędne biblioteki i komponenty:

`os` - moduł dostarczający funkcje do interakcji z systemem operacyjnym

Z biblioteki `crewai` importowane są cztery główne klasy:
- `Agent` - do tworzenia agentów AI
- `Task` - do definiowania zadań
- `Crew` - do organizowania zespołów agentów
- `Process` - do zarządzania procesami

`OpenAI` - klasa klienta API OpenAI służąca do komunikacji z modelami OpenAI

`time` - moduł zawierający funkcje związane z czasem

`pandas` (jako `pd`) - biblioteka do analizy i manipulacji danymi

Z pakietu `langchain_community.document_loaders` importowany jest `CSVLoader` - narzędzie do wczytywania plików CSV

Z `langchain.agents` importowana jest klasa `Tool` służąca do tworzenia narzędzi dla agentów

`userdata` z `google.colab` pozwala na dostęp do danych użytkownika w środowisku Google Colab

In [None]:
class CFG:
    model = 'gpt-4o-mini'

In [None]:

os.environ["OPENAI_API_KEY"] = userdata.get('openaivision')


# Dane

In [None]:
df = pd.read_csv('/content/telecom_churn.csv')
df[['Churn', 'AccountWeeks', 'DataUsage','ContractRenewal', 'RoamMins']].sample(100).reset_index(drop = True).to_csv('sub_telecom_churn.csv', index = False)

Ten kod wykonuje kilka operacji na ramce danych (DataFrame) o nazwie `df`:

1. Wybiera tylko określone kolumny z danych:
   - `Churn` (odejścia klientów)
   - `AccountWeeks` (liczba tygodni posiadania konta)
   - `DataUsage` (zużycie danych)
   - `ContractRenewal` (odnowienie umowy)
   - `RoamMins` (minuty w roamingu)

2. Za pomocą `sample(100)` losowo wybiera 100 wierszy z tych danych

3. `reset_index(drop = True)` resetuje indeksy wybranych wierszy, a parametr `drop = True` usuwa starą kolumnę indeksów

4. `to_csv('sub_telecom_churn.csv', index = False)` zapisuje wynikowe dane do pliku CSV o nazwie 'sub_telecom_churn.csv'. Parametr `index = False` oznacza, że indeksy wierszy nie zostaną zapisane w pliku

Jest to typowa operacja przygotowania mniejszego zbioru danych do testów lub analizy, w tym przypadku z danych telekomunikacyjnych dotyczących odejść klientów.

# Agentura

In [None]:
# tool = data loader
loader = CSVLoader(file_path="sub_telecom_churn.csv")

load_tool = Tool(
  name="Data Loader Tool",
  func=loader.load,
  description="Load the CSV data from the source",
)

Ten fragment kodu tworzy narzędzie do wczytywania danych:

`loader = CSVLoader(file_path="sub_telecom_churn.csv")` - tworzy obiekt do wczytywania danych z pliku CSV 'sub_telecom_churn.csv'

Następnie definiowane jest narzędzie `load_tool` za pomocą klasy `Tool` z trzema parametrami:
- `name` - nazwa narzędzia: "Data Loader Tool"
- `func` - funkcja wykonywana przez narzędzie: `loader.load` (wczytywanie danych)
- `description` - opis działania narzędzia: "Load the CSV data from the source"

To narzędzie będzie używane przez agentów AI do wczytywania i analizowania danych z pliku CSV.

In [None]:
# Define your agents with roles and goals
analyst = Agent(
  role='Senior Data Analyst',
  goal='Load the dataset and provide insights from the data',
  backstory="""You work at a telecom company.
  Your expertise lies in identifying trends and analysis from the available data.
  You have a knack for dissecting complex data and presenting
  actionable insights.""",
  verbose=True,
  allow_delegation=False,
  tools=[load_tool]
)

data_scientist = Agent(
  role='Senior Data Scientist',
  goal='Develop the best machine learning model according to intended goal',
  backstory="""You are a renowned data scientist, known for
  your highly inonvative machine learning model with Python.
  You transform the data into something the machine learning model could \
  accept and develop machine learning model based on it.""",
  verbose=True,
  allow_delegation=False,
)

machine_learning_engineer = Agent(
  role='Senior Machine Learning Engineer',
  goal='Create the best code to deploy the machine learning model',
  backstory="""You are an experienced machine learning engineer, having \
  lot of experience to deploy machine learning model.
  You do your best to deploy the model based on the provided code""",
  verbose=True,
  allow_delegation=False,
)

Ten kod definiuje trzech agentów AI ze specyficznymi rolami:

`analyst` - Starszy Analityk Danych:
- Cel: wczytanie i analiza danych
- Historia: pracownik firmy telekomunikacyjnej, ekspert w identyfikacji trendów i analizie danych
- Ma dostęp do narzędzia `load_tool` do wczytywania danych

`data_scientist` - Starszy Naukowiec Danych:
- Cel: stworzenie najlepszego modelu uczenia maszynowego
- Historia: znany naukowiec, specjalizuje się w innowacyjnych modelach uczenia maszynowego w Pythonie
- Umiejętności: przekształcanie danych pod kątem wykorzystania w modelach ML

`machine_learning_engineer` - Starszy Inżynier ML:
- Cel: stworzenie kodu do wdrożenia modelu uczenia maszynowego
- Historia: doświadczony inżynier specjalizujący się we wdrażaniu modeli ML
- Skupia się na praktycznym wdrożeniu modelu

Wszyscy agenci mają:
- `verbose=True` - pokazują szczegóły swoich działań
- `allow_delegation=False` - nie mogą delegować zadań

In [None]:
task1 = Task(
  description="""Conduct a comprehensive analysis from the CSV dataset \
  by using the tools provided.
  You only need to run the tools and without providing any 'tool_input', as \
  the tools already have the source data path embedded to it.
  Identify any analysis that related to why churn is happening. """,
  agent=analyst,
  expected_output = "Full analysis report"
)

task2 = Task(
  description="""Using the insights provided, develop a machine learning \
  model to predict the Churn.
  The model should follow machine learning best practice, especially from \
  preprocessing to validation.
  Your Final answer must be the full python code, only the python code and nothing else.
  """,
  agent=data_scientist,
  expected_output = "Python code of the machine learning model to predict churn"
)

task3 = Task(
  description="""From the code you get, develop a Python code to deploy \
  the machine learning model in the production application.
  The model deployment should follow the best practice.
  The model object should be the output.
  Start simple, and iterate if it is required.
  Your Final answer must be the full python code from the machine \
  learning development to the model deploying, only the python code and nothing else.
  """,
  agent=machine_learning_engineer,
  expected_output = "Python code to deploy the machine learning model",
  context = [task2]
)

Ten kod definiuje trzy zadania dla wcześniej utworzonych agentów:

`task1` - zadanie dla analityka:
- Przeprowadzenie kompleksowej analizy danych z pliku CSV
- Nie wymaga dodatkowych parametrów wejściowych dla narzędzi
- Identyfikacja przyczyn rezygnacji klientów (churn)
- Oczekiwany wynik: pełny raport z analizy

`task2` - zadanie dla naukowca danych:
- Stworzenie modelu ML do przewidywania rezygnacji klientów
- Model ma być zgodny z najlepszymi praktykami (od przetwarzania wstępnego po walidację)
- Oczekiwany wynik: kompletny kod w Pythonie dla modelu ML

`task3` - zadanie dla inżyniera ML:
- Stworzenie kodu do wdrożenia modelu ML w aplikacji produkcyjnej
- Wdrożenie zgodne z najlepszymi praktykami
- Wynikiem ma być obiekt modelu
- Podejście iteracyjne, zaczynając od prostego rozwiązania
- Wymaga kontekstu z zadania 2 (`context = [task2]`)
- Oczekiwany wynik: pełny kod w Pythonie od rozwoju do wdrożenia modelu ML

In [None]:
crew = Crew(
  agents=[analyst, data_scientist, machine_learning_engineer ],
  tasks=[task1, task2, task3],
  verbose=2,
)

result = crew.kickoff()

[1m[95m [DEBUG]: == Working Agent: Senior Data Analyst[00m
[1m[95m [INFO]: == Starting Task: Conduct a comprehensive analysis from the CSV dataset   by using the tools provided.
  You only need to run the tools and without providing any 'tool_input', as   the tools already have the source data path embedded to it.
  Identify any analysis that related to why churn is happening. [00m


[1m> Entering new CrewAgentExecutor chain...[0m
[32;1m[1;3mI need to load the CSV data from the source to understand and analyze the churn rate in the telecom company.

Action: Data Loader Tool

Action Input: {}
[0m[95m 

[Document(page_content='Churn: 0\nAccountWeeks: 56\nDataUsage: 0.0\nContractRenewal: 0\nRoamMins: 10.5', metadata={'source': 'sub_telecom_churn.csv', 'row': 0}), Document(page_content='Churn: 0\nAccountWeeks: 45\nDataUsage: 0.0\nContractRenewal: 1\nRoamMins: 9.0', metadata={'source': 'sub_telecom_churn.csv', 'row': 1}), Document(page_content='Churn: 0\nAccountWeeks: 102\nDataU

Ten kod organizuje i uruchamia pracę zespołu agentów AI:

`crew = Crew()` tworzy zespół z następującymi parametrami:
- Lista agentów: analityk danych, naukowiec danych i inżynier ML
- Lista zadań: analiza danych, tworzenie modelu ML i wdrożenie modelu
- `verbose=2` - wysoki poziom szczegółowości raportowania działań

`result = crew.kickoff()` uruchamia sekwencję zadań:
1. Analityk przeprowadza analizę danych z pliku CSV
2. Naukowiec danych wykorzystuje te wyniki do stworzenia modelu uczenia maszynowego
3. Inżynier ML przygotowuje kod do wdrożenia tego modelu w środowisku produkcyjnym

Zadania są wykonywane w określonej kolejności, gdzie każde następne zadanie korzysta z wyników poprzedniego. Wszystkie wyniki są zapisywane w zmiennej `result`.

In [None]:
task1

Task(description=Conduct a comprehensive analysis from the CSV dataset   by using the tools provided.
  You only need to run the tools and without providing any 'tool_input', as   the tools already have the source data path embedded to it.
  Identify any analysis that related to why churn is happening. , expected_output=Full analysis report)

In [None]:
task1.output

TaskOutput(description="Conduct a comprehensive analysis from the CSV dataset   by using the tools provided.\n  You only need to run the tools and without providing any 'tool_input', as   the tools already have the source data path embedded to it.\n  Identify any analysis that related to why churn is happening. ", summary='Conduct a comprehensive analysis from the CSV dataset  ...', exported_output="1. AccountWeeks: The length of the customer's account varies across the data with the range of 27 to 200 weeks. There doesn't seem to be a direct correlation between the length of the account and customer churn based on the data provided. Both customers with short and long account lengths have churned.\n\n2. DataUsage: The data usage also varies across the data, ranging from 0.0 to 4.13. Interestingly, customers with 0 data usage have both churned and not churned. However, there is a slight trend that customers with higher data usage tend to not churn, suggesting that customers who utilize 

In [None]:
task1.output.json()

'{"description":"Conduct a comprehensive analysis from the CSV dataset   by using the tools provided.\\n  You only need to run the tools and without providing any \'tool_input\', as   the tools already have the source data path embedded to it.\\n  Identify any analysis that related to why churn is happening. ","summary":"Conduct a comprehensive analysis from the CSV dataset  ...","exported_output":"1. AccountWeeks: The length of the customer\'s account varies across the data with the range of 27 to 200 weeks. There doesn\'t seem to be a direct correlation between the length of the account and customer churn based on the data provided. Both customers with short and long account lengths have churned.\\n\\n2. DataUsage: The data usage also varies across the data, ranging from 0.0 to 4.13. Interestingly, customers with 0 data usage have both churned and not churned. However, there is a slight trend that customers with higher data usage tend to not churn, suggesting that customers who utili

In [None]:
json.loads(task1.output.json()).keys()

dict_keys(['description', 'summary', 'exported_output', 'raw_output'])

In [None]:
json.loads(task1.output.json())['description']

"Conduct a comprehensive analysis from the CSV dataset   by using the tools provided.\n  You only need to run the tools and without providing any 'tool_input', as   the tools already have the source data path embedded to it.\n  Identify any analysis that related to why churn is happening. "

In [None]:
ppr(json.loads(task1.output.json())['exported_output'])

("1. AccountWeeks: The length of the customer's account varies across the data "
 "with the range of 27 to 200 weeks. There doesn't seem to be a direct "
 'correlation between the length of the account and customer churn based on '
 'the data provided. Both customers with short and long account lengths have '
 'churned.\n'
 '\n'
 '2. DataUsage: The data usage also varies across the data, ranging from 0.0 '
 'to 4.13. Interestingly, customers with 0 data usage have both churned and '
 'not churned. However, there is a slight trend that customers with higher '
 'data usage tend to not churn, suggesting that customers who utilize more '
 'services are less likely to churn.\n'
 '\n'
 '3. ContractRenewal: Most of the customers in the data have renewed their '
 'contract (ContractRenewal = 1). However, there are also customers who have '
 'not renewed their contracts and have churned. This suggests that customers '
 'who do not renew their contracts are more likely to churn.\n'
 '\n'
 '4. Ro

In [None]:
ppr(json.loads(task2.output.json())['exported_output'])

('```python\n'
 '# Importing Required Libraries\n'
 'import pandas as pd\n'
 'from sklearn.model_selection import train_test_split\n'
 'from sklearn.preprocessing import StandardScaler\n'
 'from sklearn.linear_model import LogisticRegression\n'
 'from sklearn.metrics import classification_report, confusion_matrix\n'
 '\n'
 "# Assuming data is stored in a csv file named 'data.csv'\n"
 "data = pd.read_csv('data.csv')\n"
 '\n'
 '# Preprocessing the data\n'
 '# Assigning the dependent and independent variables\n'
 "X = data[['AccountWeeks', 'DataUsage', 'ContractRenewal', 'RoamMins']]\n"
 "y = data['Churn']\n"
 '\n'
 '# Splitting the data into training and testing sets\n'
 'X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, '
 'random_state=42)\n'
 '\n'
 '# Scaling the data\n'
 'scaler = StandardScaler()\n'
 'X_train = scaler.fit_transform(X_train)\n'
 'X_test = scaler.transform(X_test)\n'
 '\n'
 '# Building the Logistic Regression Model\n'
 'model = LogisticRegressio

In [None]:
task3.output.json()


'{"description":"From the code you get, develop a Python code to deploy   the machine learning model in the production application.\\n  The model deployment should follow the best practice.\\n  The model object should be the output.\\n  Start simple, and iterate if it is required.\\n  Your Final answer must be the full python code from the machine   learning development to the model deploying, only the python code and nothing else.\\n  ","summary":"From the code you get, develop a Python code to...","exported_output":"The final answer is the Python code provided above. It trains a machine learning model, scales the data, and then saves both the model and scaler for deployment. It then loads the saved model and scaler to make predictions, proving that the model and scaler were saved and loaded correctly.","raw_output":"The final answer is the Python code provided above. It trains a machine learning model, scales the data, and then saves both the model and scaler for deployment. It then 