# Create a Graph from a text

This notebook demonstrates how to extract graph from any text using the graph maker

Steps:
- Define an Ontology
- Load a list of example text chunks. We will use the Lord of the Rings summary from this wikipedia page. 
- Create Graph using an Open source model using Groq APIs. 
- Save the graph to Neo4j db
- Visualise



Loading the graph maker functions ->

In [1]:
## no Linux no terminal rodar:
# export GROQ_API_KEY='secret'

## no Windows no Powershell rodar:
# $env:GROQ_API_KEY = "secret"

# %pip install groq

In [5]:
import os, json, platform
from groq import Groq

if platform.system() == 'Linux':
    folder = '../'
else:
    folder = '../../../'

pathfilename = os.path.join(folder,'secrets.json')

with open(pathfilename) as file:
    # Carregar seu conteúdo e torná-lo um novo dicionário
    data = json.load(file)

client = Groq(
    # api_key=os.environ.get("GROQ_API_KEY"),
    api_key = data.get('groq')
)

immunology_questions = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "What are the main scientific questions of interest in the area of immunology and immunopathology? Escreva a resposta em português do Brasil",
        }
    ],
    # model="llama3-8b-8192",
    model = "llama3-70b-8192",
)

print(immunology_questions.choices[0].message.content)

As principais questões científicas de interesse na área de imunologia e imunopatologia incluem:

1. **Entendimento da resposta imune adaptativa**: Como as células imunes, como os linfócitos, reconhecem e respondem a patógenos específicos?

2. **Regulação da resposta imune**: Como a resposta imune é regulada para evitar reações exageradas ou inadequadas que podem levar a doenças autoimunes ou infecções crônicas?

3. **Desenvolvimento de vacinas eficazes**: Como desenvolver vacinas que sejam capazes de induzir respostas imunes protetoras contra doenças infecciosas e cancerígenas?

4. **Imunologia do câncer**: Como as células imunes interagem com células tumorais e como podemos desenvolver terapias imune-orientadas para o tratamento do câncer?

5. **Imunologia das doenças autoimunes**: Qual é a origem das doenças autoimunes e como podemos desenvolver terapias para prevenir ou tratar essas doenças?

6. **Imunologia das doenças infecciosas**: Como as células imunes respondem a patógenos esp

In [6]:
immunology_platform_communication = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "What are the main scientific platforms for carrying out research in immunology and immunopathology? Escreva a resposta em português do Brasil",
        }
    ],
    model="llama3-8b-8192",
)

print(immunology_platform_communication.choices[0].message.content)

A área da imunologia e imunopatologia é caracterizada por uma ampla gama de plataformas científicas que permitem ao pesquisador desbloquear os segredos da comunicação entre as células do sistema imune e compreender as patogenias das doenças imunopatológicas.

Alguns dos principais plataformas científicas para a realização de pesquisas em imunologia e imunopatologia incluem:

1. Bioinformática: a interpretação de dados genômicos e transcriptômicos é fundamental para entender as respostas imunológicas e identificar os principais mediadores da resposta imune.
2. Células isoladas: a cultura de células imunológicas, como linfócitos e macrófagos, permite estudar a função e a regulação dessas células em condições in vitro.
3. Modelos animais: os modelos animais, como camundongos e ratos, permitem a investigação da resposta imune em modelos de doenças específicas, como a doença de Alzheimer e a Tireoplasticidade.
4. Imagem médica: técnicas de imagem como a ressonância magnética (RM) e a tomogr

In [7]:
immunology_tech_platforms = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "What are the main scientific technology platforms for carrying out scientific research questions in immunology and immunopathology? Escreva a resposta em português do Brasil",
        }
    ],
    model="llama3-8b-8192",
)

print(immunology_tech_platforms.choices[0].message.content)

Desejo que a resposta seja útil para você!

As principais plataformas científicas tecnológicas para realizar pesquisas científicas em imunologia e imunopatologia são:

1. **Flow cytometry**: A citometria de fluxo é uma técnica instrumental para análise de células sanguíneas que permite uma grande variedade de aplicações em imunologia, incluindo a detecção de células imunes específicas, a quantificação de marcadores de superfície e a avaliação da funcionalidade das células imunes.
2. **Microscópio de força atômica (AFM)**: O microscópio de força atômica é uma ferramenta que permite a observação de estruturas celulares com precisão nanométrica, permitindo a análise de interações moleculares importantes para a imunologia.
3. **Assaio de proteínas (Western blot)**: O Western blot é uma técnica de laboratório que permite a separação, detecção e quantificação de proteínas específicas em amostras biológicas, fundamental para entender as reações imunes e a patogenese de doenças.
4. **Sequencia

In [8]:
immunology_ontologies = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "What are the main ontologies to encompass the semantics concepts in scientific technology platforms for carrying out scientific research questions in immunology and immunopathology? Escreva a resposta em português do Brasil",
        }
    ],
    model="llama3-8b-8192",
)

print(immunology_ontologies.choices[0].message.content)

Em plataformas de tecnologia científica para a realização de pesquisas científicas em imunologia e imunopatologia, há vários ontologias importantes que abordam conceitos semânticos relevantes para a área. Algumas das principais ontologias incluem:

1. **Biological Process Ontology (BPO)**: Descreve processos biológicos, como a resposta imune, e é fundamental para a definição de amostras e experimentos em estudos de imunologia.
2. **Cell Ontology (CO)**: Descreve diferentes tipos de células, incluindo as células sanguíneas, linfócitos e macrófagos, entre outras.
3. **ICD (International Classification of Diseases)**: Uma classificação internacialemente aceita para doenças, incluindo doenças imunopatológicas, como doenças autoimunes e alérgicas.
4. **MeSH (Medical Subject Headings)**: Indicadores de saúde e doenças, que incluem títulos e descrições para doenças, incluindo doenças imunológicas.
5. **Gene Ontology (GO)**: Descreve a função de genes e proteínas, o que é relevante para a comp

In [1]:
from knowledge_graph_maker import GraphMaker, Ontology, GroqClient, OpenAIClient
from knowledge_graph_maker import Document

In [9]:
immunology_graph_ontologies = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "How integrate in a knowledge graph the main ontologies to encompass the semantics concepts in scientific technology platforms for carrying out scientific research questions in immunology and immunopathology? Escreva a resposta em português do Brasil",
        }
    ],
    model="llama3-8b-8192",
)

print(immunology_graph_ontologies.choices[0].message.content)

Uma pergunta muito interessante!

Integrar ontologias na área de imunologia e imunopatologia pode seem uma tarefa complexa, mas, com a ajuda da ontologia e de ferramentas de knowledge graphs, é possível criar uma estrutura que comporte os conceitos semânticos essenciais para a realização de pesquisas científicas em imunologia e imunopatologia.

A seguir, vamos apresentar uma abordagem geral para integrar as principais ontologias na área de imunologia e imunopatologia:

**1. Seleção de Ontologias**

Primeiramente, é necessário selecionar as ontologias mais relevantes para a área de imunologia e imunopatologia. Algumas das ontologias mais importantes incluem:

* Ontologia de Biologia (BIO): para descrever conceitos biológicos e biotecnológicos.
* Ontologia de Medicina (MED): para descrever conceitos médicos e relacionados à saúde.
* Ontologia de Imunologia (IMM): para descrever conceitos específicos da imunologia.

**2. Identificação de Conceitos**

Em seguida, é necessário identificar o

# Define the Ontology. 

The ontology is a pydantic model with the following schema. 

```python
class Ontology(BaseModel):
    label: List[Union[str, Dict]]
    relationships: List[str]
```



For example lets use summaries of the LOTR books from the Wikipedia page. I have copied it into a file for easy import

In [3]:
from lotr_wikipedia_summary import lord_of_the_rings_wikipedia_summary as example_text_list
len(example_text_list)

15

Here is the ontology we will use for the LOTR summaries ->

In [2]:

ontology = Ontology(
    labels=[
        {"Person": "Person name without any adjectives, Remember a person may be referenced by their name or using a pronoun"},
        {"Object": "Do not add the definite article 'the' in the object name"},
        {"Event": "Event event involving multiple people. Do not include qualifiers or verbs like gives, leaves, works etc."},
        "Place",
        "Document",
        "Organisation",
        "Action",
        {"Miscellaneous": "Any important concept can not be categorised with any other given label"},
    ],
    relationships=[
        "Relation between any pair of Entities"
        ],
)


## Select a Model

Groq support the following models at present. 

*LLaMA3 8b*
Model ID: llama3-8b-8192

*LLaMA3 70b*
Model ID: llama3-70b-8192

*Mixtral 8x7b*
Model ID: mixtral-8x7b-32768

*Gemma 7b*
Model ID: gemma-7b-it


Selecting a model for this example ->


In [5]:

## Groq models
# model = "mixtral-8x7b-32768"
# model ="llama3-8b-8192"
model = "llama3-70b-8192"
# model="gemma-7b-it"

## Open AI models
oai_model="gpt-3.5-turbo"

## Use Groq
# llm = GroqClient(model=model, temperature=0.1, top_p=0.5)

## OR Use OpenAI
model = "llama3-70b-8192"
llm = OpenAIClient(model=oai_model, temperature=0.1, top_p=0.5)


## Create documents out of text chumks. 
Documents is a pydantic model with the following schema 

```python
class Document(BaseModel):
    text: str
    metadata: dict
```

The metadata we add to the document here is copied to every relation that is extracted out of the document. More often than not, the node pairs have multiple relation with each other. The metadata helps add more context to these relations

In this example I am generating a summary of the text chunk, and the timestamp of the run, to be used as metadata. 


In [6]:
import datetime
current_time = str(datetime.datetime.now())


graph_maker = GraphMaker(ontology=ontology, llm_client=llm, verbose=False)

def generate_summary(text):
    SYS_PROMPT = (
        "Succintly summarise the text provided by the user. "
        "Respond only with the summary and no other comments"
    )
    try:
        summary = llm.generate(user_message=text, system_message=SYS_PROMPT)
    except:
        summary = ""
    finally:
        return summary


docs = map(
    lambda t: Document(text=t, metadata={"summary": generate_summary(t), 'generated_at': current_time}),
    example_text_list
)


## Create Graph
Finally run the Graph Maker to generate graph. 

In [None]:

graph = graph_maker.from_documents(
    list(docs), 
    delay_s_between=0 ## delay_s_between because otherwise groq api maxes out pretty fast. 
    ) 
print("Total number of Edges", len(graph))

In [None]:
for edge in graph:
    print(edge.model_dump(exclude=['metadata']), "\n\n")

# Save the Graph to Neo4j 

In [10]:
from knowledge_graph_maker import Neo4jGraphModel

create_indices = False
neo4j_graph = Neo4jGraphModel(edges=graph, create_indices=create_indices)

neo4j_graph.save()

aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
aenter called
aexit called
a

149