# What is NLP?
NLP is a subfield of AI that allows computers to interpret, manipulate and understand human language.The goal of NLP tasks is to analyze text and voice data like emails, social media newsfeeds, video, audio, and more. With the NLP techniques, you can handle various tasks such as text classification, generating text content, extracting an answer from a text, etc.

Google araştırmacıları tarafından 2017'de geliştirilen Transformer mimarisi, özellikle doğal dil işleme (NLP) ve dizi verilerle çalışan derin öğrenme uygulamalarında etkili olmuştur. Bu mimari, özel bir dikkat (attention) mekanizmasını kullanarak uzun mesafeli bağımlılıkları daha iyi modelleyebilir ve paralel işleme yeteneklerini artırabilir. Transformer mimarisi, GPT (Generative Pre-trained Transformer) ve BERT (Bidirectional Encoder Representations from Transformers) gibi birçok önemli modelin temelini oluşturmuştur.

Encoder-Decoder mimarisi, özellikle metin oluşturma ve çeviri gibi sekans-tabanlı problemleri çözmek için kullanılır. Encoder, giriş verisini belirli bir temsile dönüştürürken, Decoder bu temsili hedef veriye çevirir. Bu mimari, dil çiftlerini tercüme etmek, metin oluşturmak veya başka bir sekans-tabanlı görevi gerçekleştirmek için kullanıldığında oldukça etkilidir.

Transformer mimarisi, özel bir dikkat mekanizması olan "self-attention" mekanizmasını kullanmasıyla bilinir. Bu mekanizma, her bir giriş pozisyonunun, diğer tüm pozisyonlara olan ilişkilerini değerlendirme yeteneği sağlar. Bu sayede, Transformer modelleri, özellikle dil işleme görevlerinde uzun mesafeli bağımlılıkları daha iyi modelleyebilir ve paralel işlem avantajına sahiptir. Bu mimari, "Attention is All You Need" başlıklı makalede tanıtılmıştır ve GPT (Generative Pre-trained Transformer) ve BERT (Bidirectional Encoder Representations from Transformers) gibi birçok önemli modelin temelini oluşturmuştur.

Transfer learning, bir modelin önceden öğrenilmiş ağırlıklarını bir görevden diğerine taşıma yöntemidir. Önceden eğitilmiş bir modelin öğrendiği özellikleri ve desenleri, benzer veya ilgili bir görevde kullanmak amacıyla başka bir veri setine uyarlamak için kullanılır. Bu, genellikle daha az etiketlenmiş veri veya daha küçük bir veri seti üzerinde çalışırken, özellikle derin öğrenme modellerinin eğitiminde yaygın olarak kullanılan bir stratejidir.

Zero-Shot Sınıflandırma, bir modelin eğitildiği sınıfların dışındaki, yani hiç görmediği sınıfları tanıma yeteneğini ifade eder.

Transformers pipeline tekniği, özellikle doğal dil işleme (NLP) görevlerini kolayca çözmek amacıyla tasarlanmıştır. Bu teknik, metin sınıflandırma, duygu analizi, dil çevirisi, özel isim tanıma gibi çeşitli görevlere önceden eğitilmiş modelleri kullanarak hızlı bir şekilde yaklaşmayı sağlar.

Tokenizer, genellikle metin verilerini işlemek için kullanılan bir araçtır. Bu araç, metni parçalara ayırır ve bu parçaları sayılara dönüştürerek bir modelin işleyebileceği sayısal bir forma getirir.

# install transformers and pipeline

In [None]:
!pip install q transformers



In [None]:
from transformers import pipeline

# Sentiment Analysis

In [None]:
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [None]:
text="everything is changing"

In [None]:
classifier(text)

[{'label': 'POSITIVE', 'score': 0.9995372295379639}]

In [None]:
import pandas as pd
outputs=classifier(text)
pd.DataFrame()

# Zero-shot Classifier

In [None]:
classifier=pipeline("zero-shot-classification")

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [None]:
from google.colab import data_table
data_table.disable_dataframe_formatter()
labels=["tech","education","business"]
outputs=classifier(text,labels)
pd.DataFrame()


# Text Generation

In [None]:
generator=pipeline("text-generation")

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [None]:
prompt ="What is love? "

In [None]:
outputs=generator(prompt)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [None]:
print(outputs)

[{'generated_text': 'What is love? \xa0Love is love; love between people, between people - love, love between life forms, between life processes and emotions and other lives; love between families, around family issues, about people, love, love - love,'}]


In [None]:
outputs=generator(prompt,max_length=50)
print(outputs[0]["generated_text"])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


What is love?  Love is a good thing.  It helps us experience joy and pleasure in another person's lives!
But don't get caught up. That would bring us nowhere. Don't do that.  If you


In [None]:
generator=pipeline("text-generation",model="distilgpt2")

In [None]:
print(outputs[0]["generated_text"])

What is love?  Love is a good thing.  It helps us experience joy and pleasure in another person's lives!
But don't get caught up. That would bring us nowhere. Don't do that.  If you


# Named Entity Recognition
    Contained in the text
    proper nouns,
    date, time, location,
    names of people and institutions.

In [None]:
ner =pipeline("ner",grouped_entities=True)

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.weight', 'bert.pooler.dense.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
text="my name is elif tuğba.I am from turkey.my best sport is archery "

In [None]:
outputs=ner(text)
pd.DataFrame(outputs)

Unnamed: 0,entity_group,score,word,start,end
0,PER,0.883771,elif tuğba,11,21


# Qestion Answering

In [None]:
reader = pipeline("question-answering")

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [None]:
text="my name is elif tuğba"
question="what is my name"

In [None]:
outputs=reader(question=question,context=text)

In [None]:
pd.DataFrame()

# Summarization

In [None]:
summarizer=pipeline("summarization")

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [None]:
text="""
Yapay Zekâ Terimleri
Yapay Zeka, bir zamanlar müşterilerle çevrimiçi olarak iletişim kurmak veya satranç oynamak gibi insan girdisi gerektiren karmaşık görevleri gerçekleştiren uygulama yazılımlarının tamamını kapsayan bir terim haline geldi. Bu terim genellikle makine öğrenimi (ML) ve derin öğrenmeyi içeren alt alanlarıyla birbirinin yerine kullanılır.

Ancak bunlar birbirinden farklı kavramlar. Örneğin makine öğrenimi tüketilen verilere göre öğrenen veya performansını iyileştiren sistemlerin oluşturulmasına odaklanır. Tüm makine öğrenimi çözümlerinin yapay zekâ olduğu ancak tüm yapay zekâ çözümlerinin makine öğrenimi anlamına gelmediği unutulmamalıdır.

Pek çok şirket, yapay zekânın sunduğu tüm değerden yararlanmak için veri bilimi ekiplerine önemli yatırımlar yapıyor. Veri bilimi, çeşitli veri kaynaklarından değer elde etmek için istatistik, bilgisayar bilimi ve iş bilgisini birleştirir.

"""

In [None]:
outputs=summarizer(text,max_length=160,clean_up_tokenization_spaces=True)

In [None]:
print(outputs[0]["summary_text"])

 Ancak bunlar birbirinden farklı kavramlar. Yapay Zekâ Zeka, bir zamanlar müşterilerle çevrimiçi olarak iletişim kurmak veya satranç oynamak gibi insan girdisi gerektiren karmaşık görevleri.


In [None]:
 translator=pipeline("translation_en_to_de")

No model was supplied, defaulted to t5-base and revision 686f1db (https://huggingface.co/t5-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
For now, this behavior is kept to avoid breaking backwards compatibility when padding/encoding with `truncation is True`.
- Be aware that you SHOULD NOT rely on t5-base automatically truncating your input to 512 when padding/encoding.
- If you want to encode/pad to sequences longer than 512 you can either instantiate this tokenizer with `model_max_length` or pass `max_length` when encoding/padding.


In [None]:
text="ı hope you will be great"

In [None]:
outputs=translator(text,clean_up_tokenization_spaces=True)

# Translation Text

In [None]:
print(outputs[0]["translation_text"])

 Ich hoffe, Sie werden groß sein
