# Predicting Political Leaning Using Machine Learning: Analysis of Tweets from BJP and INC

1. Objective: Build an ML model to classify political leaning (BJP or INC) based on tweets.
2. Dataset: Contains 40k tweets from politicians of BJP and INC.
3. Data Preprocessing: Clean, tokenize, and vectorize text data for analysis.
4. Modeling: Train and evaluate a supervised classification model to predict leaning.
5. Evaluation: Use metrics like Accuracy, Precision, Recall, and F1-Score to assess
performance.
6. Outcome: A trained model that predicts political leaning for new text inputs.
7. Recommendations: Address dataset bias and explore improvements for multilingual
data.

--------------------

## Topic Modelling

-------------------

Topic Modelling to understand the topics all these tweets are all about for both Party

In [8]:
## downloading the necessay libraries
!pip install -U transformers sentence_transformers pipeline datasets

Collecting datasets
  Downloading datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.2.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m24.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.9.0-py3-none-any.whl (

In [2]:
## loading the packages
from sentence_transformers import SentenceTransformer

## loading the model
embedding_model = SentenceTransformer(
    "l3cube-pune/hindi-sentence-similarity-sbert"
)

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/7.12k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/676 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/950M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/525 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/3.16M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/6.41M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [29]:
# ## load the data
import pandas as pd
from io import StringIO


In [28]:
## redaing the text file

with open("/content/election_tweets_data.txt",'r') as f:
    text = f.read()

## show file 10 lines only
print(text[:1000])

Party	Tweet	handle
BJP	RT : VIDEO | Jharkhand Assembly Elections 2024: "BJP and NDA are fully prepared. We have released our seat-sharing arrangement and…	amarbauri
BJP	|| जीवेत शरदः शतम् || केंद्रीय गृह एवं सहकारिता मंत्री श्री जी को जन्मदिन की अनंत शुभकामनाएं और बधाई। आप स्वस्थ और शतायु: हों और ऐसे ही हमारा मार्गदर्शन करते रहें। #HBDayAmitShah	amarbauri
BJP	जुड़ेंगे और जीतेंगे, जीत ऐतिहासिक होगी ! अपनों से, अपनों को जोड़ने का सिलसिला जारी है ...	amarbauri
BJP	हिंदू "बटेंगे तो कटेंगे" का असली अर्थ समझिए ... जहां हिंदू बटा है वह क्षेत्र भारत से कटा है : यह इतिहास है ... देखिए आज पाकुड़ (संथाल परगना) के हालात ! अनुसूचित जाति समाज से आने वाले पाकिस्तान के प्रथम कानून मंत्री जोगेंद्र नाथ मंडल के बारे में बहुत कम लोग जानते हैं... जरूर…	amarbauri
BJP	चंदनकियारी चौक ⏩ नेताजी सुभाष चंद्र बोस के सशक्त नेतृत्व में भारत की स्वाधीनता हेतु गठित “आजाद हिन्द फौज” के स्थापना दिवस की आप सभी राष्ट्रभक्तों को हृदयतल से बधाई।	amarbauri
BJP	चंदनकियारी के लाल की हुंकार ✊🏻 चंदनकियारी की माटी की ताकत आज पूरा

In [32]:
# Convert the text data into a DataFrame
tweets_data = pd.read_csv(StringIO(text), sep="\t")

# Display the DataFrame
print(tweets_data)

      Party                                              Tweet           handle
0       BJP  RT : VIDEO | Jharkhand Assembly Elections 2024...        amarbauri
1       BJP  || जीवेत शरदः शतम् || केंद्रीय गृह एवं सहकारित...        amarbauri
2       BJP  जुड़ेंगे और जीतेंगे, जीत ऐतिहासिक होगी ! अपनों...        amarbauri
3       BJP  हिंदू "बटेंगे तो कटेंगे" का असली अर्थ समझिए .....        amarbauri
4       BJP  चंदनकियारी चौक ⏩ नेताजी सुभाष चंद्र बोस के सशक...        amarbauri
...     ...                                                ...              ...
41199   INC  If a six-month-old is not safe at home, not sa...  SupriyaShrinate
41200   INC  नरेंद्र मोदी की यूक्रेन यात्रा का आँखों देखा इ...  SupriyaShrinate
41201   INC  हद है भ्रष्टाचार की उत्तर प्रदेश के सीतापुर मे...  SupriyaShrinate
41202   INC                                वॉर रुकवा दी पापा 🙃  SupriyaShrinate
41203   INC  RT : BJP की सांसद 'अन्नदाताओं' को हत्यारा और ब...  SupriyaShrinate

[41204 rows x 3 columns]


## Embedding Documents

In [34]:
## model [Alreday created]
embeddings = embedding_model.encode(tweets_data["Tweet"], show_progress_bar = True)

## checking the shape
embeddings.shape

Batches:   0%|          | 0/1288 [00:00<?, ?it/s]

KeyboardInterrupt: 