## **"Predicting Missing Information in Hindi Addresses Using OpenAI's Language Model"**


**Objective :**
* In this file we have been provided an empty column "स्थान"( Area ) in the dataset which contain nan values so we need to predict the areas based on information in the excel file provided and along with that we need to identify the state and country name based on company's location and details in the excel file.

**Step-1 : Load the necessary libraries**

In [1]:
import pandas as pd 
import numpy as np 
import os 
import xlrd 
from langchain.llms import OpenAI
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate 

**Step-2 : Setup the API Key**

In [None]:
os.environ["OPENAI_API_KEY"] = "Add your api key here"
llm = ChatOpenAI(model_name = "gpt-3.5-turbo", temperature = 0.3)

  llm = ChatOpenAI(model_name = "gpt-3.5-turbo", temperature = 0.3)


**Step-3 : Load the dataset**

In [3]:
df = pd.read_excel("E:\\Projects\\Datasets\\company_addresses_hindi.xlsx")

In [26]:
df.head()

Unnamed: 0,कंपनी का नाम,सड़क का नाम,स्थान,शहर,पिनकोड,राज्य,देश
0,विप्रो,"डोड्डाकनेल्ली, सरजापुर रोड",सरजापुर,बेंगलुरु,560035,कर्नाटक,भारत
1,विप्रो,"प्लॉट नंबर 2, फेज 1, राजीव गांधी इन्फोटेक पार्...",हिंजवाड़ी,पुणे,411057,महाराष्ट्र,भारत
2,विप्रो,"203/1, मनिकोंडा गांव, गाचीबोवली SEZ",मनिकोंडा गांव,हैदराबाद,500032,तेलंगाना,भारत
3,टीसीएस,"आईटी/आईटीईएस एसईजेड, राजारहाट, न्यू टाउन",राजारहाट,कोलकाता,700160,पश्चिम बंगाल,भारत
4,टीसीएस,"थिंक कैंपस, इलेक्ट्रॉनिक सिटी फेज II",इलेक्ट्रॉनिक सिटी फेज II,बेंगलुरु,560100,कर्नाटक,भारत


In [5]:
df.shape

(15, 5)

In [6]:
print(df.columns)


Index(['कंपनी का नाम', 'सड़क का नाम', 'स्थान', 'शहर', 'पिनकोड'], dtype='object')


**Step-4 : Define function to get missing area**

In [7]:
from langchain.schema import SystemMessage, HumanMessage

def get_area(street, city):
    """"Use OPENAI to predict the missing area."""
    address = f"{street},{city}"
    messages = [
        SystemMessage(content="You are an AI assistant that extracts area information form Hindi addresses."),
        HumanMessage(content=f"What is the area in the following address? {address}\n return only with area name.")
    ]
    response = llm(messages)
    return response.content.strip() if response.content else ""

**Step-5 Fill missing values in the 'स्थान' column**


In [8]:
df["स्थान"] = df.apply(lambda row: get_area(row["सड़क का नाम"], row["शहर"]) if pd.isna(row["स्थान"]) else row ["स्थान"], axis = 1)

  response = llm(messages)


In [9]:
df.head()

Unnamed: 0,कंपनी का नाम,सड़क का नाम,स्थान,शहर,पिनकोड
0,विप्रो,"डोड्डाकनेल्ली, सरजापुर रोड",सरजापुर,बेंगलुरु,560035
1,विप्रो,"प्लॉट नंबर 2, फेज 1, राजीव गांधी इन्फोटेक पार्...",हिंजवाड़ी,पुणे,411057
2,विप्रो,"203/1, मनिकोंडा गांव, गाचीबोवली SEZ",मनिकोंडा गांव,हैदराबाद,500032
3,टीसीएस,"आईटी/आईटीईएस एसईजेड, राजारहाट, न्यू टाउन",राजारहाट,कोलकाता,700160
4,टीसीएस,"थिंक कैंपस, इलेक्ट्रॉनिक सिटी फेज II",इलेक्ट्रॉनिक सिटी फेज II,बेंगलुरु,560100


In [10]:
df["स्थान"].head(15)

0                                  सरजापुर
1                                हिंजवाड़ी
2                            मनिकोंडा गांव
3                                 राजारहाट
4                 इलेक्ट्रॉनिक सिटी फेज II
5                                  माधापुर
6     सॉल्ट लेक इलेक्ट्रॉनिक्स कॉम्प्लेक्स
7                            मनिकोंडा गांव
8                न्यू टाउन-एक्शन एरिया-III
9                             शोलिंगनल्लूर
10                               हिंजवाड़ी
11                                 माधापुर
12                                अल्वरपेट
13                               हिंजवाड़ी
14                                 नागवारा
Name: स्थान, dtype: object

**Step-6 : Add राज्य column to dataset**

In [11]:
if "राज्य" not in df.columns:
    df["राज्य"] = None

**Step-7 : Define function to get missing state**

In [12]:
def get_state(pincode, street, city):
    """Use OpenAI to predict the state based on pincode, street, city"""
    address1 = f"{pincode},{street},{city}"
    messages = [
        SystemMessage(content="You are an AI assistant that extracts state information from Hindi addresses."),
        HumanMessage(content=f"What is the state in the following address? {address1}\n return only with state name in Hindi.")
    ]
    response = llm(messages)
    return response.content.strip() if response.content else ""

**Step-8 : Fill the missing values in राज्य column**

In [13]:
df["राज्य"] = df.apply(lambda row: get_state(row["पिनकोड"], row["सड़क का नाम"], row["शहर"]) if pd.isna(row["राज्य"]) else row ["राज्य"], axis = 1)

In [14]:
df.head()

Unnamed: 0,कंपनी का नाम,सड़क का नाम,स्थान,शहर,पिनकोड,राज्य
0,विप्रो,"डोड्डाकनेल्ली, सरजापुर रोड",सरजापुर,बेंगलुरु,560035,कर्नाटक
1,विप्रो,"प्लॉट नंबर 2, फेज 1, राजीव गांधी इन्फोटेक पार्...",हिंजवाड़ी,पुणे,411057,महाराष्ट्र
2,विप्रो,"203/1, मनिकोंडा गांव, गाचीबोवली SEZ",मनिकोंडा गांव,हैदराबाद,500032,तेलंगाना
3,टीसीएस,"आईटी/आईटीईएस एसईजेड, राजारहाट, न्यू टाउन",राजारहाट,कोलकाता,700160,पश्चिम बंगाल
4,टीसीएस,"थिंक कैंपस, इलेक्ट्रॉनिक सिटी फेज II",इलेक्ट्रॉनिक सिटी फेज II,बेंगलुरु,560100,कर्नाटक


In [15]:
df['राज्य'].head(15)

0          कर्नाटक
1       महाराष्ट्र
2         तेलंगाना
3     पश्चिम बंगाल
4          कर्नाटक
5         तेलंगाना
6     पश्चिम बंगाल
7         तेलंगाना
8     पश्चिम बंगाल
9         तमिलनाडु
10      महाराष्ट्र
11        तेलंगाना
12        तमिलनाडु
13      महाराष्ट्र
14         कर्नाटक
Name: राज्य, dtype: object

**Step-9 : Add देश column to the dataset**

In [17]:
if "देश" not in df.columns:
    df["देश"] = None

**Step-10 : Define function to get missing country**

In [20]:
def get_country(state, city, pincode):
    """Use OpenAI to predict the country based on state, city, pincode."""
    address2 = f"{state},{city}, {pincode}"
    messages = [
        SystemMessage(content="You are an AI assistant that extracts country information from Hindi addresses."),
        HumanMessage(content=f"What is the country in the following address? {address2}\n return only with country name in Hindi.")
    ]

    response = llm(messages)
    return response.content.strip() if response.content else ""

In [21]:
df["देश"] = df.apply (lambda row: get_country(row["पिनकोड"], row["राज्य"], row["शहर"]) if pd.isna(row["देश"]) else row ["देश"], axis = 1)

In [24]:
df.head()

Unnamed: 0,कंपनी का नाम,सड़क का नाम,स्थान,शहर,पिनकोड,राज्य,देश
0,विप्रो,"डोड्डाकनेल्ली, सरजापुर रोड",सरजापुर,बेंगलुरु,560035,कर्नाटक,भारत
1,विप्रो,"प्लॉट नंबर 2, फेज 1, राजीव गांधी इन्फोटेक पार्...",हिंजवाड़ी,पुणे,411057,महाराष्ट्र,भारत
2,विप्रो,"203/1, मनिकोंडा गांव, गाचीबोवली SEZ",मनिकोंडा गांव,हैदराबाद,500032,तेलंगाना,भारत
3,टीसीएस,"आईटी/आईटीईएस एसईजेड, राजारहाट, न्यू टाउन",राजारहाट,कोलकाता,700160,पश्चिम बंगाल,भारत
4,टीसीएस,"थिंक कैंपस, इलेक्ट्रॉनिक सिटी फेज II",इलेक्ट्रॉनिक सिटी फेज II,बेंगलुरु,560100,कर्नाटक,भारत


In [23]:
df['देश'].head(15)

0     भारत
1     भारत
2     भारत
3     भारत
4     भारत
5     भारत
6     भारत
7     भारत
8     भारत
9     भारत
10    भारत
11    भारत
12    भारत
13    भारत
14    भारत
Name: देश, dtype: object

**Step-11 : Save the updated file** 

* If you want to download the excel file use the below code.

In [16]:
#df.to_excel("E:\\Projects\\updated_company_addresses.xlsx", index=False)


**Conclusion :**
* All the modifications are performed on the "स्थान" column based on information provided in the excel file and new columns are also added to the dataset and changed the values based on the given excel file.