
# **Data & ML Model (train + save model)**


In [None]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.preprocessing import LabelEncoder
import joblib

In [None]:
df = pd.read_csv("NE_district_health.csv")
print("Dataset Shape:", df.shape)
df

Dataset Shape: (50, 11)


Unnamed: 0,district,pH,coliform_count,turbidity_NTU,rainfall_mm,past_cases,current_cases,past_week_avg,growth_rate,risk_label,next_day_cases
0,Guwahati,6.5,291,6.2,390,129,129,129,0.077,HIGH,140
1,Shillong,7.5,141,5.9,204,185,185,185,0.069,MEDIUM,200
2,Imphal,7.2,51,8.7,286,30,30,30,0.109,MEDIUM,33
3,Agartala,7.2,123,2.4,352,93,93,93,0.09,MEDIUM,103
4,Aizawl,6.0,66,8.1,220,131,131,131,0.14,MEDIUM,153
5,Kohima,7.3,290,3.5,317,160,160,160,0.106,HIGH,180
6,Gangtok,7.3,116,4.3,376,96,96,96,0.119,MEDIUM,109
7,Dibrugarh,6.8,35,8.4,363,165,165,165,0.231,HIGH,210
8,Silchar,6.1,46,3.1,284,90,90,90,0.057,LOW,96
9,Dimapur,6.0,37,3.0,377,159,159,159,0.113,MEDIUM,180


In [None]:
features = ["pH","coliform_count","turbidity_NTU",
            "rainfall_mm","current_cases","past_week_avg","growth_rate"]

X = df[features]
y_class = df["risk_label"]         # Classification target
y_reg = df["next_day_cases"]       # Regression target


In [None]:
le = LabelEncoder()
y_class_enc = le.fit_transform(y_class)

In [None]:
clf = RandomForestClassifier(n_estimators=200, random_state=42)
clf.fit(X, y_class_enc)

print("Classifier trained successfully! Classes:", le.classes_)

Classifier trained successfully! Classes: ['HIGH' 'LOW' 'MEDIUM']


In [None]:
reg = RandomForestRegressor(n_estimators=200, random_state=42)
reg.fit(X, y_reg)

In [None]:
joblib.dump(clf, "risk_classifier.pkl")
joblib.dump(reg, "cases_regressor.pkl")
joblib.dump(le, "label_encoder.pkl")

print("Models saved: risk_classifier.pkl, cases_regressor.pkl, label_encoder.pkl")


Models saved: risk_classifier.pkl, cases_regressor.pkl, label_encoder.pkl


In [None]:
!pip install pyrebase4


Collecting pyrebase4
  Downloading Pyrebase4-4.8.0-py3-none-any.whl.metadata (662 bytes)
Collecting requests-toolbelt<1.0,>=0.7.1 (from pyrebase4)
  Downloading requests_toolbelt-0.10.1-py2.py3-none-any.whl.metadata (14 kB)
Collecting urllib3<2,>=1.21.1 (from pyrebase4)
  Downloading urllib3-1.26.20-py2.py3-none-any.whl.metadata (50 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.1/50.1 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting gcloud>=0.18.3 (from pyrebase4)
  Downloading gcloud-0.18.3.tar.gz (454 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m454.4/454.4 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting python-jwt>=2.0.1 (from pyrebase4)
  Downloading python_jwt-4.1.0-py2.py3-none-any.whl.metadata (5.6 kB)
Collecting pycryptodome>=3.6.4 (from pyrebase4)
  Downloading pycryptodome-3.23.0-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.4

In [None]:
import pyrebase
import datetime

# Firebase Config
firebaseConfig = {
    "apiKey": "AIzaSyB7n5Hbqlf5ZgfePuL181TCZ_36wNKlyJ8",
    "authDomain": "water-outbreak-app.firebaseapp.com",
    "databaseURL": "https://water-outbreak-app-default-rtdb.firebaseio.com/",
    "projectId": "water-outbreak-app",
    "storageBucket": "water-outbreak-app.appspot.com",
    "messagingSenderId": "392245749368",
    "appId": "1:392245749368:web:59ce536b3d68dbdb68af8d",
}

# Initialize Firebase
firebase = pyrebase.initialize_app(firebaseConfig)
db = firebase.database()

# Example: Push ML prediction
prediction = {
    "district": "Tripura",
    "risk_level": "HIGH",
    "predicted_cases": 141,
    "timestamp": datetime.datetime.now().isoformat()
}

db.child("predictions").push(prediction)
print("✅ Prediction pushed to Realtime Database!")


✅ Prediction pushed to Realtime Database!


In [None]:
# Your ML prediction code
sample = X.iloc[[0]]  # Pick first district row
risk_pred = clf.predict(sample)
risk_label = le.inverse_transform(risk_pred)[0]

future_cases = int(reg.predict(sample)[0])

print("District:", df.iloc[0]["district"])
print("Predicted Risk Level:", risk_label)
print("Predicted next week Cases:", future_cases)

# Push to Firebase
district_name = df.iloc[0]["district"]
push_prediction(district_name, risk_label, future_cases)


District: Guwahati
Predicted Risk Level: HIGH
Predicted next week Cases: 141
✅ Pushed to Firebase: {'district': 'Guwahati', 'risk_level': 'HIGH', 'predicted_cases': 141, 'timestamp': '2025-09-11T17:33:00.424672'}


In [None]:
# Initialize Firebase
firebase = pyrebase.initialize_app(firebaseConfig)
db = firebase.database()

# Test write with correct fields
data = {
    "district": "Tripura",
    "risk_level": "HIGH",          # must match your React "risk_level"
    "predicted_cases": 141,        # must match your React "predicted_cases"
    "timestamp": datetime.datetime.now().isoformat()
}

db.child("predictions").push(data)

print("✅ Data pushed with correct schema!")

✅ Data pushed with correct schema!


In [None]:
# from google.colab import files

# files.download("risk_classifier.pkl")
# files.download("cases_regressor.pkl")
# files.download("label_encoder.pkl")
# files.download("NE_district_health.csv")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# **Audio Alerts (short gTTS) – auto-triggered when risk=HIGH**

In [None]:
!pip install gTTS



In [None]:
from gtts import gTTS
from IPython.display import Audio

In [None]:
# ---- Example ML prediction (this will come from your model/API) ----
district = "Guwahati"
risk_level = "HIGH"   # <- Replace with model output
predicted_cases = 150

# ---- Generate audio if risk is HIGH ----
if risk_level == "HIGH":
    alert_text = f"⚠️ High risk detected in {district}. Predicted cases: {predicted_cases}. Please boil water before drinking and wash hands regularly."

    # Convert text to speech
    tts = gTTS(text=alert_text, lang='en')
    tts.save("alert.mp3")

    print("Audio alert generated: alert.mp3")
    display(Audio("alert.mp3"))  # Plays audio in Colab

else:
    print(f"✅ {district} is at {risk_level} risk. No audio alert needed.")


Audio alert generated: alert.mp3


# **Educational Audio (4–5 min EN + HI)**

In [None]:

from gtts import gTTS
from IPython.display import Audio

# ---------------------------
# 1. English Educational Audio
# ---------------------------
script_en = """
Hello and welcome to this health awareness guide.
In many parts of North-East India, especially during the rainy season, waterborne diseases like diarrhea, cholera, typhoid, and hepatitis spread quickly. These illnesses can affect anyone, but children and elderly people are most at risk.

The good news is that with simple steps, you can protect yourself and your family.
The most important step is drinking safe water. Always boil water for at least five minutes before drinking. Store boiled water in a clean, covered container. Do not drink directly from rivers, ponds, or uncovered taps.

Hygiene is equally important. Wash your hands thoroughly with soap and water before eating, after using the toilet, and after coming into contact with dirty water. Encourage children to wash hands properly.

During floods or heavy rainfall, avoid using flood water for drinking or cooking. If you have access to chlorine tablets or water purifiers, use them. Do not allow water to stagnate near your homes because it can become a breeding ground for mosquitoes and other germs.

Food safety is also crucial. Always cook food properly and avoid eating street food during outbreak seasons. Keep raw and cooked food separate and cover all food items.

Now, let us talk about symptoms. Common symptoms of waterborne diseases include loose motions, vomiting, stomach pain, fever, and dehydration. If you or someone in your family experiences these symptoms, drink plenty of clean water and oral rehydration solution, also called ORS. ORS helps prevent dehydration.

If symptoms continue for more than a day, or if there is blood in the stool, or if a child becomes very weak, please visit the nearest health center immediately. Do not wait until the illness becomes severe. Early treatment can save lives.

Remember, prevention is always better than cure. By boiling water, maintaining hygiene, eating safe food, and acting quickly when symptoms appear, you can protect your family and community.

Together, we can reduce the impact of waterborne diseases. Share this message with your neighbors and friends. When everyone follows these steps, the whole community stays healthy.

Stay safe, stay healthy, and thank you for listening.
"""

tts_en = gTTS(text=script_en, lang='en')
tts_en.save("health_guide_en.mp3")
print("✅ English audio saved as health_guide_en.mp3")

# Play inside Colab
display(Audio("health_guide_en.mp3"))


✅ English audio saved as health_guide_en.mp3


In [None]:
tts_en = gTTS(text=script_en, lang='en')
tts_en.save("health_guide_en.mp3")

In [None]:
# ---------------------------
# 2. Hindi Educational Audio
# ---------------------------
script_hi = """
नमस्ते और आपका स्वागत है इस स्वास्थ्य जागरूकता संदेश में।
उत्तर-पूर्व भारत के कई हिस्सों में, खासकर बरसात के मौसम में, जलजनित बीमारियाँ जैसे दस्त, हैजा, टाइफाइड और हेपेटाइटिस तेजी से फैलती हैं। यह बीमारियाँ किसी को भी हो सकती हैं, लेकिन बच्चे और बुजुर्ग सबसे ज़्यादा प्रभावित होते हैं।

अच्छी बात यह है कि कुछ सरल उपायों से आप अपने परिवार को सुरक्षित रख सकते हैं।
सबसे पहला कदम है – सुरक्षित पानी पीना। पानी को हमेशा कम से कम पाँच मिनट तक उबालें और फिर पिएँ। उबले हुए पानी को साफ और ढक्कन वाले बर्तन में रखें। कभी भी सीधे नदी, तालाब या खुले नलों का पानी न पिएँ।

स्वच्छता भी बहुत ज़रूरी है। खाने से पहले, शौचालय के बाद और गंदे पानी के संपर्क में आने के बाद हमेशा साबुन और पानी से हाथ धोएँ। बच्चों को भी हाथ धोने की आदत डालें।

बाढ़ या भारी बारिश के समय, बाढ़ का पानी पीने या खाने में इस्तेमाल न करें। अगर आपके पास क्लोरीन की गोलियाँ या वॉटर प्यूरीफ़ायर हैं, तो उनका इस्तेमाल करें। घर के पास पानी जमा न होने दें, क्योंकि यह मच्छरों और कीटाणुओं का घर बन सकता है।

खाने की सुरक्षा का भी ध्यान रखें। हमेशा भोजन अच्छी तरह पकाकर खाएँ और बीमारी के मौसम में बाहर का खाना खाने से बचें। कच्चे और पके हुए भोजन को अलग रखें और सभी खाद्य पदार्थों को ढक कर रखें।

अब लक्षणों की बात करते हैं। दस्त, उल्टी, पेट दर्द, बुखार और शरीर में पानी की कमी जलजनित बीमारियों के आम लक्षण हैं। अगर आपके परिवार में किसी को ये लक्षण दिखें, तो उसे खूब सारा साफ पानी और ओआरएस (ORS) पिलाएँ। ORS शरीर में पानी की कमी को पूरा करता है।

अगर लक्षण एक दिन से ज्यादा रहें, या दस्त में खून आए, या बच्चा बहुत कमजोर हो जाए, तो तुरंत नज़दीकी स्वास्थ्य केंद्र जाएँ। बीमारी को गंभीर होने का इंतज़ार न करें। जल्दी इलाज से जान बचाई जा सकती है।

याद रखिए, बचाव इलाज से बेहतर है। पानी उबालकर पीने, साफ-सफाई रखने, सुरक्षित खाना खाने और समय पर इलाज कराने से आप अपने परिवार और समाज को सुरक्षित रख सकते हैं।

आइए, हम सब मिलकर जलजनित बीमारियों का खतरा कम करें। यह संदेश अपने पड़ोसियों और दोस्तों तक पहुँचाएँ। जब सब लोग इन बातों का पालन करेंगे, तो पूरा समाज स्वस्थ रहेगा।

सुरक्षित रहें, स्वस्थ रहें और सुनने के लिए धन्यवाद।
"""

tts_hi = gTTS(text=script_hi, lang='hi')
tts_hi.save("health_guide_hi.mp3")
print("✅ Hindi audio saved as health_guide_hi.mp3")

# Play inside Colab
display(Audio("health_guide_hi.mp3"))


✅ Hindi audio saved as health_guide_hi.mp3


In [None]:
tts_hi = gTTS(text=script_hi, lang='hi')
tts_hi.save("health_guide_hi.mp3")


In [None]:
from gtts import gTTS
from IPython.display import Audio

# Bengali Educational Audio
script_bn = """নমস্কার, আপনাকে স্বাগতম এই স্বাস্থ্য সচেতনতার বার্তায়।
উত্তর-পূর্ব ভারতের অনেক জায়গায়, বিশেষ করে বর্ষাকালে, জলবাহিত রোগ যেমন ডায়রিয়া, কলেরা, টাইফয়েড এবং হেপাটাইটিস দ্রুত ছড়িয়ে পড়ে।
এই রোগগুলো যে কাউকে আক্রান্ত করতে পারে, তবে শিশু ও বৃদ্ধরা সবচেয়ে বেশি ঝুঁকিতে থাকে।

ভালো খবর হলো, কয়েকটি সহজ পদক্ষেপ নিলেই আপনি আপনার পরিবারকে সুরক্ষিত রাখতে পারবেন।
প্রথম পদক্ষেপ হলো নিরাপদ পানি পান করা।
পানি অন্তত পাঁচ মিনিট ফুটিয়ে তারপর পান করুন।
ফুটানো পানি একটি পরিষ্কার ও ঢাকনা দেওয়া পাত্রে রাখুন।
কখনো সরাসরি নদী, পুকুর বা খোলা কল থেকে পানি খাবেন না।

স্বাস্থ্যবিধিও সমান গুরুত্বপূর্ণ।
খাওয়ার আগে, শৌচাগার ব্যবহার করার পরে, এবং নোংরা পানির সংস্পর্শে আসার পরে সব সময় সাবান দিয়ে ভালো করে হাত ধুয়ে নিন।
শিশুদের হাত ধোয়ার অভ্যাস করান।

বন্যা বা প্রবল বর্ষার সময় বন্যার পানি খাবেন না বা রান্নার কাজে ব্যবহার করবেন না।
যদি ক্লোরিন ট্যাবলেট বা ওয়াটার পিউরিফায়ার থাকে তবে ব্যবহার করুন।
বাড়ির চারপাশে পানি জমতে দেবেন না, কারণ সেখানে মশা ও জীবাণু জন্মাতে পারে।

খাবারের নিরাপত্তার দিকেও খেয়াল রাখুন।
সবসময় খাবার ভালোভাবে রান্না করে খান।
বর্ষাকালে রাস্তার খাবার এড়িয়ে চলুন।
কাঁচা ও রান্না করা খাবার আলাদা রাখুন এবং ঢেকে রাখুন।

এখন উপসর্গের কথা বলি।
ডায়রিয়া, বমি, পেট ব্যথা, জ্বর এবং শরীরে পানির অভাব জলবাহিত রোগের সাধারণ উপসর্গ।
যদি এমন উপসর্গ দেখা দেয়, প্রচুর পরিষ্কার পানি এবং ওআরএস (ORS) খাওয়ান।
ORS শরীরে পানির অভাব পূরণ করে।

যদি উপসর্গ এক দিনের বেশি থাকে, বা পায়খানায় রক্ত আসে, বা শিশু খুব দুর্বল হয়ে যায়, তবে সাথে সাথে কাছাকাছি স্বাস্থ্যকেন্দ্রে যান।
অসুখ গুরুতর হওয়া পর্যন্ত অপেক্ষা করবেন না।
শীঘ্র চিকিৎসা জীবন বাঁচাতে পারে।

মনে রাখবেন, প্রতিরোধ চিকিৎসার চেয়ে সবসময় ভালো।
পানি ফুটিয়ে খাওয়া, স্বাস্থ্যবিধি মানা, নিরাপদ খাবার খাওয়া এবং দ্রুত চিকিৎসা করালে পরিবার ও সমাজ সুরক্ষিত থাকে।

চলুন, আমরা সবাই মিলে জলবাহিত রোগ কমাই।
এই বার্তাটি আপনার প্রতিবেশী ও বন্ধুদের সাথে ভাগ করে নিন।
যখন সবাই এই নিয়ম মানবে, পুরো সমাজ সুস্থ থাকবে।

নিরাপদ থাকুন, সুস্থ থাকুন, এবং শোনার জন্য ধন্যবাদ।
"""

tts_bn = gTTS(text=script_bn, lang='bn')
tts_bn.save("health_guide_bn.mp3")
print("✅ Bengali audio saved as health_guide_bn.mp3")

# Play inside Colab
display(Audio("health_guide_bn.mp3"))


In [None]:
tts_bn = gTTS(text=script_bn, lang='bn')
tts_bn.save("health_guide_bn.mp3")


# **Backend API with FastAPI (return predictions)**

In [None]:
# Install dependencies
!pip install fastapi uvicorn nest_asyncio pyngrok scikit-learn

import pandas as pd
import joblib
from fastapi import FastAPI
import nest_asyncio
import uvicorn
from pyngrok import ngrok

# --- Load dataset + model ---
df = pd.read_csv("NE_districts_water_health_data.csv")
model, le = joblib.load("risk_model.pkl")

# --- FastAPI App ---
app = FastAPI()

@app.get("/")
def root():
    return {"message": "API is running. Try /api/risk-prediction/Guwahati"}

@app.get("/api/risk-prediction/{district}")
def get_prediction(district: str):
    row = df[df["district"].str.lower() == district.lower()]
    if row.empty:
        return {"error": "District not found"}

    features = row[["pH","coliform_count","turbidity_NTU","rainfall_mm","past_cases"]]
    risk_score = model.predict_proba(features)[0].max()
    pred = model.predict(features)
    risk_label = le.inverse_transform(pred)[0]

    return {
        "district": district,
        "risk_score": round(float(risk_score),2),
        "risk_level": risk_label,
        "predicted_cases": int(row["past_cases"].values[0] * (1+risk_score)),
        "factors": ["coliform","rainfall"] if risk_label=="HIGH" else ["normal"]
    }

# --- Run FastAPI inside Colab ---
nest_asyncio.apply()
public_url = ngrok.connect(8000)
print("🌍 Public API URL:", public_url)

uvicorn.run(app, host="0.0.0.0", port=8000)
