#**ᲞᲠᲐᲥᲢᲘᲙᲣᲚᲘ ᲓᲐᲕᲐᲚᲔᲑᲐ #2 (აღდგენა)**

---

#### **ჩაბარების ვადა (deadline): 10 იანვარი 18:00**

- თითოეული დავალება ფასდება შესაბამისი ქულით, რაც ჯამში შეადგენს **6.4 ქულას**

---

შეგიძლიათ გამოიყენოთ ხელოვნური ინტელექტის ასისტენტები (ChatGPT, Claude და სხვ.), თუმცა პასუხის გამოგზავნამდე:
1. გააანალიზეთ ამონახსნი და დარწმუნდით, რომ:
   - კოდი მუშაობს სწორად
   - კარგად გესმით მისი მუშაობის ლოგიკა
   - შეგიძლიათ ახსნათ თითოეული ნაბიჯი
2. გადაამოწმეთ შედეგები სხვადასხვა მეთოდით
3. კოდის კომენტარები დაწერეთ საკუთარი სიტყვებით, რათა აჩვენოთ პასუხის სიღრმისეული გააზრება

---
## **ᲓᲐᲕᲐᲚᲔᲑᲔᲑᲘ**
---


**ქვემოთ მოცემული სკრიპტით დააგენერირეთ მონაცემები**

In [None]:
import numpy as np
import pandas as pd
from datetime import datetime, timedelta
import os

# Configuration
NUM_LOCATIONS = 100
START_DATE = datetime(2019, 1, 1)
END_DATE = datetime(2024, 1, 1)
LOCAL_DATA_PATH = "ag_data"

# Ensure directories exist
def ensure_directories():
    for subdir in ['weather', 'soil_sensors', 'crop_data', 'locations', 'satellite']:
        os.makedirs(os.path.join(LOCAL_DATA_PATH, subdir), exist_ok=True)

# Generate locations
def generate_locations(num_locations):
    regions = {
        'კახეთი': {'latitude': (41.0, 42.5), 'longitude': (44.0, 45.5), 'elevation': (400, 1200)},
        'იმერეთი': {'latitude': (41.5, 42.5), 'longitude': (42.0, 43.0), 'elevation': (200, 800)},
        'ქართლი': {'latitude': (41.5, 42.5), 'longitude': (43.0, 44.5), 'elevation': (300, 900)},
    }

    locations = []
    for i in range(num_locations):
        region = np.random.choice(list(regions.keys()))
        data = regions[region]
        locations.append({
            'location_id': f'LOC_{i:04d}',
            'region': region,
            'latitude': np.random.uniform(*data['latitude']),
            'longitude': np.random.uniform(*data['longitude']),
            'elevation': np.random.uniform(*data['elevation']),
            'soil_type': np.random.choice(['შავმიწა', 'ყავისფერი', 'ალუვიური']),
            'main_crop': np.random.choice(['სიმინდი', 'ხორბალი', 'ვაზი', 'კარტოფილი']),
            'area_hectares': np.random.uniform(5, 50)
        })
    return pd.DataFrame(locations)

# Generate weather data
def generate_weather_data(locations_df, start_date, end_date):
    dates = pd.date_range(start_date, end_date, freq='D')
    weather = []

    # Define base temperatures for each season as integers
    base_temps = {
        1: 15,  # Spring
        2: 25,  # Summer
        3: 18,  # Autumn
        4: 5    # Winter
    }

    for _, loc in locations_df.iterrows():
        for date in dates:
            season = (date.month % 12 + 3) // 3  # 1: Spring, 2: Summer, 3: Autumn, 4: Winter
            base_temp = base_temps[season]  # Use the integer key
            temp = np.random.normal(base_temp, 5)
            precip = max(0, np.random.normal(10 if season != 4 else 2, 5))  # Less precipitation in Winter
            humidity = np.random.uniform(30, 80)
            wind_speed = np.random.uniform(0, 10)
            solar_radiation = max(0, np.random.normal(800 if season == 2 else 300, 100))

            weather.append({
                'location_id': loc['location_id'],
                'timestamp': date,
                'air_temperature': temp,
                'precipitation': precip,
                'humidity': humidity,
                'wind_speed': wind_speed,
                'solar_radiation': solar_radiation
            })
    return pd.DataFrame(weather)


# Generate soil sensor data
def generate_soil_data(locations_df, start_date, end_date):
    dates = pd.date_range(start_date, end_date, freq='D')
    soil = []

    for _, loc in locations_df.iterrows():
        for date in dates:
            moisture = max(10, np.random.normal(30, 5))
            temp = np.random.uniform(10, 30)
            ec = np.random.uniform(0.1, 2.0)
            ph = np.random.uniform(5.5, 7.5)

            soil.append({
                'location_id': loc['location_id'],
                'timestamp': date,
                'soil_moisture': moisture,
                'soil_temperature': temp,
                'soil_ec': ec,
                'soil_ph': ph
            })
    return pd.DataFrame(soil)

# Generate crop data
def generate_crop_data(locations_df, years=5):
    crop_data = []
    for _, loc in locations_df.iterrows():
        for year in range(2019, 2019 + years):
            planting_date = datetime(year, 4, 15)
            harvest_date = datetime(year, 9, 30)
            yield_tons = np.random.uniform(5, 20)
            irrigation_used = np.random.choice([True, False])
            fertilizer_used = np.random.choice([True, False])

            crop_data.append({
                'location_id': loc['location_id'],
                'year': year,
                'crop_type': loc['main_crop'],
                'planting_date': planting_date,
                'harvest_date': harvest_date,
                'yield_tons_per_ha': yield_tons,
                'area_harvested': loc['area_hectares'],
                'irrigation_used': irrigation_used,
                'fertilizer_used': fertilizer_used
            })
    return pd.DataFrame(crop_data)

# Generate satellite data
def generate_satellite_data(locations_df, start_date, end_date):
    dates = pd.date_range(start_date, end_date, freq='D')
    satellite = []

    for _, loc in locations_df.iterrows():
        for date in dates:
            ndvi = np.random.uniform(0.2, 0.9)
            evi = np.random.uniform(0.1, 0.8)
            solar_exposure = np.random.uniform(2, 10)
            precip_index = np.random.uniform(0.5, 1.5)
            drought_index = np.random.uniform(0, 1)

            satellite.append({
                'location_id': loc['location_id'],
                'timestamp': date,
                'ndvi': ndvi,
                'evi': evi,
                'solar_exposure': solar_exposure,
                'precipitation_index': precip_index,
                'drought_index': drought_index
            })
    return pd.DataFrame(satellite)

# Save generated data locally
def save_data(locations, weather, soil, crops, satellite):
    locations.to_parquet(os.path.join(LOCAL_DATA_PATH, 'locations/locations.parquet'))
    weather.to_parquet(os.path.join(LOCAL_DATA_PATH, 'weather/weather.parquet'))
    soil.to_parquet(os.path.join(LOCAL_DATA_PATH, 'soil_sensors/soil.parquet'))
    crops.to_parquet(os.path.join(LOCAL_DATA_PATH, 'crop_data/crops.parquet'))
    satellite.to_parquet(os.path.join(LOCAL_DATA_PATH, 'satellite/satellite.parquet'))

# Main function
def main():
    ensure_directories()
    locations = generate_locations(NUM_LOCATIONS)
    weather = generate_weather_data(locations, START_DATE, END_DATE)
    soil = generate_soil_data(locations, START_DATE, END_DATE)
    crops = generate_crop_data(locations, years=5)
    satellite = generate_satellite_data(locations, START_DATE, END_DATE)
    save_data(locations, weather, soil, crops, satellite)
    print("Data generation complete!")

if __name__ == "__main__":
    main()


## **დავალება 1:** (1.6 ქულა)
- წაიკითხეთ მოცემული parquet ფაილები Pandas DataFrame-ში pd.read_parquet() ფუნქციის გამოყენებით (**1 ქულა**)
- .head() ფუნქციის გამოყენებით დაათვალიერეთ მიღებული DataFrame-ების პირველი რამდენიმე სტრიქონი (**0.6 ქულა**)

**დაასრულეთ კოდი**

In [None]:
import pandas as pd

locations =
weather =
soil =
crops =
satellite =

## **დავალება 2:** (4.8 ქულა)
>მოსავლის პროგნოზირების მოდელის შესაქმნელად საჭიროა მიღებული ცხრილების ლოგიკური გაერთიანება და მათი დაკავშირება საერთო ველების (key) მიხედვით (`location_id`, `timestamp` და `year`).
>საბოლოო DataFrame უნდა შეიცავდეს:
>- **სტატიკურ მახასიათებლებს** `locations` ნაკრებიდან: მაგ., რეგიონი, ნიადაგის ტიპი, განედი, გრძედი, სიმაღლე.
>- **წლიურად აგრეგირებულ დროით მახასიათებლებს**: მაგ., საშუალო ჰაერის ტემპერატურა, ნიადაგის ტენიანობა, NDVI და ა.შ.
>- **მოსავლის სპეციფიკურ მახასიათებლებს**: მაგ., კულტურის ტიპი, დარგვისა და მოსავლის აღების თარიღები, მოსავლიანობა, მორწყვა, სასუქების გამოყენება.


**შეასრულეთ შემდეგი ოპერაციები:**

1. მდებარეობის (`location_id`) მიხედვით დააკავშირეთ შესაბამისი ცხრილები (**1.2 ქულა**):

2. დროითი მონაცემების დააკავშირება (`timestamp`) (**1.2 ქულა**):
   * `timestamp`-ის მეშვეობით გააერთიანეთ **ამინდის**, **ნიადაგის** და **სატელიტური** მონაცემები.
   * უზრუნველყავით `timestamp`-ის ფორმატის თანხვედრა ყველა ცხრილში.

3. მოსავლის მონაცემების დაკავშირება (`year`) (**1.2 ქულა**):
   * **მოსავლის** ცხრილს არ აქვს `timestamp`, მაგრამ შეიცავს `year`-ს. დროით მონაცემებთან დასაკავშირებლად:
      * დროითი მონაცემების `timestamp`-იდან `year`-ი გამოყავით.
      * ცხრილები დააკავშირეთ `location_id`-ისა და `year`-ის მიხედვით.

4. საბოლოო ცხრილის შექმნა (**1.2 ქულა**):
   * ყველა ცხრილი გააერთიანეთ ერთ DataFrame-ში მოდელირებისთვის საჭირო მახასიათებლებით.

**დაასრულეთ კოდი**



In [None]:
import pandas as pd

# დროითი მონაცემების timestamp სვეტის datetime ფორმატში გადაყვანა
weather['timestamp'] =
soil['timestamp'] =
satellite['timestamp'] =

# დროით მონაცემებში 'year' სვეტის დამატება
weather['year'] =
soil['year'] =
satellite['year'] =

# დროითი მონაცემების გაერთიანება (ამინდი, ნიადაგი, სატელიტური) location_id-ისა და timestamp-ის მიხედვით
temporal_data =

# დროითი მონაცემების წლიურ საშუალოებად აგრეგირება
yearly_temporal_data =

# yearly_temporal_data-ს დაკავშირება მოსავლის მონაცემებთან location_id-ისა და year-ის მიხედვით
crop_yearly_data =

# crop_yearly_data-ს დაკავშირება მდებარეობების მონაცემებთან location_id-ის მიხედვით
final_data =

# საბოლოო მონაცემთა სტრუქტურის ჩვენება
final_data.head()