<a href="https://colab.research.google.com/github/iwmfl0veu/OSS2025/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# prompt: /content/sample_data/california_housing_test.csv 로부터 집값 예측 프로그램을 새성해줘

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 데이터 로드
try:
  df = pd.read_csv('/content/sample_data/california_housing_test.csv')
except FileNotFoundError:
  print("Error: File not found. Please make sure the file path is correct.")
  exit()


# 특성(X)과 타겟 변수(y) 분리
X = df.drop('median_house_value', axis=1)
y = df['median_house_value']

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 선형 회귀 모델 생성 및 훈련
model = LinearRegression()
model.fit(X_train, y_train)

# 테스트 세트에 대한 예측
y_pred = model.predict(X_test)

# 모델 평가 (평균 제곱 오차)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

# 새로운 데이터 입력 받아 예측 (예시)
new_data = pd.DataFrame({
    'longitude': [-122.23],
    'latitude': [37.88],
    'housing_median_age': [41.0],
    'total_rooms': [880.0],
    'total_bedrooms': [129.0],
    'population': [322.0],
    'households': [126.0],
    'median_income': [8.3252],
})


predicted_price = model.predict(new_data)
print(f"Predicted Median House Value: {predicted_price[0]}")


Mean Squared Error: 4586505886.68125
Predicted Median House Value: 413465.52276882343


In [4]:
# prompt: /15088856/v1/uddi:f88e5a0d-52e2-4fdf-badc-dd0eb3127aeb 로부터 전철의 혼잡도가 가장 높을 때를 예측하는 프로그램을 작성해줘

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 제공된 API 엔드포인트(/15088856/v1/uddi:f88e5a0d-52e2-4fdf-badc-dd0eb3127aeb)를 통해 데이터를 가져오는 부분이 필요합니다.
# 이 부분은 실제 API와의 통신을 구현해야 합니다.
# 예시로, CSV 파일을 사용하는 부분을 주석 처리하고, API를 통해 데이터를 가져오는 코드로 대체합니다.

# 데이터를 API에서 가져오는 가상 코드 (실제 API와 연동하도록 수정 필요)
try:
  # 실제 API 호출 부분
  # df = pd.read_json(api_endpoint)  # API endpoint에서 JSON 형식으로 데이터 읽기
  # df = pd.read_csv(api_endpoint) # API endpoint에서 CSV 형식으로 데이터 읽기

  # 테스트를 위한 더미 데이터 (API 통합 전까지 사용)
  data = {'time': [1, 2, 3, 4, 5], 'crowdedness': [10, 20, 30, 25, 40]}
  df = pd.DataFrame(data)
except Exception as e:
  print(f"Error fetching data from API: {e}")
  exit()

# 시간(time)을 독립 변수, 혼잡도(crowdedness)를 종속 변수로 설정
X = df[['time']]
y = df['crowdedness']

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 선형 회귀 모델 생성 및 훈련
model = LinearRegression()
model.fit(X_train, y_train)

# 테스트 세트에 대한 예측
y_pred = model.predict(X_test)

# 모델 평가 (평균 제곱 오차)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

# 혼잡도가 가장 높을 때 예측
# 실제 API에서 시간 정보를 가져오거나 사용자가 시간을 입력하도록 구현해야 합니다.
# 예시로 현재 시간을 기반으로 예측
import datetime
now = datetime.datetime.now()
future_time = now + datetime.timedelta(hours=1) # 1시간 후 예측 (수정 가능)
future_time_numeric = future_time.timestamp() # 시간 값을 숫자로 변환
new_data = pd.DataFrame({'time': [future_time_numeric]})

predicted_crowdedness = model.predict(new_data)

print(f"Predicted Crowdedness at {future_time}: {predicted_crowdedness[0]}")


Mean Squared Error: 4.591836734693875
Predicted Crowdedness at 2025-03-17 07:59:49.616237: 11697617763.280447


In [5]:
# prompt: uddi:f88e5a0d-52e2-4fdf-badc-dd0eb3127aeb_model 로부터 전철의 최대 혼잡 구간을 구하는 프로그램을 작성해줘

import pandas as pd
import requests
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import datetime

# API 엔드포인트 (수정 필요)
api_endpoint = "uddi:f88e5a0d-52e2-4fdf-badc-dd0eb3127aeb_model"  # 실제 API 엔드포인트로 변경해야 합니다.

try:
    # API 호출 (실제 API와 통신하도록 수정 필요)
    # 예시: requests 라이브러리를 사용하여 API 호출
    response = requests.get(api_endpoint)
    response.raise_for_status()  # HTTP 에러 발생 시 예외 발생

    # API 응답 데이터 처리 (JSON 또는 CSV 등)
    # API 응답이 JSON 형식이라고 가정
    data = response.json()
    df = pd.DataFrame(data)

except requests.exceptions.RequestException as e:
    print(f"Error fetching data from API: {e}")
    exit()
except ValueError as e:
    print(f"Error decoding JSON response: {e}")
    exit()
except Exception as e:  # 기타 예외 처리
    print(f"An unexpected error occurred: {e}")
    exit()


# 데이터 전처리 (필요에 따라 추가)
# ...

# 시간(time)을 독립 변수, 혼잡도(crowdedness)를 종속 변수로 설정 (컬럼명 수정 필요)
if 'time' in df.columns and 'crowdedness' in df.columns:
  X = df[['time']]
  y = df['crowdedness']
else:
  print("Error: 'time' or 'crowdedness' column not found in the DataFrame.")
  exit()

# 선형 회귀 모델 생성 및 훈련
model = LinearRegression()
model.fit(X, y)

# 최대 혼잡 구간 예측 (전체 데이터셋에 대한 예측)
df['predicted_crowdedness'] = model.predict(X)

# 최대 혼잡 구간 찾기
max_crowdedness_index = df['predicted_crowdedness'].idxmax()
max_crowdedness_time = df.loc[max_crowdedness_index, 'time']
max_crowdedness_value = df.loc[max_crowdedness_index, 'predicted_crowdedness']

print(f"Predicted maximum crowdedness: {max_crowdedness_value} at time {max_crowdedness_time}")


Error fetching data from API: No connection adapters were found for 'uddi:f88e5a0d-52e2-4fdf-badc-dd0eb3127aeb_model'
Predicted maximum crowdedness: 38.0 at time 5
