# 라이브러리 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import geopandas as gpd
from datetime import datetime
import xgboost as xgb 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_percentage_error
from category_encoders import TargetEncoder
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
import lightgbm as lgb 
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import LinearRegression          
from sklearn.model_selection import cross_val_score

plt.rcParams['font.family'] = 'Malgun Gothic'
pd.options.display.max_rows = None
pd.options.display.max_columns = None

# 데이터 불러오기

In [3]:
df = pd.read_csv("/Users/Jiwon/Documents/GitHub/practical_project/csv/스마트팜_수정데이터.csv", encoding="cp949")

# 데이터 전처리

## 농장아이디 "20261"은 더블링으로 drop

In [4]:
df_drop = df[df["농장아이디"]==20261].index
df.drop(df_drop, inplace=True)

## 불필요한 컬럼 제거 (동일한 행, 동일한 컬럼, null값 컬럼)

In [5]:
df.drop("체세포", axis=1, inplace=True)
df.drop("수집건수", axis=1, inplace=True)
df.drop("측정일시", axis=1, inplace=True)
df.drop("축종코드", axis=1, inplace=True)
df.drop("제조사 아이디", axis=1, inplace=True)
df.drop("수집일자", axis=1, inplace=True)

## 데이터 타입 변환

In [6]:
# 착유시작, 종료일시 datetime으로 전처리

df["착유시작일시"] = pd.to_datetime(df["착유시작일시"], format="%Y-%m-%d %H:%M")
df["착유종료일시"] = pd.to_datetime(df["착유종료일시"], format="%Y-%m-%d %H:%M")

In [7]:
# 혈액흐름 전처리

df["혈액흐름"] = df["혈액흐름"].apply(lambda x : 0 if x == "N" else 1)

# 파생변수 생성

In [8]:
# 착유시간(분) 

df["착유시간"] = df["착유종료일시"] - df["착유시작일시"]
df["착유시간"]  = df["착유시간"].dt.total_seconds() / 60  # 분 단위로 변환

In [9]:
# 개체별 나이 (개체번호 앞 7자리는 생년월일)

df_birth = df['개체번호'].astype(str).str[:8]
df_birthdt = pd.to_datetime(df_birth, format='%Y%m%d', errors='coerce')

def calculate_age(birth_date, current_date):

    # 만 나이 계산 로직
    # 현재 연도 - 출생 연도 - 불리언(생일이 현재 날짜보다 뒤에 있으면 1 빼기)
    age = current_date.year - birth_date.year - ((current_date.month, current_date.day) < (birth_date.month, birth_date.day))
    return age

current_analysis_date = datetime(2021, 10, 1)
df['나이'] = df_birthdt.apply(lambda x: calculate_age(x, current_analysis_date))

In [11]:
df["측정일"]=df["착유시작일시"].dt.day

In [12]:
# 개체별 착유일수

df_count2 = df.groupby("개체번호")["측정일"].nunique().reset_index()
df_count2.rename(columns={"측정일": "개체별 착유일수"}, inplace=True)
df = df.merge(df_count2, on="개체번호", how="left")

In [13]:
# P/F 비율 (유단백/유지방 비율)

df["P/F_ratio"] = df["유단백"]/ df["유지방"]

In [14]:
# 공기흐름 비율 (착유시간에 따른 공기흐름)

df["공기흐름_비율"] = df["공기흐름"] / df["착유시간"]

In [17]:
df['개체별_일별착유횟수'] = (
    df
      .groupby(['개체번호','측정일'])            # 개체번호+측정일별로
      ['착유회차']                             # 아무 칼럼 써도 되는데, 착유회차로
      .transform('count')                     # 등장 횟수를 세어서
)

In [18]:
date_cols = ['착유시작일시', '착유종료일시']
for c in date_cols:
    df[c] = pd.to_datetime(df[c], errors='coerce')  # coerce will turn bad parses into NaT
# now you can safely do:
df['착유시간대']   = df['착유시작일시'].dt.hour

In [19]:
# 착유 시간대 구분
# 1) cut 으로 4구간 나눈 뒤
df['착유시간대'] = pd.cut(
    df['착유시간대'],
    bins=[0,6,12,18,24],
    right=False,
    labels=[1,2,3,4]
)
# 2) category → 정수로 변환
df['착유시간대'] = df['착유시간대'].cat.codes + 1
# (codes가 0~3 이므로 +1 하면 원래 라벨 1~4가 됨)
# 3) 이제 dtype 확인해 보면 int64 로 바뀜
print(df['착유시간대'].dtype)  # int64

int8


In [21]:
df["착유효율"] = df["착유량"] / df["착유시간"]
df["개체별 전도도율"] = df.groupby("개체번호")["전도도"].transform("mean")

In [24]:
# fit/transform 앞에 한 줄 추가
df.columns = [c.strip().replace(" ", "_") for c in df.columns]

In [26]:
df.to_csv("fortab.csv", index=False, encoding='utf-8-sig')