In [37]:
from tabula import read_pdf
import pandas as pd

def read_pdf_table_to_dataframe(pdf_path, page_number):
    # tabula-py can only read tables from a PDF, ensure your PDF contains tables.
    df_list = read_pdf(pdf_path, pages=page_number, multiple_tables=True)



    # read_pdf returns a list of DataFrames, so concatenate them if there are multiple tables.
    df = pd.concat(df_list, ignore_index=True) if df_list else pd.DataFrame()

    return df

# Specify the path to your PDF, and the page number you want to extract the table from.
pdf_path = '젠톡_김지은_2.pdf'  # Change to your PDF file path.
page_number = '8'  # Change to your specific page number.

# Call the function and get the DataFrame.
df = read_pdf_table_to_dataframe(pdf_path, page_number)

# Now you can work with the DataFrame.
print(df.head())


   01             비만  주의 / 28점    16        나트륨 배출  안심 / 93점
0   2           체지방률  보통 / 48점  17.0           요산치  안심 / 87점
1   3          체질량지수  주의 / 30점  18.0     혈청 단백질 농도  보통 / 71점
2   4           제지방량  보통 / 70점  19.0           골질량  보통 / 62점
3   5        사지 제지방량  보통 / 59점  20.0  퇴행성 관절염증 감수성  보통 / 68점
4   6  복부비만(엉덩이허리비율)  주의 / 35점  21.0         배변 빈도  안심 / 61점


In [38]:
df

Unnamed: 0,01,비만,주의 / 28점,16,나트륨 배출,안심 / 93점
0,2,체지방률,보통 / 48점,17.0,요산치,안심 / 87점
1,3,체질량지수,주의 / 30점,18.0,혈청 단백질 농도,보통 / 71점
2,4,제지방량,보통 / 70점,19.0,골질량,보통 / 62점
3,5,사지 제지방량,보통 / 59점,20.0,퇴행성 관절염증 감수성,보통 / 68점
4,6,복부비만(엉덩이허리비율),주의 / 35점,21.0,배변 빈도,안심 / 61점
5,7,체중감량 후 체중회복가능성(요요가능성),높음 / 23점,22.0,멀미,주의 / 34점
6,8,운동에 의한 체중감량효과,낮음 / 24점,,,
7,9,폐활량,보통 / 57점,,,
8,10,중성지방 농도,보통 / 71점,,,
9,11,콜레스테롤,낮음 / 91점,,,


In [39]:
import copy
df2 = copy.deepcopy(df)
df2

Unnamed: 0,01,비만,주의 / 28점,16,나트륨 배출,안심 / 93점
0,2,체지방률,보통 / 48점,17.0,요산치,안심 / 87점
1,3,체질량지수,주의 / 30점,18.0,혈청 단백질 농도,보통 / 71점
2,4,제지방량,보통 / 70점,19.0,골질량,보통 / 62점
3,5,사지 제지방량,보통 / 59점,20.0,퇴행성 관절염증 감수성,보통 / 68점
4,6,복부비만(엉덩이허리비율),주의 / 35점,21.0,배변 빈도,안심 / 61점
5,7,체중감량 후 체중회복가능성(요요가능성),높음 / 23점,22.0,멀미,주의 / 34점
6,8,운동에 의한 체중감량효과,낮음 / 24점,,,
7,9,폐활량,보통 / 57점,,,
8,10,중성지방 농도,보통 / 71점,,,
9,11,콜레스테롤,낮음 / 91점,,,


In [40]:
original_header = df2.columns.tolist()
original_header

['01', '비만', '주의 / 28점', '16', '나트륨 배출', '안심 / 93점']

In [41]:
df2.columns = range(1, len(df2.columns) + 1)
df2.loc[-1] = original_header  # Add a row at the end with the original headers
df2.index = df2.index + 1  # Shift the index
df2.sort_index(inplace=True)  # Sort by index to move the new row to the top

# Display the DataFrame to verify
df2

Unnamed: 0,1,2,3,4,5,6
0,1,비만,주의 / 28점,16.0,나트륨 배출,안심 / 93점
1,2,체지방률,보통 / 48점,17.0,요산치,안심 / 87점
2,3,체질량지수,주의 / 30점,18.0,혈청 단백질 농도,보통 / 71점
3,4,제지방량,보통 / 70점,19.0,골질량,보통 / 62점
4,5,사지 제지방량,보통 / 59점,20.0,퇴행성 관절염증 감수성,보통 / 68점
5,6,복부비만(엉덩이허리비율),주의 / 35점,21.0,배변 빈도,안심 / 61점
6,7,체중감량 후 체중회복가능성(요요가능성),높음 / 23점,22.0,멀미,주의 / 34점
7,8,운동에 의한 체중감량효과,낮음 / 24점,,,
8,9,폐활량,보통 / 57점,,,
9,10,중성지방 농도,보통 / 71점,,,


In [42]:
# 데이터프레임 df의 4, 5, 6열에서 0~15번 인덱스의 데이터를 복사합니다.
data_to_move = df2.iloc[0:16, 3:6].copy()

data_to_move = data_to_move.iloc[:7, :]
data_to_move.columns = ['번호' , '항목명', '나의 결과']
data_to_move


Unnamed: 0,번호,항목명,나의 결과
0,16.0,나트륨 배출,안심 / 93점
1,17.0,요산치,안심 / 87점
2,18.0,혈청 단백질 농도,보통 / 71점
3,19.0,골질량,보통 / 62점
4,20.0,퇴행성 관절염증 감수성,보통 / 68점
5,21.0,배변 빈도,안심 / 61점
6,22.0,멀미,주의 / 34점


In [43]:
data_one_three = copy.deepcopy(df2)
data_one_three = data_one_three.iloc[:15 , :3]
data_one_three.columns = ['번호' , '항목명' , '나의 결과']
data_one_three

Unnamed: 0,번호,항목명,나의 결과
0,1,비만,주의 / 28점
1,2,체지방률,보통 / 48점
2,3,체질량지수,주의 / 30점
3,4,제지방량,보통 / 70점
4,5,사지 제지방량,보통 / 59점
5,6,복부비만(엉덩이허리비율),주의 / 35점
6,7,체중감량 후 체중회복가능성(요요가능성),높음 / 23점
7,8,운동에 의한 체중감량효과,낮음 / 24점
8,9,폐활량,보통 / 57점
9,10,중성지방 농도,보통 / 71점


In [44]:
df_combined = pd.concat([data_one_three , data_to_move] , axis=0, ignore_index=True)
# 데이터프레임의 '번호' 열의 데이터 타입을 int로 변환합니다.
df_combined['번호'] = df_combined['번호'].astype(int)
df_combined

Unnamed: 0,번호,항목명,나의 결과
0,1,비만,주의 / 28점
1,2,체지방률,보통 / 48점
2,3,체질량지수,주의 / 30점
3,4,제지방량,보통 / 70점
4,5,사지 제지방량,보통 / 59점
5,6,복부비만(엉덩이허리비율),주의 / 35점
6,7,체중감량 후 체중회복가능성(요요가능성),높음 / 23점
7,8,운동에 의한 체중감량효과,낮음 / 24점
8,9,폐활량,보통 / 57점
9,10,중성지방 농도,보통 / 71점


In [45]:
filtered_rows = df_combined[df_combined['나의 결과'].str.contains('주의', na=False)]
filtered_rows

Unnamed: 0,번호,항목명,나의 결과
0,1,비만,주의 / 28점
2,3,체질량지수,주의 / 30점
5,6,복부비만(엉덩이허리비율),주의 / 35점
13,14,혈당,주의 / 24점
21,22,멀미,주의 / 34점


In [46]:
filtered_rows['항목명']

0                비만
2             체질량지수
5     복부비만(엉덩이허리비율)
13               혈당
21               멀미
Name: 항목명, dtype: object

In [47]:
# '/'를 기준으로 '나의 결과' 열을 분할하여 새로운 데이터프레임을 생성합니다.
split_df = df_combined['나의 결과'].str.split('/', expand=True)

# 분할된 데이터프레임의 열 이름을 '결과1', '결과2'로 설정합니다.
split_df.columns = ['결과1', '결과2']

# 분할된 데이터를 원래의 df_combined 데이터프레임에 결합합니다.
df_combined = pd.concat([df_combined, split_df], axis=1)
df_combined = df_combined[['번호' , '항목명' , '결과1' , '결과2']]
# 결과 확인
df_combined

Unnamed: 0,번호,항목명,결과1,결과2
0,1,비만,주의,28점
1,2,체지방률,보통,48점
2,3,체질량지수,주의,30점
3,4,제지방량,보통,70점
4,5,사지 제지방량,보통,59점
5,6,복부비만(엉덩이허리비율),주의,35점
6,7,체중감량 후 체중회복가능성(요요가능성),높음,23점
7,8,운동에 의한 체중감량효과,낮음,24점
8,9,폐활량,보통,57점
9,10,중성지방 농도,보통,71점
