<a href="https://colab.research.google.com/github/guscldns/TestProject/blob/main/0814/easyocr.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import easyocr
import pytesseract
import cv2
import numpy as np
from pdf2image import convert_from_path


class Octet:
    def __init__(self, file_path):
        self.file_path = file_path
        self.ocr_text = None
        self.reader = easyocr.Reader(['ko'])

    def extract_with_easyocr(self):
        images = convert_from_path(self.file_path)

        self.ocr_text = []  # 여러 장 추출할 때 사용

        for page_num, img in enumerate(images):
            # pdf를 image 형태로 변경
            img_cv = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGR)
            # gray로 변경하겠습니다
            img_gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)
            # EasyOCR
            ocr_contents = self.reader.readtext(img_gray)
            # 결과값 저장
            page_text = [result[1] for result in ocr_contents]
            self.ocr_text.extend(page_text)

        self.ocr_text = '\n'.join(self.ocr_text)

        return self.ocr_text

    def extract_with_tesseract(self):
        pytesseract.pytesseract.tesseract_cmd = "tesseract.exe 경로"

        images = convert_from_path(self.file_path)
        self.ocr_text = []

        for page_num, img in enumerate(images):
            img_cv = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGR)
            img_gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)
            ocr_text_page = pytesseract.image_to_string(img_gray, lang='kor')
            self.ocr_text.append(ocr_text_page)

        self.ocr_text = '\n'.join(self.ocr_text)

        return self.ocr_text


file_path = "sample.pdf"

octet = Octet(file_path)
easy_result = octet.extract_with_easyocr()
tesseract_result = octet.extract_with_tesseract()

print("EasyOCR:")
print(easy_result)
print()

print("Tesseract:")
print(tesseract_result)

In [1]:
!pip install easyocr

Collecting easyocr
  Downloading easyocr-1.7.0-py3-none-any.whl (2.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.9/2.9 MB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
Collecting python-bidi (from easyocr)
  Downloading python_bidi-0.4.2-py2.py3-none-any.whl (30 kB)
Collecting pyclipper (from easyocr)
  Downloading pyclipper-1.3.0.post4-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (813 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m813.9/813.9 kB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting ninja (from easyocr)
  Downloading ninja-1.11.1-py2.py3-none-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (145 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m146.0/146.0 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pyclipper, ninja, python-bidi, easyocr
Successfully installed easyocr-1.7.0 ninja-1.11.1 pyclipper-1.3.0.post4 python-bidi-0.4.2


In [2]:
import easyocr
import cv2
import os
text_file = []
file_list = os.listdir('/content')[1:-1]
for i in file_list:
    file = f"/content/{i}"
    reader = easyocr.Reader(['ko', 'en'], gpu=False)
    img = cv2.imread(file)
    text = reader.readtext(img, detail=0)
    text_file.append(text)
    print(text)



Progress: |██████████████████████████████████████████████████| 100.0% Complete



Progress: |██████████████████████████████████████████████████| 100.1% Complete



['부록', '234쪽 영화 <모던타임즈) (쥐엇나인필름', '241쪽   (상좌)월가 시위 위키피디아', '(상위미국 경제 위기 카뭄 한경닷점', '(하좌 한국 금움 위기 조선일보', '(하위실업자 사진 프레시안', '242쪽 (좌)무료 급식울 기다리는 여인 도로디어 행', '(우직업올 구하는 사람들, 유종선(t988), (미국사 100장면) , 가람기획', '253쪽', '조지 G. 킬번 <The Duel), Www the', 'alhenaeumn orglart', '256쪽', '선사 시대 상상도 전곡리 유적', '258쪽   영화 (엘 시스테마) , 영화사 진진', '259쪽 구스타보 두다델과 엘 시스테마 WWW.rnixanitouxronougr', '260쪽 고양이 이중창 수잔 허버트', 'WWW wallcoonellpaintlHerbert_Susan', '261쪽', '아기 모습_', 'best-wallpapernet', '2644쪽  아풀론과 무사이 오비디우스(t998) , (변신이야기 1) 민음사', '270쪽 (좌)아물론 위키피디아', '(우사티로스 위키피디아', '273쪽   영화 <사운드 오브 유직) , 20세기 폭스', '274쪽  구이도 다레초 약보', 'choirlycorn', '275쪽  구이도의 손', 'WW Classicallorurns corn', '276쪽   그레고리오 성가 악보', 'procorbiscorn', '279쪽   영화 <로미오와 줄리옛> , 파라마운트 픽처스', '285쪽   미킬란질로 <다비드) , 모니카 지라르다(2008), (미킬콤질로) , 마로니에북스', '286쪽 미결관질로 <피에타>, 모니카 지라르다(2008), (미결콤질로) 마로니에북스', '287쪽   미킬란질로 <반항하는 노예) , 모니카 지라르다(2008), (미킬콤질로) , 마로니에북스', '292쪽   미킬관질로 (수염난 노예>, 모니카 지라르다(2008), (미킬관질로) , 마로니에북스', '293쪽   미킬콤질로 <노예 아틀라스) , 



['집필진', '정장위서울대학교)*', 'I단원', '박영해서움대학교 인성교육연구센터)', 'I단원', '손경원서울대학교 인성교육연구센터)', 'I단원', '김하연서울대학교)', 'I단원', '이지연하기중학교)', '포단원', '고은수 진관고등학교)', 'I단원', '유정현드림라이프)', 'I단원', '이명희 (연수여자고등학교)', 'T단원', '이유미이움액츠)', 'Y단원', '조수형보성여자고등학교)', 'V단원', '표시는 집필진 책임지임', '인천광역시교육청인정도서심의회 심의위원', '정재만인전세원고등학교)*', '배수애인전상정고등학교)', '한경애인전디자인고등학교)', '주홍성인전공항고등학교)', '조재현인전예일고등학교)', '엄은숙부평여자고등학교)', '*표시는 인정도서심의회 심의위원장임', '개발진 |', '개발 종관', '정장아', '개발 편집', '김용균 이현자 이원일 박현정 진현위 박경화 전승원', '디자인 | (주미래엔 디자인팀', 'Blacktinger', '신화', '니나림 민휴인', '인천광역시고육청에서 2018년 12월 31일 인정 승인물 하영음', '고등학교', '인문학적 상상 여행', '초판 발행', '2019 3 1', '정기', '지은 이', '정창우 외 9인', '발 행 인', '(주기래엔서물특별시 서초구 신반모로 321)', '인 쇄 인   (주미래엔서물특별시 서초구 신반모로 321)', '이 교과서의 본문 용지논 우수 재활용 제품 인종울 받은 재활용 용지틀 사용햇습니다', '교과서어 대한 문의 사랑이다 의견이 있으신 분은 교육부와 한국교과서연구재단이 운영하는 교과서민원바로처리센터', '(전화: 1566-8572 입사이트: http:lAwwwtextbookt14.com 또는 http:llwww 교과서7 14.comjol 문의하여 주', '시기 바람니다', '이도서에 거재된 저직물에 대한 보상금은 문화체육관광부 장관이 정하는 기준어 따라 시단법인 한국복제전승저작권협회', '(O2', '2603', "2800 http'lwww 



['부록', '신영복(2004), (강의) , 돌네개', '신정근2002) (동양 철학의 유록) , 이학사', '엄정식(t990), (철학으로 가능 길) , 동서문화 출판부', '우간린 저, 임대근 역2014), (어떻게 원하는 삶율 살 것인가) , 위즈템하우스', '이강서2006) (서양 철학 이야기) , 책세상', '이기동 외2013), (인문학 명강) , 2세기북스', '장자 저; 조수형 역(2005) , (장자) , 풀빛', '정창우 외2014), (질문하는 십대 대답하는 인문학), 풀빛', '줄리언 바지니 외 저; 박근재 역12014) , (최고가 아니면 다 실패한 삶일까) , 아날로그', '단런통 저; 이은미 역12006) (공자 사람울 말하다) , 에버리치 홀딩스', '항광우(2006), (철학 큰서트), 응진 지식하우스', '김수행(2010) (청소년올 위한 자본론) , 두리미디어', '김승육 김재의 조용래 유원근 2005), (시장인가? 정부인가?) ,', '부기', '로버트 하일프로너 저 장상환 역(2008), (세속의 철학자들) , 이마고', '마티아스 반스방거 저 김해생 역(2012), (죽은 경제학자의 망할 아이디어), 비즈니스맵', '박종현(2006) , (켜인스와 하이에크: 시장 경제름 위한 진실 게임) , 지식인마을', '아담 스미스 저 김수행 역12009), (국부론), 비봉', '아담스미스 저 박세일 민경국 역(2012), (도덕 감정론} , 비봉', '장하준(2011); (그들이 말하지 안는 23가지) , 부키', '중웨이웨이 저 남형택 역(2014), (살아 있는 경제학 이야기) , 글담', '토드 부크홀츠 저, 류현 역(2014), (죽은 경제학자의 살아 있는 아이디어) , 김영사', '풀 스트레템 저 김낙년', '역12002), (세계름 움직인 경제학자들의 삶과 사상) , 몸과마음', '한성안(20t2) (불로그 경제학: 진화 경제학) , 팩럽북스', 'EBS 자본주의 제작팀(2013), (자본주의: 금웅 소비 돈에 관한



['제g장', '미지의 세계로 떠난', '조선인들', '본 수업은 부록의 동영상 수업 보조 자료틀', '이용하시기 바람니다.', '324', 'V . 예술']




['부록', '323쪽 엘리자베스 키스 <과부) , 엘리자베스 키스 엘스럽 로버트손 스로(2006), (영국 화가 엘리자베', '스 키스의 코리야 1920~1940), 책과함께', '325쪽 살바도르 달리 <신인류의 탄생울 지켜보는 아이; , 풀로리다 살바도르 달리 미술관wWW.', 'salvadordalirnuseurn org)', '326쪽   세계 지도 이승원 2009) (세계로 떠난 조선의 지식인들) , 휴머니스트', '328쪽  김염 박규원2003), (상하이 울드 데이스) , 민음사', '329쪽   김염 출연 영화 장면 박규원2003)  (상하이 올드 데이스) , 민음사', '332쪽', '김염 브로마이드 박규원(2003), (상하이 올드 데이스), 민음사', '335쪽 하트 성운; wigginsfinearts com', '336쪽   최승희 어린 시절 정수용(2004), (#국름), 눈빛', '337쪽   1930년대 초의 최승희 정수용(2004) , (다#춤), 눈빛', '338쪽   최승희 정병호(1995), (춤추는 최승희 세계름 뛰어잡은 조선 여자} , 뿌리깊은 나무', '340쪽 (상) (무예도보통지) , 박청정(2007), (무예도보통지주해} , 동문선', '(하승무> 정수-(2004) (뿐국름), 눈빛', '342쪽 <보살춤; , 최승희조선민주무용기본보존회', '345쪽 (석울암의 벽조 , 프레시안', '사용 이미지 출처', '351']




['미지의 세계로', '향하는 문이 열리다', '서구 문물과의 조우', "100여 년 전 많은 외국인이 '코리아' 틀 여행하고 기행문올 남겨습니다 외", '국인들이 남긴 기록물들은 타자의 시선으로 우리릎 볼 수 있는 소중한 자료', '입니다:', '0r ', "R < T' C", '0 ( A 사', '@어보다비 더니', 'LuranT', '신스 _ 리다', "기터_' 나사나 스린_", '스크-모"키나 그 나보이까 수 4', '엄하구파려 수청서 > 현명간기스구구 리리그 ,', '나혜석당 분소터', '어티-_라대씨_ 나가기거+" 연여리 +머 3배 그T씨 +; 새', '서머> 여다기 _사보 가비', 'aAESSSJMm', '구소 그까 소1 7', '말크 + "리디보 소\'', '(189591948) 일제', '기+무: 그 계덕 U   궁기', 'TI E', 'w 0 RL D', 'CGLDHAAL PusSEESIDH:', '~거HL라UIAL HIIHWE:!', '강점기화 대한민국의', "'녀; 가까 수 ; 7기씨 +", '부신다리스건그시다고 +워 기터 - 가나 > 보스리 +회씨씨구', 'KL h _L', '화기이자 작가 시인', "미버e' -,년+ 과기 -녀 #{구니터하드 _ 위기벼 +둑   무릎+주여스 {화- 셋+모회+궁*-", '"R -니주싸, 4녀{ "', '조각가 여성 운동가', '사회', '운동가', '언론인이다', '이승원 수 , <나혜석', '유킬준', '민영환 이 세계틀 여행한 귀적>', '유출준위송움,', '(iG5G3i914) 조선', '옮기의문신이자 외교관', '그리고 농일한 시기, 근대 문명의 심장과 같은 증기 기관의 발명으로 증기', '작가이머 대한 제국의', '정치가 개화 사상가 계용', "기관차 증기선 등올 통해 수많은 조선의 신지식인들은 자신이 살아뒷당 '경", '운동가', "계' 밖으로 떠나서 새로운 문물올 대면할 수 있있습니다. 증기 기관을 이용한", '24. 민영환]BKX', '(IGGI39D5) 조선과', '교통수단올 비롯하여 서구



['감성', '열기', '<신인류의 탄생올', '지켜보는 아이>', '살바도르 달리', '1, {신인류의 탄생올 지켜보는 아이>(1943)', '"새는 알을 깨고 나오다 알은 곧 세계다:', '태어나려고 하는 자난 하나의 세계름 파괴하지 않으면 안 된다"', '헤로만 헤세 (데미안) 중 -', '위 그림에는 몸부림치다 알 속에서 깨어나러고 하는 한 사람의 기괴한 모습', '이 초현실적으로 묘사되어 있습니다. 조개지기 시작한 알의 껍데기 사이로 붉', '은 피가 흘러나오고 이것올 한 남자와 어린아이가 긴장한 듯 지켜보고 있습니', '다 저 알울 완전히 깨부수고 나온 신인류가 잠시 후 발견하게 덜 신세계는 어', '딴 모습일까요?', '생각 포인트', '그림 속 아이느 어떤 일이 벌어질 것이라고 상상하고 있으까요?', '제g장 미지의 세계로 떠난 조선인들', '325']
['이늘은 신문물올 접하고 서구의 문명국가을 어떻게 보고 듣고 체험햇든지', '그들의 시각에서 기행문으로 남기기도 햇습니다. 유길준은 조선인 최초로 미', '2 유진준이가본 곳을', '국에 유학하고 귀국길에 세계 여행올 한 경험올 바탕으로 <서유견문  #RRP >이', '포함하여 가보지입은', '국에 대한 이야기도 함께', '라는 책올 남격논데 이 책은 단순한 어행지의 감상을 넘어 서양의 각종 제도와', '기록되어 있으머 여러', '사상을 깊이 엇게 서술한 전문 서적으로 평가받고 있습니다: 이렇듯 오랜 시', '서적물 참고하여', '저슬되없다 또는 그', '간에 걸처 서구 문물의 발전상올 자세히 관찰할 수 있,년 조선의 지식인들은', '내용은 세계 지리', '국제법 인권 정치 경제', '단순히 그 모습에 놀리움올 술회하는 것에 그치지 않있습니다 당시 위기에 빠', '교욕', '군사 학문 등', '문물제도 전반에 걸저', '저 있는 조선올 어려움에서 구하기 위한 방법올 고민햇년 것입니다:', '있다', '물론 모든 조선의 지식인들이 이토록 진취적으로 조선의 나아갈 길을 모색', 'TI936년 빌표람

In [8]:
test = sum(text_file,[])
test

['부록',
 '234쪽 영화 <모던타임즈) (쥐엇나인필름',
 '241쪽   (상좌)월가 시위 위키피디아',
 '(상위미국 경제 위기 카뭄 한경닷점',
 '(하좌 한국 금움 위기 조선일보',
 '(하위실업자 사진 프레시안',
 '242쪽 (좌)무료 급식울 기다리는 여인 도로디어 행',
 '(우직업올 구하는 사람들, 유종선(t988), (미국사 100장면) , 가람기획',
 '253쪽',
 '조지 G. 킬번 <The Duel), Www the',
 'alhenaeumn orglart',
 '256쪽',
 '선사 시대 상상도 전곡리 유적',
 '258쪽   영화 (엘 시스테마) , 영화사 진진',
 '259쪽 구스타보 두다델과 엘 시스테마 WWW.rnixanitouxronougr',
 '260쪽 고양이 이중창 수잔 허버트',
 'WWW wallcoonellpaintlHerbert_Susan',
 '261쪽',
 '아기 모습_',
 'best-wallpapernet',
 '2644쪽  아풀론과 무사이 오비디우스(t998) , (변신이야기 1) 민음사',
 '270쪽 (좌)아물론 위키피디아',
 '(우사티로스 위키피디아',
 '273쪽   영화 <사운드 오브 유직) , 20세기 폭스',
 '274쪽  구이도 다레초 약보',
 'choirlycorn',
 '275쪽  구이도의 손',
 'WW Classicallorurns corn',
 '276쪽   그레고리오 성가 악보',
 'procorbiscorn',
 '279쪽   영화 <로미오와 줄리옛> , 파라마운트 픽처스',
 '285쪽   미킬란질로 <다비드) , 모니카 지라르다(2008), (미킬콤질로) , 마로니에북스',
 '286쪽 미결관질로 <피에타>, 모니카 지라르다(2008), (미결콤질로) 마로니에북스',
 '287쪽   미킬란질로 <반항하는 노예) , 모니카 지라르다(2008), (미킬콤질로) , 마로니에북스',
 '292쪽   미킬관질로 (수염난 노예>, 모니카 지라르다(2008), (미킬관질로) , 마

In [11]:
with open('/content/test.txt', 'w') as f:
    for i in text_file:
        for j in i:
            f.write(f'{j}\n')
    f.close()

In [13]:
%cat test.txt

부록
234쪽 영화 <모던타임즈) (쥐엇나인필름
241쪽   (상좌)월가 시위 위키피디아
(상위미국 경제 위기 카뭄 한경닷점
(하좌 한국 금움 위기 조선일보
(하위실업자 사진 프레시안
242쪽 (좌)무료 급식울 기다리는 여인 도로디어 행
(우직업올 구하는 사람들, 유종선(t988), (미국사 100장면) , 가람기획
253쪽
조지 G. 킬번 <The Duel), Www the
alhenaeumn orglart
256쪽
선사 시대 상상도 전곡리 유적
258쪽   영화 (엘 시스테마) , 영화사 진진
259쪽 구스타보 두다델과 엘 시스테마 WWW.rnixanitouxronougr
260쪽 고양이 이중창 수잔 허버트
WWW wallcoonellpaintlHerbert_Susan
261쪽
아기 모습_
best-wallpapernet
2644쪽  아풀론과 무사이 오비디우스(t998) , (변신이야기 1) 민음사
270쪽 (좌)아물론 위키피디아
(우사티로스 위키피디아
273쪽   영화 <사운드 오브 유직) , 20세기 폭스
274쪽  구이도 다레초 약보
choirlycorn
275쪽  구이도의 손
WW Classicallorurns corn
276쪽   그레고리오 성가 악보
procorbiscorn
279쪽   영화 <로미오와 줄리옛> , 파라마운트 픽처스
285쪽   미킬란질로 <다비드) , 모니카 지라르다(2008), (미킬콤질로) , 마로니에북스
286쪽 미결관질로 <피에타>, 모니카 지라르다(2008), (미결콤질로) 마로니에북스
287쪽   미킬란질로 <반항하는 노예) , 모니카 지라르다(2008), (미킬콤질로) , 마로니에북스
292쪽   미킬관질로 (수염난 노예>, 모니카 지라르다(2008), (미킬관질로) , 마로니에북스
293쪽   미킬콤질로 <노예 아틀라스) , 모니카 지라르다(2008), (미킬란질로) , 마로니에북스
295쪽 안 베로메로 <진주 귀걸이틀 한
마우리즈하이스 미술관mauritshuis nl)
296쪽 (좌구스타프 클림트 <키스) 벌베데