종이책 스캔 – Acrobat으로 OCR 입히기

  • Post Author:
  • Post Category:칼럼
  • Post Comments:0 Comments
  • Post last modified:February 8, 2020

책 스캔하기에서 문자 광학 인식(OCR)을 직접 처리해 종이책 스캔 비용을 절약하면 된다고 했습니다. 이번에는 Acrobat의 OCR 메뉴가 어디 있는지 어떤 옵션이 있는지 간단히 알아봅니다.

우선 메뉴부터 찾아봅시다.

Recognize

지금 열린 문서를 처리할지 다른 여러 문서를 한꺼번에 처리할지 선택합니다. 보통 종이책을 여러 권 보내서 스캔하므로 후자를 선택해봅니다.

한꺼번에

이렇게 책을 여러 권 선택하고 OK 버튼을 누르면 OCR 옵션이 나옵니다.

옵션

한국어 책이므로 언어는 당연히 Korean입니다. 그 다음이 중요한데 알고리즘은 Searchable Image (Exact)를 권장합니다. 경험을 토대로 각 옵션을 비교하자면,

  • Searchable Image
    • Searchable Image (Exact)보다 결과가 덜 정확합니다.
    • 원본의 손상이 없습니다.
  • Searchable Image (Exact)
    • 정확하지만 처리 과정이 느립니다.
    • 원본의 손상이 없습니다.
  • ClearScan
    • 정확하고 빠릅니다.
    • 원본이 손상 당할 위험이 있습니다.

이게 전부입니다. OCR은 시간을 많이 잡아먹기 때문에 5권이 넘으면 자기 전에 작업을 걸어놓는 편이 좋습니다.

Kubernetes, DevSecOps, Golang, 지속적인 통합 등 다양한 주제에 관심이 많다.
follow me
  • 제2의 쿠팡이 나오기 힘든 이유가 있다면… 자금이나 유통망에서 앞설 기업은 꽤 있으나 그만한 소프트웨어 인력풀을 이제와 갖추기에는 유동인력이 부족하다는 점일 것이다. 질적인 측면은 보지 않고 양적 측면만 보더라도
    11 hours ago
  • 사업 좀 키우려고 하면 트래픽 감당 못해 터지고, 보안사고나고, 써드파티에 의존하는 기술력이란 비용소모적이다.
    11 hours ago
  • 오늘도 애널리스트가 넷플릭스의 기술력을 폄하하네. 장벽이 낮고 그 기술력의 동력은 AWS가 제공한다? 컨텐츠나 다른 측면은 몰라도 사업을 뒷받침하는 이 기술력이 상당한 장벽인데(디즈니가 어떤 고생을 했더라)… https://t.co/GYppUuiiGe
    11 hours ago
Buy me a coffeeBuy me a coffee
×
Kubernetes, DevSecOps, Golang, 지속적인 통합 등 다양한 주제에 관심이 많다.
Latest Posts