Select Page

새 홈에서 이 페이지를 찾으십시오: https://tesseract-ocr.github.io/tessdoc/Downloads 추출된 콘텐츠를 저장할 때 작업을 시작하기 전에 설정한 이름으로 텍스트(TXT) 파일을 생성합니다. 사용되지 않는 Tesseract 버전에 대한 교육 데이터 =< 3.02는 다른 위치에 있습니다. 이 가이드는 OCR이 무엇인지, OCR이 어떻게 사용되는지, 소프트웨어 옵션 및 모범 사례에 대한 기본 개념을 설명하는 OCR에 대한 소개역할을 합니다. 이 가이드는 ABBYY 파인 리더에 대한 자세한 지침을 제공합니다, 어도비 아크로뱃 프로, 테세랙트, 세 가지 인기있는 OCR 소프트웨어 옵션. 이 가이드를 읽은 후 질문이 있거나 OCR 소프트웨어 사용에 대한 몇 가지 지침을 원하시면 학술 공용에 문의하십시오. 130개 이상의 언어와 35개 이상의 스크립트에 대한 패키지도 Linux 배포판에서 직접 사용할 수 있습니다. 언어 패키지는 `tesseract-ocr-langcode`와 `tesseract-ocr-script-scriptcode`라고 하며 랭코드는 세 문자 언어 코드이고 스크립트 코드는 4개의 문자 스크립트 코드입니다. 이전 위키 – 더 이상 유지되지 않습니다. 페이지가 이동된 경우 새 설명서를 참조하십시오.

Tesseract를 배포에 사용할 수 없거나 제공하는 버전보다 최신 버전을 사용하려는 경우 직접 컴파일할 수 있습니다. 따라서 `myscan.png`라는 이미지에서 OCR을 하고 결과를 `out.txt`로 저장하는 기본 사용법은 Tesseract가 더 이국적인 플랫폼에서도 작동할 수 있습니다. 직접 컴파일하거나 Tesseract를 사용하여 다른 프로젝트 목록을 살펴볼 수 있습니다. OCR은 다양한 응용 분야에 사용할 수 있습니다. 학술 적 환경에서는 텍스트 및 / 또는 데이터 마이닝 프로젝트뿐만 아니라 텍스트 비교에 종종 유용합니다. OCR은 시각 장애인을 위해 접근 가능한 문서, 특히 PDF를 만드는 중요한 도구이기도 합니다. 다양한 옵션에 대한 자세한 내용은 Tesseract 맨페이지에서 확인할 수 있습니다. 출시 된 버전 <= 3.02 테세랙트-ocr의 일부입니다 Cygwin 교육 데이터의 다양한 유형은 GitHub에서 찾을 수 있습니다.

.traineddata 파일을 `tessdata` 디렉토리에 압축해제하고 복사합니다. 정확한 디렉터리 학습 데이터의 유형과 Linux 배포판에 따라 달라집니다. 가능성은 /usr/share/tesseract-ocr/tessdata 또는 /usr/share/tessdata 또는 /usr/share/tesseract-ocr/4.00/tessdata입니다. 텍스트를 그래픽으로 변환하는 것은 그리 어렵지 않지만 이미지 파일에서 단어를 추출하는 것은 매우 번거로울 수 있습니다. 이러한 종류의 작업에는 특수 한 유형의 장비, 더 정확 하 게 광학 문자 인식 (OCR) 유틸리티가 필요 합니다. 교육 디렉토리는 양조 목록 tesseract 가능한 위치 가 될 수 있습니다 /usr/local/Cellar/tesseract/3.05.02/공유/tessdata/모든 위치에서 tesseract-OCR에 액세스 하려면 tesseract-OCR 바이너리가 경로 변수에 있는 디렉토리를 추가 해야 할 수 있습니다., 아마 C:프로그램 파일Tesseract-OCR. 예를 들어 독일어 로 Tesseract를 설치하는 데이터: GitHub의 모든 프로젝트에는 버전이 제어되는 위키가 함께 제공되어 문서에 높은 수준의 주의를 기울여야 합니다.