Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý. Đặc biệt chương trình hoàn toàn miễn phí.
Dung lượng: 4,2MB. Tải tại: http://websitetinhoc.com/ (miễn phí).
So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.
VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…
VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.
Thao tác xử lý văn bản được chia thành các loại:
1. Nhận dạng tài liệu ảnh:
Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.
Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu gói này chưa được cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.
Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.
Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.
Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.
Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:\Program Files\VietUnicode\VietOCR.NET\samples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF
Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.
2. Cài đặt máy quét:
Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll (C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục C:\Windows\System32.
Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:\Windows\System32\WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.
Lưu ý:
- Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong. - Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.
Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.
Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.
3. Xử lý tài liệu PDF:
Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).
Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều. Số lượt đọc:
525
-
Cập nhật lần cuối:
29/01/2010 01:51:40 PM
Ý kiến của bạn:(Hãy gõ tiếng Việt có dấu bằng chế độ gõ tiếng Việt dưới đây (hoặc trình tiếng Việt Unikey, Vietkey của máy bạn) để ý kiến của bạn sớm được đăng ) |  |
Bài khác: Khôi phục dữ liệu bị xóa nhầm với Undelete Plus13/02/2009 03:39' PM Dữ liệu bị xóa ngoài ý muốn là việc thường gặp, và làm sao để khôi phục lại những dữ liệu đó là một vấn đề nhiều người quan tâm. Nếu bạn rơi vào trường hợp “không may” này, Undelete Plus có thể là một “niềm hy vọng” mới cho bạn. Đã có Firefox 3 hoàn chỉnh!22/05/2008 11:23' AM Sau một thời gian dài thử nghiệm, phiên bản tiền chính thức đầu tiên
của FireFox 3 đã sẵn sàng cho download trên trang chủ Mozilla. Kết nối các file nhạc MP3 thật dễ dàng với MakeItOne11/02/2008 12:58' AM Định dạng âm thanh MP3 rất quen thuộc với mọi người. Nếu có nhiều file nhạc MP3 riêng lẻ, muốn nối kết chúng lại với nhau thành một file duy nhất hãy nhờ sự trợ giúp của MakeItOne. MakeItOne giúp nối nhiều file MP3 thành 1 file duy nhất cũng là định dạng MP3 vì vậy có thể chơi được với các phần mềm hỗ trợ định dạng này. Cho phép biên tập, chỉnh sửa các tag ghi lý lịch file mới. Hỗ trợ phương pháp kéo thả nên rất thuận tiện trong thao tác. Vertu kiệt tác dành cho VIP31/05/2007 09:16' AM Không ồn ã cũng chẳng khoa trương, song cái tên Vertu đã dần len lỏi vào những câu chuyện "trà dư tửu hậu” của giới thượng lưu như một trong những món trang sức sành điệu và đẳng cấp nhất. Họ đã không ngần ngại rút hầu bao để được sở hữu "chú dế quý tộc" mang tên Vertu với thêm tự hào không cần giấu giếm. Tư duy rõ ràng với phần mềm Mindjet20/05/2007 08:52' PM Mindjet MindManager Pro là sản phẩm số lấy ý tưởng từ sơ đồ tư duy MindMap nổi tiếng. Luyện tập với chương trình này, người sử dụng sẽ hình thành cách ghi chép và suy nghĩ tổng thể cũng như chi tiết... Easy Wifi Radar - Tự động tìm và kết nối mạng không dây15/04/2007 02:45' PM Mạng không dây là một trong những phương thức kết nối hữu hiệu và phổ biến ở các khu vực công cộng có đông người như thư viện, trường học, sân bay, khách sạn, quán cafe... Tuy nhiên đối với đa số người sử dụng máy tính, việc thiết lập thông số cấu hình máy tính như SSID, IP, DNS… cho các mạng không dây ở các khu vực khác nhau là tương đối phức tạp và khó khăn. Công việc này sẽ trở nên đơn giản hơn với phần mềm tự động dò tìm và xác lập thông số để kết nối mạng không dây Easy Wifi Radar v1.0.3 Biến Google Desktop Search thành... LAN Search20/02/2007 05:52' PM Hiện nay, hễ nói đến dịch vụ tìm kiếm (search engine) là người ta nghĩ đến Google. Không những là là “bá chủ” trong lĩnh vực tìm kiếm online (trên mạng Internet), Google còn đưa sức mạnh tìm kiếm vào môi trường offline - Google Desktop |