Optical character recognition (การรู้จำอักขระด้วยแสง)
Optical character recognition (การรู้จำอักขระด้วยแสง)
หมายถึงการเปลี่ยนข้อมูลจากภาพให้เป็นข้อมูลตัวอักษรทางการพิมพ์หรือข้อความที่เป็นการเข้ารหัส
(machine-encoded) มันถูกนำมาใช้อย่างกว้างขวางในรูปแบบของการนำเข้าข้อมูลด้วยสิ่งตีพิมพ์หรือสมุดจดบันทึก
เอกสารพาสปอร์ต ใบสั่งสินค้า สมุดบัญชีธนาคาร นามบัตร จดหมาย
สิ่งตีพิมพ์ข้อมูลทางสถิติหรือเอกสารใดๆก็ตาม
มันเป็นวิธีการที่ใช้การแปลงข้อความจากสิ่งตีพิมพ์ให้เป็นข้อมูลทางดิจิตอล
ดังนั้นมันจึงสามารถเรียบเรียง สืบค้น จัดเก็บด้วยขนาดความจุข้อมูลที่กะทัดรัดกว่าเดิม
สามารถเอาไปนำเสนอบนหน้าเว็บได้ รวมไปถึงการนำไปประมวลผลด้วยอุปกรณ์อื่นๆเช่น
การเปลี่ยนข้อความให้เป็นเสียงพูด
การระบุข้อความสำคัญและการค้นหาความรู้ในฐานข้อมูลเอกสารได้ การรับรู้ข้อมูลตัวอักษรผ่านแสงเป็นการค้นคว้าวิจัยการระลึกจดจำถึงรูปแบบ
ทฤษฎีที่เกี่ยวข้องกับปัญญาประดิษฐ์และมุมมองของวิทยาการคอมพิวเตอร์
ในยุคเริ่มต้นสมัยแรกจำเป็นต้องฝึกให้รู้จักภาพของตัวอักษรแต่ละตัวเสียก่อน
และทำงานกับรูปแบบของตัวอักษรชนิดใดชนิดหนึ่งเท่านั้น
สำหรับในระบบที่มีความก้าวหน้ามากยิ่งขึ้นย่อมจะมีความแม่นยำสำหรับรูปแบบตัวอักษรใดๆก็ได้
ในบางระบบมีความสามารถสร้างรูปแบบหยาบๆออกมาอย่างใกล้เคียงกับหน้าที่เป็นต้นฉบับ
รวมไปถึงภาพถ่าย การจัดวางรูปแบบ
ย่อหน้ารวมไปถึงส่วนประกอบอื่นๆที่ไม่ได้เป็นข้อความตัวอักษร
ประวัติความเป็นมา
การจดจำรับรู้ตัวอักษรสมัยแรกเริ่มเป็นเทคโนโลยีที่เกี่ยวข้องกับระบบโทรเลขและอุปกรณ์การอ่านสำหรับผู้พิการทางสายตา
ในปี ค.ศ. 1914 Emanuel Goldberg ได้พัฒนาเครื่องมือที่สามารถอ่านอักขระและเปลี่ยนให้เป็นรหัสโทรเลขได้
ในขณะเดียวกัน Edmund Founier d`Albe ได้พัฒนา Optophone อันเป็นเครื่องมือที่พกพาได้และเมื่อนำไปเคลื่อนที่ผ่านสิ่งตีพิมพ์บนหน้ากระดาษก็จะกำเนิดเสียงตามตัวอักษรที่กำหนดได้ออกมา
ในช่วงท้ายของปี
ค.ศ. 1920 จนกระทั่งถึงปี ค.ศ. 1930
Emanuel Goldberg ได้พัฒนาสิ่งที่เค้าเรียกว่า “เครื่องกลทางสถิติ”
ขึ้นมา สำหรับใช้ค้นหาเอกสารไมโครฟิลม์ด้วยการระบบการจดจำรหัสทางแสง แล้วจดทะเบียนสิ่งประดิษฐ์นั้นไว้เป็นลิขสิทธิ์ของบริษัท
IBM
สิ่งที่มองไม่เห็นกับสิ่งที่มองเห็นได้มีผลต่อผู้ใช้ต่างกัน
ในปี ค.ศ. 1974 Ray Kurzweil ได้ก่อตั้งบริษัทขึ้นเพื่อพัฒนาระบบการระลึกตัวอักขระบนสิ่งตีพิมพ์ที่มีรูปแบบตัวอักษรแตกต่างกัน
แต่ทว่าเป็นการนำไปใช้งานภายในบริษัทเท่านั้น
ต่อมาเค้าได้ตัดสินใจว่าการนำเทคโนโลยีนี้ไปใช้งานให้ดีที่สุดคือการสร้างเครื่องมืออ่านเอกสารให้ผู้พิการทางสายตา
ซึ่งจำเป็นต้องมีเครื่องคอมพิวเตอร์ที่สามารถอ่านข้อความให้เป็นเสียงออกมาได้
โดยที่อุปกรณ์เหล่านี้จำเป็นต้องมีสิ่งประดิษฐ์ที่เป็นเทคโนโลยีใหม่สองประการคือ
เครื่องสะแกนข้อความและเครื่องกำเนิดเสียงพูดจากข้อความประกอบกัน
โดยประสบความสำเร็จในปี ค.ศ. 1976 ภายหลังจากนั้นอีกสองปีบริษัทของเขาได้เริ่มต้นออกจำหน่ายทางการค้า ต่อมาอีกสองปี Ray Kurzweil ได้ขายกิจการให้กับบริษัท Xerox
ซึ่งมีความสนใจในอนาคตทางธุรกิจของการแปลงข้อความจากกระดาษไปสู่ข้อมูลคอมพิวเตอร์ และได้พัฒนาต่อยอดจนกระทั่งสามารถผลิตอุปกรณ์พิมพ์ตัวอักษรเพื่อผู้พิการทางสายตา
และระบบที่สามารถอ่านจดจำอักขระใดๆ แล้วเปลี่ยนให้เป็นสิ่งตีพิมพ์ตัวอักษรเบรลเพื่อผู้พิการทางสายตาได้
ในปี
ค.ศ. 2000 Optical character recognition สามารถให้บริการออนไลน์ผ่านเว็บได้ รวมไปถึงในสภาพแวดล้อมของระบบ cloud computing , mobile application รวมไปถึงการให้บริการด้วยตัวอักษรภาษาต่างประเทศ เช่น Latin , Arabic , Hebrew , Indic , Bengali , Tamil ,
Chinese , Japanese , Korean
การนำไปใช้งาน
ระบบของการตรวจจับรับรู้ข้อความตัวอักษรได้รับการพัฒนาไปใช้งานได้หลากหลายรูปแบบ
เช่น ใบเสร็จรับเงิน ใบสั่งสินค้า เอกสารสั่งจ่ายสินค้า ดังตัวอย่างต่อไปนี้
-
การนำข้อมูลเข้าสำหรับเอกสารทางธุรกิจ
เช่น คำสั่งจ่ายเช็ค ใบผ่านแดน ใบสั่งซื้อสินค้า
สมุดบัญชีเงินฝากและสถานะทางการเงิน
-
การระลึกจดจำแผ่นทะเบียนโดยอัตโนมัติ
-
การตรวจสอบข้อมูลเอกสารประกันภัยโดยอัตโนมัติ
-
การตรวจสอบข้อมูลจากนามบัตรเพื่อบันทึกทางธุรกิจ
-
การจัดพิมพ์เอกสารโดยเร่งด่วนจากข้อมูลที่สะแกนได้
-
สามารถค้นหาเอกสารจากรูปภาพที่ปรากฏในฐานข้อมูลอิเล็คทรอนิคส์ได้
-
ปรับเปลี่ยนการเขียนด้วยลายมือให้เป็นคำสั่งควบคุมเครื่องคอมพิวเตอร์ได้
-
การเอามาใช้งานร่วมกับระบบพิสูจน์ตัวบุคคล
CAPTCHA anti-bot systems
-
รวมไปถึงเป็นเทคโนโลยีเพื่อช่วยเหลือผู้พิการทางสายตาและการรับรู้
รูปแบบต่างๆ
-
เป้าหมายที่เป็นตัวอักขระข้อความจากสิ่งพิมพ์
สัญลักษณ์ทางภาษา
-
เป้าหมายการรับรู้ข้อความที่เป็นคำต่างๆ
-
การรับรู้ตัวอักขระที่ฉลาดมากขึ้น
เช่นจากการเขียนด้วยลายมือ
-
การรับรู้ข้อความเป็นคำๆที่ฉลาดมากขึ้น
เช่นการเขียนด้วยลายมือเป็นคำๆ
กระบวนการของการระลึกจดจำอักขระซึ่งเป็นการวิเคราะห์ข้อมูลทางสถิติ
การวิเคราะห์การเคลื่อนไหวของลายมือเขียนสามมารถนำมาป้อนเป็นข้อมูลเพื่อระลึกจดจำการเขียนด้วยลายมือได้
ในทำนองเดียวกันการใช้รูปทรงของสัญลักษณ์ทางภาษาและคำต่างๆ
ด้วยเทคนิคเหล่านี้ทำให้สามารถตรวจจับการเคลื่อนไหว
เช่นเงื่อนไขในแต่ละส่วนที่ถูกวาดเขียนลงไป ทิศทางการเคลื่อนที่
รูปแบบของการจรดปากกาลงไปและยกขึ้นมา
ด้วยข้อมูลเพิ่มเติมเหล่านี้สามารถทำให้กระบวนการมีความแม่นยำมากยิ่งขึ้น
เทคนิควิธีการ
ด้วยระบบการทำงานแบบ
“กระบวนการที่กำหนดไว้ล่วงหน้าแล้ว”
ภาพจะถูกตรวจสอบและปรับปรุงเพื่อให้มีโอกาสของความสำเร็จในการรับรู้และระลึกถึงด้วยเทคนิคที่ประกอบด้วย
-
De-skew ถ้าเอกสารไม่ได้มีการสะแกนอย่างเที่ยงตรงในครั้งแรก
จำเป็นต้องปรับให้บรรทัดของตัวอักษรมีความเหมาะสมทั้งแนวตั้งและแนวนอนก่อน
-
Despeckle เป็นการลบจุดด่างดำและทำให้ขอบเส้นชัดเจนขึ้น
-
Binarization เป็นการปรับเปลี่ยนภาพสีหรือภาพเทาไปเป็นภาพขาวดำเท่านั้น (คำว่าbinaryหมายถึงสองสีขาวกับดำเท่านั้น)
-
Line removal เป็นการเอาสิ่งที่ไม่ใช่สัญลักษณ์ทางภาษาและการเว้นบรรทัดออกไป
-
Layout analysis กำหนดระบุคอลัมน์ ย่อหน้า หัวข้อย่อย และตาราง
-
Line and word
detection เริ่มต้นกำหนดให้เป็นคำและตัวอักขระ รูปทรง
แยกแยะเป็นคำๆถ้าจำเป็น
-
Script
recognition การเริ่มต้นระลึกจดจำเอกสารทีปรากฏ
อันอาจจะแปรเปลี่ยนในแต่ละระดับหรือโอกาสซึ่งเป็นสิ่งจำเป็นอย่างมาก
-
Character
isolation การแยกแยะแบ่งออกเป็นส่วนต่างๆ ตัวอักษรแต่ละตัวที่นำมาเรียงต่อย่อมเป็นสิ่งที่มนุษย์สร้างขึ้นมา
ดังนั้นตัวอักษรแต่ละตัวต้องนำมาเชื่อมต่อกันจึงจะมีความหมาย
-
Normalize aspect
ratio and scale
การแยกแยะตัวอักขระเป็นตัวๆทำได้โดยการนำความสัมพันธ์ที่เป็นการปรับตำแหน่งของรูปภาพลงในตารางของที่กำหนดเป็นเส้นทางแนวตั้งและแนวนอนโดยแยกแยะออกจากพื้นที่สีดำ
แต่ในเรื่องความสมมาตรของรูปแบบตัวอักษรจะมีความซับซ้อนมากกว่า จำเป็นต้องใช้เทคนิคที่เกี่ยวกับพื้นที่สีขาวของตัวอักขระและเส้นแนวตั้งแนวนอนระหว่างบันทัดประกอบด้วย
การระลึกถึงตัวอักขระ
มีกระบวนการแก้ปัญหาเพื่อตรวจสอบและระลึกถึงตัวอักขระอย่างเป็นขั้นตอนอยู่สองรูปแบบ
ซึ่งอาจก่อให้เกิดลำดับรายการของตัวอักษรที่ควรจะเป็น มีการจับคู่ทางตารางคณิตศาสตร์ที่เกี่ยวข้องกับการเปรียบเทียบกับภาพของสัญลักษณ์ทางภาษาที่เก็บไว้เป็นจุดแต่ละจุดในรูปแบบต่างๆ หรืออาจเรียกได้ว่า
“เป็นการจับคู่หรือระลึกถึงด้วยรูปแบบ”
ซึ่งต้องให้ความเชื่อมั่นไว้วางใจต่อข้อมูลที่ป้อนเข้าไปเป็นรูปแบบของสัญลักษณ์ทางภาษาอย่างถูกต้อง
เทคนิควิธีการเช่นนี้มีความเหมาะสมที่สุดต่อข้อความที่เป็นตัวอักษรพิมพ์แต่อาจทำงานไม่ได้ดีนักเมื่อต้องเผชิญกับตัวอักษรรูปแบบใหม่ๆ
อีกวิธีการหนึ่งก็คือการมุ่งเน้นไปที่
“ลักษณะเฉพาะที่โดดเด่น” เช่น แนวเส้น วงกลม ทิศทางของเส้น และเส้นที่ตัดกัน
เหล่านี้เมื่อนำมาเปรียบเทียบกันในหลายมิติแล้วสามารถนำเสนอตัวอักษรที่ถูกต้องได้
ซึ่งเทคนิควิธีการตรวจสอบคุณลักษณะพิเศษเหล่านี้ในมุมมองของเครื่องคอมพิวเตอร์คือ
“เชาว์และสติปัญญา” โดยเฉพาะการรับรู้ตัวอักษรที่เกิดจากการเขียนด้วยลายมือ
กระบวนการแยกแยะเพื่อระบุถึงตัวอักษรจะใช้วิธีการเป็นขั้นตอนในการเปรียบเทียบกับข้อมูลเชิงสัญลักษณ์ทางภาษาที่มีอยู่แล้วเลือกเอาที่มีความเหมาะสมจับคู่กันได้ใกล้ชิดที่สุด
กระบวนการล่วงหน้า
ความแม่นยำของการระลึกถึงตัวอักขระสามารถเพิ่มขึ้นได้ถ้าสัญญาณขาออกที่ได้มาเป็นไปตามพจนานุกรมอย่างธรรมชาติ
ที่อาจประกอบไปด้วยรายการของคำที่ยอมให้ปรากฏบนเอกสารนั้นๆ
ตัวอย่างเช่นคำในภาษาอังกฤษหรือพจนานุกรมเชิงเทคนิคในสาขาที่กำหนดโดยเฉพาะ เทคนิควิธีการเช่นนี้สามารถก่อให้เกิดข้อสงสัยถ้าเอกสารบรรจุคำที่ไม่ได้อยู่ในพจนานุกรมไปด้วย
เช่นชื่อเฉพาะ
สัญญาณขาออกที่ได้จากการระลึกถึงอักขระเหล่านี้อาจประกอบด้วยแถวของตัวอักษรเพียงอย่างเดียวหรืออาจเป็นแฟ้มข้อมูลของตัวอักขระ
แต่ถ้าในระบบที่ซับซ้อนมากๆแล้วสามารถระบุถึงการจัดวางหน้าของต้นฉบับดั้งเดิมได้
ความคิดเห็น
แสดงความคิดเห็น