Optical character recognition (การรู้จำอักขระด้วยแสง)


Optical character recognition (การรู้จำอักขระด้วยแสง)


         หมายถึงการเปลี่ยนข้อมูลจากภาพให้เป็นข้อมูลตัวอักษรทางการพิมพ์หรือข้อความที่เป็นการเข้ารหัส (machine-encoded) มันถูกนำมาใช้อย่างกว้างขวางในรูปแบบของการนำเข้าข้อมูลด้วยสิ่งตีพิมพ์หรือสมุดจดบันทึก เอกสารพาสปอร์ต ใบสั่งสินค้า สมุดบัญชีธนาคาร นามบัตร จดหมาย สิ่งตีพิมพ์ข้อมูลทางสถิติหรือเอกสารใดๆก็ตาม มันเป็นวิธีการที่ใช้การแปลงข้อความจากสิ่งตีพิมพ์ให้เป็นข้อมูลทางดิจิตอล ดังนั้นมันจึงสามารถเรียบเรียง สืบค้น จัดเก็บด้วยขนาดความจุข้อมูลที่กะทัดรัดกว่าเดิม สามารถเอาไปนำเสนอบนหน้าเว็บได้ รวมไปถึงการนำไปประมวลผลด้วยอุปกรณ์อื่นๆเช่น การเปลี่ยนข้อความให้เป็นเสียงพูด การระบุข้อความสำคัญและการค้นหาความรู้ในฐานข้อมูลเอกสารได้  การรับรู้ข้อมูลตัวอักษรผ่านแสงเป็นการค้นคว้าวิจัยการระลึกจดจำถึงรูปแบบ ทฤษฎีที่เกี่ยวข้องกับปัญญาประดิษฐ์และมุมมองของวิทยาการคอมพิวเตอร์
         ในยุคเริ่มต้นสมัยแรกจำเป็นต้องฝึกให้รู้จักภาพของตัวอักษรแต่ละตัวเสียก่อน และทำงานกับรูปแบบของตัวอักษรชนิดใดชนิดหนึ่งเท่านั้น สำหรับในระบบที่มีความก้าวหน้ามากยิ่งขึ้นย่อมจะมีความแม่นยำสำหรับรูปแบบตัวอักษรใดๆก็ได้ ในบางระบบมีความสามารถสร้างรูปแบบหยาบๆออกมาอย่างใกล้เคียงกับหน้าที่เป็นต้นฉบับ รวมไปถึงภาพถ่าย การจัดวางรูปแบบ ย่อหน้ารวมไปถึงส่วนประกอบอื่นๆที่ไม่ได้เป็นข้อความตัวอักษร
ประวัติความเป็นมา
         การจดจำรับรู้ตัวอักษรสมัยแรกเริ่มเป็นเทคโนโลยีที่เกี่ยวข้องกับระบบโทรเลขและอุปกรณ์การอ่านสำหรับผู้พิการทางสายตา ในปี ค.ศ. 1914 Emanuel Goldberg ได้พัฒนาเครื่องมือที่สามารถอ่านอักขระและเปลี่ยนให้เป็นรหัสโทรเลขได้ ในขณะเดียวกัน Edmund Founier  d`Albe ได้พัฒนา Optophone อันเป็นเครื่องมือที่พกพาได้และเมื่อนำไปเคลื่อนที่ผ่านสิ่งตีพิมพ์บนหน้ากระดาษก็จะกำเนิดเสียงตามตัวอักษรที่กำหนดได้ออกมา
         ในช่วงท้ายของปี ค.ศ. 1920 จนกระทั่งถึงปี ค.ศ. 1930 Emanuel Goldberg ได้พัฒนาสิ่งที่เค้าเรียกว่า “เครื่องกลทางสถิติ” ขึ้นมา สำหรับใช้ค้นหาเอกสารไมโครฟิลม์ด้วยการระบบการจดจำรหัสทางแสง แล้วจดทะเบียนสิ่งประดิษฐ์นั้นไว้เป็นลิขสิทธิ์ของบริษัท IBM
สิ่งที่มองไม่เห็นกับสิ่งที่มองเห็นได้มีผลต่อผู้ใช้ต่างกัน
        ในปี ค.ศ. 1974 Ray Kurzweil ได้ก่อตั้งบริษัทขึ้นเพื่อพัฒนาระบบการระลึกตัวอักขระบนสิ่งตีพิมพ์ที่มีรูปแบบตัวอักษรแตกต่างกัน แต่ทว่าเป็นการนำไปใช้งานภายในบริษัทเท่านั้น ต่อมาเค้าได้ตัดสินใจว่าการนำเทคโนโลยีนี้ไปใช้งานให้ดีที่สุดคือการสร้างเครื่องมืออ่านเอกสารให้ผู้พิการทางสายตา ซึ่งจำเป็นต้องมีเครื่องคอมพิวเตอร์ที่สามารถอ่านข้อความให้เป็นเสียงออกมาได้ โดยที่อุปกรณ์เหล่านี้จำเป็นต้องมีสิ่งประดิษฐ์ที่เป็นเทคโนโลยีใหม่สองประการคือ เครื่องสะแกนข้อความและเครื่องกำเนิดเสียงพูดจากข้อความประกอบกัน โดยประสบความสำเร็จในปี ค.ศ. 1976 ภายหลังจากนั้นอีกสองปีบริษัทของเขาได้เริ่มต้นออกจำหน่ายทางการค้า ต่อมาอีกสองปี Ray Kurzweil ได้ขายกิจการให้กับบริษัท Xerox ซึ่งมีความสนใจในอนาคตทางธุรกิจของการแปลงข้อความจากกระดาษไปสู่ข้อมูลคอมพิวเตอร์  และได้พัฒนาต่อยอดจนกระทั่งสามารถผลิตอุปกรณ์พิมพ์ตัวอักษรเพื่อผู้พิการทางสายตา และระบบที่สามารถอ่านจดจำอักขระใดๆ  แล้วเปลี่ยนให้เป็นสิ่งตีพิมพ์ตัวอักษรเบรลเพื่อผู้พิการทางสายตาได้
         ในปี ค.ศ. 2000 Optical character recognition สามารถให้บริการออนไลน์ผ่านเว็บได้ รวมไปถึงในสภาพแวดล้อมของระบบ cloud computing , mobile application รวมไปถึงการให้บริการด้วยตัวอักษรภาษาต่างประเทศ เช่น Latin , Arabic , Hebrew , Indic , Bengali , Tamil , Chinese , Japanese , Korean
การนำไปใช้งาน
        ระบบของการตรวจจับรับรู้ข้อความตัวอักษรได้รับการพัฒนาไปใช้งานได้หลากหลายรูปแบบ เช่น ใบเสร็จรับเงิน ใบสั่งสินค้า เอกสารสั่งจ่ายสินค้า ดังตัวอย่างต่อไปนี้
-      การนำข้อมูลเข้าสำหรับเอกสารทางธุรกิจ เช่น คำสั่งจ่ายเช็ค ใบผ่านแดน ใบสั่งซื้อสินค้า สมุดบัญชีเงินฝากและสถานะทางการเงิน
-      การระลึกจดจำแผ่นทะเบียนโดยอัตโนมัติ
-      การตรวจสอบข้อมูลเอกสารประกันภัยโดยอัตโนมัติ
-      การตรวจสอบข้อมูลจากนามบัตรเพื่อบันทึกทางธุรกิจ
-      การจัดพิมพ์เอกสารโดยเร่งด่วนจากข้อมูลที่สะแกนได้
-      สามารถค้นหาเอกสารจากรูปภาพที่ปรากฏในฐานข้อมูลอิเล็คทรอนิคส์ได้
-      ปรับเปลี่ยนการเขียนด้วยลายมือให้เป็นคำสั่งควบคุมเครื่องคอมพิวเตอร์ได้
-      การเอามาใช้งานร่วมกับระบบพิสูจน์ตัวบุคคล CAPTCHA anti-bot systems
-      รวมไปถึงเป็นเทคโนโลยีเพื่อช่วยเหลือผู้พิการทางสายตาและการรับรู้
รูปแบบต่างๆ
-      เป้าหมายที่เป็นตัวอักขระข้อความจากสิ่งพิมพ์ สัญลักษณ์ทางภาษา
-      เป้าหมายการรับรู้ข้อความที่เป็นคำต่างๆ
-      การรับรู้ตัวอักขระที่ฉลาดมากขึ้น เช่นจากการเขียนด้วยลายมือ
-      การรับรู้ข้อความเป็นคำๆที่ฉลาดมากขึ้น เช่นการเขียนด้วยลายมือเป็นคำๆ
กระบวนการของการระลึกจดจำอักขระซึ่งเป็นการวิเคราะห์ข้อมูลทางสถิติ การวิเคราะห์การเคลื่อนไหวของลายมือเขียนสามมารถนำมาป้อนเป็นข้อมูลเพื่อระลึกจดจำการเขียนด้วยลายมือได้ ในทำนองเดียวกันการใช้รูปทรงของสัญลักษณ์ทางภาษาและคำต่างๆ ด้วยเทคนิคเหล่านี้ทำให้สามารถตรวจจับการเคลื่อนไหว เช่นเงื่อนไขในแต่ละส่วนที่ถูกวาดเขียนลงไป ทิศทางการเคลื่อนที่ รูปแบบของการจรดปากกาลงไปและยกขึ้นมา ด้วยข้อมูลเพิ่มเติมเหล่านี้สามารถทำให้กระบวนการมีความแม่นยำมากยิ่งขึ้น
เทคนิควิธีการ
         ด้วยระบบการทำงานแบบ “กระบวนการที่กำหนดไว้ล่วงหน้าแล้ว” ภาพจะถูกตรวจสอบและปรับปรุงเพื่อให้มีโอกาสของความสำเร็จในการรับรู้และระลึกถึงด้วยเทคนิคที่ประกอบด้วย
-      De-skew ถ้าเอกสารไม่ได้มีการสะแกนอย่างเที่ยงตรงในครั้งแรก จำเป็นต้องปรับให้บรรทัดของตัวอักษรมีความเหมาะสมทั้งแนวตั้งและแนวนอนก่อน
-      Despeckle เป็นการลบจุดด่างดำและทำให้ขอบเส้นชัดเจนขึ้น
-      Binarization เป็นการปรับเปลี่ยนภาพสีหรือภาพเทาไปเป็นภาพขาวดำเท่านั้น (คำว่าbinaryหมายถึงสองสีขาวกับดำเท่านั้น)
-      Line removal เป็นการเอาสิ่งที่ไม่ใช่สัญลักษณ์ทางภาษาและการเว้นบรรทัดออกไป
-      Layout analysis กำหนดระบุคอลัมน์ ย่อหน้า หัวข้อย่อย และตาราง
-      Line and word detection เริ่มต้นกำหนดให้เป็นคำและตัวอักขระ รูปทรง แยกแยะเป็นคำๆถ้าจำเป็น
-      Script recognition การเริ่มต้นระลึกจดจำเอกสารทีปรากฏ อันอาจจะแปรเปลี่ยนในแต่ละระดับหรือโอกาสซึ่งเป็นสิ่งจำเป็นอย่างมาก
-      Character isolation การแยกแยะแบ่งออกเป็นส่วนต่างๆ ตัวอักษรแต่ละตัวที่นำมาเรียงต่อย่อมเป็นสิ่งที่มนุษย์สร้างขึ้นมา ดังนั้นตัวอักษรแต่ละตัวต้องนำมาเชื่อมต่อกันจึงจะมีความหมาย
-      Normalize aspect ratio and scale
การแยกแยะตัวอักขระเป็นตัวๆทำได้โดยการนำความสัมพันธ์ที่เป็นการปรับตำแหน่งของรูปภาพลงในตารางของที่กำหนดเป็นเส้นทางแนวตั้งและแนวนอนโดยแยกแยะออกจากพื้นที่สีดำ แต่ในเรื่องความสมมาตรของรูปแบบตัวอักษรจะมีความซับซ้อนมากกว่า จำเป็นต้องใช้เทคนิคที่เกี่ยวกับพื้นที่สีขาวของตัวอักขระและเส้นแนวตั้งแนวนอนระหว่างบันทัดประกอบด้วย
การระลึกถึงตัวอักขระ
         มีกระบวนการแก้ปัญหาเพื่อตรวจสอบและระลึกถึงตัวอักขระอย่างเป็นขั้นตอนอยู่สองรูปแบบ ซึ่งอาจก่อให้เกิดลำดับรายการของตัวอักษรที่ควรจะเป็น มีการจับคู่ทางตารางคณิตศาสตร์ที่เกี่ยวข้องกับการเปรียบเทียบกับภาพของสัญลักษณ์ทางภาษาที่เก็บไว้เป็นจุดแต่ละจุดในรูปแบบต่างๆ หรืออาจเรียกได้ว่า “เป็นการจับคู่หรือระลึกถึงด้วยรูปแบบ” ซึ่งต้องให้ความเชื่อมั่นไว้วางใจต่อข้อมูลที่ป้อนเข้าไปเป็นรูปแบบของสัญลักษณ์ทางภาษาอย่างถูกต้อง เทคนิควิธีการเช่นนี้มีความเหมาะสมที่สุดต่อข้อความที่เป็นตัวอักษรพิมพ์แต่อาจทำงานไม่ได้ดีนักเมื่อต้องเผชิญกับตัวอักษรรูปแบบใหม่ๆ
            อีกวิธีการหนึ่งก็คือการมุ่งเน้นไปที่ “ลักษณะเฉพาะที่โดดเด่น” เช่น แนวเส้น วงกลม ทิศทางของเส้น และเส้นที่ตัดกัน เหล่านี้เมื่อนำมาเปรียบเทียบกันในหลายมิติแล้วสามารถนำเสนอตัวอักษรที่ถูกต้องได้ ซึ่งเทคนิควิธีการตรวจสอบคุณลักษณะพิเศษเหล่านี้ในมุมมองของเครื่องคอมพิวเตอร์คือ “เชาว์และสติปัญญา” โดยเฉพาะการรับรู้ตัวอักษรที่เกิดจากการเขียนด้วยลายมือ กระบวนการแยกแยะเพื่อระบุถึงตัวอักษรจะใช้วิธีการเป็นขั้นตอนในการเปรียบเทียบกับข้อมูลเชิงสัญลักษณ์ทางภาษาที่มีอยู่แล้วเลือกเอาที่มีความเหมาะสมจับคู่กันได้ใกล้ชิดที่สุด
กระบวนการล่วงหน้า
        ความแม่นยำของการระลึกถึงตัวอักขระสามารถเพิ่มขึ้นได้ถ้าสัญญาณขาออกที่ได้มาเป็นไปตามพจนานุกรมอย่างธรรมชาติ ที่อาจประกอบไปด้วยรายการของคำที่ยอมให้ปรากฏบนเอกสารนั้นๆ ตัวอย่างเช่นคำในภาษาอังกฤษหรือพจนานุกรมเชิงเทคนิคในสาขาที่กำหนดโดยเฉพาะ เทคนิควิธีการเช่นนี้สามารถก่อให้เกิดข้อสงสัยถ้าเอกสารบรรจุคำที่ไม่ได้อยู่ในพจนานุกรมไปด้วย เช่นชื่อเฉพาะ

            สัญญาณขาออกที่ได้จากการระลึกถึงอักขระเหล่านี้อาจประกอบด้วยแถวของตัวอักษรเพียงอย่างเดียวหรืออาจเป็นแฟ้มข้อมูลของตัวอักขระ แต่ถ้าในระบบที่ซับซ้อนมากๆแล้วสามารถระบุถึงการจัดวางหน้าของต้นฉบับดั้งเดิมได้

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

การถ่ายทอดสดนอกสถานที่(Outside Broadcasting)

Automation solution