بروتوكول للمسح الضوئي للوثائق

من ويكي أضِف
مراجعة 12:20، 8 مايو 2020 بواسطة أحمد (نقاش | مساهمات) (نحو)
(فرق) → مراجعة أقدم | المراجعة الحالية (فرق) | مراجعة أحدث ← (فرق)
اذهب إلى التنقل اذهب إلى البحث

لأجل أفضل حفظ للوثائق التراثية و الكتب و المجلات النادرة و لإتاحتها بما يمكن معه إعادة إنتاجها طباعيًّا علاوة على مطالعتها على الشاشات بوضوح كافٍ، يُستحسن إنجاز المسح الضوئي بالمواصفات التالية:

  • المَيْز لا يقل عن 600 نقطة\بوصة. و يُستحسن أن يكون أكثر إن كان ذلك مدعوما في الماسحة، على أن يكون ذلك الميز بصريًّا (optical) لا مُستنبطا رقميا (digital)
  • صفحات النصوص المطبوعة بالأسود على ورق أبيض يمكن مسحها في طور اللون الواحد (monochrome) فهذا يُحسِّّن وضوح الكتابة و الرسم بتجاهل التشويش الناتج عن ملمس الورق و البقع فيه، كما يصغّر حجم الملف مليًّا.
  • الصفحات المرسومة أو المزخرفة المطبوعة بدرجات الرمادي (silkscreen) يمكن مسحها بدرجات الرمادي (greyscale) و أحيانا بلون واحد كما سلف. قد يستلزم هذا تجربة قبل اختيار النمط المنساب و تعميمه على الصفحات المتشابهة.
  • الصفحات الملونة تُمسح بالألوان الطبيعية
  • يجب حفظ الملفات في صيغة صور غير فقودة. مثل TIFF أو PNG. أما صيغة JPEG فلا تصلح للمسوحات الضوئية لأن أسلوب الضغط فيها يحذف من تفاصيل الصورة اللونية و المكانية بغرض تصغير الحجم، فهي أنسب للمناظر الطبيعية ذات الدرجات اللونية المتداخلة لكنها لا تناسب الرسوم الخطوطية و لا المخططات التوضيحية و لا كتابة و لا الزخارف الدقيقة.
  • عند حفظ ملفات TIFF يُراعي ألا يكون الضغط فيها أيضا JPEG لأن ملفات TIFF حاويات يمكن أن تضمّ أنواعا عديدة من الترميزات. كلٌّ من أسلوبي الضغط defalte/LZW أو ZIP يضغطان الصور في ملفات TIFF ضغطا جيّدا غير فقود.

حجوم الملفات التي تبدو كبيرة اليوم ستبدو صغيرة مع تقدم تقنية المعلوماتية، لكن الأصول النادرة قد لا تعود متاحة وقتذاك.

مواصفات مخرجات نظام أرشيفي جيّد للوثائق المرقمنة

المسح الضوئي

الميز
الوثائق يجب مسحها بصريا بميز لا يقل عن 600 عنصورة\البوصة، على أن يكون ذلك هو الميز البصري (optical) لا المستنبط (interpolated).
الألوان
الوثائق التي لألوانها دلالة ينبغي مسحها ملونة، أما الوثائق التي ليست فيها ألوان، مثل المستنسخات الضوئية غير الملوّنة (photocopy) و صفحات الكتب النصيّة، فتمسح أحادية اللون -- لا بدرجات الرمادي -- و ذلك لتصغير حجم الملف الناتج و تلافي التشويش البصري نتيجة عدم اتّساق ألوان الورق و العيوب فيه.
الضغط أثناء المسح
بعض تطبيقات المسح الضوئي تخرج سيل بيانات الصورة الممسوحة إلى تطبيق معالجة الصور أو تحفظها في ملف بعد ضغطها بترميز JPEG الفقود، حتى و إن كانت الصيغة النهائية لحفظ الملف غير JPEG فإنّ سيل البيانات يكون قد سبق ضغطه في مرحلة وسيطة غير ملحوظة للمستخدم. بعض تطبيقات المسح الضوئي يمكن التحكم في سلوكها هذا و بعضها لا. و عموما قد يكون أثر هذا الضغط ملحوظا أو غير ملحوظ حسب جودة تطبيق البرمجية لخوارزميات الترميز.
المعالجة فيما بعد المسح البصري
؟
صيغ الملفات متعددة الصفحات
الوثائق متعددة الصفحات يمكن لحفظها صور صفحاتها سويا حفظها في صيغة TIFF متعددة الصفحات، أو PDF في الحالة الأخيرة تنبغي مراعاة تطبيق ضغط غير فقود على الصور المضمّنة في الصيغة الحاوية النهائية.
تسمية الملفات
تنبغي تسمية ملفات الصور، في الحد الأدنى، بما يعرّف كل وثيقة بتفرّد، و يرمّز العلاقة البينية بين صفحات الوثيقة الواحدة، و تاريخها، و فئتها.
البيانات الفوقية
(التاريخ، الوصف، التصنيف)
توجد أدوات يمكن باستعمالها تضمين البيانات الفوقية في ملفات الصور حسب مواصفات قياسية عديدة أبرزها و أكثرها ملائمة للنصوص العربية هي مواصفة XMP.
البيانات الفوقية تصبح جزءا من صفحة الصورة في الويكي، كما أن فائدتها تزيد في حال تنزيل ملفات الصور و تداولها بانفصال عن السياق المعلوماتي في الويكي.
الفهارس
نظام ويكي لفهرسة الملفات و البحث فيها و تسجيل العلاقات فيما بينها و المعلومات غير الهيكلية الأخرى، و الربط إليها من نظام المعرفة المؤسسي.


صيغ الملفات

الغرض من حفظ صور الوثائق الأرشيفية يتعدّى الرغبة في حفظ هيئة الوثيقة بصريا إلى الرغبة في حفظ بيانات عنها و إمكانية إعادة استعمال الوثيقة الرقمية في سياقات مختلفة، مثل توليد نسخ مناسبة لنبائط و ظروف مطالعة مختلفة و كذلك ربّما إعادة تجسيدها في شكل ورقي بطباعتها، لذا فالصيغ المناسبة للأغراض الأرشيفية عموما هي الصيغ (formats) التي تتصّف بالتالي:

تستخدم مُرمّزات (codecs) غير فقودة (lossless) لبيانات الصورة
من أغراض الأرشيف الاحتفاظ بصور طبق الأصل من الوثائق بحيث تمكن إعادة إنتاجها لأغراض مختلفة، لذا فمن البديهي الرغبة في حفظ أكبر قدر ممكن من الخصائص البصرية للصورة في الملف الرقمي الذي يُمثّلها. العامل الأساسي الذي قد يدفع إلى اعتبار خيار الضغط الفقود هو المساحة المطلوبة للتخزين التي تزيد في حالة الضغط غير الفقود، إلا أن اختيار صيغة ذات ضغط فقود جيّد، و كذلك اختيار المعاملات البصرية المناسبة لطبيعة الوثيقة عند مسحها، مثل العمق اللوني، و كذلك التدنّي المستمر لأسعار وسائط التخزين و زيادة أحجامها كُلّها عوامل تقلّل من الحاجة للجوء إلى الضغط الفقود.
يمكن تضمين بيانات فوقية فيها
تضمين البيانات الفوقية في ملفات الوثائق يزيد كثيرا من فائدتها فور خروجها من نظام الأرشيف الكُلّي، كما أنه قد يُسهل عمليات البحث (حسب نظام الأرشيف و الفهرسة)
صيغ مواصفاتها مفتوحة و حرة
الصيغ المفتوحة[1] يوجد احتمال أكبر أن توجد لها قارئات و معالجات في المستقبل، و هو غرض أساسي في أي نظام أرشيفي.
كما أن كون الصيغة مفتوحة المصدر يضمن تفادي الوقوع في وضع لا يمكن فيه تحويل الصورة إلى صيغ أخرى لاستخدامها حسب الحاجة و هو الخطر المحتمل في حال كون الصيغة لا تمكن معالجتها (مطالعتها أو تحويلها) إلا بواسطة برمجيات تنتجها نفس الجهة التي صمّمت الصيغة.

و قد تُضاف إليها:

  • إمكانية صنع ملفات تضم عددا من الصفحات، حسب نظام التخزين و البحث و الاسترجاع
  • إمكانية وضع طبقات (layers) نصية فوق الصورة، في حال الرغبة في تخزين نصّ الوثيقة أو أجزاء منه في نفس الملف مع صورة الوثيقة لتسهيل استعمالها أو لتيسير البحث بالنصّ

الخيار الأمثل حفظ المسوحات الضوئية في الصيغ المفتوحة الحرّة التي تحفظ أكبر قدر ممكن من البيانات البصرية التي في الأصل، و توليد مشتقات منها في صيغ أخرى لظروف التداول و العرض المختلفة عند اللزوم.

وجه المقارنة PNG JPEG TIFF PDF[2] DjVu
نوع الضغط غير فقود فقود يمكن أن تكون غير مضغوطة نهائيا، كما يمكن أن تكون مضغوطة ضغطًا فقودًا أو غير فقود[3] حسب ترميز الصور المطّبق عند إنشاء الملف و حسب الملف الأصل للصورة[4][5]
تضمين بيانات فوقية نعم نعم نعم نعم
ملف يحوي عدة صفحات لا لا نعم نعم نعم
طبقة نصيّة فوق الصورة لا لا لا نعم، لكنه لا يعمل مع العربيّة نعم
تعرضها متصفّحات الوِب الشائعة نعم نعم لا (أو بواسطة ملحقات) لا (أو بواسطة ملحقات) لا
تُنتجها برمجيات المسح الضوئي نعم نعم نعم نعم ؟
يمكن تحويلها إلى صيغ أخرى بسهولة نعم ممكن لكنه بلا معنى بسبب الضغط الفقود نعم لا لا
مواصفة مفتوحة و حرّة مفتوحة، مع خلافات على تراخيص بعض جوانبها مفتوحة و حرّة مفتوحة و حرّة معظمها بما يشمل الأجزاء المستعملة أرشيفيا مفتوحة و حرّة
ملاحظات

تعريفات ذات علاقة

هوامش

  1. طالع تعريف المفتوح
  2. المزيد عن صيغة PDF
  3. كل أنوع الضغط المدعومة في صيغة TIFF غير فقودة ما عدا ضغط JPEG حيث تخزّن بيانات الصورة في ملف TIFF بعد ضغطها داخليا بترميز الضغط الفقود هذا، حسبما تطبّقه البرمجية المستخدمة في إنشاء الملف، و التي فيها يمكن تعيين نوع الضغط المطلوب.
  4. صيغة PDF ليست صيغة رسومية بحتة، بل هي صيغة وثائق مركبة تشمل النصوص و الرسوميات المتجهيّة و النقطية و وسائط أخرى، و سلوكا مُبرمجًا، و بيانات فوقية متنوعة، و الغرض منها أصلا الطباعة، كما تصلح لبعض أغراض الأرشيف. فإذا كان محتوى ملف PDF يتألف من الصور و حسب (و هو أكثر الأسباب شيوعا لحفظ الصور في PDF) يُستحسن استعمل صيغة رسومية مثل TIFF التي تسمح أيضا بملفات عديدة الصفحات.
  5. الصور المحفوظة في ملفات PDF تكون مضغوطة بالترميز المُعيّن في البرمجية منتِجةُ الملف، و قد يكون ذلك الترميز JPEG الفقود. تمكن معرفة ترميزات الصور في ملف PDF باستعمال أدوات خاصة مثل pdfimages.