الفرق بين المراجعتين ل"آر-شيف"

من ويكي أضِف
اذهب إلى التنقل اذهب إلى البحث
(تنسيق و هيكلة)
سطر 1: سطر 1:
تهدف ارشيف الى تجميع وتحليل المحتوى الرقمي للوصول إلى آراء الناس عن الأحداث الجارية. عن طريق تجميع المحتوى العربي من مواقع التواصل الاجتماعي والمدونات. كما تهدف لتقديم الادوات والخدمات اللازمة للجهود البحثية في هذا المجال, التي تفيد الأكاديميّين، الناشطين السياسيّين، الفنّانين، الصحافيّين، الخ...
+
يهدف مشروع آر-شيف الى تجميع وتحليل المحتوى الرقمي للوصول إلى آراء الناس عن الأحداث الجارية. عن طريق تجميع المحتوى العربي من مواقع التواصل الاجتماعي والمدونات. كما تهدف لتقديم الادوات والخدمات اللازمة للجهود البحثية في هذا المجال, التي تفيد الأكاديميّين و الناشطين السياسيّين و الفنّانين و الصحافيّين، الخ...
 +
 
 +
قام آر-شيف بتجميع كمية كبيرة من المحتوى الرقمي العربي والانجليزي منذ 2008. واستطاعت تجميع المحتوى المتعلق بالثورات في المنطقة العربية لتكون مصدر لهذا الأرشيف
  
قامت ارشيف بتجميع كمية كبيرة من المحتوى الرقمي العربي والانجليزي منذ 2008. واستطاعت تجميع المحتوى المتعلق بالثورات في المنطقة العربية لتكون مصدر لهذا الأرشيف
 
 
بحلول يناير 2012 قامت أداة أرشيف لتجميع التغريدات بأرشفة ما يزيد عن 284 مليون تغريدة
 
بحلول يناير 2012 قامت أداة أرشيف لتجميع التغريدات بأرشفة ما يزيد عن 284 مليون تغريدة
+
‏‏
 
 
من أهداف المشروع تطوير واستخدام التطبيقات اللازمة لتجميع المحتوى العربية من على شبكات التواصل الاجتماعي وتحليله لاستخراج الأنماط بصورة فورية. عن طريق استخدام محرك يزيد من خبرته وذكائه كلما قام بتحليل كميات اكبر من المحتوى الرقمي
 
من أهداف المشروع تطوير واستخدام التطبيقات اللازمة لتجميع المحتوى العربية من على شبكات التواصل الاجتماعي وتحليله لاستخراج الأنماط بصورة فورية. عن طريق استخدام محرك يزيد من خبرته وذكائه كلما قام بتحليل كميات اكبر من المحتوى الرقمي
  
‏الفئات المستهدفة والنطاق الجغرافي ‏
+
‏== الفئات المستهدفة والنطاق الجغرافي ‏==
 +
في هذه المرحلة يهدف ارشيف الى التركيز على دعم اللغة العربية تمهيدا لدعم باقي اللغات الشرقية.
  
في هذه المرحلة يهدف ارشيف الى التركيز على دعم اللغة العربية تمهيدا لدعم باقي اللغات الشرقية.
 
 
سيخدم كل المهتمين بمعرفة نبض الشارع العربي واراؤه المختلفة عما يحدث في المنطقة العربية أو حول العالم. من باحثين اقليميّين و غيرهم في العالم، إلى أكاديميّين، ناشطين سياسيّين، فنّانين، و حتى إعلاميّين في وسائل الاعلام المختلفة.
 
سيخدم كل المهتمين بمعرفة نبض الشارع العربي واراؤه المختلفة عما يحدث في المنطقة العربية أو حول العالم. من باحثين اقليميّين و غيرهم في العالم، إلى أكاديميّين، ناشطين سياسيّين، فنّانين، و حتى إعلاميّين في وسائل الاعلام المختلفة.
 +
 
يشمل النطاق الجغرافي جميع أنحاء العالم فعلاً، مع التركيز طبعاً على العالم العربي، وبالأخص على البلاد المتأثّرة بالأحداث الأخيرة.
 
يشمل النطاق الجغرافي جميع أنحاء العالم فعلاً، مع التركيز طبعاً على العالم العربي، وبالأخص على البلاد المتأثّرة بالأحداث الأخيرة.
  
‏مراحل المشروع المختلفة وخطة العمل ‏
+
‏== مراحل المشروع المختلفة وخطة العمل ‏==
 
+
# بناء المنظومة الالكترونية اللي يمكنها تخزين المفردات والجمل باللغة العربية. والمرادفات ودلالات كل منها.
بناء المنظومة الالكترونية اللي يمكنها تخزين المفردات والجمل باللغة العربية. والمرادفات ودلالات كل منها.
+
# استخراج هذه المفردات والجمل من التغريدات التي قام أرشيف بتجميهعا لاضافتها الى المنظومة الالكترونية
استخراج هذه المفردات والجمل من التغريدات التي قام أرشيف بتجميهعا لاضافتها الى المنظومة الالكترونية
+
# تصنيف كل من البيانات في القاموس وتحديد مدلولاتها لاعطاء المنظومة الخبرة اللازمة لفهم المحتوى
تصنيف كل من البيانات في القاموس وتحديد مدلولاتها لاعطاء المنظومة الخبرة اللازمة لفهم المحتوى
+
# استخدام هذه المنظومة لتحليل وابراز نتائج المحتوى العربي وابراز معانيه بصورة فورية
استخدام هذه المنظومة لتحليل وابراز نتائج المحتوى العربي وابراز معانيه بصورة فورية
+
# جعل هذه الخدمة متاحة الى غيرنا من الفرق والمؤسسات، و بناء واجهة تفاعليّة تتيح للمستخدمين الوصول الى البيانات "crowdsourced data" والإمكان من تحليل هذه البيانات لغاياتهم البحثيّة المختلفة.
جعل هذه الخدمة متاحة الى غيرنا من الفرق والمؤسسات، و بناء واجهة تفاعليّة تتيح للمستخدمين الوصول الى البيانات "crowdsourced data" والإمكان من تحليل هذه البيانات لغاياتهم البحثيّة المختلفة.
 
  
 +
ما يميّز أرشيف هو قدرة المشروع على دمج الذكاء البشري بذكاء الحاسوب. ينطوي نهجنا في تحليلات وسائل الاعلام الاجتماعية على السماح لبرنامج الكمبيوتر بتجميع البيانات وتحديد الأنماط في الوقت المباشر "real-time"، فنظام الحوسبة "swarm computing" لدينا يكتسب أكثر ذكاء في الوقت الذي يعمل على بناء المعجم الخاصة به. في الخطوة التالية نفتح قاعدة البيانات إلى الشعوب الناطقة بالعربية على الانترنت ليتمكّنوا من تعيين السمات بشكل صحيح لهذا المعجم الجديد -للإستفادة من الخبرات البشرية والحاسوبية في آن واحد. ففي حين ركز الآخرون على نتائج تحليل البيانات بشكل الاتجاهات والأرقام ، نحن نركز على إظهار ما يعنيه حقا، على الدلالة الحقيقيّة للعبارات. هدفنا الرئيسي هو تحقيق اختراقات حقيقية في فهم دلالات الكلمات في المفهوم العام، لإعطاء أصوات الناس على الانترنت الفرصة لتكون مسموعة و مفهومة بمعناها و سياقها الحقيقي.
 
 
 
+
== مكان وشركاء التنفيذ ‏==
ما يميّز أرشيف هو قدرة المشروع على دمج الذكاء البشري بذكاء الحاسوب. ينطوي نهجنا في تحليلات وسائل الاعلام الاجتماعية على السماح لبرنامج الكمبيوتر بتجميع البيانات وتحديد الأنماط في الوقت المباشر "real-time"، فنظام الحوسبة "swarm computing" لدينا يكتسب أكثر ذكاء في الوقت الذي يعمل على بناء المعجم الخاصة به. في الخطوة التالية نفتح قاعدة البيانات إلى الشعوب الناطقة بالعربية على الانترنت ليتمكّنوا من تعيين السمات بشكل صحيح لهذا المعجم الجديد -للإستفادة من الخبرات البشرية والحاسوبية في آن واحد. ففي حين ركز الآخرون على نتائج تحليل البيانات بشكل الاتجاهات والأرقام ، نحن نركز على إظهار ما يعنيه حقا، على الدلالة الحقيقيّة للعبارات. هدفنا الرئيسي هو تحقيق اختراقات حقيقية في فهم دلالات الكلمات في المفهوم العام، لإعطاء أصوات الناس على الانترنت الفرصة لتكون مسموعة و مفهومة بمعناها و سياقها الحقيقي.
 
‏مكان وشركاء التنفيذ ‏
 
 
سوف يتم معظم العمل و التطوير في بيئة إلكترونية "virtual environment" على ملقمات سحابة أرشيف "R-Shief Cloud". وبفضل القدرة على العمل عن بعد على شبكة الانترنت ، سوف تعمل مؤسِّسة أرشيف ليلى شيرين صقر ومدير التكنولوجيا إيان جونز من مقر اقامتهما في لوس انجليس في كاليفورنيا، في حين أنّ مهندس البرمجيّات محمود سعيد سيعمل من مقرّه في الاسكندرية في مصر . وسوف يجتمع الفريق في الاسكندرية في مصر حوالي مايو 2012 للعمل بمجهود مكثّف على البرمجة والترميز الإلكتروني فترة 3 أسابيع.
 
سوف يتم معظم العمل و التطوير في بيئة إلكترونية "virtual environment" على ملقمات سحابة أرشيف "R-Shief Cloud". وبفضل القدرة على العمل عن بعد على شبكة الانترنت ، سوف تعمل مؤسِّسة أرشيف ليلى شيرين صقر ومدير التكنولوجيا إيان جونز من مقر اقامتهما في لوس انجليس في كاليفورنيا، في حين أنّ مهندس البرمجيّات محمود سعيد سيعمل من مقرّه في الاسكندرية في مصر . وسوف يجتمع الفريق في الاسكندرية في مصر حوالي مايو 2012 للعمل بمجهود مكثّف على البرمجة والترميز الإلكتروني فترة 3 أسابيع.
 
 
وصلات:
+
== روابط ==
 
+
* http://r-shief.org
http://r-shief.org
+
* http://r-shief.org/openegypt-in-memory-of-ali-shaath
 
 
http://r-shief.org/openegypt-in-memory-of-ali-shaath/
 
  
  
سطر 39: سطر 36:
 
أرشيف
 
أرشيف
 
نبذة
 
نبذة
مع نمو المحتوى الرقمي على الإنترنت, يظهر جليا الاحتياج لوجود أدواة لتحليل هذا المحتوى بشكل مميكن قادر على تحليل
+
مع نمو المحتوى الرقمي على الإنترنت, يظهر جليا الاحتياج لوجود أدواة لتحليل هذا المحتوى بشكل مميكن قادر على تحليل محتوى بهذا الحجم. هناك العديد من الأدوات المتعلقة بتحليل النصوص قيد البحث والتطوير، خصوصا للمحتوى من اللغة
محتوى بهذا الحجم. هناك العديد من الأدوات المتعلقة بتحليل النصوص قيد البحث والتطوير، خصوصا للمحتوى من اللغة
 
 
الانجليزية والعديد من اللغات الأخرى.
 
الانجليزية والعديد من اللغات الأخرى.
تعمل ارشيف من سنوات على جمع وحفظ المحتوى العربي من الشبكة. وتهدف إلى بناء محرك تحليل للنصوص العربية بشكل
+
تعمل ارشيف من سنوات على جمع وحفظ المحتوى العربي من الشبكة. وتهدف إلى بناء محرك تحليل للنصوص العربية بشكل ذكي لتحقيق اقصى فائدة معلوماتية منه.
ذكي لتحقيق اقصى فائدة معلوماتية منه.
+
هذا المشروع يشمل البحث والتطوير المتعلق ببناء هذا المحرك مجالات تحليل النصوص
هذا المشروع يشمل البحث والتطوير المتعلق ببناء هذا المحرك
 
مجالات تحليل النصوص
 
 
هناك العديد من الطرق المختلفة لتحليل النصوص لأغراض مخلتفة. من المجالات المعنية في هذا المشروع:
 
هناك العديد من الطرق المختلفة لتحليل النصوص لأغراض مخلتفة. من المجالات المعنية في هذا المشروع:
Tagging توصيف النص بإشارات مرجعية
+
; Tagging توصيف النص بإشارات مرجعية
تحليل النص واستخراج الكلمات اللي يمكنها ان توصف النص وتستخدم كإشارة مرجعية له
+
: تحليل النص واستخراج الكلمات اللي يمكنها ان توصف النص وتستخدم كإشارة مرجعية له
Named Entity Recognition استخراج الكيانات
+
; Named Entity Recognition استخراج الكيانات
ويعتبر ايضا من أنواع توصيف النص. مع الفرق عن النوع السابق أن هذا النوع يعتمد على معرفة مسبقة بالكيانات
+
: ويعتبر ايضا من أنواع توصيف النص. مع الفرق عن النوع السابق أن هذا النوع يعتمد على معرفة مسبقة بالكيانات والتي تكون متاحة في شكل معجم
والتي تكون متاحة في شكل معجم
+
; Semantic Analysis التحليل الدلالي
Semantic Analysis التحليل الدلالي
+
: ويعني باستخدام قواعد اللغة لفهم العلاقات المختلفة بين الكيانات المعنية في النص.
ويعني باستخدام قواعد اللغة لفهم العلاقات المختلفة بين الكيانات المعنية في النص.
+
; Sentiment Analysis تحليل المشاعر
Sentiment Analysis تحليل المشاعر
+
: ويركز هذا النوع على محاولة استنباط موقف ومشاعر الكاتب للنص قيد التحليل. وله تطبيقات كثيرة في فهم اراء ومشاعر الجمهور
ويركز هذا النوع على محاولة استنباط موقف ومشاعر الكاتب للنص قيد التحليل. وله تطبيقات كثيرة في فهم اراء
+
; أداة أرشيف لاستخراج الكيانات العربية
ومشاعر الجمهور
+
: حصلت أرشيف على دعم من برنامج [[متر#أضِف أنتم|برنامج أضف أنتم]] في 2013 لتطوير أداة استخراج الكيانات للنصوص العربية. وجعلها متاحة في واجهة برمجية تمكن الأخرين من استخدامها بصور متعددة تعتمد على تطبيقاتهم.
أداة أرشيف لاستخراج الكيانات العربية
+
http://rshief.org/textanalysis/arabicentityextractionapidocumentation
حصلت أرشيف على دعم أنتم من مؤسسة أضف في 2013 لتطوير أداة استخراج الكيانات للنصوص العربية. وجعلها متاحة في
+
 
صورة واجهة برمجية تمكن الأخرين من استخدامها بصور متعددة تعتمد على تطبيقاتهم.
+
أطلق النموذج الأولي من الأداء والواجهة البرمجية على موقع أرشيف. كما تم تطوير واجهة برمجية تسمح بتجربة الأداة http://rshief.org/textanalysisentityextractiondemo بشكل مباشر للتعرف على جودة التحليل
http://rshief.
+
حتى يمكن للمستخدمين التعرف على الأداة وملاحظة التقدم والتحسن في جودة التحليل في اثناء انشغالنا بالتطوير  
org/textanalysis/
+
 
arabicentityextractionapidocumentation
+
أداة استخراج الكيانات المتاحة حاليا مبنية على قاعدة بيانات ألنسخة العربية من الموسوعة الحرة ويكيبيديا. هدفنا هو تطوير أداة تستطيع بشكل دوري ان تحدث من القاعدة المعرفية التي تستخدمها عن طريق تحميل وتحليل النسخ المحدثة
وتم اطلاق النموذج الأولي من الأداء والواجهة البرمجية على موقع أرشيف. كما تم تطوير واجهة برمجية تسمح بتجربة الأداة
 
http://rshief.
 
org/textanalysis/
 
entityextractiondemo
 
بشكل مباشر للتعرف على جودة التحليل
 
حتى يمكن للمستخدمين التعرف على الأداة وملاحظة التقدم والتحسن في جودة التحليل في اثناء انشغالنا بالتطوير
 
http://ar.wikipedia.org أداة استخراج الكيانات المتاحة حاليا مبنية على قاعدة بيانات ألنسخة العربية من الموسوعة الحرة
 
هدفنا هو تطوير أداة تستطيع بشكل دوري ان تحدث من القاعدة المعرفية التي تستخدمها عن طريق تحميل وتحليل النسخ المحدثة
 
 
دوريا من قاعدة بيانات الموسوعة الحرة
 
دوريا من قاعدة بيانات الموسوعة الحرة
 +
 
البحث المتعلق بأدوات معالجة النصوص
 
البحث المتعلق بأدوات معالجة النصوص
كانت الخطوة الأولى التي اتخذناها لبناء المحرك هي بحث ما تم تطويره في كل من الأوساط الأكاديمية والصناعية. معظم ما تم
+
كانت الخطوة الأولى التي اتخذناها لبناء المحرك هي بحث ما تم تطويره في كل من الأوساط الأكاديمية والصناعية. معظم ما تم الوصول إليه يخدم النصوص الانجليزية. ومع ذلك فقد بذلت جهود عديدة لتوفير حلول ذات جودة عالية لمعالجة النصوص
الوصول إليه يخدم النصوص الانجليزية. ومع ذلك فقد بذلت جهود عديدة لتوفير حلول ذات جودة عالية لمعالجة النصوص
 
 
العربية. من هذه الجهود:
 
العربية. من هذه الجهود:
Stanford CoreNLP مشروع معالجة اللغة العربية كجزء من مكتبة ستانفورد لمعالجة اللغات الطبيعية
+
; Stanford CoreNLP مشروع معالجة اللغة العربية كجزء من مكتبة ستانفورد لمعالجة اللغات الطبيعية
يركز هذا المشروع على خاصية ترجمة النصوص من لغة لأخرى، كما يأخذ في الاعتبار احصائيات بناء النص
+
: يركز هذا المشروع على خاصية ترجمة النصوص من لغة لأخرى، كما يأخذ في الاعتبار احصائيات بناء النص وتوصيف النصوص
وتوصيف النصوص
+
; Arabic WordNet AWN
Arabic WordNet AWN
+
: يتبع هذا المشروع الاسلوب المتبع في نظيره للغة الانجليزية واستطاع ان يحدد العديد من المفردات ومرادفاتها في اللغات الأخرى
يتبع هذا المشروع الاسلوب المتبع في نظيره للغة الانجليزية واستطاع ان يحدد العديد من المفردات ومرادفاتها في
+
; GATE كما جرت محاولات لبناء أدوات تحليل للنصوص العربية بناء على اطار General Architecture for Text Engineering
اللغات الأخرى
+
 
GATE كما تمت محاولات لبناء أدوات تحليل للنصوص العربية بناء على اطار
+
كما قام طه زروقي وأخرون بتطوير عدد من الادوات لمعالجة النصوص العربية لأزالة علامات الجر والكلمات غير ذات الدلالة الى جانب تشكيل النصوص
General Architecture for Text Engineering
+
 
كما قام طه زروقي وأخرون بتطوير عدد من الادوات لمعالجة النصوص العربية لأزالة علامات الجر والكلمات الغير ●
+
وقام محمد عطية من جامعة جورج واشنطن ببناء قائمة من الوسومات مستخرجة من الموسوعة الحرة يمكن استخدامها لبناء المعجم المستخدم في بناء أداء لاستخراج الكيانات. وقام بنشر كيفية قيامه بنائه هذه القائمة
ذي دلالة الى جانب تشكيل النصوص
+
 
وقام محمد عطية من جامعة جورج واشنطن ببناء قائمة من الوسومات مستخرجة من الموسوعة الحرة ويمكن ●
+
تهدف أرشيف الى بناء محرك تحليل النصوص العربية على مجموعة من الأجزاء:
استخدامها لبناء المعجم المستخدم في بناء أداء لاستخراج الكيانات. وقام بنشر كيفية قيامه ببناه هذه القائمة
+
; أداة استخراج الكيانات. والتي ستمكن من توصيف النصوص بصورة ادق من التوصيف العام
محرك أرشيف لتحليل النصوص العربية
+
: قام فريق أرشيف ببناء النموذج الأولي وجعله متاحة عن طريق واجهة برمجية وواجهة مستخدم لتسهل على المتابعين تجربته بحريه
تهدف أرشيف الى بناء محرك تحليل النصوص العربية على مجموعة من الأجزاء
+
; التحليل الدلالي للنص
أداة استخراج الكيانات. والتي ستمكن من توصيف النصوص بصورة ادق من التوصيف العام
+
: عن طريق تحليل استخدام قواعد اللغة وعناصر بناء الجملة حتى يتسنى تحديد العلاقات بين الكيانات المعنية في النص.
قام فريق أرشيف ببناء النموذج الأولي وجعله متاحة عن طريق واجهة برمجية وواجهة مستخدم لتسهل على المتابعين
+
; تحليل المشاعر
تجربته بحريه
+
: وهو الخطوة الاخيرة في المحرك ويهدف الى معرفة رأي الجمهور في موضوع معين عن طريق تحليل النصوص المنشوية من هذا الجمهور على الشبكة والوصول الى استنباطات بصورة عملية
التحليل الدلالي للنص. عن طريق تحليل استخدام قواعد اللغة وعناصر بناء الجملة حتى يتسنى تحديد العلاقات بين
+
 
الكيانات المعنية في النص.
 
تحليل المشاعر. وهو الخطوة الاخيرة في المحرك ويهدف الى معرفة رأي الجمهور في موضوع معين عن طريق
 
تحليل النصوص المنشوية من هذا الجمهور على الشبكة والوصول الى استنباطات بصورة عملية
 
 
يبقى هدف أرشيف بناء محرك شامل حتى يفتح المجال لبناء أنظمية ذكية عالية الجودة تختص بتحليل وفهم المحتوى العربي.
 
يبقى هدف أرشيف بناء محرك شامل حتى يفتح المجال لبناء أنظمية ذكية عالية الجودة تختص بتحليل وفهم المحتوى العربي.
  
[[تصنيف:أضف أنتم]]
+
[[تصنيف:مشروعات أضف أنتم]]

مراجعة 00:35، 15 أكتوبر 2015

يهدف مشروع آر-شيف الى تجميع وتحليل المحتوى الرقمي للوصول إلى آراء الناس عن الأحداث الجارية. عن طريق تجميع المحتوى العربي من مواقع التواصل الاجتماعي والمدونات. كما تهدف لتقديم الادوات والخدمات اللازمة للجهود البحثية في هذا المجال, التي تفيد الأكاديميّين و الناشطين السياسيّين و الفنّانين و الصحافيّين، الخ...

قام آر-شيف بتجميع كمية كبيرة من المحتوى الرقمي العربي والانجليزي منذ 2008. واستطاعت تجميع المحتوى المتعلق بالثورات في المنطقة العربية لتكون مصدر لهذا الأرشيف

بحلول يناير 2012 قامت أداة أرشيف لتجميع التغريدات بأرشفة ما يزيد عن 284 مليون تغريدة ‏‏ من أهداف المشروع تطوير واستخدام التطبيقات اللازمة لتجميع المحتوى العربية من على شبكات التواصل الاجتماعي وتحليله لاستخراج الأنماط بصورة فورية. عن طريق استخدام محرك يزيد من خبرته وذكائه كلما قام بتحليل كميات اكبر من المحتوى الرقمي

‏== الفئات المستهدفة والنطاق الجغرافي ‏== في هذه المرحلة يهدف ارشيف الى التركيز على دعم اللغة العربية تمهيدا لدعم باقي اللغات الشرقية.

سيخدم كل المهتمين بمعرفة نبض الشارع العربي واراؤه المختلفة عما يحدث في المنطقة العربية أو حول العالم. من باحثين اقليميّين و غيرهم في العالم، إلى أكاديميّين، ناشطين سياسيّين، فنّانين، و حتى إعلاميّين في وسائل الاعلام المختلفة.

يشمل النطاق الجغرافي جميع أنحاء العالم فعلاً، مع التركيز طبعاً على العالم العربي، وبالأخص على البلاد المتأثّرة بالأحداث الأخيرة.

‏== مراحل المشروع المختلفة وخطة العمل ‏==

  1. بناء المنظومة الالكترونية اللي يمكنها تخزين المفردات والجمل باللغة العربية. والمرادفات ودلالات كل منها.
  2. استخراج هذه المفردات والجمل من التغريدات التي قام أرشيف بتجميهعا لاضافتها الى المنظومة الالكترونية
  3. تصنيف كل من البيانات في القاموس وتحديد مدلولاتها لاعطاء المنظومة الخبرة اللازمة لفهم المحتوى
  4. استخدام هذه المنظومة لتحليل وابراز نتائج المحتوى العربي وابراز معانيه بصورة فورية
  5. جعل هذه الخدمة متاحة الى غيرنا من الفرق والمؤسسات، و بناء واجهة تفاعليّة تتيح للمستخدمين الوصول الى البيانات "crowdsourced data" والإمكان من تحليل هذه البيانات لغاياتهم البحثيّة المختلفة.

ما يميّز أرشيف هو قدرة المشروع على دمج الذكاء البشري بذكاء الحاسوب. ينطوي نهجنا في تحليلات وسائل الاعلام الاجتماعية على السماح لبرنامج الكمبيوتر بتجميع البيانات وتحديد الأنماط في الوقت المباشر "real-time"، فنظام الحوسبة "swarm computing" لدينا يكتسب أكثر ذكاء في الوقت الذي يعمل على بناء المعجم الخاصة به. في الخطوة التالية نفتح قاعدة البيانات إلى الشعوب الناطقة بالعربية على الانترنت ليتمكّنوا من تعيين السمات بشكل صحيح لهذا المعجم الجديد -للإستفادة من الخبرات البشرية والحاسوبية في آن واحد. ففي حين ركز الآخرون على نتائج تحليل البيانات بشكل الاتجاهات والأرقام ، نحن نركز على إظهار ما يعنيه حقا، على الدلالة الحقيقيّة للعبارات. هدفنا الرئيسي هو تحقيق اختراقات حقيقية في فهم دلالات الكلمات في المفهوم العام، لإعطاء أصوات الناس على الانترنت الفرصة لتكون مسموعة و مفهومة بمعناها و سياقها الحقيقي. ‏

مكان وشركاء التنفيذ ‏

سوف يتم معظم العمل و التطوير في بيئة إلكترونية "virtual environment" على ملقمات سحابة أرشيف "R-Shief Cloud". وبفضل القدرة على العمل عن بعد على شبكة الانترنت ، سوف تعمل مؤسِّسة أرشيف ليلى شيرين صقر ومدير التكنولوجيا إيان جونز من مقر اقامتهما في لوس انجليس في كاليفورنيا، في حين أنّ مهندس البرمجيّات محمود سعيد سيعمل من مقرّه في الاسكندرية في مصر . وسوف يجتمع الفريق في الاسكندرية في مصر حوالي مايو 2012 للعمل بمجهود مكثّف على البرمجة والترميز الإلكتروني فترة 3 أسابيع. ‏

روابط


معلومات مهمة يمكن مزجها

أدوات تحليل النصوص العربية أرشيف نبذة مع نمو المحتوى الرقمي على الإنترنت, يظهر جليا الاحتياج لوجود أدواة لتحليل هذا المحتوى بشكل مميكن قادر على تحليل محتوى بهذا الحجم. هناك العديد من الأدوات المتعلقة بتحليل النصوص قيد البحث والتطوير، خصوصا للمحتوى من اللغة الانجليزية والعديد من اللغات الأخرى. تعمل ارشيف من سنوات على جمع وحفظ المحتوى العربي من الشبكة. وتهدف إلى بناء محرك تحليل للنصوص العربية بشكل ذكي لتحقيق اقصى فائدة معلوماتية منه. هذا المشروع يشمل البحث والتطوير المتعلق ببناء هذا المحرك مجالات تحليل النصوص هناك العديد من الطرق المختلفة لتحليل النصوص لأغراض مخلتفة. من المجالات المعنية في هذا المشروع:

Tagging توصيف النص بإشارات مرجعية
تحليل النص واستخراج الكلمات اللي يمكنها ان توصف النص وتستخدم كإشارة مرجعية له
Named Entity Recognition استخراج الكيانات
ويعتبر ايضا من أنواع توصيف النص. مع الفرق عن النوع السابق أن هذا النوع يعتمد على معرفة مسبقة بالكيانات والتي تكون متاحة في شكل معجم
Semantic Analysis التحليل الدلالي
ويعني باستخدام قواعد اللغة لفهم العلاقات المختلفة بين الكيانات المعنية في النص.
Sentiment Analysis تحليل المشاعر
ويركز هذا النوع على محاولة استنباط موقف ومشاعر الكاتب للنص قيد التحليل. وله تطبيقات كثيرة في فهم اراء ومشاعر الجمهور
أداة أرشيف لاستخراج الكيانات العربية
حصلت أرشيف على دعم من برنامج برنامج أضف أنتم في 2013 لتطوير أداة استخراج الكيانات للنصوص العربية. وجعلها متاحة في واجهة برمجية تمكن الأخرين من استخدامها بصور متعددة تعتمد على تطبيقاتهم.

http://rshief.org/textanalysis/arabicentityextractionapidocumentation

أطلق النموذج الأولي من الأداء والواجهة البرمجية على موقع أرشيف. كما تم تطوير واجهة برمجية تسمح بتجربة الأداة http://rshief.org/textanalysisentityextractiondemo بشكل مباشر للتعرف على جودة التحليل حتى يمكن للمستخدمين التعرف على الأداة وملاحظة التقدم والتحسن في جودة التحليل في اثناء انشغالنا بالتطوير

أداة استخراج الكيانات المتاحة حاليا مبنية على قاعدة بيانات ألنسخة العربية من الموسوعة الحرة ويكيبيديا. هدفنا هو تطوير أداة تستطيع بشكل دوري ان تحدث من القاعدة المعرفية التي تستخدمها عن طريق تحميل وتحليل النسخ المحدثة دوريا من قاعدة بيانات الموسوعة الحرة

البحث المتعلق بأدوات معالجة النصوص كانت الخطوة الأولى التي اتخذناها لبناء المحرك هي بحث ما تم تطويره في كل من الأوساط الأكاديمية والصناعية. معظم ما تم الوصول إليه يخدم النصوص الانجليزية. ومع ذلك فقد بذلت جهود عديدة لتوفير حلول ذات جودة عالية لمعالجة النصوص العربية. من هذه الجهود:

Stanford CoreNLP مشروع معالجة اللغة العربية كجزء من مكتبة ستانفورد لمعالجة اللغات الطبيعية
يركز هذا المشروع على خاصية ترجمة النصوص من لغة لأخرى، كما يأخذ في الاعتبار احصائيات بناء النص وتوصيف النصوص
Arabic WordNet AWN
يتبع هذا المشروع الاسلوب المتبع في نظيره للغة الانجليزية واستطاع ان يحدد العديد من المفردات ومرادفاتها في اللغات الأخرى
GATE كما جرت محاولات لبناء أدوات تحليل للنصوص العربية بناء على اطار General Architecture for Text Engineering

كما قام طه زروقي وأخرون بتطوير عدد من الادوات لمعالجة النصوص العربية لأزالة علامات الجر والكلمات غير ذات الدلالة الى جانب تشكيل النصوص

وقام محمد عطية من جامعة جورج واشنطن ببناء قائمة من الوسومات مستخرجة من الموسوعة الحرة يمكن استخدامها لبناء المعجم المستخدم في بناء أداء لاستخراج الكيانات. وقام بنشر كيفية قيامه بنائه هذه القائمة

تهدف أرشيف الى بناء محرك تحليل النصوص العربية على مجموعة من الأجزاء:

أداة استخراج الكيانات. والتي ستمكن من توصيف النصوص بصورة ادق من التوصيف العام
قام فريق أرشيف ببناء النموذج الأولي وجعله متاحة عن طريق واجهة برمجية وواجهة مستخدم لتسهل على المتابعين تجربته بحريه
التحليل الدلالي للنص
عن طريق تحليل استخدام قواعد اللغة وعناصر بناء الجملة حتى يتسنى تحديد العلاقات بين الكيانات المعنية في النص.
تحليل المشاعر
وهو الخطوة الاخيرة في المحرك ويهدف الى معرفة رأي الجمهور في موضوع معين عن طريق تحليل النصوص المنشوية من هذا الجمهور على الشبكة والوصول الى استنباطات بصورة عملية

يبقى هدف أرشيف بناء محرك شامل حتى يفتح المجال لبناء أنظمية ذكية عالية الجودة تختص بتحليل وفهم المحتوى العربي.