تعتبر اللغتان SAS و SPSS الأكثر شهرة بين الباحثين لأن أغلب الجامعات تشتري رخص استخدام وتتيحها للباحثين مجاناً. المهتمون بالبرمجيات المجانية والبرمجيات مفتوحة المصدر يفضلون استخدام لغة R والتي تلاقي انتشاراً واسعاً هذه الأيام حتى أن البرمجيات التجارية تتيح تصدير البيانات والاتصال مع R و Python.
- SAS هو اختصار Statistical Analysis System أو نظام التحليل الاحصائي وهو برنامج طور في جامعة North Carolina State University وأول ما طور كان بهدف تحيل البيانات الزراعية كبيرة الحجم ثم استقلت شركة SAS كأسم تجاري مستقل منذ 1976
- SPSS هو اختصار لـ Statistical Package for the Social Sciences المطور للعلوم الاجتماعية وهو أول لغة برمجة إحصائية للحواسب الشخصية وقد طور في جامعة Stanford عام 1968 ثم استقل في شركة خاصة باسم SPSS Inc. وبعدها اشترته شركة IBM منذ 2009
- جامعة Auckland طورت لغة البرجة R تحت رخصة المشاع GNU للتركيز على النمذجة الاحصائية في العام 2000.
- اللغة الوحيدة التي لم تطور في أي جامعة هي لغة Python فقد طورها شخص ألماني يحب مجموعة بريطانية للكوميديا السيريالية قامت بابتداع سيرك باسم مونتي بايثون الطائر وهو سبب التسمية وقد حرص على تبسيطها كلغة برمجة وهي ليست لغة احصائية لكنها تقبل إضافة الكثير من الـ Modules والتي تعتبر الوحدات الإحصائية من أهمها ما جعل لغة بايثون تصنف ضمن مجال لغات البرمجة الاحصائية.
- بالنسبة للسعر تعتبر كل من SPSS و SAS ذات سعر مرتفع نسبياً بينما R و Python فمجانيتين. لكن SPSS و SAS أكثر انتشاراً لأنهما أبسط في التعامل وواجهاتهما الرسومية GUI أبسط وتغني عن كتابة أي كود برمجي وبالتالي يمكن تعلمهما بسهولة أكبر بالمقارنة مع R و Python التي تحتاج لمهارات برمجية. ولعل تعلم لغة R هو الأصعب للمبتدئين لكن التقدم فيها يصبح أسهل بعد فهم المبادئ. ومن الجدير بالذكر أنه بالرغم من صحة أن Python تعتبر لغة بسيطة لكن الخصائص الاحصائية المضافة ليست بهذه السهولة.
- بالنسبة للدعم الفني: طبعاً كل من SPSS و SAS مدعومتان من شركات تجارية توفر فريقاً للدعم الفني. لكن بالمقابل فإن شعبية المصادر المفتوحة توفر عدداً كبيراً من المستخدمين الذين يتعاونون عبر مواقع الأسئلة والمنتديات ليجيبوا على الأسئلة المطروحة.
- قد لا تكون الواجهات الرسومية لـ R و Python بدرجة الاحترافية التي تقدمها SPSS و SAS لكن وجود خيارات متعددة وامكانيات التعديل في موديولات مثل ggplot2 وRattle لـ R وكل من ggplot-module و Matplotlib في Python قد تجعلها خياراً أفضل للمطورين المحترفين.
- Python هي بيئة تطويرية متعددة الأغراض والمهام ما يعطيها القوة. كما أنها مصممة لدعم التطبيقات applications ومن المزايا الاحصائية لها أنها تدعم التعلم الآلي.
- تملك R مكتبات (reticulate, rPython) لدعم البرامج المكتوبة في Python كما وتدعم Python تشغيل البرامج المكتوبة بلغة R من خلال مكتبة (rpy2) مم يجعل البيئتين متكاملتين وقابلتين للاستخدام معاً
- يمكن تقسيم تحليل البيانات إلى قسمين أساسيين: الأول هو وصف البيانات والنماذج الرياضية المحددة لعلاقاتها ببعضها. والثاني هو التنبؤ الرياضي. بمعنى آخر أن تحليل البيانات يهدف للإجابة على سؤالين: الأول لماذا تحدث ظاهرة محددة من خلال البيانات المعروضة؟ والسؤال الثاني هو ما هو الفعل أو الصنف الذي سيحدث بناء على معطيات معينة. فالسؤال الأول يهدف لوصف الظاهرة، بينما السؤال الثاني هو توقع ما سيحدث. والتوقع هو الدراسة الأقرب للتعلم الآلي machine learning أو ما يسمى التنقيب في البيانات Data mining.
كل من SPSS و SAS تم تطويرهما في الأساس في بيئة أكاديمية من أجل تطبيقات تركز على وصف البيانات. حالياً يملك كل مهما أدوات كـ SAS Enterprise Miner and SPSS Modeler لكن يحتاج المرء لدفع سعر إضافي للحصول على ترخيص استخدام هذه الميزات. وهنا تبرز أفضلية للبرامج مفتوحة المصدر في أنها دائما قيد التطوير والتحديث والإضافة من قبل مجتمع كبير ومتعدد المتطلبات. مما يجعل المشاركات أكبر ويعطي لـ R ميزات قوية في المجالين الوصفي والتنبئي.
بالنسبة لـ Python فهو يدعم التطبيقات التجارية ويركز بشكل أكبر على الإحصاء التنيبئي وتطبيقات البيانات الكبيرة big data.
Comments
Post a Comment