كيف يمكن مقارنة استخدام النسب المئوية (Percentrank) والقيم المعيارية (Z-scores) في تحليل الأسهم من خلال تقنيات التعلم الآلي؟
النسب المئوية (Percentrank) تقيس موقع قيمة داخل توزيع محدد وتنتج مقياسًا نسبيًا محصورًا عادة بين 0 و1، بينما القيم المعيارية (Z-scores) تقيس كم تنحرف القيمة عن المتوسط بعد قسمة الفرق على الانحراف المعياري. في تطبيقات التعلم الآلي، تُستخدم النسب المئوية لتحويل الخصائص إلى ترتيب نسبي مقاوم لتوزيعات غير طبيعية، بينما تُستخدم القيم المعيارية لتمييع المقاييس ولنماذج تتأثر بالمسافات أو الافتراضات التقريبة للتوزيع.
شرح مبسط للمفهوم
النسب المئوية (Percentrank) هي تحويل يضع كل قيمة في موضعها النسبي ضمن مجموعة قيّم — على سبيل المثال قيمة عند النسبة 0.8 تُشير إلى أنها أكبر من 80% من القيم في العينة. القيم المعيارية (Z-score) تحسب الفارق بين القيمة والمتوسط ثم تقسمه على الانحراف المعياري، فالقيم المعيارية تعبر عن عدد الانحرافات المعيارية التي تبعدها القيمة عن المتوسط. النسب المئوية لا تفترض أي شكل للتوزيع وتكون محصورة، بينما القيم المعيارية تفترض أن الانحراف المعياري ذا معنى إحصائياً وتكون حساسة للاختلالات والـoutliers. في سياق الأسهم، يجب الفصل بين بيانات سعرية غير ثابتة عبر الزمن (عدم الثبات) ومتطلبات نموذج التعلم الآلي عند اختيار طريقة التحويل.
لماذا يهم هذا الموضوع للمتداولين والمستثمرين؟
- تحسين جودة التنفيذ: ميزات أكثر اتساقاً تقلل من الأخطاء في إشارات التداول وتُقلل الانزلاق السعري الناتج عن إخراج إشارات متذبذبة.
- تأثير على التكلفة: تحويلات غير مناسبة قد تزيد من عدد الصفقات أو حجم التداول غير المطلوب، ما يؤدي إلى تكاليف عمولات وانزلاق سعري أعلى.
- التحكم في المخاطر: مقاييس موحّدة تساعد نماذج المخاطر على التفاعل بشكل متوقع مع تغيرات السيولة وحجم التداول.
- قابلية التعميم: النسب المئوية قد تعطي نتائج أكثر ثباتاً عبر قطاعات وأسواق ذات توزيعات مختلفة مقارنةً باستخدام Z-score بدون معالجة مسبقة.
- أثر على الأداء النموذجي: بعض الخوارزميات (مثل k-NN وSVM) حساسة لمدى التباين، بينما أشجار القرار أقل حساسية، لذا اختيار التحويل يؤثر في دقة النموذج.
- الشفافية والتفسير: النسب المئوية تسهّل تفسير ترتيب السهم داخل مجموعة مقارنة بالمعنى الإحصائي للقيمة المعيارية.
- الاعتمادية في الاختبارات الرجعية: استخدام تحويلات تتسق بين فترة التدريب والاختبار يقلل من تحيّز التسرب المستقبلي ويحسّن مصداقية النتائج.
كيف يعمل هذا الأمر عمليًا؟
في أنظمة التعلم الآلي للأسهم تُطبَّق التحويلات كجزء من مرحلة هندسة الخصائص قبل التدريب. تُحسب النسب المئوية عادة عبر نافذة تاريخية أو بالنسبة لمجموعة من الأصول، بينما تُحسب القيم المعيارية باستخدام متوسط وانحراف معياري محسوبين عبر نافذة معينة أو مجموعة تدريب ثابتة. الاختيار يعتمد على تكرار الإشارات، استقرار التوزيع، ونوع النموذج.
- تحديد النافذة: استخدام نافذة متحركة للـZ-score أو percentrank لتقليل الانحراف بسبب التغيرات الموسمية أو الإطارية.
- التحكم بالـoutliers: قص القيم أو استخدام winsorization قبل حساب Z-score لتقليل التأثير غير المتناسب.
- الترتيب مقابل المقاييس المطلقة: percentrank يعطي معلومات ترتيبية مفيدة لنماذج تعتمد على الترتيب، بينما Z-score مفيد للنماذج التي تستخدم المسافة أو الانحدار.
- التسلسل في خط الأنابيب: تطبق التحويلات بعد تنظيف البيانات وإزالة الفجوات، وقبل تشكيل المجموعات التدريبية والاختبارية لتجنب التسرب.
- التعامل مع عدم الثبات: إعادة حساب المتوسط والانحراف المعياري بانتظام لمواجهة تحولات السوق؛ أو استخدام مقاييس مقاومة للتغير مثل median وMAD.
- التوافق مع خصائص النموذج: نماذج الأشجار قد تستفيد أقل من القياسات المعيارية، بينما الشبكات العصبية والـkNN تحتاج لقياسات متجانسة.
أخطاء شائعة يجب تجنبها
- استخدام Z-score محسوب على فترة كاملة وطباعته على فترة اختبار تسبب تسرب معلومات مستقبلية.
- عدم التعامل مع الصفر في الانحراف المعياري أو التباين المنخفض مما يؤدي إلى قيم غير محددة أو متفجرة.
- تجاهل الاختلاف بين بيانات سيولة مرتفعة ومنخفضة عند تطبيق نفس التحويل على كل الأصول.
- الاعتماد فقط على percentrank وفقدان معلومات المسافة الفعلية عن المتوسط الذي قد يكون مهما للمخاطر.
- تطبيق percentrank عبر مجموعة بيانات غير متجانسة يؤدي إلى ترتيب مضلل بين أصول ذات خصائص مختلفة.
- عدم تحديث النماذج أو المحولات عند تغيير بيئة السوق، مما يؤدي إلى تدهور الأداء.
- افتراض أن القيم الناتجة تعادل احتمالات فعلية أو مقياس مخاطر دون تحويل إضافي أو تحقق إحصائي.
نصائح عملية قابلة للتطبيق
- اعتمد نافذة تاريخية مناسبة لطبيعة الاستراتيجية (قصيرة للإشارات الترددية، طويلة للإستراتيجية الاتجاهية) وأعد تقييمها دورياً.
- قم بقطع القيم المتطرفة أو استخدام مقاييس مقاومة كالوسيط وMAD قبل حساب Z-score.
- استخدم percentrank عندما تهتم بترتيب الأصول داخل مجموعة ولتجنب افتراضات توزيعية قوية.
- حافظ على اتساق عملية التحويل بين التدريب والتشغيل الحي بتخزين معايير التحجيم وإعادة استخدامها.
- ادمج كلتا الطريقتين كخصائص موازية في النموذج لمنح معلومات ترتيبية ومعلومات مسافة.
- قم بمحاكاة التكلفة الحقيقية تشمل العمولات والانزلاق السعري عند اختبار تأثير التحويلات على عدد الصفقات.
- راقب انحراف التوزيع والـconcept drift وأعد تدريب أو ضبط المحولات عند كشف تغيرات جوهرية.
- وثق خط أنابيب هندسة الخصائص وقم باختبارات استقرار للخصائص قبل اعتمادها في القرار التداولي.
قائمة تحقق سريعة
- هل تم اختيار نافذة زمنية مناسبة لطبيعة الإشارة؟
- هل تم معالجة القيم المتطرفة قبل حساب Z-score؟
- هل تتطابق محولات التدريب مع المحولات المستخدمة في التشغيل الحي؟
- هل تمت محاكاة التكاليف والإنزلاق السعري؟
- هل جُربت كلا الطريقتين في النموذج للمقارنة؟
- هل تم تجنب أي تسرب مستقبلي عند حساب المعايير الإحصائية؟
- هل راقبت تغيّر التوزيعات بمرور الوقت؟
الأسئلة الشائعة
سؤال: ما الفرق الرئيسي بين استخدام percentrank وZ-score عند بناء نماذج تعلم آلي للأسهم؟
الفرق الرئيسي أن percentrank يعطي ترتيبًا نسبيًا محصورًا ولا يفترض شكل التوزيع، بينما Z-score يقيس البُعد عن المتوسط بوحدات الانحراف المعياري ويكون حساسًا للاختلالات. اختيار أحدهما يعتمد على متطلبات النموذج: ترتيب مقابل مقياس المسافة.
سؤال: أيهما أفضل للمبتدئين في تحليل الأسهم باستخدام التعلم الآلي—percentrank أم Z-score؟
للمبتدئين، percentrank قد يكون أسهل للفهم وللتفسير لأن نتائجه محصورة وترتيبية ولا تتطلب افتراضات توزيعية صارمة. مع ذلك، تعلم استخدام Z-score مهم عند التعامل مع نماذج حساسة للمقياس أو عند تفسير الانحرافات الإحصائية.
سؤال: هل يؤثر اختيار التحويل على التكاليف والتنفيذ الفعلي للصفقات؟
نعم، تحويلات الخصائص تؤثر في نماذج الإشارة وبالتالي في تكرار وحجم الصفقات، مما ينعكس مباشرة على التكاليف والإنزلاق السعري. من الضروري محاكاة تأثير التحويلات ضمن نموذج التكلفة والإنزلاق قبل التطبيق العملي.
سؤال: كيف أتجنب التسرب المستقبلي عند استخدام معدلات Z أو percentrank؟
تجنّب التسرب بتقدير المتوسط والانحراف المعياري أو الترتيب فقط من بيانات الفترة السابقة أو من نافذة متحركة، وعدم استخدام معلومات من فترة الاختبار أو المستقبل أثناء حساب المحولات. احرص على فصل بيانات التدريب والاختبار بشكل صارم داخل خط الأنابيب.
سؤال: هل يمكن استثمار كلتا الطريقتين معًا في نموذج واحد؟
نعم، من الممارسات الشائعة إضافة كلتا الخصائص: percentrank لإعطاء معلومات ترتيبية وZ-score لإظهار المسافة عن المتوسط؛ هذا يمنح النموذج مزيدًا من المعلومات ويتيحه التعلم من كلا الأبعاد. تأكد من التحكم في التعدد الخطي وإجراء التحقق المتقاطع لتقييم الفائدة الحقيقية.
الخلاصة: اختيار percentrank أو Z-score يعتمد على طبيعة الإشارة والنموذج ومتطلبات التفسير، ويفضل اختبار كلاهما مع مراعاة معالجة القيم الشاذة والابتعاد عن تسرب البيانات. تطبيق ممارسات هندسة الخصائص الصارمة ومراقبة تأثير التحويلات على التكاليف والإنزلاق السعري يحسّن مصداقية النتائج.