TY - JOUR JF - The-Neuroscience-Journal-of-Shefaye-Khatam JO - Shefaye Khatam VL - 9 IS - 4 PY - 2021 Y1 - 2021/10/01 TI - Developing a Reinforcement Learning Algorithm to Model Pavlovian Approach Bias on Bidirectional Planning TT - توسعۀ الگوریتم یادگیری تقویتی برای مدل کردن اثر ایمای پاولفی روی برنامه‌ریزی دوجهته N2 - مقدمه: فرآیند تصمیم‌گیری در مغز انسان توسط دو سازوکار یادگیری پاولفی و ابزاری کنترل می‌شود. یادگیری پاولفی با آموختن پیوند محرک- نتیجه به یادگیری منجر می‌شود بدون آن‌که به عمل انتخابی وابسته باشد. همچنین این یادگیری به‌ صورت تمایل به نزدیک شدن به محرک‌های نوید دهندۀ پاداش ظاهر می‌شود. اما کنترلر ابزاری به ‌دنبال یادگیری پیوند عمل- نتیجه است. البته یادگیری ابزاری تنها به نتیجۀ عمل کنونی بسنده نکرده، و ممکن است به ‌صورت یک برنامه‌ریزی رو به‌ جلو دنباله‌ای از عمل‌ها را ارزیابی کند. از طرفی، برنامه‌ریزی رو به ‌جلو ممکن است تنها فرآیند برنامه‌ریزی‌ای نباشد که یادگیری ابزاری از آن استفاده می‌کند. ممکن است انسان‌ها از برنامه‌ریزی روبه‌عقب نیز به ‌منظور ارزیابی توالی عمل‌ها بهره برند. با این وجود برنامه‌ریزی روبه‌عقب کمتر تاکنون مورد توجه قرار گرفته است. پژوهش‌های پیشین نشان دادند با وجود مستقل بودن یادگیری پاولفی و ابزاری، آن‌ها با یکدیگر تعامل ‌می‌کنند. در حقیقت یادگیری پاولفی نزدیک شوندگی روی برنامه‌ریزی رو به ‌جلو تأثیر گذاشته و منجر به اتخاذ تصمیماتی می‌شود که ممکن است از نظر کنترلر ابزاری بهینه‌ نباشند. اما تأثیر یادگیری پاولفی روی برنامه‌ریزی رو‌به‌عقب هنوز مطالعه نشده است. مواد و روش‌ها: در این مقاله، ما یک آزمایش مسیریابی طراحی کردیم که امکان برنامه‌ریزی‌های رو به ‌جلو، رو به ‌عقب، و دوجهته در آن فراهم است، و ایماهای پاولفی نزدیک ‌شوندگی را نیز در نقشه‌ها تعبیه نمودیم. یافته‌ها: تحلیل آماری داده‌های جمع‌آوری شده نه تنها از وجود برنامه‌ریزی رو به ‌عقب حکایت می‌کنند، بلکه نشان ‌می‌دهند که ایمای پاولفی نزدیک ‌شوندگی بر روی سه برنامه‌ریزی تاثیر می‌گذارد، هر چند که این تأثیر در برنامه‌ریزی دوجهته بیش‌تر از روبه‌جلو، و در روبه‌جلو بیش‌تر از روبه‌عقب است. همچنین در بستر یادگیری تقویتی، الگوریتم برنامه‌ریزی دوجهته را تحت بایاس پاولفی توسعه دادیم. نتیجه‌گیری: نتایج شبیه‌سازی با نتایج برآمده از آزمایش سازگار بوده و بیان می‌کنند که تأثیر بایاس پاولفی را می‌توان به ‌نوعی در قالب هرس درختان تصمیم مدل‌سازی نمود. SP - 51 EP - 59 AU - Kakooee, Reza AU - Hamidi Beheshti, Mohammad Taghi AU - Keramati, Mehdi AD - Department of Control, Faculty of Electrical and Computer Engineering, Tarbiat Modares University, Tehran, Iran KW - Decision Making KW - Strategic Planning KW - Conditioning KW - Operant KW - Computer Simulation UR - http://shefayekhatam.ir/article-1-2232-fa.html DO - 10.52547/shefa.9.4.51 ER -