The Neuroscience Journal of Shefaye Khatam
مجله علوم اعصاب شفای خاتم
Shefaye Khatam
Medical Sciences
http://shefayekhatam.ir
1
admin
2322-1887
2345-4814
10.61186/shefa
fa
jalali
1400
7
1
gregorian
2021
10
1
9
4
online
1
fulltext
fa
توسعۀ الگوریتم یادگیری تقویتی برای مدل کردن اثر ایمای پاولفی روی برنامهریزی دوجهته
Developing a Reinforcement Learning Algorithm to Model Pavlovian Approach Bias on Bidirectional Planning
علوم اعصاب شناختی
Cognitive Neuroscience
پژوهشي
Research --- Open Access, CC-BY-NC
<strong>مقدمه: </strong>فرآیند تصمیمگیری در مغز انسان توسط دو سازوکار یادگیری پاولفی و ابزاری کنترل میشود. یادگیری پاولفی با آموختن پیوند محرک- نتیجه به یادگیری منجر میشود بدون آنکه به عمل انتخابی وابسته باشد. همچنین این یادگیری به صورت تمایل به نزدیک شدن به محرکهای نوید دهندۀ پاداش ظاهر میشود. اما کنترلر ابزاری به دنبال یادگیری پیوند عمل- نتیجه است. البته یادگیری ابزاری تنها به نتیجۀ عمل کنونی بسنده نکرده، و ممکن است به صورت یک برنامهریزی رو به جلو دنبالهای از عملها را ارزیابی کند. از طرفی، برنامهریزی رو به جلو ممکن است تنها فرآیند برنامهریزیای نباشد که یادگیری ابزاری از آن استفاده میکند. ممکن است انسانها از برنامهریزی روبهعقب نیز به منظور ارزیابی توالی عملها بهره برند. با این وجود برنامهریزی روبهعقب کمتر تاکنون مورد توجه قرار گرفته است. پژوهشهای پیشین نشان دادند با وجود مستقل بودن یادگیری پاولفی و ابزاری، آنها با یکدیگر تعامل میکنند. در حقیقت یادگیری پاولفی نزدیک شوندگی روی برنامهریزی رو به جلو تأثیر گذاشته و منجر به اتخاذ تصمیماتی میشود که ممکن است از نظر کنترلر ابزاری بهینه نباشند. اما تأثیر یادگیری پاولفی روی برنامهریزی روبهعقب هنوز مطالعه نشده است. <strong>مواد و روشها:</strong> در این مقاله، ما یک آزمایش مسیریابی طراحی کردیم که امکان برنامهریزیهای رو به جلو، رو به عقب، و دوجهته در آن فراهم است، و ایماهای پاولفی نزدیک شوندگی را نیز در نقشهها تعبیه نمودیم. <strong>یافتهها:</strong> تحلیل آماری دادههای جمعآوری شده نه تنها از وجود برنامهریزی رو به عقب حکایت میکنند، بلکه نشان میدهند که ایمای پاولفی نزدیک شوندگی بر روی سه برنامهریزی تاثیر میگذارد، هر چند که این تأثیر در برنامهریزی دوجهته بیشتر از روبهجلو، و در روبهجلو بیشتر از روبهعقب است. همچنین در بستر یادگیری تقویتی، الگوریتم برنامهریزی دوجهته را تحت بایاس پاولفی توسعه دادیم. <strong>نتیجهگیری:</strong> نتایج شبیهسازی با نتایج برآمده از آزمایش سازگار بوده و بیان میکنند که تأثیر بایاس پاولفی را میتوان به نوعی در قالب هرس درختان تصمیم مدلسازی نمود.<span style="font-family:B Nazanin;"><span style="font-size:12.0pt;"></span></span>
<strong>Introduction:</strong> The decision- making process in the human brain is controlled by two mechanisms: Pavlovian and instrumental learning systems. The Pavlovian system learns the stimulus- outcome association independent of action; a process that manifests itself in the tendency to approach reward- associated stimuli. The instrumental controller, on the other hand, learns the action- outcome association. Instrumental learning is not limited to the current action's outcome and may evaluate a sequence of future actions in the form of forward planning. Nonetheless, forward planning may not be the only planning process used by instrumental learning. Humans may also use backward planning to evaluate actions sequences. However, backward planning has received less attention so far. Previous research has shown that despite the independence of Pavlovian and instrumental learning, they interact with each other such that the Pavlovian approach tendency biases forward planning, causing it to make decisions that may not be optimal actions from the instrumental learning perspective. Nevertheless, the effect of Pavlovian learning on backward planning has not yet been studied. <strong>Materials and Methods:</strong> This paper designs a navigation experiment that allows investigating forward, backward, and bidirectional planning. Moreover, we embed Pavlovian approach cues into the maps to investigate how they bias the three forms of planning.<strong> Results:</strong> Statistical analysis of the collected data indicates the existence of backward planning and shows that the Pavlovian- approach cues bias the planning. This bias is stronger in forward planning compared to backward planning and is even stronger in bidirectional planning. In the context of reinforcement learning, we developed a bidirectional planning algorithm under the Pavlovian approach tendency. <strong>Conclusion:</strong> The simulation results are consistent with the experimental results and indicate that the effect of Pavlovian bias can be modeled as pruning of decision trees.
تصمیمگیری, برنامهریزی راهبردی, یادگیری ابزاری, مدلسازی کامپیوتری
Decision Making, Strategic Planning, Conditioning, Operant, Computer Simulation
51
59
http://shefayekhatam.ir/browse.php?a_code=A-10-869-1&slc_lang=fa&sid=1
Reza
Kakooee
رضا
کاکویی
kakooee.reza@gmail.com
100319475328460022061
100319475328460022061
No
Department of Control, Faculty of Electrical and Computer Engineering, Tarbiat Modares University, Tehran, Iran
گروه کنترل، دانشکده برق و کامپیوتر، دانشگاه تربیت مدرس، تهران، ایران
Mohammad Taghi
Hamidi Beheshti
محمد تقی
حمیدی بهشتی
mbehesht@modares.ac.ir
100319475328460022062
100319475328460022062
Yes
Department of Control, Faculty of Electrical and Computer Engineering, Tarbiat Modares University, Tehran, Iran
گروه کنترل، دانشکده برق و کامپیوتر، دانشگاه تربیت مدرس، تهران، ایران
Mehdi
Keramati
مهدی
کرامتی
mehdi.keramati@city.ac.uk
100319475328460022063
100319475328460022063
No
Department of Psychology, School of Social Sciences and Arts, University of London, London, England
گروه روانشناسی، دانشکده علوم اجتماعی و هنر، دانشگاه لندن، لندن، انگلستان