TY  - JOUR
JF  - The-Neuroscience-Journal-of-Shefaye-Khatam
JO  - Shefaye Khatam
VL  - 9
IS  - 4
PY  - 2021
Y1  - 2021/10/01
TI  - Developing a Reinforcement Learning Algorithm to Model Pavlovian Approach Bias on Bidirectional Planning
TT  - توسعۀ الگوریتم یادگیری تقویتی برای مدل کردن اثر ایمای پاولفی روی برنامه‌ریزی دوجهته
N2  - مقدمه: فرآیند تصمیم&zwnj;گیری در مغز انسان توسط دو سازوکار یادگیری پاولفی و ابزاری کنترل می&zwnj;شود. یادگیری پاولفی با آموختن پیوند محرک- نتیجه به یادگیری منجر می&zwnj;شود بدون آن&zwnj;که به عمل انتخابی وابسته باشد. همچنین این یادگیری به&zwnj; صورت تمایل به نزدیک شدن به محرک&zwnj;های نوید دهندۀ پاداش ظاهر می&zwnj;شود. اما کنترلر ابزاری به &zwnj;دنبال یادگیری پیوند عمل- نتیجه است. البته یادگیری ابزاری تنها به نتیجۀ عمل کنونی بسنده نکرده، و ممکن است به &zwnj;صورت یک برنامه&zwnj;ریزی رو به&zwnj; جلو دنباله&zwnj;ای از عمل&zwnj;ها را ارزیابی کند. از طرفی، برنامه&zwnj;ریزی رو به &zwnj;جلو ممکن است تنها فرآیند برنامه&zwnj;ریزی&zwnj;ای نباشد که یادگیری ابزاری از آن استفاده می&zwnj;کند. ممکن است انسان&zwnj;ها از برنامه&zwnj;ریزی روبه&zwnj;عقب نیز به &zwnj;منظور ارزیابی توالی عمل&zwnj;ها بهره برند. با این وجود برنامه&zwnj;ریزی روبه&zwnj;عقب کمتر تاکنون مورد توجه قرار گرفته است. پژوهش&zwnj;های پیشین نشان دادند با وجود مستقل بودن یادگیری پاولفی و ابزاری، آن&zwnj;ها با یکدیگر تعامل &zwnj;می&zwnj;کنند. در حقیقت یادگیری پاولفی نزدیک شوندگی روی برنامه&zwnj;ریزی رو به &zwnj;جلو تأثیر گذاشته و منجر به اتخاذ تصمیماتی می&zwnj;شود که ممکن است از نظر کنترلر ابزاری بهینه&zwnj; نباشند. اما تأثیر یادگیری پاولفی روی برنامه&zwnj;ریزی رو&zwnj;به&zwnj;عقب هنوز مطالعه نشده است. مواد و روش&zwnj;ها: در این مقاله، ما یک آزمایش مسیریابی طراحی کردیم که امکان برنامه&zwnj;ریزی&zwnj;های رو به &zwnj;جلو، رو به &zwnj;عقب، و دوجهته در آن فراهم است، و ایماهای پاولفی نزدیک &zwnj;شوندگی را نیز در نقشه&zwnj;ها تعبیه نمودیم. یافته&zwnj;ها: تحلیل آماری داده&zwnj;های جمع&zwnj;آوری شده نه تنها از وجود برنامه&zwnj;ریزی رو به &zwnj;عقب حکایت می&zwnj;کنند، بلکه نشان &zwnj;می&zwnj;دهند که ایمای پاولفی نزدیک &zwnj;شوندگی بر روی سه برنامه&zwnj;ریزی تاثیر می&zwnj;گذارد، هر چند که این تأثیر در برنامه&zwnj;ریزی دوجهته بیش&zwnj;تر از روبه&zwnj;جلو، و در روبه&zwnj;جلو بیش&zwnj;تر از روبه&zwnj;عقب است. همچنین در بستر یادگیری تقویتی، الگوریتم برنامه&zwnj;ریزی دوجهته را تحت بایاس پاولفی توسعه دادیم. نتیجه&zwnj;گیری: نتایج شبیه&zwnj;سازی با نتایج برآمده از آزمایش سازگار بوده و بیان می&zwnj;کنند که تأثیر بایاس پاولفی را می&zwnj;توان به &zwnj;نوعی در قالب هرس درختان تصمیم مدل&zwnj;سازی نمود.
SP  - 51
EP   - 59
AU  - Kakooee, Reza
AU  - Hamidi Beheshti, Mohammad Taghi
AU  - Keramati, Mehdi

AD  - Department of Control, Faculty of Electrical and Computer Engineering, Tarbiat Modares University, Tehran, Iran
KW  - Decision Making
KW  - Strategic Planning
KW  - Conditioning
KW  - Operant
KW  - Computer Simulation
UR  - http://shefayekhatam.ir/article-1-2232-fa.html
DO  - 10.52547/shefa.9.4.51
ER  -