在關于狗乞食行為的例子中,狗在做出乞食反應后,伴隨著一些愉快的事情(得到肉塊),所以會使其反應增多。相似地,如果你學習后取得了好成績,你就會繼續(xù)努力或更加努力地學習。在這一過程中,愉快的后果使反應更可能發(fā)生,這叫正強化。
正負強化物和懲罰物
但也存在另一種類型的強化——負強化(negative reinforcement),它涉及去除一些不愉快事物的過程。例如,如果有人總是嘮叨讓你學習,當你聽從時就不再嘮叨,你的學習行為可能會增加——因為你想避免被嘮叨:同樣,吃藥會緩解病痛,在校園里刻意選擇走某條路就是為了避免碰見那個粗魯?shù)娜,都是負強化發(fā)生的情況。
這種正負的區(qū)分也可用于懲罰:出現(xiàn)一些行為后,會發(fā)生一些不愉快事件(正懲罰),或者一些愉快事件被去除(負懲罰)。例如,如果你的朋友取笑你是個書呆子(正懲罰),或如果學習使你沒時間和朋友在一起(負懲罰),你可能就會停止學習。
正負強化和正負懲罰之間的區(qū)別常常是引起學生產(chǎn)生混淆的原因,它擾亂了許多聰明的大腦。如果你理解了“正”“負”與“好”“壞”無關,就能更快地掌握這些術語。
它們是指是否呈現(xiàn)某物或拿走某物。在強化程序中,應把正強化物看作某種增加或獲得的東西(你可以畫一個“+”號),負強化則是避免或逃離某種不愉快的事物(可以畫一個“—”號)。
在這兩種情況下,反應都變得更可能發(fā)生。還記得小艾伯特通過經(jīng)典條件反射學會恐懼老鼠時發(fā)生了什么嗎?在他學會恐懼后,逃離當前可怕的情境時,爬走的行為被強化了。逃離或避免某種不愉快事物帶來的負強化,可以解釋為什么如此多的恐懼可以長久持續(xù),在避免一種可怕物體或情境的同時,也切斷了所有消除恐懼的機會。
人們常常混淆負強化是可以理解的,這是因為二者都包含不愉快刺激。但是,在懲罰中,你遭受了不愉快刺激,而在負強化中,不愉快刺激則被去除掉了。
為了正確理解這些術語,應當記。簯土P(無論正負)減少了反應發(fā)生的可能性,而強化(無論正負)則增加了這種可能性。
在現(xiàn)實生活中,懲罰和負強化常常同時存在。如果你使用項圈來教狗跟隨主人,那么猛拉項圈就是對它走到你前面去的懲罰,而放松項圈就是對狗在你旁邊的負強化。
你可以通過休息一會兒來正強化你對這些材料的學習,當你已經(jīng)掌握了這些材料時,焦慮降低就將對你的學習產(chǎn)生負強化。但是,我們希望你不會對自己說“我永遠也會不了”或“這太難了”來懲罰你的努力。
操作性條件反射的原理
研究者進行了數(shù)以千計操作性條件反射的研究,其中許多都是以動物為被試進行的。一種受歡迎的研究工具是斯金納箱(Skinner box),它有一種裝置,當動物做出期望反應時就給它食物或水,當做出不期望的反應時就給它電擊。
在現(xiàn)在的版本中,電腦會記錄反應并生成一張圖,表明反應隨時間而增加的次數(shù)。
在斯金納(Skinner,1938)的早期學術生涯中,他使用斯金納箱經(jīng)典地證明了操作性條件反射。他將先前學會了通過食物釋放裝置吃東西的老鼠放在箱中,因為沒有食物,老鼠表現(xiàn)出典型的行為,倉皇四竄、到處嗅聞,偶爾會碰到地板和墻。非常偶然地,它壓到了墻上的杠桿,一粒美味鼠食立即掉在食盤中。
然后老鼠又四處亂竄,再次偶然地碰到杠桿,得到食物。再經(jīng)過幾次這樣碰到杠桿得到食物的重復,它的行為就開始減少隨機性,能夠更協(xié)調(diào)地按壓杠桿。最后,斯金納使老鼠學會了盡可能快地按壓杠桿。
消退
就像經(jīng)典條件反射那樣,在操作性條件反射中,消退(extinction)是導致先前習得反應消失的程序。在操作性條件反射中,保持反應的強化物被去除或不能得到時就會發(fā)生消退。起初,可能會出現(xiàn)反應爆發(fā),但隨后反應就會漸漸變?nèi),最終則會消失。
設想一下,若你在售貨機里投入一枚硬幣,卻什么也沒得到,你也許會投入另一枚硬幣,甚至兩枚,但隨后你就可能會停止嘗試。第二天,你也許還會投入一枚硬幣,這是自然恢復的例子。但最終,你會放棄那臺機器。你的反應已經(jīng)消退了。
刺激泛化和分化
就像經(jīng)典條件反射那樣,在操作性條件反射中也可能發(fā)生刺激泛化2(stimulus generaliza-tion)。也就是說,反應可能會泛化到在最初的學習情境中沒有出現(xiàn)的但在某種程度上類似于最初刺激的刺激。
例如,通過訓練已經(jīng)學會啄圓形的鴿子,也會啄有點橢圓的圖形。但是,如果你想訓練這種鳥辨別這兩種形狀,你就應同時呈現(xiàn)圓形和橢圓,每次鴿子啄圓形時就給出強化物,啄橢圓時就不給強化物,最后它就會產(chǎn)生刺激分化(stimulus discrimination)的反應。
事實上,鴿子已經(jīng)獲得了特殊的辨別能力,它們甚至學習了區(qū)別凡·高(Van Gogh)和馬克·夏卡爾(Marc Chagall)的油畫(Watanabe,2001),然后,呈現(xiàn)這兩位畫家的其他兩幅作品,它們也能區(qū)分開。
有時,動物或人只有在其他一些刺激存在時,才能學會對刺激反應,這種刺激叫作辨別刺激。
這種辨別刺激提示了反應是否會得到獎勵。對于斯金納箱中的鴿子來說,燈光可以作為啄圓形的辨別刺激。燈亮時,啄的行為會得到獎勵;燈滅時,啄的行為是徒勞的。人類的行為被許多辨別刺激所控制,如語言(營業(yè)時間是9點到5點)和非語言的(交通信號燈、門鈴、電話鈴、別人的面部表情)。為了有效生活并與他人相處,我們都學會了如何在辨別信號呈現(xiàn)時做出正確反應。按程序學習
通常來說,當一種反應剛開始形成時,如果每次反應都得到強化,學習得最快,這種程序叫作連續(xù)強化。但是,一旦反應變得確實會發(fā)生,如果用間隔(部分)強化程序,反應就不太可能消退,這種程序只對一些反應進行強化。
在斯金納(Skinner,1956)的研究中,偶爾會發(fā)生食球短缺的情況,斯金納被迫降低了強化物的發(fā)放頻率,卻意外地發(fā)現(xiàn)了這個事實。
在間隔強化程序中,一些間隔程序只在一定次數(shù)反應后,給出強化物;另一些間隔程序只對上次強化物出現(xiàn)一定時間后做出的反應進行強化。這影響了行為的頻率、形式和時機。
間隔強化有助于解釋為什么人們常常喜歡“幸運”帽、護身符和宗教儀式。一個擊球手摸了一下耳垂,然后打出了一記本壘打,從那時起,他每次走向本壘時都要摸一下耳垂。一個學生考試用紫色筆得了A,此后她每次考試都用紫色筆。
這些儀式會繼續(xù)下去,因為有時它們會很偶然地帶來強化物(擊中球、好成績),所以它們不會消退。
斯金納(曾通過在實驗室中制造了8只“迷信的”鴿子證明了這種現(xiàn)象。他操縱鴿籠,即使鴿子一動不動,也讓食物每15秒送達一次。鴿子常常在活動,所以當食物來了時,每只動物都可能正在做著什么,這種正在做著的行為被食物的送達所強化。
行為當然完全是偶然被強化的,但仍然很可能再次發(fā)生,這樣就被再次強化。在很短時間內(nèi),6只鴿子一直在練習某種儀式性的行為——逆時針轉圈,上上下下地輕輕點頭,或者搖著頭走來走去。
這些活動都由于強化物的出現(xiàn)而具有很大的效果;這些鴿子表現(xiàn)出“迷信行為”。它們似乎認為是自己的動作帶來了食物。
現(xiàn)在要集中注意了,因為下面是關于操作性條件反射所要了解的最有用的東西。如果你想在習得后能持久地保持某種反應,那么就應該使用間隔強化,而非連續(xù)強化。
如果你的倉鼠哈里用鼻子推彈球,你連續(xù)給它強化,隨后你突然停止了強化,哈里就會很快停止推球。因為強化的改變是巨大的,從連續(xù)強化到根本沒有強化,哈里能很容易辨別出這種改變。但是如果你只是經(jīng)常強化哈里的行為,變化就不會這樣顯著,你那饑餓的倉鼠將會繼續(xù)應答一段時間。
被間隔強化的鴿子、老鼠和人,在停下休息之前,特別是強化物出現(xiàn)的時機有變化時,已經(jīng)在實驗室中沒有強化的情況下應答了幾千次。動物有時會為了不可預測的、不常出現(xiàn)的一點食物而如此努力地完成任務,它們消耗的能量比從獎賞中獲得的食物還多。從理論上講,它們實際上能一直工作到死!
因此,如果你想消除自己或別人的某種反應,你就要小心,不要對它進行間隔強化。如果你想通過忽略它來消退非期望行為,你必須完全一致地去避免強化(你的注意),如孩子的哭鬧、朋友的午夜電話、父母的煩人建議。
否則,別人會學會,如果他或她一直哭叫、打電話或提建議的時間足夠長,他們最終會得到獎賞。從行為主義的觀點來看,人們犯的最普遍的錯誤就是,他們間歇地獎勵他們想要消除的反應。
來源:教育相先生