＝シリーズ＝米国型人事評価と日本への示唆【第６回】業績評価を適正化する尺度法(2)｜人事コラム

◆=シリーズ= 米国型人事評価と日本への示唆【第６回】業績評価を適正化する尺度法(2)

評価を適正化するには尺度法の工夫が不可欠

前回は尺度法として、日本でもよく知られている、グラフィック・レーティング尺度と行動アンカー方式を中心に紹介したが、このほかにも尺度法はさまざまである。

強制選択方式（Forced-Choice Rating Scales）は、行動記述された選択肢についてチェックを入れる方式で、そこには尺度のポイントを示さないので、評価者は、行動記述だけから評価するしかない。図表にあるように、三つの選択肢について、「最も当たっている（Most）」および「最も当てはまらない（Least）」が示されている。これによって、評価ポイントは自動的に決まるが、評価者自身にはそのてんまつは知らされない。アーモッドはこの方式が報酬決定など正確さを要する場面では有益だとしている。評価者は、被評価者について記憶をたどりながら、列挙された行動事例から選択肢を決めるが、どれがどう評価されるかは示されない。

この尺度法は、ＢＡＲＳ同様、クリティカル・インシデンツ（重要事象）を拾い出し、その後、よい行動項目、悪い行動項目、どちらでもない行動項目が示され、チェック欄がつけられる。もちろん、この方式は、昇給や昇進の決定には有効だが、フィードバックを考慮すると、問題がある。またなんとかいい点をつけようとする評価者に対してどこまでも対抗できるものではない。また評価のキーが隠されることに、管理者はしばしば不平を言ったり異議を申し立てることが、アーモッドにも指摘されている。いずれにしても、評価の目的に応じて、複数の評価方法を併用することが好ましく、行動アンカー方式を策定するくらいであれば、一歩進んで、強制選択方式を昇給・賞与の査定のみに限定して導入を図る方法も考えられる。運用をもっと厳格にしようとすれば、回答時間を制限するなど工夫をすると、より一層正確さを追求することもできるだろう。またこの方式によって導かれた評価結果をなんらかの方法で示すことも可能である。一方で、育成やフィードバックのためには、それに即した技法と項目を用意すればいいのではないだろうか。

尺度法としてはこのほかに、混合スタンダード尺度（Mix Standard Scales）がある。これは、ブランツとジッセリが開発したものである(Blanz & Ghiselli 1972)。これは、強制選択方式の発展形態として紹介されている。

またブランツらは、評定に関して、次のような集計表も示している。

この方式にも欠点がないわけではない。ただし、評価エラーのうち、最もよく起こるのは「論理的誤謬」（Logical Rating Errors）であると指摘されているが、このエラーには有効であるとアーモッドは指摘する。またスコア表に関しては、後にサールが改良した方式を開発した（Saal 1979）。この表は、回答のパターンに応じてスコアが自動的に決まるように組み合わせを全列挙したものである。

行動頻度尺度（BFS：Behavioral Frequency Scales）

これは評価項目ごとに頻度を示すスケールを用意し、選択させる方式である。グローテは、自身の作ったオリジナルの業績評価フォームも、これと類似した方式で作成しており、このフォームを推奨する方式となっている。この方式は確かに簡便で、単に段階が示されているだけのグラフィック・レーティング尺度よりも段階のイメージがわきやすい。

グローテは、この方式を採用したエネルギー会社では、①評価者の納得性が高い、②被評価者の納得性が高い、③効果的な話し合いができるようになった、④育成プランを推進した、とその利便性を強調している。その後、グローテは他社でも推奨してきたが、その成果について、①納得性、②企業文化の強化、③信頼性と妥当性の改善向上、④開発コストの低減（ＢＡＲＳと比較して）、という諸点を強調している。なお、グローテは、次のような尺度表示を推奨している。

行動要約尺度（BSS：Behavioral Summary Scales）

フェッツエル編のテキストにはプラコスによる尺度の紹介があるが、次のようなものも掲載されている。一つ目は、行動要約尺度といわれるもので、これはボーマンらによって開発された（Borman, Hough & Dunnette 1976）。ＢＡＲＳでは、段階ごとに出来事をみても、それが実際のパフォーマンスと比較すると、悩ましいこともあり、迷うことも出てくる。

行動観察尺度（BOS：Behavioral Observation Scales）

ラザムが業績評価の分野で泰斗になっていることはこれまでにも述べた。とりわけ、ウエックスレイとの共著（『業績評価を通じた生産性の向上』）は、ほとんどの文献や論文でリファーされており、版を重ねて普及版で出版されている。この本には尺度法について詳しく、ＢＯＳは、ラザムが推奨しているので、巻末には50の行動文例が掲載されている。この方式は、与えられた文例に対して、５段階で回答するものである。

基本的に５段階の尺度はそれ自体、リッカート法といわれるが、ラザムは、大量の設問を与えることで、評定が適正化すると説明しており、さまざまな調査結果から、ＢＡＲＳよりも優れていると結論付けている。

ところが、プラコスは、中立的な意見を述べている。たしかに、認知的な負担は少ないので、評価者はつけやすいという調査結果はあるが（Cooper 1981, Feldman 1981）、単なる頻度尺度と差がないという報告もあるので（Murphy,Martin & Garcia 1982）、実務的にはＢＯＳの優位性を認められないという。

尺度設定で留意すべきこと

あるメーカーでは、当初、全社的に導入したＭＢＯやコンピテンシーなどの扱いを職務ごとに別々にしている。職務になじまない場合はあえてやらないことにしたのだという。そのようにしてから、当たり前のことだが、実施したところではうまくいくようになったということだ。同じことが他のことにもいえるのではないだろうか。尺度化にしても、一つの方法を決めたら、全社的にそれを整備したくなる傾向が日本ではどうも強い。しかし、その必要が本当にあるのか、再考してみ必要がある。

職種間でレベルの違いがあるが、どうすればいいのか、という相談を受けることがときどきある。しかし、もともと異なる職種で一緒であるはずがなく、人事異動を意識すると同等とみなすしかないのである。

またコンピテンシーなどを整理していくと、どうも高め高めの行動記述になってしまうが、どうすればいいのか、と聞かれる。これはまさしく尺度の問題で、低いところやふつうのところをしっかり作っておかないと、実感のある評価はできないだろう。たとえて言うなら、身長を測る計測器で座高を測るようなもので、使い勝手がよくない。

近年では、評価基準を作ることと、コンピテンシーを整備することとがクロスオーバーになっている。しかし実際にありがちな点だが、少しでも改善向上を要する行動を見つめる視点がやや弱くなっている。できもしない、ありもしない理想レベルの行動を列挙して、それを標準レベル（５段階の３）としている場合も少なくない。聞いてみると、その上がさらにあるのだという。これではよくて２しかつけられないはずだし、１のレベルも少なくないはずだ。しかし、実際の評価は、４や５がたくさんつけられている。アンカーになっている出来事がほとんど無視されているのだ。

これでは、人事改革は、空振りであって、できもしないことがマニュアルに書かれ、できていないのにできたことになっているわけだ。職種によって適切な評定方法が異なってくることも重視しないといけない。日本では、異動を意識するので、職務ごとに異なる評価方法や評定方式を採用することに抵抗を示すことが多いが、おざなりな行動アンカーを作るくらいなら、一部の職務に限定して作ることも検討してみる必要があるかもしれない。

また作り方の実務では、中心化を避けることが重要なポイントになる。企業にもよるが、５段階の４か３にほとんどの実在者がいる場合が多い。このような場合、あえて１や５の出来事を記述することよりも、ダンゴになっている３の段階のターミナルがどのような出来事かしっかりﾆ議論し、そこの違いが明確になるように行動アンカーを考えていく必要があるかもしれない。

評価エラーは克服できるのか

評価エラーは、考課者訓練の際、主なものについて説明を受ける。しかし、それが克服できるかどうかについては十分な説明はない。その点は米国テキストではどうなっているのだろうか。プラコスはハロー効果や寛大化傾向、厳格化傾向、中心化傾向などを列挙しているが、これらは日本でおなじみのものである。評価者訓練（Rater Training）は、講義だけではなく、実習やグループ討議、フィードバックなどを交えて行うことが不可欠であるとされている（Borman 1975, Pulakos 1984）。

評価者訓練には、幾つかのパターンがあるが、評価者エラー訓練とは、評価者のエラーを取り除くように行うもので、日本でもよく行われているものである。この訓練を行うと、エラーは多少減ることが確認されている（Bernardin & Buckly 1981, Latham et al 1975）。しかし、効果が持続しないことや減少するエラーは一部でしかないという指摘もある。これに対して、アキュラシー訓練（Rater Accuracy Training）とは、観察スキルの涵養を重視し、そのうえで尺度をどう使うかを訓練するものである。これは、多くの研究で効果が確認されているという（Bernardin et al 1980）。

アーモッドは、評価エラーについて、寛大化や厳格化、中心化を分布エラーとしてまとめ、これ以外にハロー効果、近接誤差、対比誤差などを列挙している。分布エラーは、被評価者を複数の評価者で評価することである程度緩和することができるが（Kane & Lawler 1979）、もちろんそれには限界がある。ハロー効果は、該当する職務について評価者があまり知識がなく、親しくない人を評価する場合に生じやすいことも調査から明らかになっている（Kozlowski et al 1986）。

評価者研修が果たして効果があるのか、アーモッドは次のような研究を紹介してまとめている。評価エラーを減らす一つの方法が評価者研修である（Spool 1978）。また管理者に評価エラーがあることを指摘すると、評価は正確になることが多いし（Smither et al 1989）、寛大化とハロー効果には効き目がある（Latham 1982）。また従業員の満足も高まる（Ivancevich 1982）。ただし、効果が出るのは、講義だけではなく、実習や討議、フィードバックを交えて行った場合だけだという（Smith 1986）。これらの研修効果はその時だけで長続きしない（Noble 1997）。そこで、訓練をさらに続けていかないとエラーが生じてしまい、正確さの維持すらままならない（Bernardin & Pence 1980）。

フレーム・オブ・リファレンス・トレーニングを実施すると、効果的であることが多くの研究で実証されている（Athey et al 1987、 Day et al 1995、Hauenstein et al 1989）。これは、職務関連の情報を与えて、評定実習するものと説明されている。

個人的な経験だが、私も人事コンサルタントとして多くの企業で評価者研修を受託してきた。企業にもよるが、その効果はかなり薄いと思っている。従業員500人ほどの専門商社の例だが、１日かけて実施したところ、テキストに準拠した設問に十分に解答できた受講者は１割もいなかった。従業員数万人の企業では独自にケースを作成して実施したが、ある程度答えが出せそうなケースでさえその評定スコアはほぼすべての評定項目について３段階以上に広がり、グループ討議をしても、独自の人物論を繰り広げる受講生などがいて収斂しないまま終わった。正直、講師をしながら、このまま人事評価を担当させることに不安と抵抗を禁じ得なかった。後者の話は日本でも有数の企業である。

ある関西系の大手ゼネコンから依頼があった際は、研修の効果はあまり期待していないので、１コースを半日にし１日２回転で実施できないかと相談してきた。さすが関西らしい合理主義と感心し快諾したが、依頼はなかった。価格などの事情で他社に流れてしまったと思いきや、自社内で市販ビデオを使って実施することにしたという。

人事評価は、対象者を観察し、項目ごとに行動や出来事を仕分けし、段階に整理していくという思考プロセスをたどっていくので、かなりコンセプチュアルな活動である。とりわけ、職務行動を観察し、出来事や事象を分析し、その相互関連性を考察していくプロセスは実に骨が折れることだし、コンピテンシーといわれる領域の観察・評定は非常に難しい。コンピテンシーの専門家の一人とみられている私だが、コンピテンシーの評価を現場の評価者が簡単にできるとは考えていない。できて２、３割ではないだろうか。アセスメントでプロの講師を養成しているが、バイアスから自由なはずのアセッサーにも人物評価や言動の拾い方にくせがある。しばしばラインの人事評価についての悲観論をセミナーなどで話すのだが、根拠がないわけではなく、米国のテキストにも現実感のある記述が多いので安心した。ただ、業績的な側面はわりあいすり合わせされやすい。現場では、業績だけ評価すればいいのでは、と思うことがある。

成果主義ということで処遇格差を広げる賃金制度へシフトしている企業も多い。しかし、実際の評価はインフラ整備があまりに稚拙である。評価の適正化への取り組みを現実感ある形で真剣に取り組む時期に来ているのではないだろうか。

参考文献
①Michael Aamodt “Applied Industrial/Organizational Psychology Third Edition” Brooks 1999
②Deborah Whetzel “Applied Measurement Methods in Industrial Psychology” Davies Black 1997（所収の11章を参照。Elaine Pulakos “Rating of Job Performance”）
③Dick Grote “The Complete Guide to Performance Appraisal” Amacom 1996
④Gary Latham and Kenneth Wexley “Increasing Productivity Through Performance Appraisal” Addison Wesley 1981