職能資格制度を再構築する評価尺度とアセスメント技法｜人事コラム

◆職能資格制度を再構築する評価尺度とアセスメント技法

職能資格制度の再構築に必要な視点

前回、職能資格制度に対して批判的な検討を行なった。職能資格制度は、人間尊重など魅力的な理念があるために多くの企業関係者に今もなお支持される人事処遇の基本フレームだと思われる。しかし、運用していくうちに理念に添った顛末にならない現象としての問題が少なくないことを指摘した。そこで、今回は職能資格制度を運用するために必要な視点を提示していきたい。それには、評価尺度及びアセスメント技法の確立が欠かせない。

日本の人事評価制度では、評価尺度の運用が非常に未発達である。これは長年、評価を行なう現場の管理者の評価能力を信頼し、時には過信してきたためである。また人事コンサルタントも人間尊重だとか公正処遇などという理念的な話に酔いしれて現場の改善に役立つ技術的なことを研究したり紹介することは怠ってきた。しかしながら、成果主義がいいかどうかはともかく、それを進めていくならそれを支える的確な評価制度がどうしても必要になってくる。そんな必要性に迫られながら、誤った評価制度への理解がはびこり、ますますダッチロールしているのが日本の人事実務の実情なのである。

評価尺度を使いこなすのは多少とも面倒なことであって、産業・組織心理学の知識が必要になってくる。しかし、日本では組織行動論が中心で、人事心理学といわれる分野を専門にする研究者も少ないし、必要なことを解説した文献はほとんど皆無である。

また人事制度を運用するためには、格付けなど様々な場面で人材評価する仕組みが必要になってくるが、そのためには、人事アセスメントを考えないといけない。日本でも人事アセスメントがある程度普及している。しかし、研修型での実施で、しかも長いこと使い回れされた演習教材によるもので、企業側も食傷気味となっている。今後は、現場の職務に直結した迫真性のある人事アセスメントが必要となってきている。そのためには何らかの行動インタビューを織り込んだ技法が必要となるだろう。

評価尺度構築による評価制度の精緻化

評価尺度というと、５段階の評価段階を決めて行なう方法が一般的である。つまり、期待基準を示して期待を超えた場合、標準評価の３になるというのである。しかし、何が期待基準なのか、評価者の見識に拠って立つことになるだろう。これでは、評価者は高潔で相当の見識を持った人でないとなれないことになる。しかし、そんな人ばかりで組織を構成することは無理な話である。

評価項目を示し段階評価させるやり方は、グラフィック・レーティング尺度（Graphic Rating Scales）といわれている。この尺度法は、ペイターソン（Paterson, 1922）によって考案された。この尺度法で段階の設定は一般に４ないし９とされているが、日本では圧倒的に５段階が多い。この方式は、評価項目ごとに分析的ないし弁別的に評価する意味で一定の意義があるが、正確さやフィードバックの妥当性などに関しては問題が多いと指摘されている。このような尺度は、何を持って３とするのか、具体的なものは何もなく、ある人にとっては２のことが他の人にとって３であることが十分にありえ、水準決定において収斂しようがない。また期待されるバーの高さが異なる場合には、いよいよ水準合わせは困難となるだろう。しかし、他にいい方法がないと考えられているのか、この尺度法を疑問視しつつも、これといった改訂努力もなされていないのが実情である。尺度法を工夫しないまま、評価者の思考プロセスに鍛えることを考えがちだが、その負荷が増せば増すほど評価エラーや歪みも大きくなってしまう。つまり、この尺度法は簡便法であり、もはや古典的な方法と言えるだろう。

■グラフィック・レーティング尺度の例
      Initiative（積極性）
  　            Poor　　　　　 1 　2　 3　 4　 5　　 Excellent
       　　できていない　　　  　　　　　　　　　　すばらしい

産業・組織心理学の標準的なテキストの１つにアーモッドのテキストがある（Michael Aamodt "Applied Industrial / Organizational Psychology Third Edition" Brooks　1999）。ここには業績評価を次のような相互に関連する段階に分けることができるとある。第一は評価の目的を確認する段階で、ここでは会社が社員の業績を何のために評価するのかを決める（Clevaland, 1989）。というのも、その目的によって評価の方式は異なるわけで、例えば、強制選択方式（The forced-choice-scale）が報酬決定には優れているが、育成や人材開発にはまるで適さないとされているからだ。第二は評価基準（Evaluation criteria）を明確化する段階で、そこでは仕事の成功した状態を示される。例えば、出勤状態、仕事の質や量、安全性などがある。第三は、評価基準の測定方法を作り出す段階である。どうやって測るかということがないと、何もわからないわけだが、測定方法自体が一人歩きしても意味がない（Hodap, 1986）。その次の第四段階は、評価システムを一般社員や管理者に説明するプロセスである。この段階では、管理者がどうやって評価をするのかについてのトレーニングプログラムを確立する必要がある。また管理者が十分に時間を割き、業績評価を真剣に取り組むインセンティブを考えないといけない。第五段階では、実際に評価することになる。この段階には、①行動の観察、②行動の記録、③評価の思考プロセス、③実際の評価が含まれるが、評価において歪み（distortion）やエラーが生じてくるところでもある。最終段階は、業績評価をレビューすることで、ここでは管理者が部下に評価結果について公式の話し合いを行なうことになる。

日本ではコンピテンシーの表示が行動アンカー方式となっているので、評価が的確にできると紹介されたことがある。そのため、コンピテンシーと行動アンカー方式はセットであると思い込んでいる実務家も多い。しかし、行動アンカー方式はコンピテンシーが登場する以前からあったもので、その作成が面倒なことから現在の米国では極めて例外的にしか採用されていない。しかも、日本におけるコンピテンシー作成事例を見ても、厳密な意味での行動アンカー方式は１つもない。単に評価段階を作ってその升目を埋めただけの簡便なものである。このようなものはグラフィック・レーティング尺度よりは評価者の思考プロセスを助けることは確かだが、評価項目ごとに生じる難易度の差を残したまま、各評価点を単純に足したり平均値を取るという集計方法を取るプロセスで歪みを生じてしまうことにもなる。またその升目に記述された行動をみると、多くの場合、単なる頻度的な記述で段階分けがなされているに過ぎないこともある。

評価を適正化するには尺度法の工夫が不可欠

グラフィック・レーティング尺度と行動アンカー方式を中心に紹介したが、この他にも尺度法はさまざまである。強制選択方式（Forced-Choice Rating Scales）は、行動記述された選択肢についてチェックを入れる方式である。そこには尺度のポイントを示さないので、評価者は行動記述だけから評価するしかない。図表にあるように、３つの選択肢について、「最も当たっている（Most）」及び「最も当てはまらない（Least）」が示されている。これによって、評価ポイントは自動的に決まるが、評価者自身にはその顛末は知らされない。アーモッドはこの方式が報酬決定など正確さを要する場面では有益だと強く推奨している。評価者は、被評価者について記憶を辿りながら、列挙された行動事例から選択肢を決めるが、どれがどう評価されるかの基準は全く示されない。

■強制選択方式の例
次のうちで最もあたっているものに１つ、最もあたらないものに１つ、○を入れてください。

	M 最も当たっている＋２点	L 最も当てはまらない－２点	行動項目	ブラックボックス
a	○		いつも時間通りである	Neutral　１点
b			仕事の終わりがけになると手早くない	Poor　－１点
c		○	どのお客様にも笑顔を絶やさない	Excellent　２点

（原典：アーモッドのテキスト所収の表を筆者が訳出した）

【集計例】
この設問の場合、○のついたところを次のように集計できる。
ａ　Ｍ欄に○　＋２　×　＋１　＝　＋２
ｂ　なし
ｃ　Ｌ欄に○　－２　×　＋２　＝　－４
    以上合計　　　　　　    　　　　－２
仮にｂのところがＬ欄に○で、ｃのところがＭ欄に○の場合、次のようになる。
ａ　なし
ｂ　Ｌ欄に○　＋２　×　－１　＝　－２
ｃ　Ｍ欄に○　＋２　×　＋２　＝　＋４
    以上合計　　　     　      　　　＋２

なお、この配点はいくつかの行動項目を作り、統計的にウェイト付けすることができる。

この尺度法では、行動アンカー方式同様、クリティカル・インシデンツを拾い出し、その後、よい行動項目、悪い行動項目、どちらでもない行動項目が示され、チェック欄が設けられる。もちろん、この方式は、昇給や昇進の決定には有効だが、フィードバックを考慮すると、問題がある。また何とかいい点をつけようとする、あるいは逆に評価を低くしてやろうとする評価者に対してどこまでも対抗できるものではない。また評価のキーが隠されることに、評価者はしばしば不平を言ったり異議を申し立てることが、アーモッドにも指摘されている。

いずれにしても、評価の目的に応じて、複数の評価尺度を併用することが好ましく、行動アンカー方式を策定するくらいであれば、一歩進んで、強制選択方式を昇給・賞与の査定のみに限定して導入を図る方法も考えられる。運用をもっと厳格にしようとすれば、回答時間を制限するなど工夫をすれば、より一層正確さを追求することもできるだろう。またこの方式によって導かれた評価結果を何らかの方法で示すことも可能である。例えば、イントラネット上で瞬時に集計して評価者に知らせることも可能である。一方で、育成やフィードバックのためには、それに即した技法を織り込んだ仕組みを別途に用意すればいいのではないだろうか。

尺度法としてはこの他に、混合スタンダード尺度（Mix Standard Scales）がある。これは、ブランツとジッセリ（Blanz and Ghiselli 1972）が開発したもので、強制選択方式の発展形態である。

■混合スタンダード尺度の例
次の評点欄に、＋または０、または－を記入してください。
    ＋）　該当する社員の行動が項目よりもいい場合
     ０）　該当する社員の行動が項目と同じである場合
    －）　該当する社員の行動が項目よりも悪い場合

	行動項目	評点欄
1	他の社員といつも口論する		Ｐ	悪い
2	顧客には笑顔を振りまく		Ａ	普通
3	顧客に、家族はどうされていますか、と尋ねる		Ｅ	よい
4	可能な限り他の社員を手助けする		Ａ	普通
5	同僚とはいつも親密で楽しく会話する		Ｅ	よい
6	顧客に、何が必要ですか、と尋ねる		Ｐ	悪い

※ 上記のうち、1,4,6は社員関係で、残りは顧客との関係である。
※ P：Ｐｏｏｒ　Ａ：Ａｖｅｒａｇｅ　Ｅ：Excellent

またブランツらは、評定に関して、次のような集計表も示している。

Excellent	Ａｖｅｒａｇｅ	Ｐｏｏｒ	ディメンション・スコア
+			7
0			6
-	+		5
-	0		4
-	-	+	3
-	-	0	2
-	-	-	1

評価の記入例とそのスコア集計

	評価		スコア
1	-	Ｐ	１
2	０	Ａ	４
3	０	Ｅ	６
4	+	Ａ	５
5	０	Ｅ	６
6	+	Ｐ	３
			２５

この方式にも欠点がないわけではないし、作成自体がかなり面倒である。とりわけスコア表に関しては、後にサールが改良した方式を開発したものがある(Saal, 1979）。サールの作った表は、回答のパターンに応じてスコアが自動的に決まるように組み合わせを全列挙したものである。ただし、評価エラーのうち、最もよく起こるのは「論理的誤謬（Logical Rating Errors）」であると指摘されているが、このエラーにはこれら一連の尺度を用いた手法が有効である。少なくとも行動指標を作った後、それがどの程度評価されるものかを評価者に示さないことで、評価がより適正化される可能性があるとはいえる。すでに評価制度で行動指標を作り込んだ企業では尺度法を工夫して再構築できる。

これらの尺度法のほかに、次のようなものがある。グローテによると、行動頻度尺度（Behavioral Frequency Scale　略称BFS）は評価項目ごとに頻度を示すスケールを用意し選択させる方式である。グローテは、自身の作ったオリジナルの業績評価フォームも、これと類似した方式でフォームを作成しており、最も推奨する方式となっている。この方式は確かに簡便で、単に段階が示されているだけのグラフィック・レーティング方式よりも段階のイメージが湧きやすい。

対人スキル好ましい人間関係を多方面に作り出す
1	2	3	4	5

稀に	時々	頻繁に	いつも

グローテは、この方式を採用した企業では、①評価者の納得性が高い、②被評価者の納得性が高い、③効果的な話し合いができるようになった、④育成プランを推進した、とその利便性を強調している。その後、グローテは他の企業でも推奨してきたが、その成果について、①納得性、②企業文化の強化、③信頼性と妥当性の改善向上、④開発コストの低減（BARSと比較して）、という諸点を強調している。なお、グローテは、次のような尺度表示を推奨している。

本　人

Occasionally

Sometimes

Frequently

Always

評価者

フェッツエルのテキストにはプラコスによる尺度の紹介があるが、次のようなものも掲載されている。ひとつめは、行動要約尺度（Behavioral Summary Scales　BSS）といわれるもので、これはボーマンらによって開発された（Borman, Hough, and Dunnette, 1976）。BARSでは、段階ごとに出来事をみても、それが実際のパフォーマンスと比較すると、悩ましいこともあり、迷うことも出てくる。そこで、複数の段階について行動記述を示し、評定をしやすくしようとするのがこの尺度法である。

計画組織力：次の記述を読んで、対象者の行動に最も近いものを選んでください。

Low	Medium	High
・事前計画をチェックしないで行動を開始してしまう。・仕事のためにあれこれ題材を用意するが、どうも不適切である。・追加的な仕事について十分考えないで、仕事を急ぎ、手を出して慌てる。	・着手する前に課題の計画をしっかりと立てる。・ツールや題材を組織化し、必要なときに扱いやすくしている。・仕事に必要な情報は書き留めていて、効率的に仕事を仕上げる。・仕事に着手する前に、題材を調整し、手際よく仕事を仕上げる。	・青写真をしっかりとレビューする。・課題に着手する前に計画を練る。・時間を最小化するように、題材を組織化している。・自主的に課題についてのリストを作っている。・上長に仕事の進捗を知らせるようにしている。・いわれる前にツールや題材を使えるようにしている。
１　　　　　　　　　　　　２	３　　　　　　４　　　　　　５	６　　　　　　　　　　　　７

行動観察尺度（Behavioral Observation Scales　BOS）は、ラザムによって推奨されている。彼は、業績評価に関して泰斗とされており、とりわけ、ウエックスレイとの共著（『業績評価を通じた生産性の向上』（Gary Latham and Kenneth Wexley "Increasing Productivity Through Performance Appraisal" Addison Wesley 1981）は、ほとんどの文献や論文でリファーされており、版を重ねて普及版でも出版されている。この本は尺度法についても詳しく、巻末にはBOSの５０の行動文例が掲載されている。この方式は、与えられた文例に対して、5段階で回答するものである。

キーとなる行動

Ⅰ．チームプレイ
   1. マネジャーに意思決定をする前に影響する課題についてインプットをしておく。
   2. 他部門に影響する、あるいはするかもしれない指示や決定、方針などを前にして合理的に説明する。
   3. 部門に関わる人や方針、プロジェクトなどの大きな変化については知らせる。
      （以下省略）

      Almost Never　 0　 1　 2 　3　 4　 5　 Almost Always
      ほとんどない　　   　　　　　　　　　　　　ほとんどいつも

基本的に5段階の尺度はそれ自体、リッカート法といわれるが、ラザムは、大量の設問を与えることで、評定が適正化すると説明しており、さまざまな調査結果から、BARSよりも優れていると結論付けている。ところが、プラコスは、これについて中立的な意見を述べている。確かに、認知的な負担は少ないので、評価者はつけやすいという調査結果はあるが（Cooper1981, Feldman, 1981）、単なる頻度尺度と差がないという報告もあるので（Murphy, Martin and Garcia, 1982）、実務的にはBOSの優位性をさほど認められないという。ただ、いずれにしても、BARSの作成手間やデメリットを考えると、行動要約尺度か行動観察尺度を使うのが好ましいし、行動頻度尺度を併用するのが手頃な方法となるだろう。具体的な作成事例を示しておきたい。

人事アセスメントと行動インタビュー

職能資格制度の問題点の1つが現場任せの評価にある。直属上司の評価は公正であるべきだし、直属上司の評価が結局、消去法で最も的確であることも指摘されている。しかし、直属上司はもともと部下の仕事ぶりを3割程度しか観察することができず、仕事のプロジェクト化が進んでますます幅広い職務で上司が部下に目配りできない状況が出てきている。また仕事の専門化が進み、部下の仕事を上司が適正に評価することも困難になってきている。そうなると、上司は部下の評判や結果でしか評価しにくくなってくる。今日では、仕事や組織を取り巻く環境の変化で評価の適正化はますます保てなくなってきているのである。もとより結果を見つめる成果志向の業績評価はドラッカーには好ましいものとされたことがある（ドラッカー『現代の経営』（1959））。しかし、仕事のプロセスを見つめた業績評価を行なわなければ、モチベーションの維持も困難となるし、もとより個人単位には切り分けにくい業務も多く、成果重視ではその評価が困難となるのは論を待つまでもない。

このような業績評価を取り巻く状況の変化に対応する手法が人事アセスメントである。これには、アセスメント・センター方式があり、グループ討議や面談シミュレーション、未決案件処理（インバスケット演習という。インバスケットとは、未決箱の事である。）などの複数の演習を通じて専門的な訓練を受けたアセッサーが受検者を観察・評定し、対象者の職務場面における能力傾向を判定する。この手法は大勢の対象者を見比べる場合にはそれなりの効果があり、昇格判定などにはしばしば活用されている。また企業によってはリストラに伴う対象者の確認にも活用する例が増えてきている。

しかし、次のような問題点もあり、アセスメント技法の革新が求められてきている。まず、迫真性である。アセスメント演習では職務横断的な標準化が進んでいて、個別の職務に対応した演習設計が十分にできていない。またどこまで行っても架空の演習であり、それは業績評価を代替するシステムにはなりえない。また、アセスメント演習のコストである。時間的にも予算的にもコストがかかりすぎるので、同じ対象者に毎年実施するような運用実施は困難である。そこで、日常的に実施できる時間的にも費用的にも手頃な手法が確立されないといけない。

アセスメントに関する今日的な要請に応える手法として注目されているのが行動インタビューである。もとより評価を行なう場合、インタビューは十分に構造化されないまでも実施されている方法である。ただ、このようなインタビュー技法を構造化し、日常的な場面で業績や成果をトレースする技法が必要になってきている。実際、行動インタビューは、単にアセスメントセンター方式の簡便法という以上の意義と可能性を持っている。
  まず、実際の職務上の出来事に対して効果的にアプローチできるということだ。もしそれが十分に可能なら、業績評価にも重要な意義を持つことになる。また出来事からの評価によっては十分にそのプロセスや被評価者の思考過程が明らかにできない場合、他の方法、例えば、状況インタビュー方式（状況インタビューとは、ある架空の状況（一種のシナリオ）を応募者に提示する。面接担当は、それに対する応募者の反応に注目する。提示される状況は、将来、職務上起こり得る内容である。状況インタビューは、理論的にはMBOに従っている(Locke, 1968; Locke & Latham, 1984)。この理論は、個人の行動を決定する要因として意図や目標に注目する。そこで状況インタビューによって、個人の潜在的な意図を探ろうという試みが生まれたと考えることができる(Latham, Saari, Pursell, & Campion, 1980; Latham, 1989) 。実際は、応募者の意図を引き出すために職務に関連した一連の事例を提示し、その状況の下でどのように振る舞うかを応募者や従業員に質問するという手順を踏む。詳しい手続きは以下のようなステップをたどる(Whetzel & McDaniel, 1997)。
1) クリティカルインシデント法(critical incident technique)による職務分析を実行する。ここで得られた行動事例は類似性に基づき特定のクラスター（次元）にグループ化される。
2) 各クラスターや次元の内容をよく例示していると思われる事例をひとつ以上抜き出す。
3) 第2ステップから得られた各事例を、「もしあなたなら、どうしますか」という質問に変換していく(What would you do if ….)。
4) さらに各質問が、クラスターや次元が同定している内容をどれくらい包含しているかを検討する。
5) 面接担当の評定が誤ったばらつきを生じないように、評定尺度を作成する。評定尺度の各段階は、良い反応(5)、受容できる反応(3)、受容できない反応(1)の3点から構成される。
6) 応募者を識別できない質問や面接担当者間で得点の合意ができない質問項目を取り除くために、予備調査を行なう。
　ステップ1にて説明したように、クリティカルインシデントが質問項目を作成するための重要な資料となる。下記の例は、Latham(1989)がチームプレイに関わるクリティカルインシデントと指摘したものである。
これはデリバーエクスプレスというアメリカ北西部にある運送会社での出来事である。デリバーエクスプレスは、チームプレイを組織理念として掲げていた。この会社の管理者の一人は、友人でもある同僚が職務上、大きな問題を抱えていることに気づいた。彼は、同僚が困っているのに見かねて、その友人に援助の手を差し伸べた。これはチームプレイの理念に適う行動であったが、彼はそのために4半期ごとに設定される目標を実現することができなかった。目標が達成できなかったのは、彼が困っている同僚に実際の市場価格よりかなり低い価格で商品を売ってしまったことが原因である。この事例について、もしあなたが当事者だったら、どうしますか。）などによって補足することも可能となる。つまり、目の前にある業績についての結果について、従来であれば、そのまま額面通り受け止めざるを得ず、またそうすることが公平性の観点から次善策と考えられてきたところ、その結果ないし業績成果に対して、その被評価者がどの程度寄与していたのか、周囲からの支援はどの程度だったのか、運などの不測要因はどうだったのかなどを見つめることが可能となる。従来は、業績評価を分解・還元する方法はなかったので、「業績はありのままとし、能力をそこから解釈する」こととされていたが、行動インタビュー技法は、業績と能力を一致する視点で評価することを可能にしてくれる。また本人の名義になっていない取組み、業績を発見することも可能となる。しかし、それだけに行動インタビューを司る者の独立性が重要な意義を持つ。直属上司にこのような独立性を期待することは困難なので、この場合のインタビューは業績評価の補完的技法となるだろう。

また業績評価を重視する理由は、過去の業績以外に将来の業績を予言するものが見当たらないからだった。過去に業績を上げたことによって登用することは公平性の点で好ましいだけではなく、適材適所の観点からも無難だったからだ。しかし、これは多大なリスクを伴うことでもあった。そこで、別途にアセスメントセンターなどの手法を併用し、昇格者を選定することも行われてきたが、架空の演習でしかない手法で処遇を決定することへの抵抗もないわけではなかった。これに対して、行動インタビュー方式は、実際の職務や成果の発生プロセスに鋭く迫る可能性を持っており、今後の業績評価手法の中心を占めることが予想される。

しかし、非構造的なインタビューをしても意味がないし、その公正性が確保されない環境で実施されても却って問題が多い。実施するならば、きちんとした社内アセッサーを養成すべきであるし、密室で1対１の方式で実施されるこの技法の手続き上の監査を十分に行なうことも必要となろう。

今後は、行動インタビューを中心とした考課監査を充実させ、職能資格制度における人事評価の脆弱さを補完していくことが期待される。そのことが成果主義を支える必須のインフラになるのであり、新時代の人事アセスメントになるものと考える。また近年、３６０°フィードバックが注目されている。これも気づきをもたらす人事システムとして今後、導入が進められるべきであろう。上司だけでは部下に対して十分な目配りできないことは明らかで、業績や成果をより向上させるためのアプローチとして今後ますます重要な位置を占めることになるものと考える。