日本語教員採用試験③テストの条件

日本語授業で行うテスト（評価）の条件4つ

1　信頼性　測定結果の一貫性。採点基準があいまいだと信頼性が低くなる。同じ条件で同じテストをした場合、だれが測定しても何回測定しても、結果が同じになるような測定結果に一貫性、安定性があること。誰が採点しても結果が同じになるようにテストを作るということ。

信頼性があるかどうかの測定方法

・再テスト法→同じ受験者集団に時間をおいて同じテストを2度実施する方法。

・平行テスト法→同じレベルの、同じような質の、同じ量のテストを2つ用意し、同じ受験者集団にテストを受けてもらい結果を比較する方法。

2　妥当性　そのテストが測りたい能力を本当に測っているか。

例　・会話力を測るのに筆記試験だけ→妥当性が低い

・絵を見てその名前を答える問題で、選択肢が難しい漢字で書かれていて、それが読めなくて答えられない→妥当性が低い

テストを作るうえで最も重要！テストで測ろうとしてる受験者の能力を的確に測定してる→妥当性が高い

聴解のテストで内容を理解するのに特殊な知識が必要→妥当性が低い

妥当性・・・３つの要素で構成される

内容的妥当性→問題が測定範囲の測定対象（＝試験範囲）からまんべんなく適切に出題されているか。

基準関連妥当性→（経緯的妥当性・実証的妥当性）テストによって得られた成績が外部基準と高い相関を持つかどうか。

例）N3レベルを目指す学習者に対するJLPT・N3模擬テストを行って、いい点数をとれていたが、実際に日本語能力試験（JLPT）を受けたらN3レベルに全く届かず不合格。事前に行ったJLPT・N3模擬テストは本当のN3のレベル基準に達しているかを測ることができていない。N3とは関連が低い、基準関連妥当性が低いテストだったことになる。

構成概念的妥当性→そのテストが基づいている理論と矛盾がないか。テストが根源的に何を測っているかを明らかにして、その結果がどの程度説明されるか。

例）教科書に沿って授業を行った後、テストを実施。きちんと教科書に理論が書いてあったが、テストではその理論と矛盾だらけの知識が正解。のようなテストは構成概念的妥当性がない。

どんなことを測るのか事前に受験者に説明されてなければ、構成概念的妥当性がない

3真正性　テストの内容や形式が実際の言語使用場面にどれだけ近いかを示す概念。「教室内で使う日本語」ではなく「現実社会で使う日本語」に近いかどうかが重要。

真正性→本物で、真実味がある

　・学習者が「このテストは役立つ」と感じられる。

　・コミュニカティブアプローチと相性が良い。

「これは鉛筆です。」よりも「これはおみやげです。」のほうが実際の会話で使いそう。

A　これどうぞ　

Bこれはなんですか？

Aこれはおみやげです

Bありがとうございます。どこに行ったんですか？

真正性があるという要素はテストのほか授業での例文や練習、活動を考えるうえで非常に重要な要素。

4　有用性　そのテストが学習者や教授活動にどんな影響を与えるか。特にウォッシュバック効果という言葉で出題されやすい。トータルで考えたときに「やりやすいか、やりにくいか」を考えること。

例）どんなに妥当性、信頼性が高くても、テストをするのに時間がかる、実施するのに複雑な行程があり、手間がかかる、道具をたくさん必要とする。効率の悪いテストは有用性が低い。

有用性は２つに分けられる

・効率性→実施時間や手続きなど実施が容易かどうか

・実用性→費用、労力、設備など、経済的負担が大きすぎないか、実施がスムーズに行われるかどうか

ポジティブな有用性

・小テストを定期的にすると学習者が復習の習慣をつける

・面接試験を入れることで会話練習の意欲が高まる

ネガティブな有用性

・入試で文法穴埋めだけが出題される。→授業が「文法演習偏重」になってしまう。

・JLPT対策ばかりで、実際の会話力が伸びない。

有用性は「テストが学習者や授業にどんな波及効果をもたらすか」に注目する。

評価法の観点では「実用性」や「妥当性」と混同しやすいので注意。

良いテストの4つの〇〇性

①信頼性　②妥当性　③真正性　④有用性

重要　テスト前に教師と学習者が「何をどんな観点から評価するのか」を共有すること！