この記事は、Open and Reproducible Science Advent Calendar 2019の15日目の記事です。
担当は、福島県立医科大学で学振PDをしている小林智之です。
再現性の問題について思うことを論文紹介しつつ書きます。

私は専門が社会心理学で、集団間コンフリクトにおける人々の認知に関心があります。博士課程では実験室実験が大好きで、メタステレオタイプについて研究をしてきました。
卒業した後は福島県で、地域の現場で働く方々と一緒に、東日本大震災の避難者をめぐる集団間コンフリクトについて研究しています。博士課程まではただ理論がおもしろくて研究してきたんですが、今は集団間コンフリクトを実際に目の当たりにしながら、この人たちのために社会心理学は何ができるんだろうと悶々する毎日です。

再現性の問題は学術知見を社会問題の現場に活かすうえでも重要なポイントだと思います。たまたま出ただけかもしれない結果を現場で使うわけにはいかないからです。しかし、現場への応用を考えると、再現性(あるいは頑健性)の証明された知見が必ずしも役に立つわけではないかもしれません。現場にとっては、そのとき、その場で効果を見せてくれれば、他の文脈で効果が再現されなくともどうでも良いです。社会科学の知見は、参加者や場面、時間などの要因によって影響を受け、再現されないこともあります。社会科学では結果が再現されなかったことを研究の質の悪さに直結するのは少し違うかも?では再現性の問題とは?

というわけで面白そうな論文があったので読んでみました。


Medin, Ojalehto, Marin, & Bang. Systems of (non-) diversity, Nature Human Behavior (2017) https://www.nature.com/articles/s41562-017-0088

Medinらは、現行の学術システムが社会科学や行動科学の本来の貢献を阻害しているとして、その要因に次の3つをあげた。

  1. 研究対象(Sample non-diversity)
  2. 理論や方法(methodological non-diversity)
  3. 研究者(researcher non-diversity)

1. Sample non-diversity

研究参加者の極端な偏りや文化的背景の無視は、人間の思考や行動についての知識の一般化可能性にとって脅威となる。

WEIRD samples (Western, Educated, Industrialized, Rich and Democratic): Henrich, Heine & Norenzayan (2010)によって呼ばれた心理学研究の90%以上を占めるとされる参加者たちのこと。

WEIRDサンプルは世の中の大半を占めるタイプの人間というわけではない。Henrichらの論文はすでに多くの文献で引用されているが、研究サンプリングの実際や研究者教育の現場での変化はあまりない。どうも研究に伴う時間やコストの都合が利便性重視のサンプリングをデフォルトにしてしまっている。
こうした実態が危険なのは、とくに理論構築を試みるときなんかで、中流階級のヨーロッパ系アメリカ人が世界の標準のように扱われていることである。WEIRDサンプルじゃない人々のデータを報告するとき、WEIRD母集団の結果と比較してその違いを説明することになる。
インターネット研究(Amazon Mechanical Turk使うやつとか)はサンプルの多様性問題を緩和する可能性があるが、あくまで便利だから使われているのでサンプルのばらつきが気にされないというのなら希望は薄い。
ナローサンプリングは医学研究では非道徳的で許しがたいものとされるのに、心理学はちがうの?

Sample diversityのケース

学習や発達の領域では文化や経験の機能的役割に着目した研究が増えている。
たとえば、認知発達の領域では、存在論的なものに関して少なくとも3つ(意図的なエージェント、動物や植物、無生物)に分けるのが良いとされる。小さな子どもについての生物学は単純な心理学(人間性をプロトタイプとする心理学)で検討されてきたが、最近ではこれらの認知の発達には文化差があることが報告されている。最近の報告では、この3つの分割それ自体が西洋文化に合わせた捉え方であり、他の文化で知識構造を調べるには向いていないことが報告されている(レビューはOjalehto & Medin, 2015を参照)。
他の例として、意思決定に関する最近の研究は、相対的な判断における相対的な節約の傾向がしばしば経済状況により一般化されないことを示している。相対的な節約とは、たとえば40ドルの買い物で20ドルの節約をするためなら努力を惜しまないが、120ドルの買い物で20ドルを節約するために努力する人は少ないというものである。これは、かなり頑健な結果だったが、貧困層の人々には一般化されない(Mullainathan & Shafir, 2013; Shah, Shafir, & Mullainathan, 2015)。

2. Researcher non-diversity

これまで、研究者の多様性は、典型的には公平性や平等な代表性の枠組みで扱われてきた。たとえば、National Research Councilはマイノリティ学者が科学の世界で代表になりにくいことを指摘している(たとえば、National Academies Press, 2011)。しかし、研究者の多様性の危機は、そのような機会の平等に関する問題だけではない。研究者の多様性が失われることは科学の発展にも悪い影響を与える可能性がある。
科学の妥当性には、どんな問題を研究するのか、どんな人々を研究するか、どの手続きや測定を使うか、という選択が重要となる。それらには、研究者の視点や価値、あるいは距離の近さが関わってくる。実際、社会科学者と研究の対象者には強い関連があると考えられる。

多様な研究者の視点は、多様な研究関心や新しい発見にもつながる。実際、女性の科学者が霊長類の社会行動の研究を始めたとき、メスとオスの両方行動に新しい見解が生まれたことや(Small & Hrdy, 1986)、マイノリティ学者が従来のアイデンティティ発達、モチベーション、レジリエンスの因果関係仮説を発展させたこと(Graham & Hudley, 2005; Spencer, 2006)もある。
また、モラル認知の発達研究の例もある。Lawrence Kohlbergはピアジェのモデルの後、モラルジレンマを使って発達段階を識別した(Kohlberg, 1973)。この段階理論は発達段階の強力な指標であったが、Carol Gilliganは彼のモデルを男性志向だと指摘した(Gilligan, 1982)。さらに、Snareyはコールバーグのモデルに対して文化的な批判を行い、27個の文化でレビューを行った。その結果、インドの研究では、生活の共同や動植物と人間との関係など、コールバーグのモデルでは触れられていなかったモラルがより重要視されていることが確認された。研究者の多様性が、サンプルや理論の多様性を生んだのだった。

研究者の多様性は、研究への取り組み方にも多様性を生むことがある(たとえば、Slow scholarship movement;Duarte et al., 2015を参照)。

3. Methodological non-diversity

社会科学で検討されることの実際は文化的なものであり、その実際的なものを反映する基準は、多様な現場や多様な参加者、多様な問題設定の中で浮かび上がる。これは、理論、材料、方法、尺度、環境、研究文脈も含む。方法論の多様性は、研究者の多様性がもたらす様々な視点を後押しする。
心理学の中でも定期的に、研究の問題や方法、測定、設定、理論構築の選択について多様性のなさが批判されている。人の認知を理解するうえでは、これらの多様性は重要であるはずだ。文脈のある理論を検討したいなら、関連する集団の独自の歴史や人口統計的側面を説明する指標が求められる。
社会科学者の多元性はCampbellとStanleyのExperimental and Quasi-experimental Designs for Researchでも触れられている。洗練された学問は単一化した尺度を使用すべきとされる。皮肉なことに、近年のいわゆる再現性危機は、頑健性の類よりも正確な再現性を優先し、それは収束的な測定によってのみ確かなものに出来るとする。さらに皮肉なことに、これはmany labsの再現性プロジェクトを生んだ。Many labsは研究の場所の多様性を促すものであるが、効果は研究の場所が違っても維持されるという仮定のもとで行われている。

コンピュータの発展により、材料や刺激呈示の方法はかなり広がった。しかし、一方で、“社会文脈”のモデルとして小さなブースにパソコンと一緒に参加者を閉じ込める方法が流行った。Baumeister, Vohs, & Funder (2007)は社会科学のひとつである心理学が自己報告かキーボードの上で指を動かしているだけでいいのか懸念している。
技術の発展の良い例はHofmann, Wisneski, Brandt, & Skitka (2014)である。この研究は、スマホを使って1日のうち5度、道徳的または非道徳的な経験について問うもので、実験室研究の結果を再現し、知見の頑健性を示した。
意思決定の領域では、方法や手続きの寛容さと狭量さの両方の例がある。よくある意思決定課題は確率の異なるベットとペイオフにおける意思決定を見るものである。Baruch Fischhoff (1996) は、現実世界の状況を実験室に単純化する際の“内部破壊”のリスクを指摘している。単純化することによって現実世界の状況を壊し、課題設定に適合しない状況を排除しているように思える。顕著な例としてはシナリオを用いた実験である。Fischhoffはさらに、ナローな課題から現実世界に知見を返すには、かなりの外的要因を含む必要があり、他の重要な現象を見れていない可能性があることも指摘している。

A systems-levels perspective and niche construction

行動科学や社会科学は複雑なシステムを構成するものであり、それらの学問は現場と共に発展してきた。しかし、これらのニッチ構造プロセスは、一部の集団(WEIRDサンプルとか)に特権が与えられたまま、ナローな感覚、ナローな価値、ナローな研究実践を強化するように働いている。
このニッチ構造プロセスは若者が大学に入学した際にも生じているかもしれない。
たとえば、白人制度の優勢なところに入ったマイノリティまたは女性の院生(とくに多様な背景がリクルート理由のとき)は、自身の研究を行うにあたって、認識論的挑戦(多様なアプローチや母集団に費やす意味を学部から問われる)、文脈的挑戦(文化的な大学の地理や人間関係)、実践的挑戦(研究関係を発展させる時間)に直面するかもしれない。
サンプルの多様性、方法の多様性、研究者の多様を推奨し、支持していくためには、コミットメントとエネルギーが必要である。おそらく研究母集団の多様化と方法の拡張におけるもっともはやい道筋は、研究者の多様性を通ることである。女性やマイノリティが自身の適応や実際を見て科学の実践に関係づけられれば、科学の領域はより彼らにとって魅力的になるだろう。そして、我々の科学は、多様な学者が知見をもたらし、より公平な形の知識生産とより頑健な知識を得ていく、すべてにとってより良いものになっていくだろう。


Medinらは、社会科学において多様性を無視することの危険性について指摘しました。社会科学をする意味が社会をより良くするためであるとするならば、研究知見は現場で活かされないといけません。しかし、現実場面は実験室ほどクリーンではなく、統計ソフトの中ほど取捨選択が自由ではありません。そんな現場に研究知見を活かそうと思うと、知見の頑健性か柔軟性が必要に思います。すなわち、知見はあらゆる文脈においても変わらず言えるのか、あるいは、文脈によって変わるならその変化に影響する要因は何なのかに答えられるということです。
頑健な結果だとか、違う結果になったがここの要因が違ったからだとかを言おうと思うと、その基準になっているオリジナルの知見が確かなものでなければなりません。すなわち、同じ人間に同じ文脈で研究したら必ず同じ結果になるという前提があるから、この文脈でも同じ結果だったので頑健だとか、ここが違ったから変わったんだとか言うことができます。ここに再現性の問題は関わっているのだと思います。
ただ、「これは再現性のない研究です」って言われると、まるで質の悪い研究なんだと思っちゃうけど、もしも社会科学が多様性をも関心の一つとするならば、追試において結果が再現されなかったことそれ自体を問題の中心とするのは少し違うのかも。社会科学において再現されなかったときに問題なのは、むしろその原因を判別できないことなのかも。同じ結果になるはずだと思ってやった研究が全然違う結果になったとき、その原因がわからなかったら結果をどう解釈していいかわかりませんしね。だとすると、再現性の問題への対応としては後々の研究者が自分の研究と比較できるように、実験設定を(関係ないかもしれないことも)事細かに記しておくことが重要なのかもしれません。
あ、だからオープンサイエンスが推奨されたり、Methodsの文字制限が無くなったりしているのかな。