Результаты многих МРТ-исследований поведения могут оказаться ошибочными из-за малочисленной выборки: анализ в Nature
(По материалам сайта Nature: Can brain scans reveal behaviour? Bombshell study says not yet)
В 2019 году нейробиологу Скотту Мареку из Университета Вашингтона (Сент-Луис, Миссури) предложили провести работу и опубликовать статью в журнале о когнитивном развитии детей. Согласно имевшейся на тот момент научной литературе, определенные изменения в функциональной активности мозга коррелировали с показателями при выполнении детьми когнитивных тестов. Скотт Марек решил провести исследование этого вопроса на выборке из 2000 детей.
Учитывая все увеличивающиеся размеры исследуемых когорт в научной литературе, Марек с коллегами решили в своей работе наглядно продемонстрировать, что рост размеров выборки приносит пользу, делает результаты более надежными. Они разделили когорту напополам и провели анализы на половинчатых массивах данных, но, к их великому удивлению, полученные результаты не совпали, хотя должны были совпасть. «Я был в шоке. Я ожидал, что оба набора данных дадут один результат», - пояснил Марек. «В подавленном настроении я смотрел в окно своей квартиры и думал о том, каковы будут последствия находки для моей области исследований».
За этим последовала новая работа, опубликованная Мареком с коллегами в журнале Nature 16 марта, и эффект от публикации подобен разрыву бомбы. Ученые показывают, что исследования, основанные на сканировании мозга, даже при использовании крупной выборки, подобной выборке в работе Марека от 2019 года, имеют недостаточную мощность для надежной детекции большинства корреляций между работой мозга и поведением.
Следовательно, могут оказаться ошибочными выводы, сделанные в ходе большинства «цельномозговых ассоциативных исследований». Термин является производным от «полногеномных ассоциативных исследований» (GWAS) и описывает исследования, в ходе которых ищутся связи между вариациями в структуре и активности мозга и показателями мышления, психического здоровья и поведения. Так, существует множество исследований, в которых был выявлен тот или иной характер активности или особенность структуры мозга, которые, по мнению авторов исследования, позволяют отличить человека с депрессией от здорового человека. Также целью может являться поиск биомаркеров, связанных с определенными чертами поведения.
«Многие ученые посвятили свою карьеру осуществлению работы, которая, если верить проведенному анализу, не имела смысла», - пояснил Рассел Полдрак (Russel Poldrak), когнитивный нейробиолог из Стэнфордского Университета (Калифорния), один из рецензентов статьи Марека. «Это требует переосмысления».
Авторы анализа подчеркивают, что их критика направлена только на исследования, в которых предпринимается попытка увязать межличностные различия в поведении с показателями на снимках мозга. Вместе с тем некоторые ученые полагают, что анализ гребет все исследования под одну гребенку. По их мнению, при детальном подходе получить достоверные результаты в небольших исследованиях возможно.
В ходе анализа, проведенного Скоттом Мареком совместно с Нико Дозенбахом (Nico Dosenbach), нейробиологом из WashU, и коллегами, были проанализированы данные о 50 тысячах участников нескольких крупных проектов, таких, как проект UK Biobank. Массив данных включал результаты МРТ- или фМРТ-сканирования мозга и результаты тестов, оценивающих поведение участников.
Исследователи разбили массив данных на большое число выборок различного размера, чтобы сымитировать проведение миллиардов исследований и оценить силу корреляции показателей МРТ и различных показателей когнитивной функции, поведения и демографических показателей. Размер виртуальных выборок составил от 25 до 32 000 человек.
Надежные, реплицируемые результаты удавалось получить, когда размер выборки в «исследовании» достигал нескольких тысяч человек, но и при этом выявляемая степень ассоциации не достигала значений, о которых обычно объявляют в научных публикациях. Наиболее сильный показатель корреляции в симулируемых исследованиях достиг r=0.16, а медианное значение составило 0.01, при этом в научной литературе нередко встречаются показатели r=0.20 и выше.
В поисках причины этого несовпадения ученые симулировали ряд исследований с еще меньшей выборкой, при этом сила корреляции значительно повысилась, однако эти результаты с высоким значением r перестали реплицироваться в других исследованиях – как с малой, так и с крупной выборкой. Так, результат, полученный в симулированном исследовании с выборкой в 2000 человек, которую в наши дни принято считать крупной, был реплицирован лишь в 25% повторных «исследований». Ситуация была еще хуже в случае «исследований», в которых выборка была ближе к типичной выборке и составляла 500 и менее человек – лишь около 5% результатов были реплицированы.
Судя по всему, высокие значения коэффициента корреляции r, часто обнаруживаемые в научных публикациях, являются проявлением случайности, и вероятность репликации таких результатов очень низка. Ученый с большей готовностью опубликует статью, если в ней содержится статистически значимый результат, да еще с большим размером эффекта, нежели чем статью, в которой корреляций не обнаруживается. Это приводит к заполнению научной литературы большим количеством статей, описывающих несуществующие корреляции между структурными/функциональными особенностями мозга и поведением человека.
По мнению Марека, Дозенбаха и соавторов, исследователям стоит использовать гораздо более крупные выборки для получения достоверных результатов. Авторы указывают на то, что проблема с ложноположительными результатами наблюдалась прежде в генетических исследованиях, и ситуацию удалось изменить тогда, когда исследователи и спонсоры решились на проведение исследований с очень крупными выборками – в наше время численность исследуемой когорты при полногеномногом исследовании ассоциаций (GWAS) может достигать нескольких миллионов человек. В случае с исследованиями с применением МРТ, по мнению Марека, «неясно, требуются ли сотни тысяч или миллионы испытуемых, но не будет ошибкой предположить, что требуются тысячи».
Некоторые исследователи считают, что при использовании малочисленных выборок все-таки можно добиться полезных результатов. Питер Бандеттини (Peter Bandettini), нейробиолог из Национального института психического здоровья в Бетесда (Мериленд), указал на то, что в симулированных исследованиях велся поиск корреляций между обобщенными показателями поведения либо психического состояния (полученными, например, с использованием опросников для самостоятельного заполнения) и снимками мозга, отличающимися высокой межиндивидуальной вариацией – в таких условиях достоверные корреляции обнаружить труднее.
Стивен Смит, нейробиолог из Оксфорда, возглавляющий проект UK Biobank по сканированию мозга, считает, что при тщательном отборе участников и продвинутом анализе результатов сканирования все-таки можно добиться показателей корреляции, превышающих значения, отмеченные в анализе. «Боюсь, в этой публикации степень ненадежности преувеличена».
Научная публикация: Marek S, Tervo-Clemmens B, Calabro FJ, Montez DF, Kay BP, Hatoum AS, Donohue MR, Foran W, Miller RL, Hendrickson TJ, Malone SM, Kandala S, Feczko E, Miranda-Dominguez O, Graham AM, Earl EA, Perrone AJ, Cordova M, Doyle O, Moore LA, Conan GM, Uriarte J, Snider K, Lynch BJ, Wilgenbusch JC, Pengo T, Tam A, Chen J, Newbold DJ, Zheng A, Seider NA, Van AN, Metoki A, Chauvin RJ, Laumann TO, Greene DJ, Petersen SE, Garavan H, Thompson WK, Nichols TE, Yeo BTT, Barch DM, Luna B, Fair DA, Dosenbach NUF. Reproducible brain-wide association studies require thousands of individuals. Nature. 2022 Mar 16. doi: 10.1038/s41586-022-04492-9. Epub ahead of print. PMID: 35296861.
20 марта 2022, Тимеев Артем Геннадьевич