Fragilità, credibilità, controfattuale

Enrico Ripamonti, Piero Quatto, Donata Marasini

Abstract


Riassunto: Nell’ultimo decennio il p-value è stato sottoposto a notevoli critiche soprattutto per l’uso che se ne fa per raggiungere una conclusione dicotomica circa la significatività del risultato sperimentale (significativo o non significativo). Pertanto, da una parte il p-value è stato sostituito con approcci differenti, dall’altra è stato affiancato da alcune procedure diagnostiche, tra le quali figurano la fragilità e la credibilità, che hanno il compito di rafforzare o meno la conclusione. La fragilità e l’indice che la misura presentano aspetti di debolezza metodologica. D’altro canto, l’indice di credibilità sembra idoneo per dare o meno supporto alla conclusione e per rafforzare o sostituire l’indice di fragilità, dato che misura la credibilità del risultato osservato quantificando l’informazione a priori necessaria per ribaltare il risultato stesso. Il particolare meccanismo delle due procedure, che si fonda su quanto dovrebbe accadere per cambiare la conclusione, suggerisce di inserire le medesime nella prospettiva controfattuale considerandole come nuovi strumenti per la sua misura quantitativa. In questo contributo si presenta questa prospettiva, con particolare riferimento al campo applicativo delle scienze psicologiche.

Parole chiave: p-value; Indice di fragilità; Distribuzioni a priori; Indice di credibilità; Prospettiva controfattuale

 

Fragility, credibility and counterfactuality

Abstract: In the last decade, scientific reliance on p-values, especially when used to determine in a dichotomic manner whether a scientific result is significant or not, has been strongly criticized. As a consequence, p-values are sometimes replaced by other statistical tools, or supplemented by complementary procedures such as tests for fragility and credibility, which lend further support or challenge the conclusion. The fragility index presents some methodological weaknesses of its own. The credibility index proposed in the literature seems to provide a particularly useful supplement for p-values as well as for the fragility index, considering that it assesses the reliability of the result obtained by quantifying the a priori information needed to overturn the result. Both procedures rely on what would need to happen in order to modify the conclusion. This suggests that they can be considered as valuable new tools for quantitative measurement within a counterfactual framework. In our contribution we present this perspective, with reference to the psychological sciences.

Keywords: p-value; Fragility Index; Priors/Posteriors; Credibility Index; Counterfactual Perspective

Parole chiave


p-value; indice di fragilità; distribuzioni a priori; indice di credibilità; prospettiva controfattuale

Full Text

PDF

Riferimenti bibliografici


AHMED, W., FOWLER, R.A., MCCREDIE, V.A. (2016). Does sample size matter when interpreting the fragility index?. In: «Critical Care Medicine», vol. XLIV, n. 11, pp. 1142-1143.

AMRHEIN, V., GREENLAND, S., MCSHANE, B. (2019). Scientists raise up against statistical significance. In: «Nature», vol. DLXVII, n. 7748, pp. 305-307.

BENJAMIN, D.J., BERGER, J.O., JOHANNESSON, M., NOSEK, B.A., WAGENMALERS, E.J., BERK, R., BOLLEN, K.A., BREMBS, B., BROWN, L., CAMERER, C., CESARINI, D., CHAMBERS, C.D., CLYDE, M., COOK, T.D., DE BOECK, P., DIENES, Z., DREBER, A., EASWARAN, K., EFFERSON, C., FEHR, E., FIDLER, F., FIELD, A.P., FORSTER, M., GEORGE, E.I., GONZALES, R., GOODMAN, S., GREEN, E., GREEN, D.P., GREENWALD, A.G., HADFIELD, J.D., HEDGES, L.V., HELD, L., HO, T.H., HOJJTINK, H., HRUSCHKA, D.J., IMAI, K., IMBENS, G., IOANNIDIS, J.P.A., JEON, M., JONES, J.H., KIRCHLER, M., LAIBSON, D., LIST, J., LITTLE, R., LUPIA, A., MACHERY, E., MAXWELL, S.E., MCCARTHY, M., MOORE, D.A., MORGAN, S.L., MUNAFO, M., NAKAGAWA, S., NYHAN, B., PARKER, T.H., PERICCHI, L., PERUGINI, M., ROUDER, J., ROUSSEAU, J., SAVALEI, V., SCHÖNBRODT, F.D., SELLKE, T., SINCLAIR, B., TINGLEY, D., VAN ZANDT, T., VAZIRE, S., WATTS, D.J., WINSHIP, C., WOLPERT, R.L., XIE, Y., YOUNG, C., ZINMAN, J., JOHNSON, V.E. (2018). Redefine statistical significance. In: «Nature Human Behaviour», vol. II, n. 1, pp. 6-10.

BETENSKY, R.A. (2019). The p-value requires context, not a threshold. In: «The American Statistician», vol. LXXIII, Supplement 1, pp. 115-117.

BLUME, J.D., GREEVY, R.A., WELTY, V.F., SMITH, J.R., DUPONT, W.D. (2019). An introduction to second-generation p-values. In: «The American Statisti-cian», vol. LXXIII, Supplement 1, pp. 157-167.

BYRNE, R.M.J. (2016). Counterfactual thinking. In: «Annual Review of Psychology», vol. LXVII, pp. 135-157.

FEINSTEIN, A.R. (1990). The unit fragility index: An additional appraisal of “statistical significance” for a contrast of two proportions. In: «Journal of Clinical Epidemiology», vol. XLIII, n. 9, pp. 201-209.

FRASER, D.A.S. (2019). The p-value function and statistical inference. In: «The American Statistician», vol. LXXIII, Supplement 1, pp. 135-147.

GANNON, M.A., DE BRAGANÇA PEREIRA, C.A., POLPO, A. (2019). Blending Bayesian and classical tools to define optimal sample-size-dependent significance levels. In: «The American Statistician», vol. LXXIII, Supplement 1, pp. 213-222.

GELMAN, A., CARLIN, G.B., STERN, H.S., DUNSON, D.B., VEHTARI, A., RUBIN, D.B. (2014). Bayesian data analysis, Chapman & Hall, New York.

GREENLAND, S. (2019). Valid p-values behave exactly as they should: Some misleading criticisms of p-values and their resolution with s-values. In: «The American Statistician», vol. LXXIII, Supplement 1, pp. 106-114.

HECK, D.W., BOEHM, U., BÖING-MESSING, F., BÜRKNER, P., DERKS, K., DIENES, Z., FU, Q., GU, X., KARIMOVA, D., KIERS, H., KLUGKIST, I., KUIPER, R.M., LEE, M.D., LEENDERS, R., LEPLAA, H.J., LINDE, M., LY, A., MEIJERINK-BOSMAN, M., MOERBEEK, M., MULDER, J., PALFI, B., SCHÖNBRODT, F., TENDEIRO, J., VAN DEN BERGH, D., VAN LISSA, C.J., VAN RAVENZWAAIJ, D., VANPAEMEL, W., WAGENMAKERS, E., WILLIAMS, D.R., ZONDERVAN-ZWIJNENBURG, M., HOIJTINK, H. (2022). A review of applications of the Bayes factor in psychological research. In: «Psychological Methods» – doi:10.1037/ met0000454.

HELD, L. (2019). The assessment of intrinsic credibility and a new argument for p <0.005. In: «Royal Society Open Science», vol. VI, n. 3, Art. Nr. 181534 – doi: 10.1098/rsos.181534.

HELD, L., MATTHEWS, R., OTT, M., PAWEL, S. (2021). Reverse-Bayes methods: A review of recent technical advances, arXiv preprint arXiv:2102.13443.

KEYSERSE, C., GAZZOLA, V., WAGENMAKERS, E.J. (2020). Using Bayes factor hypothesis testing in neuroscience to establish evidence of absence. In: «Nature Neuroscience», vol. XXIII, n. 7, pp. 788-799.

KRUSCHKE, J. (2018). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan. Elsevier, Amsterdam, 2nd edition.

KRUSCHKE, J.K., LIDDELL, T.M. (2018). Bayesian data analysis for newcomers. In: «Psychonomic Bulletin & Review», vol. XXV, n. 1, pp. 155-177.

LEWIS, D. (1973). Causation. In: «The Journal of Philosophy», vol. LXX, n. 17, pp. 556-567.

LUCCHINI, M. (2013). Il contributo del modello controfattuale all’irrobustimento della sociologia. In: «Quaderni di Sociologia», vol. LXII, pp. 55-76.

LY, A., STEFAN, A., VAN DOORN, J., DABLANDER, F., VAN DEN BERGH, D., SARAFOGLOU, A., KUCHARSKY, S., DERSK, K., GRONAU, Q.F., RAJ, A., BOEHM, U., VAN KESTEREN, E.-J., HINNE, M., MATZKE, D., MARSMAN, M., WAGENMAKERS, E.J. (2020). The Bayesian methodology of Sir Harold Jeffreys as a practical alternative to the p value hypothesis test. In: «Computational Brain & Behavior», vol. III, n. 2, pp. 153-161.

MARTINI, A. (2006). Metodo sperimentale, approccio controfattuale e valutazione degli effetti delle politiche pubbliche. In: «Rassegna Italiana di Valutazione», vol. XXXIV, pp. 61-74.

MATTHEWS, R.A.J. (2001). Methods for assessing the credibility of clinical trial outcomes. In: «Drug Information Journal», vol. XXXV, n. 4, pp. 1469-1478.

MATTHEWS, R.A.J. (2018). Beyond “significance”: Principles and practice of the analysis of credibility. In: «Royal Society Open Science», vol. V, n. 1, Art. Nr. 171047 – doi: 10.1098/rsos.171047.

MATTHEWS, R.A.J. (2019). Moving towards the post p < 0.05 era via the analysis of credibility. In: «The American Statistician», vol. LXXIII, pp. 202-212.

MATTHEWS, R.A.J. (2021). The p‐value statement, five years on. In: «Significance», vol. XVIII, n. 2, pp. 16-19.

MORATO, V. (2019). Controfattuali. In: «APhEx», vol. XX, pp. 1-58.

MORGAN, S.L., WINSHIP, C. (2014). Counterfactuals and causal inference, Cambridge University Press, Cambridge.

PEARL, L., GLYMOUR, M., JEWELL, N.P. (2016). Causal inference in statistics, Wiley, New York.

POTTER, G.E. (2020). Dismantling the fragility index: A demonstration of statistical reasoning. In: «Statistics in Medicine», vol. XXXIX, n. 26, pp. 3720-3731.

QUATTO, P., RIPAMONTI, E., MARASINI, D. (2022). Beyond p < 0.05: A critical review of new Bayesian proposal for assessing the p-value. In: «Journal of Bio-pharmaceutical Statistics», online: 4 March 2022 – doi: 10.1080/ 10543406.2021.2009497.

ROESE, N. (2009). The psychology of counterfactual thinking. In: «Historical Social Research», vol. XXXIV, n. 2, pp. 16-26.

ROSENBAUM, P.R. (2010). Design of observational studies, Springer, Berlin/New York.

ROSENBAUM, P.R., RUBIN, D.B. (1983). Assessing sensitivity to an unobserved covariate in an observational study with binary outcome. In: «Journal of the Royal Statistical Society», vol. XLV, n. 2, pp. 212-218.

ROSENBAUM, P.R., RUBIN, D.B. (1983). The central role of the propensity score in observational studies for causal effects. In: «Biometrika», vol. LXX, n. 1, pp. 41-55.

RUBIN, D.B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. In: «Journal of Educational Psychology», vol. LXVI, n. 5, pp. 688-701.

RUBIN, D.B. (2005). Causal inference using potential outcomes: Design, modeling, decisions. In: «Journal of the American Statistical Association», vol. C, n. 469, pp. 322-331.

SCOTT, M.L., BARTLETT, B. (2019). Bayesian statistics in sociology: Past, present, future. In: «Annual Review of Sociology», vol. XLV, pp. 47-68.

WAGENMAKER, E.J., VERHAGEN, J., MATZKE, D., STEINGROEVER, H., ROUDE, J.N., MOREY, R. (2017). The need for Bayesian hypothesis testing in psychological science. In: S.O. LILLIENFELD, I.D. WALDMAN (eds.). Psychological science under scrutiny, Wiley, New York, pp. 123-138.

WAGENMAKERS, E.J., MARSMAN, M., JAMIL, T., LY, A., VERHAGEN, J., LOVE, J., SELKER, R., GRONAU, Q.F., SMIRA, M., EPSKAMP, S., MATZKE, D., ROUDER, J.N., MOERY, R.D. (2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. In: «Psychonomic Bullettin & Review», vol. XXV, n. 1, pp. 35-57.

WALSH, M., SRINATHAN, S.K., MCAULEY, D.F., MRKOBRADA, M., LEVINE, O., RIBIC, C., MOLNAR, A.O., DATTANI, N.D., BURKE, A., GUTATT, G., THABANE, L., WALTER, S.D., POGUE, J., DEVERAUX, P.J. (2014). The fragility of trial results is frequently fragile: A case for a fragility index. In: «Journal of Clinical Epidemiology», vol. LXVII, n. 6, pp. 622-628.

WALTER, S.D., THABANE, L., BRIEL, M. (2020). The fragility of trial results involves more than statistical significance alone. In: «Journal of Clinical Epidemiology», vol. CXXIV, pp. 34-41.




DOI: https://doi.org/10.4453/rifp.2022.0005

Copyright (c) 2022 Enrico Ripamonti, Piero Quatto, Donata Marasini

URLdella licenza: http://creativecommons.org/licenses/by/4.0/

Rivista internazionale di Filosofia e Psicologia - ISSN: 2039-4667 (print) - E-ISSN: 2239-2629 (online)

Registrazione al Tribunale di Milano n. 634 del 26-11-2010 - Direttore Responsabile: Aurelia Delfino

Web provider Aruba spa - Loc. Palazzetto, 4 - 52011 Bibbiena (AR) - P.IVA 01573850516 - C.F. e R.I./AR 04552920482

Licenza Creative Commons
Dove non diversamente specificato, i contenuti di Rivista Internazionale di Filosofia e Psicologia sono distribuiti con Licenza Creative Commons Attribuzione 4.0 Internazionale.