Thursday, December 24, 2020

Bilimsel Numeroloji

 

Bu yazı Salih Durhan'ın blogundan alınmıştır. (Akademik Matematik Blogu)

Diyelim “elma kansere iyi geliyor” diye bir hipoteziniz var, bunu nasıl kanıtlarsınız? Uygulama detaylarını bir kenara bırakacak olursak, temel yöntem şu: Bir grup kanser hastasını alıp ikiye ayırıyorsunuz, birinci gruba elma yedirmiyorsunuz (kontrol grubu), ikinci gruba her gün bir elma yediriyorsunuz (deney grubu). Sonra bakıyorsunuz, hangi grup daha uzun yaşadı. Ortalama yaşam süresinde azıcık fark varsa, mesela bir kaç ay, bu kadarı elmayı kanser ilacı yapmaya yeter mi? Tam ne kadar fark olursa, “evet elma kansere iyi geliyor” diyeceğiz? O yüzden ver elini istatistik, ver elini p değeri.

Kanser çeşidi, hastaların yaşı, cinsiyeti, tıbbi geçmişleri soruyu daha da zorlaştırıyor, ama biz bunlara takılmayalım. Diyelim ki kanser üzerinde etkili olabilecek bütün değişkenleri aynı 100’er kişilik iki grup insan var, kontrol grubu grup elma yemiyor, deney grubu her gün birer elma yiyor. Yıllarca izledik her iki grubu da baktık ki, deney grubunun ortalama yaşam süresi 1 yıl daha uzun. Bilimsel olarak bu 1 yıl fark elmadandır demek için kıvranıyoruz, Allah göstermesin bu sonuç tamamen tesadüfen de olabilirdi. Genel kabul gören bilimsel yaklaşıma göre, önce “boş hipotezi” (null hypothesis) ortaya koyuyoruz:

H0:Elmanın kanser hastalarının yaşam süresi üzerinde bir etkisi yoktur.Sonra kendimize şunu soruyoruz: Eğer boş hipotez doğru olsaydı, iki grup arasındaki 1 yıllık yaşam süresi farkını ne kadar ihtimalle gözlemleyebilirdik?

Detaylar teknik bir yazının konusu, ama bu soruya yanıt vermek gerçekten bilimsel bir yanıt vermek mümkün, yanıtın literatürdeki adı p değeri. Bu p değeri çok küçükse, mesela 0.001 0.01’den küçükse, o zaman şu sonuca varabiliriz:

Eğer elma kansere iyi gelmeseydi, 100’er kişilik kontrol ve deney gruplarının yaşam ortalaması farkının 1 yıl olması ihtimali %1’den küçük olurdu. Demek ki elma kansere iyi geliyormuş.

Kullanılan modeller, test edilen hipotezler bizim uyduruk senaryomuzdan çok daha karmaşık olabilir ama bilimin önemli bir kısmı p değeriyle yapılıyor. Bu, sorunları saymakla bitmeyecek kadar yanlış bir yaklaşım. Yıllardır bırakalım bu p fetişini diye bir sürü insan yazıp çiziyor ama nafile. Bilim camiası hala p’yi çok seviyor, kocaman karmakarışık bir soruyu, yılların bilgi birikimi ve literatürünü tek bir sayıya indirgemek herkesi rahatlatıyor olmalı. En basitinden, p’nin kaçtan küçük olması sonucu bilimsel yapacak sorusunun cevabı yok. Eğer bir hipotez pek çok araştırmacı tarafından denenirse, eninde sonunda birileri p’yi yeterince küçük bulacak, nasıl olsa p’yi yeterince küçük bulamayan (istediği sonuca ulaşamamış) çalışmalar genellikle yayınlanmıyor. Ya da bazı kötü niyetli kişiler p değerini düşürmek için çeşitli numaralar çeviriyorsa?

Fakat bunlardan çok çok daha büyük bir sorun daha var. Aslında p değerinin ne olduğunu da bilmiyoruz. Yoldan geçenler değil, biliminsanları da bilmiyor. Çok muhterem bir biliminsanı Gigerenzer çalışmasında psikoloji alanında öğrenciler, hocalar ve istatistik dersini anlatan hocalara p değeriyle ilgili 6 tane yanlış önerme vermiş. Sonuçlar korkunç. En az bir tane yanlışa doğru diyenlerin oranı öğrencilerde %100, hocalarda %90, istatistik dersi anlatan hocalarda %80! Bilimsel yöntemi bu sefillikten kurtarmak zorundayız, yoksa aşı otizm yapıyor kafasıyla mücadele etmek tamamen imkansız hale gelecek.

Gigerenzer’in çalışmasında sorduğu sorulara gelelim. Yukarıdaki kanser çalışmasında olalım, p değerini hesapladık %1 çıktı. Aşağıdaki önermelerden hangileri doğrudur?

  1. Elmanın kansere iyi gelmediği kesinlikle yanlıştır.
  2. Elmanın kansere iyi gelmiyor olma ihtimali %1’dir.
  3. Elmanın kansere iyi geldiği kesinlikle doğrudur.
  4. Elmanın kansere iyi geliyor olması ihtimalini hesaplayabilirsiniz.
  5. Elmanın kansere iyi gelmiyor olması ihtimali hesaplayabilirsiniz.
  6. Aynı deneyi defalarca tekrar etseydiniz %99 ihtimalle aynı sonuca ulaşırdınız.

1 ve 3 tabii ki yanlış, çünkü kesin bir sonuç elde etmiyoruz. Diğerleri daha kandırmacalı. Yukarıda yazanları bir kere daha okursanız, p değerinin tam olarak “elma kansere iyi gelmiyorsa, veri setlerinin bu sonucu vermesi ihtimali” olduğunu göreceksiniz. Yanisi, p değeri doğrudan elmanın kansere iyi gelip gelmediğiyle ilgili herhangi bir olasılık ölçmüyor, ve önermelerin hepsi yanlış.

Bilim yayın yapmaya, iş bulmaya ve fon almaya programlanmış düzene bırakılamayacak kadar ciddi bir iştir, p değeri üzerinde ortaya saçılan sefillik bence bunu gösteriyor.