Analitik Yöntem: Doğru veriye nasıl ulaşmalı?

Sene başında HBR'de Eric Haller ve Greg Satell imzalı 'Veri-Yönlendirmeli Kararlar Bu 4 Soruyla Başlamalı'⁽¹⁾ adında bir makaleyi okuduğumda, aslında bilgi kuramı açısından (epistemoloji), 2500 yıldır ne kadar az yol almış olduğumuzu farkettim. Sonuç itibari ile, felsefeden uzak, sadece teknoloji kullanarak gelişmeye inananların, nasıl hüsrana uğrayacaklarını anlatma fırsatım olsaydı diye düşünmüştüm. Kısmet bugüne imiş.

Gerçeği, sadece gerçek olduğu için sevmek, bu dünyadaki insan mükemmeliyetinin esas unsuru ve diğer tüm erdemlerin ocağıdır.

John Locke

Günümüz iş süreçleri içinde izlediğimiz yöntemlerin büyük bölümü sadece veri odaklı olmaya başladı. Ne kadar verimiz varsa, kendimizi o kadar güç sahibi hissediyoruz. Peki elimizdeki veri setinin aslında 'bilgi' olup olmadığını nasıl anlayabiliriz. Yaklaşık 2500 yıl önce Sokrates "bildiği tek şeyin aslında hiçbirşeyi bilmediği" olduğunu söylediğinde, doğa olaylarının nedenlerine odaklanmış 'Yunan Mucizesi'nin büyük düşünürlerinin yolunu sonsuza kadar değiştirmiş, bazılarına göre ise karartmıştı⁽²⁾. Sokrates sonrası şüpheci akım temsilcileri de 'hiçbir şeyi bilmemenin' de, bir tür 'bilmek' varsayılacağından, onun da bilinemeyeceğini, ve ila nihaye gidecek bir hiçlik felsefesini de başlatmış oldular. Gorgias, hiçbir şeyin var olmadığını savundu; ona göre bir şey varsa da, bilinemez; var ve bilinebilir olduğu varsayılsa bile başkalarına iletilemezdi. Bertrand Russel’a göre bu bir dogmatik şüpheciliktir ve bütün sistemi savunmasız kılar. ⁽⁴⁾

Gorgias ve Protagoras gibi sofistlerle antik çağdan başlayan ve Descartes ile ondan sonrakiler gibi gerçek şüphecilere, kendilerinin düşünceleri dışında bir dış dünyanın varlığını bile kanıtlayamayacağımız için, biz yolumuza bir dış dünya ve onu şekillendiren olgular (veri setleri) olduğunu kabul ederek başlamak durumundayız.

Birşeyi bilmemizin mümkün olduğu varsayımından hareketle yola çıktığımızda, işe öncelikle bilginin tanımından başlamalı. Elinizdeki bir veri setinin öncelikle 'bilgi' olarak nitelendirilip nitelendirelemeyeceğini değerlendirmek gerekiyor. Oxford sözlüğü 'bilmek' fiilini; gerçeği; tanımak, tanımlamak, ayırd etmek, tanışmak, kavramak ve idrak etmek olarak tanımlıyor. Bu geniş tanımlamayı Lous P.Pojman'ın yaptığı gibi daraltırsak öncelikle 'bilginin önşartının gerçek olduğunu' ⁽³⁾ doğru kabul etmeliyiz.

Gerçek ile ilgili Pojman, üç ana doğrulama kuramı sunuyor; karşılıklılık, tutarlılık, ve pragmatiklik ⁽³⁾. Şimdi bu kuramları örneklerle açıklamaya çalışalım.

Karşılıklılk (mütekabiliyet) kuramı

Karşılıklılık kuramı, her önermenin gerçek dünyada olgusal bir karşılığı olması gerektiğini söyler bize. Yani önerme ile olgular arasında bir ilişki olmalıdır. Nesnel yargılara dayalı sağduyulu önsezilerimizi içinde oldukları dünyada değerlendirmeye dayalıdır. İnançlarımız, sadece iyimser düş-gücümüzle değil, gerçek dünyada nesnel tabanları varsa doğrulanabilir. Wittgenstein'ın dediği gibi " Bir önerme, bizim hayal ettiğimiz gerçekliğin modelidir."

Bu kuramın zayıf yanına örnek vermek gerekirse, Einstein'ın genel görelilik kuramına ilişkin "ışık hızına yaklaşan cismin uzunluğu %50 kısalır" önermesi de şu an için olgusal olarak kanıtlanabilir bir önerme değildir; ama olgusal karşılığı olmaması, yanlış olduğu anlamına gelmez.

Tutarlılık kuramı

Bir önermenin gerçek kabul edilebilmesi için, daha önce yanlışlanmamış diğer önerme sistemleri ile uyumlu olması ve kendi içindeki parçaların da birbirleri ile mantıksal gereklilik ile ilişkilendirilmiş olmaları gerekir. Yani bir gerçek önermenin tüm parçaları birbirilerine uyum içinde bağlı olmalıdırlar. Bu uyumluluğu G.W.Hegel'in sözleri ile açıklarsak; "Gerçek olan rasyoneldir ve rasyonel olan da gerçektir." Yine de bu tanımın bizi döngüsel bir doğrulama uzağına çekmesine izin vermememiz gerekir.

Bu konuyu küçük bir örnekle açkılayalım; pencerenizden her sabah saat 9:00'da kırmızı bir aracın otoparkınıza park ettiğini, ve saat 9:01'de de mavi bir aracın hareket ettiğini gözlemliyorsunuz. Onlarca kez bu durumu gözlemleyen birisi, şöyle bir önermede bulunabilir: "mavi araç, kırmızı araç geldikten sonra hareket eder." Görünüşte doğrudur ama, açıkladığımız gibi olgular arasındaki mantıksal bağ zayıftır. Oysa, kırmızı araçtan inen bir kişinin, mavi aracın şöför mahaline oturduğunu da gözlemliyorsanız daha sağlam bir ilişki kurarak bu önermeyi güçlü hale getirebilirsiniz. Yine de, ertesi gün kırmızı araç geldiğinde, mavi aracın gideceğinin bir garantisini veremezsiniz.

Önermelerde döngüsellik uzağına da düşmemek gerekir. Yani tutarlı olması açısından kanıt olarak kullanacağınız ikinci önerme, birinciye bağlı olmamalıdır, aşağıdaki önermelere bir göz atalım;

1.Genel Görelilik kuramı doğrudur, çünkü dahi bir fizikçi tarafından ortaya atılmıştır.

2.Einstein dahi bir fizikçidir, çünkü Genel Görelilik kuramını bulmuştur.

Bu önermelerin birbirini tutarlılık açısından doğrulamayacağı açıktır.

Pragmatiklik kuramı

Büyükbabası sofist Protagoras (İÖ 482-411) olsa da, günümüzde Wiliam James tarafından önerilen pragmatiklik kuramına göre ise, bir önermenin doğruluğu faydalı oluşu ya da elverişli (avantajlı) oluşu ile gösterilebliir. Pojman, bu kurama da antik çağdan gelen çeşitli önermelerin faydalı olmaları yanında, yanlış olmaları nedeniyle de çekince koymuş. Basit bir örnek vermek istersek, Aristo'nun 'ağır cisimler, hafiflere göre daha hızlı düşerler' önermesini ele alalım. Bu önerme sizi, başınıza düşmekte olan ağır bir taştan kurtaracağı için faydalıdır, ama Galile'ye kadar 2000 yıl yanlışlanamamış temelden hatalı bir önermedir.

Gerçek veriye ulaşmak

Özetlemek gerekirse, herhangi bir iş modelinde bir veri denizi içinde boğulmadan önce, kullanacağımız veri bilgisinin gerçek olarak kabul edilmesi için; gerçek dünyada karşılığı olmasına, ekosistemi içinde tutarlı mantıki ilişkiler içermesine ve sonucunun fayda sağlayıcı olmasına aynı anda dikkat etmemiz gerekir.

İş dünyası büyük veriye odaklanmışken, biz de, bu konudaki riskleri göz ardı etmemeniz için Haller ve Satell’in yukarıda adı geçen makalesine⁽¹⁾ dönelim. Küresel piyasalar araştırma şirketi International Data Corporation (IDC), 2022 itibarı ile dünyadadaki veri analitiği çalışmalarının 264,3 milyar dolara ulaşacağını öngörüyor. Ancak, bu büyüklükte bir bedelin çok akıllıca harcanacağını iddia edemeyiz. Gartner analisti Nick Heudecker, büyük-veri projelerinin yaklaşık %85’inin başarısızlıkla sonuçlandığını tahmin ediyor.

Yazarlara göre, meselenin önemli bir kısmını, devasa veritabanlarından çekilen, ve kompleks analizlere tabi tutulduktan sonra, verinin kaynağını, nasıl şekil değiştirdiğini, ya da amaca uygun olup olmadığını nadiren sorgulamamız oluşturuyor. “Gerçekte, veriden faydalı cevaplar elde edebilmek yüzeysel değerlere bakarak mümkün değil. Öncelikle fikri sorgulamalar yapabilmeliyiz. … En önemlisi de, veriyi basitçe işleme/süreç optimazisayonu için kullanmak yerine, yepyeni fırsat ve imkanları açımlamak için kullanmalıyız.”

İyi felsefenin ‘doğru cevapları bulmaya çalışarak değil, doğru soruları sorarak’ yapıldığı söylenir. Bu çoğunlukla iş dünyası için de geçerlidir. 30 yıl kadar önce bir kavşak projesi için her köşeye birimiz yerleşerek doğru devam eden ve dönüş yapan araçları saymıştık. Ve bu sayım sadece aynı günün sabahı ve akşamında yapılmıştı. Oysa, olayı etkileyebilecek pek çok parametre vardı; haftanın hangi günü olduğu, hava durumu, okulların mevsimsel etkisi, hat üzerinde devam eden yol çalışmaları vs gibi. Bunlar sorulmadan o kavşak tasarlanmıştı. Bugün aynı çalışma kameralar ve başka cihazların devreye alınması ile çok daha hassas yapılabilir, doğru parametreler doğru sorularla belirlenebilirse.

Haller ve Satell de, gerçek dünyadaki finansal işlemlerle, ilgili bilgilerin dev sunucularda depolandığını, ancak pek az kişinin, nasıl toplandığını merak ettiğini ve maalesef veri toplama kalitesi ve özeni ciddi farklar yaratabildiğini ve veri kalitesi nedeniyle, firmaların yıllık kaybının 15 milyar dolar mertebesinde olduğunu tahmin ediyorlar. Kayıdı nispeten kolay olan finansal işlemler yanında, çok daha büyük soruların pazar araştırmalarında ortaya çıktığını eklemeliyiz. Tüketici davranışları ile ilgili yüzlerce anketörün çalıştığı, onbin deneğin kullanıldığı bir araştırmayı düşünelim. Anketörlerin soru vurguları, cinsiyetleri, ve deneklerle kurdukları ilişkinin homojen olması neredeyse imkansızdır. Zaten kuantum teorisinden de -atom-altı parçacık hareketlerinden- bildiğimiz üzere bir gözlemcinin varlığı bile sonuca etki edebilir; bir anda kendimizi herkesin caz dinleyip, belgesel seyrettiği bir örneklem kümesiyle başbaşa bulmamız olasıdır.

Veri nasıl analiz ediliyor?

“Verinin doğru toplanıp, saklandığı durumlarda bile, işlemede kullanılan analitik modellerin kalitesi büyük farklılık gösterebilir. Modellerin büyük bölümü GitHub gibi açık kaynaklı platformlardan sağlanmakta, amaca uygun hale getirilmekte. Bu durumlarda da herkes asıl kaynağı ve veri setini unutmakta.”

Haller ve Satell doğru veriye ulaşmak için sormamız gereken soruları sıralarken, bunların aslında yukarıda özetlediğimiz bilgi kuramı ile ne kadar benzer olduğuna göz atalım;

- Amaca uygun mu ? Pragmatiklik teorisi

- Doğru parametreleri dikkate almış mı? Tutarlılık teorisi

- Çıktılar gerçek dünyadaki olgularla örtüşüyor mu? Karşılıklılık teorisi

Tüm bunların yanında, toplanan verinin etik kurallara ve yasalara uygun olarak derlenip derlenmediği de günümüzün yeni bir koşulu. Özellikle, kişisel verilerin korunması üzerine güçlü yasalar dikkate alınmadan yapılarak veri toplama ve analiz işlemleri Google ve Amazon’da olduğu gibi küresel dünyada büyük sorunlar yaşamamıza neden olabilir.

Veri-bilimin geleceği üzerine

Biz inşaat mühendisleri, kimi zaman oluşturduğumuz onbinlerce nodluk bir strüktürel modelin doğruluğunu, bilgisayar modeli üzerine etkittiğimiz yükler sonucu çizdirdiğimiz deformasyon şekillerine bakarak, eğitimimiz ve önsezilerimize uygun olup olmadığını kontrol ederiz. Ancak toplum davranışlarını tahmin etmek -çok yol alınmış olsa bile- halen bina davranışlarını tahmin etmek kadar kolay değil. Toplumlardaki kırılma hatları, binalarda olanın çok ötesinde karmaşıklık içeriyor. Büyük veri de halen bu noktanın uzağında.

Veri-bilimin doğru kullanılması özellikle son on yılda dünya ticaretini hatırı sayılır şekilde geliştirdi. Bunun küresel ölçekte bir refah artışına giden yol olduğu da yadsınamaz. Artık en ücra bölgelerdeki küçük bir üretici bile malını dünya pazarında sergileme olanağına kavuştu. Internet, antik dünyanın ‘agora’larını bugün yüzbinlerce misli büyüklüğe kavuşturdu. Getirileri yanında, küresel işgücünün en ucuz bölgelere kaymasıyla ‘artı değer’ yükselirken, emek istismarının arttığını da belirtmekte fayda var. Bugün, dünya sistemi giderek ya küresel bir kalkınmayı, ya da küresel sömürünün kısa dönemde yayılması ile gelecek büyük çöküşü tercih edecek bir karar vermek durumunda.

Ender Şenkaya

Kasım 2020

(1) Data-Driven Decisions Start with These 4 Questions, Eric Haller ve Greg Satell, https://hbr.org/2020/02/data-driven-decisions-start-with-these-4-questions

(2) Sokrates, Öncesi ve Sonrası, F.M.Cornford, Çev.:A.M.Celal Şengör, Sinem Onan, İş Bankası Kültür Yayınları, V.Basım, 2019

(3)What Can We Know-An Introduction to theory of Knowledge, Louis P.Pojman, Wadsworth

(4) Batı Felsefesi Tarihi Cilt-1, Bertrand Russel, Alfa Felsefe, 2018

Analitik Yöntem

14 Kasım 2020 Cumartesi

Doğru veriye nasıl ulaşmalı?

Diğer Bloglarım

Katkıda bulunanlar