Sunday, July 7, 2013

Kur'an-ı Kerim, Atatürk'ün Nutku, İncil ve Fareler-İnsanlar'ın İstatistiksel Karşılaştırması

Öncelikle, bu bir doğal dil işleyiş(Natural Language Processing-NLP) çalışmasıdır.

Teknik ustalığımı uzmanı olmadığım sosyal konularda iddialar yapmak için kullanmam doğru olmaz.  Esas yorumu konunun uzmanı olan kişiler yapmalı.

Yine de, bu çalışmayı inceleyen her kişi gibi gözüme çarpan bir kaç noktayı da belirtmeden geçemeyeceğim.

1. Dört metnin her birinde Türkçe harflerin dağılımı yaklaşık olarak aynıdır.
Kur'an
a=    87,138 ---> %8.273 + + + + + + + + +>;
d=    38,174 ---> %3.624 + + + +>;
e=    84,534 ---> %8.026 + + + + + + + + +>;
i=    75,080 ---> %7.128 + + + + + + + +>;
k=    35,004 ---> %3.323 + + + +>;
l=    58,715 ---> %5.574 + + + + + +>;
m=    25,142 ---> %2.387 + + +>;
n=    64,867 ---> %6.159 + + + + + + +>;
r=    63,575 ---> %6.036 + + + + + + +>
Nutuk
a=   133,650 ---> %8.770 + + + + + + + + +>
d=    52,139 ---> %3.421 + + + +>
e=   128,690 ---> %8.444 + + + + + + + + +>
i=   111,305 ---> %7.304 + + + + + + + +>
k=    51,360 ---> %3.370 + + + +>
l=    86,173 ---> %5.655 + + + + + +>
m=    47,616 ---> %3.125 + + + +>
n=    88,686 ---> %5.819 + + + + + +>
r=    83,160 ---> %5.457 + + + + + +>
İncil
a=    98,591 ---> %8.623 + + + + + + + + +>
d=    39,196 ---> %3.428 + + + +>
e=    77,800 ---> %6.805 + + + + + + +>
i=    72,140 ---> %6.310 + + + + + + +>
k=    35,832 ---> %3.134 + + + +>
l=    57,830 ---> %5.058 + + + + + +>
m=    24,580 ---> %2.150 + + +>
n=    74,545 ---> %6.520 + + + + + + +>
r=    60,333 ---> %5.277 + + + + + +>
Fareler ve İnsanlar
a=    18,342 ---> %9.173 + + + + + + + + + +>
d=     8,133 ---> %4.068 + + + + +>
e=    16,023 ---> %8.014 + + + + + + + + +>
i=    13,901 ---> %6.952 + + + + + + +>
k=     7,176 ---> %3.589 + + + +>
l=     7,500 ---> %3.751 + + + +>
m=     5,293 ---> %2.647 + + +>
n=    11,215 ---> %5.609 + + + + + +>
r=    11,379 ---> %5.691 + + + + + +>
Metin uzunluğunun bu yaklaşık eşitlik üzerindeki etkisi incelenmelidir.

NLP'de metin dilinin tespitinde bu durumdan faydalınabilir.  Bunun için farklı dillerde yaklaşık aynı uzunlukta ve farklı uzunluklarda iki durum için çeşitli metinlerin analizi yapılmalı.

Doğrudan anahtar kelimelerin sınırlı uzunlukta sözlükten bakılmasının yanında
sözlük dışında kelimeler iççin bu yöntem de faydalı olabilir.

Harflerin kelime içindeki pozisyonlara göre sıklığının bulunması, yani 10 harfli bir kelime de 5. harfin a olma olasılığı hesaplanırsa metin dili tespiti daha kesin yapılabilir.

Böyle bir çalışma, metindeki her harf için 1'den 30'a kadar kelime uzunluklarının toplam listesini sayacaktır.

örn
a[uzunluk, toplam sayı]
b[uzunluk, toplam sayı]
c[uzunluk, toplam sayı]
d[uzunluk, toplam sayı]
...
Bu veri kullanılarak verilen bir kelime a ile başlıyor ise Türkçe'de ve başka bir dilde bunun hangi dil olma olasılığı bulunabilir. Hele kelimenin her harfi için bu işlem yapılırsa sonuç çok kesinleştirilebilir.

Bu yaklaşım Levenshtein uzaklığı ile birleştirilerek, ayrıca, örn. Kur'an'ın farklı tefsirlerinin Diyanet'in tefsirinden uzaklığını nesnel olarak ölçmek için de kullanılabilir.  Benzer şekilde, bir şirketin internet sahifelerindeki günlük değişimin nesnel bir şekilde izlenmesinde de kullanılabilir.

2. Kelime kullanım sıklığının incelenmesi

2.1 En çok kullanılan kelimelerin başında 've' 'bir' 'de' 'da' gibi dil bilgisi unsurları var.

2.2 Daha sonra:

Kur'an: Allah, onlar, şüphesiz
Nutuk: Paşa, Bey, İstanbul, Efendiler, MEclis
İncil: İsa, Tanrı, Mesih, Rab
Fareler ve İnsanlar: George, Lennie, Curley

2.3 İyi, doğru, güzel
Kur'an:
iyi=       147 ---> %0.106 + +>
doğru=     293 ---> %0.211 + + +>
güzel=     151 ---> %0.109 + +>
Nutuk:
iyi=       125 ---> %0.063 +>
doğru=     156 ---> %0.078 +>
güzel=      28 ---> %0.014 +>
İncil:
iyi=       156 ---> %0.106 + +>
doğru=     129 ---> %0.087 +>
güzel=      23 ---> %0.016 +>
Fareler ve İnsanlar:
iyi=        62 ---> %0.222 + + +>
doğru=      59 ---> %0.212 + + +>
Güzel=        36 ---> %0.129 + +>

2.4 Anlatımsal, hikaye özelliği 'dedi', demiş gibi harflere bakarak değerlendirilebilir.
2.5 'bilgi, duygu, kadın' kelimeleri ilginç...
2.6 'kutsal, ruh, saygı, sevgi' kelimeleri yoruma açık...
2.7 'zarar, azap, acı, şiddet, zalim' kelimelerinin sıklığı Kur'an-ı Kerim'de dikkat çekiyor.
2.8 'Hürriyet, fedakarlık, bağımsız, millet' kelimeleri Nutuk açısından ilginç...

Sosyal ve din uzmanları bu konularda enine boyuna yorumlar yapabilir. 

Benim amacım,bundan sonra :
1-verilen metinden cümleleri ayrıştırmak.
2-Cümleleri fiil, özne nesne ve diğer alt bileşenlerine ayrıştırmak.
3-Cümlelerin ait olduğu bağlamları ayrıştırmak.
4-Verilen bir metnin bağlamlarını çıkarmak. 
5-Verilen bir yazının konusunu çıkarmak.
6-Otomatik yazı okuyup, anlamak.