Veri Madenciliğinin Tarihi
Adı yeni teknoloji haberleriyle sıklıkla anıldığı için Veri Madenciliği tarihinin çok kısa bir süre önce başladığını düşünebilirsiniz. Ancak, veri madenciliği; 1700’li yıllarda Bayes Teoremi ve 1800’li yıllarda Regresyon analizi gibi çoğunlukla veri içindeki paternleri tanımlayan erken veri madenciliği metodlarıyla başlayan, yani uzun bir geçmişi olan bir disiplin. Bu yazımıza “uzun zaman önce” diye başlayıp tüm tarihi baştan incelemek yerine, veri madenciliğinin yakın tarihine ve bu dönemlerdeki çalışmalara odaklanacağız. Fakat dilerseniz yine de aşağıdaki kronolojik tabloda veri madenciliği tarihinin önemli kilometre taşlarına kısaca bir göz atabilirsiniz:
Veri madenciliğini, Büyük Veri kümelerini farklı perspektiflerden analiz etme ve bu bilgileri çeşitli durumlara göre yararlı hale getirip özetler halinde görebilmek için korelasyon ve paternleri ortaya çıkarma süreci olarak tanımlayabiliriz. Günümüzde veri madenciliği; yapay zeka, istatistik, veri bilimi, verit tabanı teorisi ve makine öğrenimi gibi pek çok teknik ile harmanlanıyor.
Yakın Tarih
Teknolojinin artan gücü ve veri setlerinin karmaşıklığı, (aşağıdaki tabloda da inceleyebileceğiniz üzere) veri madenciliğinin statik veri dağıtımından daha dinamik ve proaktif bilgi dağıtımlarına; bantlardan ve disklerden ileri algoritmalara ve muazzam veri tabanlarına geçmesini sağladı. Veri Madenciliği terimi 80’li yılların sonlarında istatistikçiler, veri analistleri ve yönetim bilgi sistemleri (Management Information Systems-MIS) toplulukları tarafından da tanınmaya ve kullanılmaya başlandı.
1990’lı yılların başında, veri madenciliği bir alt süreç (sub-process) ya da Knowledge Discovery in Databases/KDD (Veri Tabanlarında Bilgi Keşfi) adı verilen daha büyük bir süreç içinde bir adım olarak kabul edildi – ki bu aslında onu ‘dönemin popüler çocuğu’ haline getirdi. KDD’nin kullanılan en yaygın tanımı; “çözülmesi zor olan verilerdeki geçerli, yeni, potansiyel olarak yararlı ve nihai olarak anlaşılır kalıpları tanımlama süreci”dir (Fayyad, 1996).
KDD sürecinin bir parçasını oluşturan alt süreçleri aşağıdaki şekilde sıralayabiliriz;
- Uygulamanın anlaşılması ve KDD sürecinin amacının belirlenmesi
- Hedef veri seti oluşturma
- Veri temizleme ve ön işleme
- KDD sürecinin hedeflerini (1. adım) belirli bir veri madenciliği yöntemiyle eşleştirme
- Araştırma analizi ve hipotez seçme
- Veri madenciliği: Sınıflandırma kuralları, regresyon ve kümeleme dahil, belirli bir formdaki ilgilenilen kalıpları arama
- Madenciliği gerçekleşen kalıpları yorumlama
- Elde edilen analizlere göre hareket etme
Teknoloji, veri saklama kapasitesi ve bilgisayarların işlem hızlarındaki ani yükselişe ek olarak; veri madenciliği de 1990’lı yıllarda bu konuya özel konferansların yardımıyla büyük ölçüde popülerlik kazandı. Bu dönemde; organizasyonların verilerini bilgisayarlarda okunabilir biçimde tutması ve masa üstü makineler kullanarak büyük hacimli verilerin işlenmesi, artık gerçeklikten uzak değildi.
Veri madenciliği 1990’lı yılların sonuna doğru, müşteri sadakat kartlarının piyasaya sürülmesinden sonra şirketler tarafından çoktan iyi bilinen bir tekniğe dönüşmüştü. Bu, şirketlerin müşteri sipariş kayıt ve verilerini tutmalarını; elde edilen verilerle müşteri sipariş paternleri çıkarmasını sağlayan büyük bir kapı açtı ve veri madenciliğinin popülerliği son on yılda hızla artmaya devam etti.
Veri Madenciliği Uygulamalarının Gelişimi
Başlangıçta veri madenciliğinin odak noktası çizelge verisiydi (tabular data). Ancak gelişen teknoloji ve farklı ihtiyaçlar yüzünden yeni kaynaklardan madencilik yapılması ihtiyacı ortaya çıktı.
- Metin Madenciliği (Text Mining): Popülerliğini hâlâ koruyan; kitap, haber makaleleri veya web sayfaları gibi büyük belge topluluklarını kategorize eden veya kümeleyen bir veri madenciliği etkinliği. Bu uygulamanın diğer bir kolu da anket tarzı verilerden yararlı bilgiler elde etmek için teknikler uygulanan Görüş Madenciliği olarak karşımıza çıkıyor.
- Görsel Madenciliği (Image Mining): Görsel madenciliğinde 2 veya 3 boyutlu görsellere madencilik teknikleri uygulanıyor.
- Grafik Madenciliği (Graph Mining): Sıklıkla meydana gelen alt grafikler üzerine yoğunlaşan sık model madenciliğinden türeyen grafik madenciliğinin popüler bir uzantısı ise, sosyal ağ madenciliği olarak karşımıza çıkıyor.
Veri madenciliği, son yirmi yılda kendi başına bir disiplin olarak çok popüler hale geldi. Günümüzde veri madenciliği uygulamaları; iş, devlet kuruluşları ve bilmin her alanında kullanılıyor. Metin madenciliğinden başlayan veri madenciliği yıllar içinde oldukça gelişme kaydetti ve gelecekte mekansal veriler, farklı kaynaklardan elde edilmiş multimedya verileri gibi verilerle veri madenciliğinin değişik kullanımlarını izlemek oldukça enteresan olacak.