CRISP-DM Metodolojisi

CRISP – DM (Cross Industry Standard Process Model for Data Mining), veri madenciliği projelerinin yürütülmesinde izlenen yol haritası olarak kısaca tanımlanabilir.

Veri madenciliğinde ortak yaklaşımları ifade eden açık standart bir süreç modeli olmasının yanında, aynı zamanda en çok kullanılan analitik modeldir.

Yazılım geliştiricileri ve farklı endüstrilerden yer alan birçok üyenin yer aldığı bir oluşum (ISL*, Teradata, Daimler AG, NCR ve bir sigorta şirketi OHRA) tarafından geliştirilmiştir.

*ISL daha sonra satın alınarak ​​ve SPSS ile birleştirilmiştir.

CRISP – DM metadolojisinde veri madenciliği süreci 6 ana aşamaya ayrılmaktadır. Bu aşamalar kendi içlerinde alt disiplinlere sahip olurken, aşamalar arasında da ileri-geri geçişler yapılabilmektedir.

Diyagramın en dışında bulunan daire veri madenciliğinin döngüsel doğasını temsil etmektedir. Süreç içinde, aşamalar arasındaki ok işaretleri ise önemli ve sık bağımlılıkları ifade etmektedir. 

CRISP – DM süreci esnasında kazanılan deneyimler, daha detaylı soruları tetikleyebilir. Böylece bir sonraki veri madenciliği süreçlerinin, önceki deneyimlerden faydalanması mümkündür. 

CRISP - DM Modeli Seviyeleri

1: Fazlar

Fazlar, modelin üst seviyesini oluşturan, temel taslağın yer aldığı seviyedir.

Yukarıda yer alan resim üzerinde ilk satırda yer alan aşamaları, fazlar seviyesi olarak düşünebilmemiz mümkündür. 

2: Genel Görevler

Genel görevler, özel durumlara bağlı olmaksızın, fazın gerçekleştirilmesi için yapılması gerekenlerin, problemden bağımsız olarak belirlendiği seviyedir. 

Yukarıda yer alan resim üzerinde, fazların kendi içlerinde oluşturdukları görevleri, bu seviyede içerisinde nitelendirmemiz mümkündür. 

3: Özelleşmiş Görevler

Özelleşmiş görevler, genel görevlerin alt kategorilere ayrılması ile oluşan, bir nitelik ile özelleşmiş görevlerdir. 

Örneğin, genel görevlendirmeler arasında yer alan verilerin temizlenmesini, kategorik ve sayısal verilerin temizlenmesi olarak ayırabiliriz. Bu alt ayrımı özelleşmiş görevler altında düşünebilmemiz mümkündür. 

4: Süreç Örnekleri

En alt seviyede yer alan süreç örnekleri aşaması ise CRISP – DM modeli ile birebir koordineli yürütülen, proje günlüğü olarak tanımlanabilmektedir.

CRISP - DM Aşamaları

İşi Anlama (Business Understanding)

İşi anlama adımı, projenin, şirketin bakış açısından anlaşılabilmesi için CRISP – DM süreci içerisinde önemli bir adımdır. Yapılacak olan veri madenciliği çalışmasının, projenin sahibi şirket ve proje için ne gibi ve ne kadar katkı sağlayacağını belirlemektedir. Bu sayede proje içerisindeki tüm etkinliklerin amaca yönelik olması sağlanmaktadır.

Veriyi Anlama (Data Understanding)

Veriyi anlayabilmek için verinin toplanması, tanınması ve bunlardan yola çıkarak verinin kalitesinin belirlenmesi sağlanmaktadır. Bunun için eldeki veriler ilgili yazılıma yüklenerek kalite ve sayı gibi açılardan analiz edilir. Böylece eldeki verilerin proje için yeterli olup olmadığı, eksik ya da yanlış veri içerip içermediği durumları saptanır. 

Veriyi Hazırlama (Data Preparation)

Toplanan verilerin modelleme aşaması için hazır hale getirilmesi sağlanır. Böylece verilerin hangilerinin modelleme için kullanılacağı, hangilerinin modelin oluşumuna engel olabileceği tespit edilebilir. 

Verilerin işlenmesi, yapılandırılması ve entegrasyonu gibi adımları izler. 

Modelleme (Modeling)

Veriye ve projenin hedefine bağlı olarak en uygun modelin oluşturulması sağlanmaktadır. Projeye uygun olan modelleme tekniğine, uygulama sırasında kullanılacak olan tekniğe bağlı (karar ağacı, sinir ağları vb.) karar verilir.

Modelin oluşturulduktan sonra değerlendirilebilmesi için hangi testin uygulanacağı belirlenir. 

Son olarak modelin parametreleri belirlenerek ilgili yazılıma yüklenir ve model oluşturulur.

Değerlendirme (Evaluation)

Projenin sonuçlarının, daha önceden belirlenen projenin amaçlarına uygun olup olmadığı, test değerleri de göz önünde bulundurularak değerlendirilir. 

Sürecin yeniden tekrarlanması gerekip gerekmediği gözden geçirilerek, bir sonraki adıma karar verilir. 

Konuşlandırma (Deployment)

Son aşamada hazırlanan projenin günlük hayat içerisindeki kullanımına odaklanılır. Bu adım için, değerlendirme aşamasında yer alan sonuçlardan yola çıkılarak yapılması gerekenler planlanır. 

2 Comments

Kendi yorumunu ekle

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.