Veri Bilimi & Büyük Veri Nedir? (Data Science & Big Data)

Türk dil kurumunun anlatımına göre veri, ‘sonuç çıkarmak, çıkarsama yapmak ya da bir incelemeyi sürdürmek için gerekli olaylara, ilişkilere ve sayısal ham bilgilere verilen ad’ olarak tanımlanmaktadır.

Son zamanlarda sıklıkla karşımıza çıkmakta olan veri bilimi ise verilerden anlamlı birer değer, bilgi elde etmek üzere, bazı disiplinleri, sistemleri ve bilimsel yöntemleri kullanan ve temelinde;

  • Bilgisayar bilimleri
  • İstatistik
  • Matematik

alanlarını barındıran disiplinler arası bir alandır.

Veri bilimci, tek bir cümle ile açıklanamamakla birlikte genel anlamda, karmaşık/fayda sağlamayan verilerin uçtan uca analizini yaparak, anlamlı ve faydalı bir hale getirmek, ortaya çıkan anlamlı verilerden soru ve sorunlara cevap bulabilmek ile yükümlü kişidir.

Veri bilimci;

  • Veri kaynaklarının elde edilmesi
  • Veri kaynaklarının işlenmesi ve ihtiyaç olduğunda birleştirilmesi
  • Büyük düzeyde verinin yönetilmesi
  • Veriyi anlaşılabilir hale getirecek olan modellemelerin yapılması

gibi sorumluluklara sahiptir.

Aşağıda verilen şema veri bilimi dünyasında alanların birbirileri ile ilişkileri hakkında genel bir fikir edinilebilmesi için oluşturulmuştur.

Büyük Veri Nedir?

Anlamı çeşitli kaynaklara göre ara sıra farklılık göstermesine rağmen, büyük veri; hızlı üretilen, devasa boyutlarda ve/veya kompleks yapıya sahip olan yani geleneksel/süregelmiş yöntemler ile saklanamayan ve işlenemeyen çeşitli veri kümelerine verilen isimdir.

Temel bileşenleri ingilizce olarak kısaltılan 5V kombinasyonu ile ifade edilmektedir. Bunlar;

  1. Volume (Veri Hacmi)
  2. Variety (Veri Çeşitliliği)
  3. Velocity (Veri Hızı)
  4. Veracity (Veri Doğruluğu/Güvenilirliği)
  5. Value (Veri Değeri)

olarak tanımlanmaktadır.

Volume; gigabyte, terabyte, perabyte veya daha büyük ölçekli boyutlarla ifade edilir. Bu boyutun tanımında bahsi geçen veriler, tüm kayıtlar, tablolar ve işlemler olarak düşünülebilirler.

Variety; yapılandırılmış, yarı yapılandırılmış, yapılandırılmamış olarak sınıflandırılan veri gruplarını ifade etmektedir. Ayrıca gelişen teknoloji ile birlikte bu verileri çeşitlerine yenilerinin eklenmesi ve aynı zamanda birbirlerine dönüşmelerine söz konusudur.

Kısaca bu veri gruplarına örnekler vermek gerekirse;

  • Yapılandırılmamış veri (Unstructured Data): sosyal medya verileri, mailler, online veri kaynakları, dijital resim ve videolar, web siteleri …
  • Yarı yapılandırılmış veri (Semi-Structured Data): txt dosyaları, xml dosyaları, sistem log dosyaları …
  • Yapılandırılmış veri (Structured Data): veritabanları (RDBMS), OLTP …

Velocity; hızlı veri girişini ifade etmektedir. Günümüz sosyal medyalarında/internet ortamında anlık olarak üretilen veri büyük boyutlarda ve bununla birlikte çok yüksek hızda artış göstermektedir. Verilerin artışındaki bu hız karşısında onları işleme hızının da paralel olarak artış göstermesini önemli kılmaktadır.

Veracity; veriler birden fazla kaynaklardan gelebilmektedir ve her verinin işlenmesi/temizlenmesi, bilgiye dönüşmesi söz konusu değildir. Verinin alındığı yer ve kullanıcılar bazlı olmak üzere güvenilirliği ön planda tutulmalıdır. Bu özelliğe göre, anlam ifade etmeyen ve güvenlik sorunu oluşturabilecek olan karmaşık verilerin tespit edilmesi gerekmektedir. Aksi takdirde yüksek hızda artan verinin kontrolü sağlanması zorlaşabilir.

Value; yukarıda yer alan 4V sonucunda, elimizde olan veriden, konu/kurum/işletme için ne derecede anlamlı/faydalı bir sonuç çıkabileceğinin bir ölçüsüdür. Anlamlı bir sonucun elde edilebilmesi; verilerin büyüklüğü, çeşitliliği, hızı, güvenilirliği açılarından değerlendirilmeli ve bu koşulların hepsi göz önünde bulundurularak hangi derecede yeterli/değerli olduğu analiz edilmelidir.

3 Comments

Kendi yorumunu ekle

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.