Verinin suyu nereden geliyor?

Verinin suyu nereden geliyor?

Gülay Bozdağ

Pikotek Teknik Lideri

“Büyük veri” kavramı hayatımıza gireli uzun yıllar oldu. Şimdiye kadar pek çok platformda “büyük veri” konuştuk. Veriden analiz ve çıkarımlar yapacak bir çok dijital platform kuruldu, analiz ve tahminleme algoritmaları geliştirildi. Elimizde Türkiye’de halihazırda kullanılmakta olan analiz ve tahminleme uygulamalarının sektörlere göre dağılımı, kullanılan algoritmaların yaklaşık doğruluk oranları, algoritmalarda kullanılan modelleme tekniklerinin sektör ve uygulama bazlı eşleştirmelerini analiz edebileceğimiz bir tablo mevcut değil. Bu bilgi; bu alanda Türkiye’de yürütülen ve yürütülecek akademik çalışmalar için çok faydalı olmakla beraber, başka bir yazının konusu olarak ayrıca değerlendirilebilir. Bu yazıda, “büyük veri” konusunun çok önemli bir alt bileşeni olan “veri kalitesi” konusunu irdelemek istiyorum.

“Veri kalitesi”, bahsettiğimiz analiz ve tahminleme algoritmalarının doğruluk oranlarını belirleyen en önemli parametrelerden biri aslında… Ancak bugüne kadar “veri kalitesi” konusu üzerinde yeterince konuşmadık, tartışmadık. “Büyük veri platformlarına ilettiğimiz verileri nasıl topluyoruz, nasıl ayıklıyoruz ve nasıl doğruluyoruz?”, “Veri örneklemenin niteliği ne olmalı, ayıklama ve doğrulama neden gerekli?” sorularına “Endüstride Enerji Verimliliği” ve “Şebeke Sayaç Okuma Sistemleri” konularındaki tecrübelerimden yola çıkarak, cevaplar vermeye çalışacağım.

Gerek endüstriyel tesis bazında, gerekse şebeke bazında enerji verisi toplarken amaç enerji tüketiminin etkin bir şekilde yönetilmesi olduğu için, yan hedeflerden biri de “şebekeler bazında talep yönetimi” için veri sağlamaktır. Bu nedenle veri toplama sıklığını “dakikalar” mertebesinde ancak “tutarlı ve sürekli” olarak öngörmek durumundayız. Bir başka deyişle; veri toplamak için oluşturacağımız topolojinin dakikalar mertebesinde bir hassasiyette gerçek zamanlı veri sağlaması gerekmekte. Bu nedenle; gerek endüstriyel işletmelerdeki, gerekse şebeke altyapılarındaki topolojileri, veri toplamak için kullanılacak ürünlerden bağımsız olarak; heterojen, genişleyebilir ve esnek bir şekilde tasarlamak gerekmektedir. “Nesnelerin Internet”i dünyasında; cihazların çok farklı fiziksel arayüzler üzerinden ve çok farklı protokoller ile bağlanması mümkün ve kolay olsa da, “kararlı ve tutarlı veri örnekleme” gereksinimi nedeniyle uygulama bazında doğru topolojileri kurgulamaktan bizler sorumluyuz. Aksi durumda; genişleme ve ekleme gereksinimi oluştuğunda performansı değişen bir altyapıya sahip oluruz ki, bu durumda “büyük veri” platformları için sağlıklı girdiler oluşmayacaktır. Örneğin; endüstriyel bir işletmede birbirine emsal iki tane üretim hattının enerji tüketim verisini karşılaştırmak ve enerji tüketim performanslarını analiz etmek istediğimizi düşünelim. Bu iki üretim hattının aynı zaman aralıklarına ait tutarlı verileri yoksa, sağlıklı bir değerlendirme yapılamayacaktır.

Topolojinin önemi konusu için bir de şahit olduğum bir uygulama örneğini vermek istiyorum: Endüstriyel bir altyapıda, yaklaşık 800 elektrik sayacının okunması amacıyla oluşturulmuş bir uygulama için daha etkin raporlama ve analiz gereksinimi ile gelen müşteriye, verilerin hangi sıklıkla okunduğunu sorduk. Sayaç başına 2-3 saatte bir, net olarak belirtemeyecekleri bir zaman aralığında veri toplandığını ilettiler. Uygulama için, sağlıklı bir topoloji kurgulanmadığı hemen anlaşılan bu uygulama örneğinde; “Yemen Türküsü” misali “gidip dönmeyen sorgulama paketleri” için “acep ne iştir?” diye çok fazla kafa yormaya gerek yok aslında… Doğru kurgulanmayan bu tür altyapılarda, iyi seviye raporlama ve analiz gereksinimini bir yana bırakın, neredeyse basit raporlama işlemlerinin bile bir amaca hizmet etmesi mümkün olmayacaktır.

Veri kalitesini arttırmak için uygulanacak diğer mekanizmalar ise; “veri ayıklama” ve “veri doğrulama” amaçlı alt uygulamalardır. Bu amaçla halihazırda yapılan çalışma örneklerinden yola çıkarak, konuyu açıklamak istiyorum:

  • Piyasada enerji tüketimi ve enerji ile ilişkili parametreleri ölçen cihazların çoğu mikrodenetleyici tabanlı olup, üzerinde bulunan fiziksel arayüzler üzerinden açık protokoller ile enerji tüketim verileri yanında, “cihaz arıza durumu, arıza detayı, arıza olasılığı, kalibrasyon bilgileri v.b..” çok fazla veri alınabilmektedir. Bu veri setlerinden anlamlı olanları ayıklayıp, cihazdan okunan enerji verisinin kalitesi ya da bir başka deyişle doğruluk olasılığı konusunda çıkarımlar yapmak ve veritabanlarına beslenen verileri “Veri yok”, “Geçersiz Veri”, “Az Güvenilir Veri”, “Güvenilir Veri”, v.b.. kategorize etmek mümkündür.

 

  • Özellikle doğrudan enerji tüketimlerini ölçen tüm sayaçlar (elektrik, su, doğalgaz v.b..) fiziksel altyapı olarak tesisat mantığı referans alınarak monte edilmektedir. Bir başka deyişle; bir noktadan dağılan tüm alt tesisat birimlerinin tüketim toplamları belirli bir tolerans aralığı içinde olmak kaydıyla, ilgili noktaya ait toplamı vermek durumundadır. Bu durumdan sapma gösteren düğüm (dağılım) noktaları için iki durum sözkonusudur : Sayaçlardan birinde sorun vardır ya da tesisat altyapısında kayıp/kaçak sözkonusudur. Özellikle endüstriyel tesislerde yaptığımız uygulamalarda bu mekanizmadan etkin bir şekilde faydalanmaktayız.

Bu tür uygulamalarda tercih edilen ikinci bir yöntem ise, süzme sayaç mantığı ile sayaçları yedeklemektir ancak bu uygulama maliyeti arttırıcı bir unsurdur.

 

  • Tesisteki anormal durumların ve normal seyir dışındaki durumların dijital olarak kayıt altına alınması ve algoritmalara beslenen verilerin bu kayıtlar esas alınarak ayıklanarak beslenmesi… Örneğin; resmi tatil günleri, tesisteki büyük çaplı bakım ve arıza durumları, tesisteki departman ya da üretim hattı bazlı arıza durumları v.b… Böyle bir çalışmanın etkin bir şekilde gerçeklenmesi için işletmedeki farklı uygulama ve birimlerin iyi seviyede entegrasyonu gerekmektedir.

Yukarıda verilen veri filtreleme ve veri doğrulama amaçlı alt mekanizma örnekleri, sektör ve uygulama bazında çoğaltılabilir. Ölçüm yapan cihazların içinde tutulan veri, mekanik tesisat mantığı ve net gerçekleşen işletme koşulları gibi üzerine ekstra bir akıl koyulmamış basit mekanizmalarla veriyi ayıklayıp doğrulayarak, analiz ve tahminleme algoritmalarına beslemek, sözkonusu algoritmaların doğruluk oranlarını ciddi olarak iyileştirmektedir.

Diğer yandan; veri ayıklama ve doğrulama amaçlı akademik çalışmalar desteklenerek, bu işi bahsedilen temel ve basit mantıklar dışında yine modelleme esaslı algoritmalar ile çözmek de mümkün. Üstelik bu tür çalışmalar, ülkemizin ana hedeflerinden biri olan “katma değerli çıktı üretimi”ni destekleyici ve ivmelendirici çalışmalar olacaktır.

Bu yazının amacı; “büyük veri” platformlarına beslenen verilerin kalitesi konusunda bir farkındalık oluşturmak olduğu için, teknik detaylara boğulmadan konuyu irdelemeye çalıştım. İlerleyen süreçlerde olası platformlarda bu konuların daha çok tartışıldığını, hatta katma değerli çıktılar üretildiğini görmek umuduyla enerjimizi etkin ve doğru kullandığımız süreçler diliyorum…

Leave a Reply