Yapısal benzerlik - Structural similarity

Yapısal benzerlik endeksi ölçüsü ( SSIM ) dijital televizyon ve sinema resimlerin yanı sıra dijital görüntüler ve videolar diğer tür algılanan kalitesini tahmin etmek için bir yöntemdir. SSIM, iki görüntü arasındaki benzerliği ölçmek için kullanılır. SSIM dizini, tam bir referans metriğidir ; başka bir deyişle, görüntü kalitesinin ölçümü veya tahmini, referans olarak sıkıştırılmamış veya distorsiyonsuz bir ilk görüntüye dayanmaktadır.

SSIM, hem parlaklık maskeleme hem de kontrast maskeleme terimleri de dahil olmak üzere önemli algısal fenomenleri içerirken, görüntü bozulmasını yapısal bilgide algılanan değişiklik olarak ele alan algıya dayalı bir modeldir . MSE veya PSNR gibi diğer tekniklerden farkı , bu yaklaşımların mutlak hataları tahmin etmesidir . Yapısal bilgi, piksellerin özellikle uzamsal olarak yakın olduklarında güçlü karşılıklı bağımlılıkları olduğu fikridir. Bu bağımlılıklar, görsel sahnedeki nesnelerin yapısı hakkında önemli bilgiler taşır. Parlaklık maskeleme, görüntü bozulmalarının (bu bağlamda) parlak bölgelerde daha az görünür olma eğiliminde olduğu bir olgudur, kontrast maskeleme ise görüntüde önemli bir etkinlik veya "doku" olduğunda bozulmaların daha az görünür hale geldiği bir olgudur.

Tarih

SSIM'in öncülü , 2001 yılında Zhou Wang ve Alan Bovik tarafından geliştirilen Evrensel Kalite İndeksi (UQI) veya Wang-Bovik İndeksi olarak adlandırıldı . Bu, Hamid Sheikh ve Eero Simoncelli ile yaptıkları işbirliği sayesinde SSIM'in şu anki versiyonuna dönüştü. Nisan 2004'te IEEE Görüntü İşleme İşlemleri'nde yayınlandı . SSIM kalite endeksini tanımlamaya ek olarak, makale, insan görsel nörobiyoloji ve algısı ile bağlantılar ve insan denek derecelendirmelerine karşı endeksin doğrudan doğrulanması dahil olmak üzere algısal kalite ölçümlerinin geliştirilmesi ve değerlendirilmesi için genel bir bağlam sağlar.

Temel model, Austin'deki Texas Üniversitesi'ndeki Görüntü ve Video Mühendisliği Laboratuvarı'nda (LIVE) geliştirildi ve New York Üniversitesi'ndeki Hesaplamalı Görme Laboratuvarı (LCV) ile ortaklaşa geliştirildi . Modelin başka varyantları Waterloo Üniversitesi'ndeki Görüntü ve Görsel Hesaplama Laboratuvarında geliştirilmiş ve ticari olarak pazarlanmıştır.

SSIM daha sonra görüntü işleme topluluğunda güçlü bir şekilde benimsendi. 2004 SSIM makalesi, Google Akademik'e göre 20.000'den fazla atıf aldı ve bu da onu görüntü işleme ve video mühendisliği alanlarında en çok atıf alan makalelerden biri haline getirdi. Bu accorded IEEE Sinyal İşleme Derneği Aynı zamanda alınan 2009 için En İyi Bildiri Ödülünü IEEE Sinyal İşleme Derneği yayımını takip eden en az 10 yıl süreyle olağanüstü yüksek etkiye sahip bir kağıdın göstergesidir, 2016 için Etki Ödülü Kabul edildi.

algoritma

SSIM indeksi, bir görüntünün çeşitli pencerelerinde hesaplanır. İki pencere arasındaki ölçü ve ortak boyut N × N :

ile birlikte:

  • Ortalama arasında ;
  • Ortalama arasında ;
  • Varyans arasında ;
  • Varyans arasında ;
  • Kovaryans arasında ve ;
  • , zayıf payda ile bölmeyi stabilize etmek için iki değişken;
  • dinamik aralık , piksel değerlerinin (tipik olarak bu değildir );
  • ve varsayılan olarak.

formül bileşenleri

SSIM formül örnekleri arasında üç karşılaştırma ölçümlerinde dayanır ve : parlaklık ( ), kontrast ( ) ve aşağıdaki yapıya ( ). Bireysel karşılaştırma işlevleri şunlardır:

yukarıdaki tanımlara ek olarak:

SSIM daha sonra bu karşılaştırmalı önlemlerin ağırlıklı bir birleşimidir:

Ağırlıkları 1'e ayarlayarak formül yukarıda gösterilen forma indirgenebilir.

Matematiksel Özellikler

SSIM, ayırt edilemezlerin özdeşliğini ve simetri özelliklerini karşılar, ancak üçgen eşitsizliği veya negatif olmama durumunu karşılamaz ve bu nedenle bir uzaklık işlevi değildir . Ancak, belirli koşullar altında SSIM, bir mesafe fonksiyonu olan normalleştirilmiş bir kök MSE ölçüsüne dönüştürülebilir. Böyle bir fonksiyonun karesi dışbükey değil, yerel olarak dışbükey ve yarı dışbükeydir , bu da SSIM'i optimizasyon için uygun bir hedef haline getirir.

Formülün uygulanması

Görüntü kalitesini değerlendirmek için bu formül genellikle sadece luma üzerine uygulanır , ancak renk (örn., RGB ) değerlerine veya kromatik (örn. YCbCr ) değerlere de uygulanabilir. Ortaya çıkan SSIM endeksi 0 ile 1 arasında bir ondalık değerdir ve 1 değerine yalnızca iki özdeş veri kümesi olması durumunda erişilebilir ve bu nedenle mükemmel yapısal benzerliği gösterir. 0 değeri yapısal benzerlik olmadığını gösterir. Bir görüntü için, tipik olarak, 11x11 boyutunda bir kayan Gauss penceresi veya 8×8 boyutunda bir blok penceresi kullanılarak hesaplanır. Pencere, görüntünün SSIM kalitesinde bir haritasını oluşturmak için görüntü üzerinde piksel piksel yer değiştirebilir. Video kalitesi değerlendirmesi durumunda, yazarlar, hesaplamanın karmaşıklığını azaltmak için olası pencerelerin yalnızca bir alt grubunu kullanmayı önermektedir.

Varyantlar

Çok Ölçekli SSIM

Çok Ölçekli SSIM (MS-SSIM) adı verilen daha gelişmiş bir SSIM biçimi, erken görüş sistemindeki çok ölçekli işlemeyi anımsatan, birden çok alt örnekleme aşaması süreci aracılığıyla birden çok ölçek üzerinde gerçekleştirilir. Farklı öznel görüntü ve video veritabanlarında SSIM'den eşit veya daha iyi performans gösterdiği gösterilmiştir.

Çok bileşenli SSIM

Üç bileşenli SSIM (3-SSIM), insan gözünün pürüzsüz bölgelere göre dokulu veya kenar bölgelerdeki farklılıkları daha kesin olarak görebildiği gerçeğini dikkate alan bir SSIM şeklidir. Ortaya çıkan metrik, üç bölge kategorisi için ağırlıklı bir SSIM ortalaması olarak hesaplanır: kenarlar, dokular ve pürüzsüz bölgeler. Önerilen ağırlık kenarlar için 0,5, dokulu ve pürüzsüz bölgeler için 0,25'tir. Yazarlar, 1/0/0 ağırlıklandırmanın (kenar bozulmaları dışında hiçbir şeyi göz ardı ederek) öznel derecelendirmelere daha yakın sonuçlara yol açtığından bahseder. Bu, kenar bölgelerinin görüntü kalitesi algısında baskın bir rol oynadığını göstermektedir.

3-SSIM'in yazarları ayrıca modeli genişletti dört bileşenli SSIM (4-SSIM). Kenar tipleri, bozulma durumlarına göre korunmuş ve değiştirilmiş kenarlara bölünmüştür. Önerilen ağırlık, dört bileşenin tümü için 0.25'tir.

Yapısal Farklılık

Yapısal farklılık (DSSIM), SSIM'den türetilebilir, ancak üçgen eşitsizliği mutlaka karşılanmadığı için bir mesafe fonksiyonu oluşturmaz.

Video kalitesi metrikleri ve zamansal değişkenler

Orijinal SSIM sürümünün hareketsiz görüntülerin kalitesini ölçmek için tasarlandığını belirtmekte fayda var. İnsan algısının ve insan yargısının zamansal etkileriyle doğrudan ilgili herhangi bir parametre içermez. Yaygın bir uygulama, video dizisindeki tüm kareler üzerinden ortalama SSIM değerini hesaplamaktır. Bununla birlikte, SSIM'in birkaç geçici varyantı geliştirilmiştir.

Karmaşık Dalgacık SSIM

SSIM'in (CW-SSIM) karmaşık dalgacık dönüşümü varyantı, görüntü ölçekleme, öteleme ve döndürme sorunlarıyla başa çıkmak için tasarlanmıştır. Bu tür koşullara sahip görüntülere düşük puanlar vermek yerine, CW-SSIM karmaşık dalgacık dönüşümünden yararlanır ve bu nedenle söz konusu görüntülere daha yüksek puanlar verir. CW-SSIM aşağıdaki gibi tanımlanır:

Burada kompleks dalgacık sinyalinin dönüşüm olduğunu ve karmaşık dalgacık sinyali için dönüşümüdür . Ek olarak, fonksiyon kararlılığı amacıyla kullanılan küçük bir pozitif sayıdır. İdeal olarak, sıfır olmalıdır. SSIM gibi, CW-SSIM'in maksimum değeri 1'dir. Maksimum 1 değeri, iki sinyalin yapısal olarak tamamen benzer olduğunu gösterirken, 0 değeri yapısal benzerlik olmadığını gösterir.

SSIMPLUS

SSIMPLUS indeksi, SSIM'e dayalıdır ve ticari olarak temin edilebilen bir araçtır. SSIM'in yeteneklerini, özellikle video uygulamalarını hedeflemek üzere genişletir. 0-100 aralığında, insan öznel derecelendirmeleriyle doğrusal olarak eşleşen puanlar sağlar. Ayrıca, farklı çözünürlükler ve içerikler arasında videoyu karşılaştırarak, puanları amaçlanan görüntüleme cihazına uyarlamaya izin verir.

Yazarlarına göre SSIMPLUS, diğer görüntü ve video kalitesi ölçümlerinden daha yüksek doğruluk ve hız elde eder. Ancak, algoritmanın kendisi kamuya açık olmadığı için SSIMPLUS'ın bağımsız bir değerlendirmesi yapılmamıştır.

cSSIM

Standart ayrık SSIM'i teorik bir bakış açısıyla daha fazla araştırmak için , sürekli SSIM (cSSIM) Radyal tabanlı fonksiyon enterpolasyonu bağlamında tanıtılmış ve incelenmiştir .

Diğer basit değişiklikler

r* çapraz korelasyon metriği, SSIM'in varyans metriklerini temel alır. r *( x , y ) = olarak tanımlanır σ xy/σ x σ yzaman σ x σ y ≠ 0 , 1 , hem standart sapmalar sıfır ve zaman 0 tek sıfır olduğunda. Kontrast detaylı fantomlara insan tepkisini analiz etmede kullanım bulmuştur.

SSIM, görüntülerin gradyanında da kullanıldı ve onu "G-SSIM" yaptı. G-SSIM özellikle bulanık görüntülerde kullanışlıdır.

Yukarıdaki değişiklikler birleştirilebilir. Örneğin, 4-Gr*, 4-SSIM, G-SSIM ve r*'nin birleşimidir. Test edilen diğer SSIM varyantlarından çok daha iyi görüntüler için radyolog tercihini yansıtabilir.

Başvuru

SSIM'in çeşitli farklı problemlerde uygulamaları vardır. Bazı örnekler:

  • Görüntü Sıkıştırma: Kayıplı görüntü sıkıştırmada , görüntü ve videonun depolama alanını azaltmak için bilgi kasıtlı olarak atılır. MSE tipik olarak bu tür sıkıştırma şemalarında kullanılır. Yazarlarına göre, sıkıştırılmış görüntüler için daha iyi sonuçlar elde etmek için MSE yerine SSIM kullanılması önerilmektedir.
  • Görüntü Restorasyonu: Görüntü restorasyonu , geri yüklenmesi gereken bulanık görüntünün , bulanıklık çekirdeğinin, ek gürültünün ve kurtarmak istediğimiz orijinal görüntünün nerede olduğu sorununu çözmeye odaklanır . Bu sorunu çözmek için kullanılan geleneksel filtre Wiener Filtresidir. Ancak, Wiener filtre tasarımı MSE'ye dayanmaktadır. Algoritmanın yazarlarına göre, bir SSIM varyantı, özellikle Stat-SSIM kullanılmasının daha iyi görsel sonuçlar ürettiği iddia ediliyor.
  • Örüntü Tanıma: SSIM, insan algısının özelliklerini taklit ettiğinden, desenleri tanımak için kullanılabilir. Algoritmanın yazarları, görüntü ölçekleme, öteleme ve döndürme gibi sorunlarla karşılaşıldığında, bu varyasyonlara duyarsız olan ve herhangi bir eğitim örneği kullanmadan şablon eşleştirme ile doğrudan uygulanabilen CW-SSIM'i kullanmanın daha iyi olduğunu iddia ediyor. Veriye dayalı örüntü tanıma yaklaşımları, eğitim için büyük miktarda veri mevcut olduğunda daha iyi performans üretebileceğinden, yazarlar veri odaklı yaklaşımlarda CW-SSIM kullanılmasını önermektedir.

Performans karşılaştırması

Popülerliği nedeniyle, SSIM genellikle MSE ve PSNR gibi daha basit ölçümler ve diğer algısal görüntü ve video kalitesi ölçümleri dahil olmak üzere diğer ölçümlerle karşılaştırılır . SSIM'in, kendi yazarları ve diğerleri tarafından yapılan araştırmalar da dahil olmak üzere, doğruluk açısından MSE ve türevlerinden önemli ölçüde daha iyi performans gösterdiği defalarca gösterilmiştir.

Dosselmann ve Yang'ın bir makalesi, SSIM'in performansının genellikle varsayıldığından "MSE'nin performansına çok daha yakın" olduğunu iddia ediyor. SSIM'in MSE üzerindeki avantajına itiraz etmeseler de, iki ölçüm arasında analitik ve işlevsel bir bağımlılık olduğunu belirtirler. Araştırmalarına göre, SSIM'in yaratıcılarının veritabanları dışındaki öznel veritabanlarında MSE tabanlı yöntemlerin yanı sıra SSIM'in de ilişkili olduğu bulunmuştur. Örnek olarak, paket kaybından zarar görmüş video içeren bir veritabanında MSE'nin SSIM'den daha iyi performans gösterdiğini bulan Reibman ve Poole'dan bahsediyorlar. Başka bir makalede, PSNR ve SSIM arasında analitik bir bağlantı tanımlandı.

Ayrıca bakınız

Referanslar

Dış bağlantılar