Çift duyarlıklı kayan nokta biçimi - Double-precision floating-point format

Çift duyarlıklı kayan nokta biçimi (bazen FP64 veya float64 olarak adlandırılır ) , genellikle bilgisayar belleğinde 64 bit kaplayan bir bilgisayar sayı biçimidir ; kayan bir sayı tabanı noktası kullanarak geniş bir dinamik sayısal değerler aralığını temsil eder .

Kayan nokta, kesirli değerleri temsil etmek için veya sabit nokta (aynı bit genişliğinde) tarafından sağlanandan daha geniş bir aralık gerektiğinde , hassasiyet pahasına olsa bile kullanılır. Aralığı veya hassas olduğunda çift hassas seçilebilir bir hassas yetersiz olacaktır.

Olarak , IEEE 754-2008 standart 64-bit ana-2 formatı resmi olarak adlandırılır binary64 ; denirdi çift de IEEE 754-1985 . IEEE 754, 32-bit taban-2 tek kesinlik ve daha yakın zamanda, taban-10 gösterimleri dahil olmak üzere ek kayan nokta biçimlerini belirtir .

Tek ve çift duyarlıklı kayan noktalı veri türleri sağlayan ilk programlama dillerinden biri Fortran'dı . IEEE 754-1985'in yaygın olarak benimsenmesinden önce, kayan noktalı veri türlerinin gösterimi ve özellikleri bilgisayar üreticisine ve bilgisayar modeline ve programlama dili uygulayıcıları tarafından alınan kararlara bağlıydı . Örneğin, GW-BASIC'in çift duyarlıklı veri türü 64 bit MBF kayan nokta biçimiydi .

IEEE 754 çift duyarlıklı ikili kayan nokta biçimi: binary64

Çift duyarlıklı ikili kayan nokta, performansı ve bant genişliği maliyetine rağmen, tek duyarlıklı kayan noktaya göre daha geniş aralığı nedeniyle PC'lerde yaygın olarak kullanılan bir formattır. Genellikle basitçe double olarak bilinir . IEEE 754 standardı, bir ikili64'ü aşağıdakilere sahip olarak belirtir :

İşaret biti : 1 bit
Üs : 11 bit
Anlamlı kesinlik : 53 bit (52 açıkça depolanmış)

İşaret biti, sayının işaretini belirler (bu sayının sıfır olduğu, imzalı olduğu zaman dahil ).

Üs alanı, önyargılı biçimde 0 ile 2047 arasında 11 bitlik işaretsiz bir tamsayıdır: 1023'lük bir üs değeri gerçek sıfırı temsil eder. Üsler -1022 ile +1023 arasındadır çünkü -1023 (tümü 0'lar) ve +1024'ün (tümü 1'ler) üsleri özel sayılar için ayrılmıştır.

53 bitlik anlamlılık hassasiyeti, 15 ila 17 arasında anlamlı ondalık basamak hassasiyeti (2 ⁻⁵³ ≈ 1,11 × 10 ⁻¹⁶ ) verir. En fazla 15 anlamlı basamak içeren bir ondalık dize, IEEE 754 çift duyarlıklı gösterime dönüştürülür ve ardından aynı basamak sayısına sahip bir ondalık dizeye dönüştürülürse, nihai sonuç orijinal dizeyle eşleşmelidir. Bir IEEE 754 çift kesinlikli sayı, en az 17 anlamlı basamak içeren bir ondalık dizgeye dönüştürülür ve ardından tekrar çift duyarlıklı gösterime dönüştürülürse, nihai sonucun orijinal sayıyla eşleşmesi gerekir.

Biçim, 1 değerinde örtük bir tamsayı bitine sahip olan anlamlı ile yazılır (özel veriler dışında, aşağıdaki üs kodlamasına bakın). Anlamlı kesrin (F) 52 biti bellek formatında göründüğünden, toplam kesinlik 53 bittir (yaklaşık 16 ondalık basamak, 53 log ₁₀ (2) ≈ 15.955). Bitler aşağıdaki gibi düzenlenir:

Belirli bir önyargılı üs ve 52 bitlik bir kesir ile belirli bir 64-bit çift kesinlik verisi tarafından kabul edilen gerçek değer , ${\görüntüleme stili e}$

(-1)^{\text{sign}}(1.b_{51}b_{50}...b_{0})_{2}\times 2^{e-1023}

veya

(-1)^{\text{işaret}}\left(1+\sum _{i=1}^{52}b_{52-i}2^{-i}\sağ)\times 2 ^{e-1023}

2 ⁵² =4,503,599,627,370.496 ve 2 ⁵³ =9,007,199,254,740,992 arasında gösterilebilir sayılar tam sayılardır. 2 ⁵³ ile 2 ⁵⁴ arasındaki sonraki aralık için , her şey 2 ile çarpılır, bu nedenle temsil edilebilir sayılar çift sayılardır, vb. Tersine, 2 ⁵¹ ila 2 ⁵² arasındaki önceki aralık için aralık 0,5'tir, vb.

2 ⁿ - 2 ^{n +1} aralığındaki sayıların kesri olarak boşluk 2 ^{n -52'dir} . Bu nedenle , bir sayıyı temsil edilebilir en yakın sayıya ( makine epsilon ) yuvarlarken maksimum göreli yuvarlama hatası 2 ^−53'tür .

Üssün 11 bit genişliği, 10 ⁻³⁰⁸ ile 10 ³⁰⁸ arasındaki sayıların tam 15–17 ondalık basamak hassasiyetiyle temsiline izin verir . Kesinlikten ödün vererek, normal altı gösterim yaklaşık 5 × 10 ^−324'e kadar daha küçük değerlere izin verir .

Üs kodlaması

Çift duyarlıklı ikili kayan nokta üssü, sıfır ofseti 1023 olmak üzere bir ofset-ikili gösterimi kullanılarak kodlanır ; IEEE 754 standardında üs yanlılığı olarak da bilinir. Bu tür temsillere örnekler:

e = = =1: `00000000001₂001₁₆`	${\ Displaystyle 2^{1-1023}=2^{-1022}}$	( normal sayılar için en küçük üs )
e = = = 1023: `01111111111₂3ff₁₆`	${\ Displaystyle 2^{1023-1023}=2^{0}}$	(sıfır ofset)
e = = =1029: `10000000101₂405₁₆`	${\ Displaystyle 2^{1029-1023}=2^{6}}$
e = = =2046: `11111111110₂7fe₁₆`	${\ Displaystyle 2^{2046-1023}=2^{1023}}$	(en yüksek üs)

Üsler ve özel bir anlamı vardır: 000₁₆7ff₁₆

00000000000₂= işaretli bir sıfırı (eğer F = 0 ise) ve alt normalleri (eğer F ≠ 0 ise ) temsil etmek için kullanılır ; ve000₁₆
11111111111₂= , ∞ (eğer F = 0 ise) ve NaN'leri (eğer F ≠ 0 ise ) temsil etmek için kullanılır ,7ff₁₆

burada F , anlamın kesirli kısmıdır . Tüm bit desenleri geçerli kodlamadır.

Yukarıdaki istisnalar dışında, çift kesinlikli sayının tamamı şu şekilde tanımlanır:

(-1)^{\text{işaret}}\times 2^{e-1023}\times 1.{\text{kesir}}

Alt normaller ( e = 0) durumunda çift kesinlik sayısı şu şekilde tanımlanır:

(-1)^{\text{işaret}}\times 2^{1-1023}\times 0.{\text{kesir}}=(-1)^{\text{işaret}}\times 2^{-1022}\times 0.{\text{fraksiyon}}

endianness

Günümüzün her yerde bulunan x86 işlemcileri, tüm veri türleri (tamsayı, kayan nokta) için küçük endian depolama kullansa da, tam sayıların küçük olarak temsil edildiği kayan noktalı sayıların büyük endian biçiminde temsil edildiği bir dizi donanım mimarisi vardır. endian formu. Orada ARM hem 32 bit kelime tamsayı kayıtları gibi küçük endian saklanır, ama önce en önemli tek: Çift duyarlıklı sayılar için yarım küçük endian, yarım big-endian kayan nokta temsil hakkına sahip işlemciler. Onlar için " ağ " standart gösterimi olmayan birçok kayan nokta formatı olduğundan, XDR standardı, temsili olarak big-endian IEEE 754'ü kullanır. Bu nedenle, yaygın IEEE 754 kayan nokta standardının endianness belirtmemesi garip görünebilir . Teorik olarak bu, bir makine tarafından yazılan standart IEEE kayan nokta verilerinin bile başka bir makine tarafından okunamayabileceği anlamına gelir. Bununla birlikte, modern standart bilgisayarlarda (yani, IEEE 754'ün uygulanması), pratikte endianlığın, tamsayılar için olduğu gibi kayan noktalı sayılar için aynı olduğu varsayılabilir, bu da veri türünden bağımsız olarak dönüşümü basit hale getirir. ( Ancak, özel kayan nokta formatlarını kullanan küçük gömülü sistemler başka bir konu olabilir.)

VAX kayan nokta, küçük endian 16 bit kelimeleri büyük endian düzende saklar.

Çift hassasiyetli örnekler

0 01111111111 0000000000000000000000000000000000000000000000000000 ₂ ≙ 3FF0 0000 0000 0000 ₁₆ ≙ +2 ⁰ × 1 = 1

0 01111111111 00000000000000000000000000000000000000000000000000001 ₂ ≙ 3FF0 0000 0000 0001 ₁₆ ≙ +2 ⁰ × (1 + 2 ⁻⁵² ) ≈ 1.0000000000000002, en küçük sayı > 1

0 01111111111 0000000000000000000000000000000000000000000000000010 ₂ ≙ 3FF0 0000 0000 0002 ₁₆ ≙ +2 ⁰ × (1 + 2 ⁻⁵¹ ) ≈ 1.0000000000000004

0 100000000000 0000000000000000000000000000000000000000000000000000 ₂ ≙ 4000 0000 0000 0000 ₁₆ ≙ +2 ¹ × 1 = 2

1 10000000000 0000000000000000000000000000000000000000000000000000 ₂ ≙ C000 0000 0000 0000 ₁₆ ≙ −2 ¹ × 1 = −2

0 100000000000 1000000000000000000000000000000000000000000000000000 ₂ ≙ 4008 0000 0000 0000 ₁₆ ≙ +2 ¹ × 1.1 ₂ = 11 ₂ = 3

0 10000000001 0000000000000000000000000000000000000000000000000000 ₂ ≙ 4010 0000 0000 0000 ₁₆ ≙ +2 ² × 1 = 100 ₂ = 4

0 10000000001 01000000000000000000000000000000000000000000000000000 ₂ ≙ 4014 0000 0000 0000 ₁₆ ≙ +2 ² × 1.01 ₂ = 101 ₂ = 5

0 10000000001 1000000000000000000000000000000000000000000000000000 ₂ ≙ 4018 0000 0000 0000 ₁₆ ≙ +2 ² × 1.1 ₂ = 110 ₂ = 6

0 10000000011 01110000000000000000000000000000000000000000000000000000 ₂ ≙ 4037 0000 0000 0000 ₁₆ ≙ +2 ⁴ × 1.0111 ₂ = 10111 ₂ = 23

0 01111111000 1000000000000000000000000000000000000000000000000000 ₂ ≙ 3F88 0000 0000 0000 ₁₆ ≙ +2 ⁻⁷ × 1.1 ₂ = 0.00000011 ₂ = 0.01171875 (3/256)

0 00000000000 0000000000000000000000000000000000000000000000000001 ₂ ≙ 0000 0000 0000 0001 ₁₆ ≙ + 2 ^-1022 x 2 ^-52 = 2 ^-1074 ≈ 4,9406564584124654 x 10 ^-324 (min. Normal altı çift pozitif)

0 00000000000 1111111111111111111111111111111111111111111111111111 ₂ ≙ 000F FFFF FFFF FFFF ₁₆ ≙ + 2 ^-1022 x (1-2 ^-52 ) ≈ 2,2250738585072009 x 10 ^-308 (En normal altı çift.)

0 00000000001 0000000000000000000000000000000000000000000000000000 ₂ ≙ 0010 0000 0000 0000 ₁₆ ≙ + 2 ^-1022 x 1 ≈ 2,2250738585072014 x 10 ^-308 (min., Normal çift pozitif)

0 11111111110 11111111111111111111111111111111111111111111111111111 ₂ ≙ 7FEF FFFF FFFF FFFF ₁₆ ≙ +2 ¹⁰²³ × (1 + (1 − 2 ⁻⁵² )) ≈ 1.7976931348623157 × 10 ³⁰⁸ (Maks. Çift)

0 000000000000 0000000000000000000000000000000000000000000000000000 ₂ ≙ 0000 0000 0000 0000 ₁₆ ≙ +0

1 000000000000 0000000000000000000000000000000000000000000000000000 ₂ ≙ 8000 0000 0000 0000 ₁₆ ≙ −0

0 11111111111 0000000000000000000000000000000000000000000000000000 ₂ ≙ 7FF0 0000 0000 0000 ₁₆ ≙ +∞ (pozitif sonsuz)

1 11111111111 0000000000000000000000000000000000000000000000000000 ₂ ≙ FFF0 0000 0000 0000 ₁₆ ≙ −∞ (negatif sonsuz)

0 11111111111 00000000000000000000000000000000000000000000000000001 ₂ ≙ 7FF0 0000 0000 0001 ₁₆ ≙ NaN (x86 ve ARM gibi çoğu işlemcide sNaN)

0 11111111111 10000000000000000000000000000000000000000000000000001 ₂ ≙ 7FF8 0000 0000 0001 ₁₆ ≙ NaN (x86 ve ARM gibi çoğu işlemcide qNaN)

0 11111111111 11111111111111111111111111111111111111111111111111111 ₂ ≙ 7FFF FFFF FFFF FFFF ₁₆ ≙ NaN (NaN'nin alternatif bir kodlaması)

0 01111111101 010101010101010101010101010101010101010101010101 ₂ = 3FD5 5555 5555 5555 ₁₆ ≙ +2 ⁻² × (1 + 2 ⁻² + 2 ⁻⁴ + ... + 2 ⁻⁵² ) ≈ ¹ / ₃

0 10000000000 1001001000011111101101010100010001000010110100011000 ₂ = 4009 21FB 5444 2D18 ₁₆ ≈ pi

qNaN ve sNaN kodlamaları IEEE 754'te tam olarak belirtilmemiştir ve işlemciye bağlıdır. x86 ailesi ve ARM ailesi işlemcileri gibi çoğu işlemci, sessiz bir NaN belirtmek için önemli alanının en önemli bitini kullanır; IEEE 754 tarafından önerilen budur. PA-RISC işlemcileri, bir NaN sinyalini belirtmek için biti kullanır.

Varsayılan olarak, ¹ / ₃ gibi detaylı kadar aşağı mermi, bir hassasiyet nedeniyle significand bitlerin sayısının tek.

Daha ayrıntılı olarak:

Given the hexadecimal representation 3FD5 5555 5555 5555₁₆,
  Sign = 0
  Exponent = 3FD₁₆ = 1021
  Exponent Bias = 1023 (constant value; see above)
  Fraction = 5 5555 5555 5555₁₆
  Value = 2^{(Exponent − Exponent Bias)} × 1.Fraction – Note that Fraction must not be converted to decimal here
        = 2⁻² × (15 5555 5555 5555₁₆ × 2⁻⁵²)
        = 2⁻⁵⁴ × 15 5555 5555 5555₁₆
        = 0.333333333333333314829616256247390992939472198486328125
        ≈ 1/3

Çift duyarlıklı aritmetik ile yürütme hızı

Çift duyarlıklı kayan noktalı değişkenleri ve matematiksel işlevleri (örneğin, sin, cos, atan2, log, exp ve sqrt) kullanmak, tek duyarlıklı karşılıklarıyla çalışmaktan daha yavaştır. Bunun belirli bir sorun olduğu bir bilgi işlem alanı, GPU'larda çalışan paralel koddur. Kullanırken Örneğin, NVIDIA'nın sitesindeki CUDA bir donanımına bağlı olarak bir platform, çift hassas almak ile hesaplamalar, uzun olarak yaklaşık 2 ila 32 kat kullanılarak yapılır kıyasla tamamlamak üzere, tek bir hassasiyet .

Tamsayı değerlerinde kesinlik sınırlamaları

-2 ⁵³ ila 2 ⁵³ (−9,007,199,254,740,992 ila 9,007,199,254,740,992) arasındaki tam sayılar tam olarak temsil edilebilir
2 ⁵³ ile 2 ⁵⁴ arasındaki tam sayılar = 18,014,398,509,481,984 2'nin katına yuvarlanır (çift sayı)
2 ⁵⁴ ile 2 ⁵⁵ arasındaki tam sayılar = 36,028,797,018,963,968 4'ün katına yuvarlanır

Uygulamalar

Çiftler, birçok programlama dilinde aşağıdaki gibi farklı şekillerde uygulanır. Gibi yalnızca dinamik hassasiyetle işlemciler, Açık x86 olmadan SSE2 (veya SSE2, uyumluluk amacıyla kullanılmadığında) ve varsayılan olarak kullanılan genişletilmiş hassasiyetle, yazılım bazı şartları yerine getirmek için zorluklar olabilir.

C ve C++

C ve C++ çok çeşitli aritmetik türleri sunar . Standartlar tarafından çift hassasiyet gerekli değildir ( IEEE 754 aritmetiğini kapsayan C99'un isteğe bağlı eki F hariç ), ancak çoğu sistemde, doubletip çift hassasiyete karşılık gelir. Ancak, varsayılan olarak genişletilmiş hassasiyete sahip 32-bit x86'da, bazı derleyiciler C standardına uymayabilir veya aritmetik çift yuvarlamadan zarar görebilir .

Fortran

Fortran , birkaç tamsayı ve gerçek tür sağlar ve real64Fortran'ın içsel modülü aracılığıyla erişilebilen 64 bitlik tür , iso_fortran_envçift kesinliğe karşılık gelir.

Ortak Lisp

Common Lisp , SHORT-FLOAT, SINGLE-FLOAT, DOUBLE-FLOAT ve LONG-FLOAT türlerini sunar. Çoğu uygulama, SINGLE-FLOAT'ları ve DOUBLE-FLOAT'ları diğer uygun eşanlamlı türlerle birlikte sağlar. Common Lisp, IEEE 754'e göre kayan noktalı alt ve taşmaların ve tam olmayan kayan nokta istisnasının yakalanması için istisnalar sağlar. ANSI standardında hiçbir sonsuzluk ve NaN açıklanmaz, ancak bazı uygulamalar bunları uzantı olarak sağlar.

Java

On Java sürümü 1.2 önce, her uygulama IEEE 754 uyumlu olması gerekiyordu. Sürüm 1.2, uygulamaların x87 gibi platformlar için ara hesaplamalarda ekstra hassasiyet getirmesine izin verdi . Bu nedenle , katı IEEE 754 hesaplamalarını zorlamak için bir strictfp değiştiricisi tanıtıldı. Java 17'de katı kayan nokta geri yüklendi.

JavaScript

ECMAScript standardı tarafından belirtildiği gibi , JavaScript'teki tüm aritmetik, çift duyarlıklı kayan nokta aritmetiği kullanılarak yapılacaktır.

Ayrıca bakınız

IEEE 754 , kayan nokta aritmetiği için IEEE standardı

Languages

In other projects