ISO/IEC 8859-1 - ISO/IEC 8859-1
MIME / IANA | ISO-8859-1 |
---|---|
takma ad(lar) | iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819 |
Diller) | İngilizce , çeşitli diğerleri |
Standart | ISO/IEC 8859 |
sınıflandırma | Genişletilmiş ASCII , ISO 8859 |
uzatır | ABD-ASCII |
Dayalı | Aralık MM'si |
tarafından başarıldı | |
Diğer ilgili kodlama(lar) | sutyen |
ISO/IEC 8859-1:1998 , Bilgi teknolojisi — 8 bitlik tek bayt kodlu grafik karakter kümeleri — Bölüm 1: Latin alfabesi No. 1 , ISO/IEC 8859 serisi ASCII tabanlı standart karakter kodlamalarının bir parçasıdır , ilk olarak edition 191 oluşan, bu "Latin alfabesinin hayır. 1" ı olarak nitelendirdiği 1987. ISO 8859-1 kodlar yayınlanan karakterlerin gelen Latin harflerinin . Bu karakter kodlama şeması Amerika , Batı Avrupa , Okyanusya ve Afrika'nın büyük bölümünde kullanılmaktadır . Bazı popüler 8 bitlik karakter kümelerinin ve Unicode'daki ilk iki karakter bloğunun temelidir .
ISO-8859-1 (en azından standarda göre), "text/" ile başlayan bir MIME türüyle HTTP aracılığıyla teslim edilen belgelerin varsayılan kodlamasıydı ( HTML5 bunu Windows-1252 olarak değiştirdi ). Ekim 2021 itibariyle, tüm (ilk 1000 arasında sadece 5'in) 1.2% siteleri kullanmak ISO 8859-1 . Bu, web üzerinde dünyada en çok bildirilen tek baytlık karakter kodlamasıdır, ancak web tarayıcıları bunu Windows-1252 üst kümesi olarak yorumladığından , belgeler bu kümeden karakterleri içerebilir.
Ülkeye bağlı olarak, kullanım küresel ortalamanın çok üzerinde olabilir, örneğin Almanya için %5,1 (ve Windows-1252 dahil %5,6).
ISO-8859-1, belirli tanımlayıcı HTTP başlıklarının değerlerinin varsayılan kodlamasıydı ve HTML 3.2 belgelerinde izin verilen karakter repertuarını tanımladı ve diğer birçok standart tarafından belirtildi. Bu ve benzeri kümelerin, bayt sıra işareti (BOM) yoksa, genellikle Unix ve Microsoft Windows'ta 8 bitlik metnin kodlaması olduğu varsayılır ; bu yalnızca kademeli olarak UTF-8 olarak değiştiriliyor .
ISO-8859-1 olan IANA ile takviye bu standart için adı tercih C0 C1 kontrol kodları ile ilgili ISO / IEC 6429 . Aşağıdaki diğer takma adlar kayıtlıdır: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . Kod sayfası 28591, yani Windows-28591 , Windows'ta bunun için kullanılır. IBM buna kod sayfası 819 veya CP819 ( CCSID 819) adını verir . Oracle buna WE8ISO8859P1 diyor .
Kapsam
Her karakter, tek bir sekiz bitlik kod değeri olarak kodlanır. Bu kod değerleri, aşağıdaki dillerde iletişim kurmak için hemen hemen her veri değişim sisteminde kullanılabilir ( Almanca ve İzlandaca dahil olmak üzere birçok dilde olduğu gibi doğru tırnak işaretlerini hariç tutabilir ):
Kapsamlı modern diller
- Notlar
Kapsamı eksik olan diller
ISO-8859-1, bu diller tarafından kullanılan karakterlerden yoksun olmasına rağmen, belirli diller için yaygın olarak kullanılıyordu. Çoğu durumda, yalnızca birkaç harf eksiktir veya nadiren kullanılırlar ve bir tür tipografik yaklaşım kullanılarak ISO-8859-1'deki karakterlerle değiştirilebilirler . Aşağıdaki tabloda bu tür diller listelenmektedir.
Dilim | Eksik karakterler | Tipik geçici çözüm | Tarafından desteklenen |
---|---|---|---|
Katalanca | Ŀ , L (kaldırıldı) | Ll· | |
Danimarkalı | Ǿ , ǿ (aksan isteğe bağlıdır ve ǿ çok nadirdir) | Ø, ø veya øe | |
Flemenkçe | IJ , ij (ancak durumu tartışmalı ); j́ "blíj́f" gibi vurgulanan kelimelerde | digraflar IJ, ij; blíjf | |
estonyaca | Š , š, Ž , ž (yalnızca alıntı kelimelerde mevcuttur) | Ş, Ş, Zh, Zh | ISO-8859-15 , Windows-1252 |
Fince | Š , š, Ž , ž (yalnızca alıntı kelimelerde mevcuttur) | Ş, Ş, Zh, Zh | ISO-8859-15 , Windows-1252 |
Fransızca | Œ , œ ve çok nadir Ÿ | digraflar OE, oe; Y veya Ý | ISO-8859-15 , Windows-1252 |
Almanca | ẞ (büyük harf ß, yalnızca tüm büyük harflerle kullanılır; 2017'de resmi imlaya dahil edilmiştir, yine isteğe bağlıdır) | digraf SS | |
Macarca | Olarak O , O, Û , • tarafından | Ö, ö, Ü, ü | ISO/IEC 8859-2 , Windows-1250 |
İrlandaca ( geleneksel yazım ) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th | ISO-8859-14 |
Türk | Ş , ş | ||
Galce | Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ | W, w, Y, y, i, ı | ISO-8859-14 |
Fransızcada çok nadiren, özellikle L'Haÿ-les-Roses gibi şehir adlarında ve hiçbir zaman kelimelerin başında yer almayan ÿ harfi , yalnızca küçük harf biçiminde yer alır. Büyük harf biçimine karşılık gelen yuva , standart oluşturulduğunda büyük harf biçimi olmayan Almanca dilinden küçük harf ß ile doldurulur .
Alıntı işaretleri
Yukarıda listelenen bazı diller için , yalnızca , , ve dahil edildiğinden, doğru tipografik tırnak işaretleri eksiktir . Ayrıca, bu şema yönlendirilmiş (6- veya 9-şekilli) tek veya çift tırnak işaretleri sağlamaz. Bazı yazı tipleri, aralık koyu vurgusunu (0x60) ve kesme işaretini (0x27) eşleşen bir çift yönlü tek tırnak işareti olarak görüntüler, ancak bu, modern standardın bir parçası olarak kabul edilmez.
« »
" "
' '
Tarih
ISO 8859-1, 1983 yılında popüler VT220 terminalinde Digital Equipment Corporation (DEC) tarafından kullanılan Çokuluslu Karakter Kümesine (MCS) dayanmaktadır. Avrupa Bilgisayar Üreticileri Birliği (ECMA) bünyesinde geliştirilmiş ve Mart 1985'te ECMA olarak yayınlanmıştır. -94, bu isimle hala bazen bilinmektedir. ECMA-94'ün ikinci baskısı (Haziran 1986) ayrıca spesifikasyonun bir parçası olarak ISO 8859-2 , ISO 8859-3 ve ISO 8859-4'ü içeriyordu .
ISO 8859-1 orijinal taslak Fransız yerleştirilen Œ ve œ MCS olduğu gibi kod noktaları 215 (0xD7) ve 247 (0xF7) de. Ancak, Fransa'dan gelen delege, ne bir dilbilimci ne de bir tipograf olduğundan, yanlış bir şekilde, bunların kendi başlarına bağımsız Fransız harfleri olmadığını, yalnızca düzenli olarak Bull Publishing Company'den delege ekibi tarafından desteklenen bitişik harfler ( fi veya fl gibi ) olduğunu belirtti. o sırada ev tarzında Œ/œ ile Fransızca basmadılar . Kanada'dan İngilizce konuşan bir delege Œ/œ'yi tutmakta ısrar etti, ancak Fransız delege ve Bull ekibi tarafından reddedildi. Bu kod noktaları, Alman heyetinin önerisiyle kısa sürede × ve ÷ ile dolduruldu. ÿ harfinin "Fransızca değil" olduğu tekrar yanlış bir şekilde belirtildiğinde , büyük Ÿ harfinin olmamasına neden olan Fransızca desteği daha da azaldı . Aslında, ÿ harfi bir dizi Fransız özel adında bulunur ve büyük harf sözlüklerde ve ansiklopedilerde kullanılmıştır. Bu karakterler ISO/IEC 8859-15:1999'a eklenmiştir . BraSCII orijinal taslakla eşleşir.
1985 yılında Commodore , yeni AmigaOS işletim sistemi için ECMA-94'ü benimsedi . Amiga 1000 ile kullanılan Seikosha MP-1300AI darbeli nokta vuruşlu yazıcı bu kodlamayı içeriyordu.
1990'da, Unicode'un ilk sürümü , ISO-8859-1'in kod noktalarını ilk 256 Unicode kod noktası olarak kullandı.
1992'de IANA , daha yaygın olarak tercih edilen MIME adı olan ISO-8859-1 ile bilinen ISO_8859-1:1987 karakter haritasını kaydetti ( ISO 8859-1'in üzerindeki ekstra kısa çizgiye dikkat edin), ISO 8859-1'in bir üst kümesidir. internette kullanın . Bu harita , atanmamış kod değerlerine C0 ve C1 kontrol kodlarını atar, böylece olası her 8 bitlik değer üzerinden 256 karakter sağlar.
Kod sayfası düzeni
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _NS | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 |
||||||||||||||||
1_ 16 |
||||||||||||||||
2_ 32 |
SP 0020 |
! 0021 |
" 0022 |
# 0023 |
0024 $ |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ 48 |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ 64 |
@ 0040 |
bir 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
ben 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ 80 |
P 0050 |
Q, 0051 |
R, 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
B 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ 005B |
\ 005C |
] 005D |
^ 005E |
_ 005F |
6_ 96 |
` 0060 |
bir 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
saat 0068 |
ben 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ 112 |
p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
ağırlık 0077 |
x 0078 |
y 0079 |
z 007A |
{ 007B |
| 007C |
} 007D |
~ 007E |
|
8_ 128 |
||||||||||||||||
9_ 144 |
||||||||||||||||
A_ 160 |
NBSP 00A0 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
¤ 00A4 |
¥ 00A5 |
¦ 00A6 |
§ 00A7 |
¨ 00A8 |
© 00A9 |
ª 00AA |
« 00AB |
¬ 00AC |
SHY 00AD |
® 00AE |
¯ 00AF |
B_ 176 |
° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
´ 00B4 |
µ 00B5 |
¶ 00B6 |
· 00B7 |
¸ 00B8 |
¹ 00B9 |
º 00BA |
» 00BB |
¼ 00BC |
½ 00BD |
¾ 00BE |
¿ 00BF |
C_ 192 |
À 00C0 |
Á 00C1 |
 00C2 |
à 00C3 |
Ä 00C4 |
Å 00C5 |
Æ 00C6 |
Ç 00C7 |
È 00C8 |
É 00C9 |
Ê 00CA |
Ë 00CB |
Ì 00CC |
Í 00CD |
Î 00CE |
Ï 00CF |
D_ 208 |
Ð 00D0 |
Ñ 00D1 |
Ò 00D2 |
Ó 00D3 |
Ô 00D4 |
o 00D5 |
Ö 00D6 |
× 00D7 |
Ø 00D8 |
Ù 00D9 |
Ú 00DA |
Û 00DB |
Ü 00DC |
İ 00DD |
Þ 00DE |
ß 00DF |
E_ 224 |
à 00E0 |
ve 00E1 |
â 00E2 |
ã 00E3 |
ä 00E4 |
å 00E5 |
æ 00E6 |
ç 00E7 |
è 00E8 |
é 00E9 |
ê 00EA |
ë 00EB |
ì 00EC |
ve 00ED |
î 00EE |
ï 00EF |
F_ 240 |
ğ 00F0 |
ñ 00F1 |
o 00F2 |
o 00F3 |
ô 00F4 |
õ 00F5 |
ö 00F6 |
÷ 00F7 |
ø 00F8 |
ù 00F9 |
ú 00FA |
û 00FB |
ü 00FC |
ı 00FD |
ş 00FE |
ÿ 00FF |
Mektup Sayı Noktalama Sembol Başka Tanımsız ECMA-94'ün (1985) ilk sürümünde tanımsız. Ancak orijinal taslakta Œ, 215 (0xD7) kod noktasındaydı ve œ, 247 (0xF7) kod noktasındaydı.
Benzer karakter kümeleri
ISO/IEC 8859-15
ISO/IEC 8859-15 , 1999 yılında ISO/IEC 8859-1'in bir güncellemesi olarak geliştirilmiştir. Fransızca ve Fince metin için bazı karakterler ve ISO/IEC 8859-1'de eksik olan euro işareti sağlar . Bu, kesir sembolleri ve harf içermeyen aksanlar dahil, sık kullanılmayan bazı karakterlerin ISO/IEC 8859-1'den kaldırılmasını gerektirdi: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, ve ¾
. İronik olarak, yeni eklenen karakterlerden üçü ( Œ
, œ
, ve Ÿ
) DEC'in 1983 tarihli Çok Uluslu Karakter Kümesi'nde (MCS), ISO/IEC 8859-1'in (1987) öncülünde zaten mevcuttu . Orijinal kod noktaları artık başka amaçlar için yeniden kullanıldığından, karakterlerin farklı, daha az mantıklı kod noktaları altında yeniden tanıtılması gerekiyordu.
Daha küçük bir değişiklik olan ISO-IR-204, 1998'de tescil edilmiş, evrensel para birimi işaretini (¤) euro işaretiyle değiştirerek ISO-8859-1'i değiştirmiştir (aynı ikame ISO-8859-15 tarafından yapılmıştır).
Windows-1252
Popüler Windows-1252 karakter seti , 128 ila 159 ( hex 80 ila 9F) aralığında nadiren kullanılan C1 kontrollerini değiştirerek ISO/IEC 8859-15 tarafından sağlanan tüm eksik karakterleri ve ayrıca bir dizi tipografik sembolü ekler . Windows-1252 metnini ISO-8859-1'de olduğu gibi yanlış etiketlemek çok yaygındır. Yaygın bir sonuç, tüm alıntıların ve kesme işaretlerinin (kelime işlemci yazılımında "akıllı tırnaklar" tarafından üretilen) Windows olmayan işletim sistemlerinde soru işaretleri veya kutularla değiştirilmesi ve metnin okunmasını zorlaştırmasıydı. Birçok web tarayıcısı ve e-posta istemcisi, ISO-8859-1 kontrol kodlarını Windows-1252 karakterleri olarak yorumlayacaktır ve bu davranış daha sonra HTML5'te standartlaştırılmıştır .
Mac Roman
Apple Macintosh bilgisayar denilen bir karakter kodlaması tanıtıldı Mac Roma Otel, Batı Avrupa için uygun olması gerekiyordu 1984 yılında masaüstü yayıncılık . Bu bir üst kümesidir ASCII ve Windows-1252 den ama tamamen farklı bir düzenleme içinde ISO-8859-1 ve tüm ekstra karakterleri olan karakterlerin çoğu vardır. ISO 8859-1'de bulunan ancak bu sette olmayan birkaç yazdırılabilir karakter, Mac için Internet Explorer'ın son sürümü de dahil olmak üzere eski Macintosh tarayıcılarını kullanan web sitelerinde metin düzenlerken genellikle bir sorun kaynağıdır .
Başka
DOS vardı kod sayfası 850 (tamamen farklı bir düzenlemeyle de olsa) ISO-8859-1 olduğu yazdırılabilir tüm karakterler vardı, artı en yaygın kullanılan grafik karakterleri gelen kod sayfa 437 .
1989 ve 2015 yılları arasında Hewlett-Packard , hesap makinelerinin çoğunda başka bir ISO-8859-1 üst kümesini kullandı. Bu tescilli karakter seti bazen basitçe "ECMA-94" olarak da anılırdı.
Ayrıca bakınız
- Unicode'da Latin alfabesi
- tek kod
- Evrensel Karakter Seti
- UTF-8
- Windows kod sayfaları
- ISO/IEC JTC 1/SC 2
Referanslar
Dış bağlantılar
- ISO/IEC 8859-1:1998
- ISO/IEC FDIS 8859-1:1998 — 8 bitlik tek bayt kodlu grafik karakter kümeleri, Bölüm 1: Latin alfabesi No. 1 (12 Şubat 1998 tarihli taslak, 15 Nisan 1998'de yayınlandı)
- Standart ECMA-94: 8-Bit Tek Bayt Kodlu Grafik Karakter Kümeleri — Latin Alfabeleri No. 1 - No. 4 2. baskı (Haziran 1986)
- ISO-IR 100 Latin Alfabesi No.1'in Sağ Kısmı (1 Şubat 1986)
- Mektup Veritabanı
- Czyborra, Roman (1998-12-01). "ISO 8859 Alfabe Çorbası" . 2016-12-01 tarihinde kaynağından arşivlendi . 2016-12-01 alındı . [1] [2]