Back to site

C-Kermit Case Study # 08

[ Папярэдняя ] [ Наступная ] [ Індэкс ] [ C-Kermit Галоўная ] [ Кермен Галоўная ]

Артыкул: 10928 з comp.protocols.kermit.misc
З: fdc@watsun.cc.columbia.edu (Frank-так-Крус)
Групы навін: comp.protocols.kermit.misc
Тэма: Прыклад № 8: Unicode
Дата: 15 студзеня 2000 г 21:07:28 GMT
Арганізацыя: Калумбійскі універсітэт

Хто не ведае, што Юнікод Цяпер, калі вылічальныя стала настолькі распаўсюджанай і Web-арыентаваных? - Рэвалюцыя сама па сабе - мы знаходзімся на грані чарговай рэвалюцыі ў вылічэннях, той, які можа аказаць глыбокае ўздзеянне на ўсіх нас, і магчыма, нават на ход гісторыі.

Да нядаўняга часу большасць кампутараў тэкст быў запісаны ў однобайтовые 7-бітныя або 8-бітных набораў знакаў (1), па адным на мову ці моўнай групы. Напрыклад, па змаўчанні набор знакаў вэб першапачаткова ISO 8859-1 лацінскі алфавіт 1, які можа кадаваць англійская плюс большасці заходнееўрапейскіх моў: італьянскі, іспанскі, нямецкі, ісландскі, і г.д. Але гэта не можа кадаваць ўсходнееўрапейскія мовы, такія як польскі, чэшскі, венгерскі ці, нават калі яны выкарыстоўваюць той жа алфавіт, таму што акцэнты розныя. Не можа ён прадстаўляць мовы, як руская, арабская, іўрыт, японскі, ці якія выкарыстоўваюць іншыя сістэмы пісьма. Таму, каб пісаць на мовах, выдатных ад нашай уласнай, мы часта даводзіцца пераключаць наборы знакаў, а гэтак жа любы, хто паспрабаваў гэта магу сказаць вам, гэта складаная задача. Гэта нават больш складана, калі нам трэба змешваць розныя мовы ў адным дакуменце, напрыклад, партугальскай, румынскай, рускай і армянскім мовах.

Шырокія магчымасці Інтэрнэту з'яўляецца яго патэнцыял, каб аб'яднаць людзей ва ўсіх краінах, як ніколі раней. Мы можам лепш даведацца адзін аднаго і шанаваць адзін аднаго моў і культур з беспрэцэдэнтным выгодай. І вялікі ўрок кампутарнай масы і Інтэрнэт-культуры да гэтага часу з'яўляецца:. За што зачапіцца, ён павінен быць лёгка справіцца з бягучай Бабил набораў знакаў зусім не проста: розныя платформы выкарыстоўваюць розныя прыватныя наборы сімвалаў (напрыклад, PC код старонак), якая павінна адлюстроўвацца на любым з масіва стандартныя наборы сімвалаў (напрыклад, ISO лацінскага алфавітаў), альбо розныя прыватныя наборы знакаў на іншых платформах. Калі мовы павінны быць змяшаныя, старанна прадуманых і часцяком па канкрэтных прадуктам механізмы пераключэння не патрабуецца.

Unicode на дапамогу. Вось ужо больш за 10 гадоў, кансорцыум карпаратыўных, акадэмічных і стандартаў цела прадстаўнікоў была праца па стварэнні адзінага універсальнага набору знакаў здольныя якія прадстаўляюць усе ў свеце сістэмы лісты. Каб даведацца ўсё пра Unicode, наведайце вэб-сайт Кансорцыума Unicode:

http://www.unicode.org/

Unicode знакі фундаментальнае змяненне ў тым, як вылічыць. Кожны знак прадстаўлены не адзін байт (1), але можа быць адзін, два, тры, чатыры ці больш байт, у залежнасці ад Unicode фармат пераўтварэнні (UTF), якія выкарыстоўваюцца і спецыяльных сімвалаў ўдзел. Але паколькі мы пяцьдзесят гадоў праграмнага забеспячэння і дадзеных з дапамогай аднаго байта за характарам мадэлі, пераход на Unicode будзе доўгі працэс. Адзін з іх, аднак, што ідзе поўным ходам.

Большая частка гэтага пераходу з'яўляецца стварэнне Unicode шрыфты. Праца вядзецца па частках, пры гэтым кожны шрыфт, які змяшчае (магчыма) розныя падмноства Unicode, з дадатковымі знакамі і сістэм напісання дадаў з цягам часу. Ваш кампутар можа ўжо падтрымліваюць Unicode ў некаторай ступені. Для праверкі, зайдзіце:

http://www.columbia.edu/kermit/utf8.html

Гэта без празмернасцяў тэкставы вэб-старонкі, якія змяшчаюць тэкст на розных мовах (2) кадуецца ў фармат пераўтварэнні Unicode 8 (UTF-8). Вы можаце ўбачыць шмат "невядомы знак" скрынкі або трызненне, у залежнасці ад вашага браўзэра, шрыфт і мову.

Зараз на сайце:

http://www.alanwood.net/unicode/fonts.html

для агляду Unicode шрыфты, каб паглядзець, як вы маглі б пашырыць гарызонты свайго кампутара прама цяпер. Паспрабуйце ўсталяваць абноўлены шрыфт і наведванне UTF-8 Прыклад старонку зноў.

Што вы бачыце азначае сабой вялікі крок наперад: незалежнасць ад пастаўшчыка, прыкладанні самастойны метад для кадавання тэксту на розных мовах - і ў адзін выдатны дзень, мы спадзяемся, усё мовы. У адрозненне ад іншых вэб-старонак, вы маглі бачыць, Ёсць ніякіх хітрыкаў тут - напрыклад, не GIF-малюнкі для прадстаўлення кітайскай або іўрыце. Гэта проста звычайны тэкст. Вы можаце выбраць і скапіяваць яго, як любы іншы тэкст, але ці можна ўставіць яго ў іншае прыкладанне залежыць ад іншых прыкладанняў. У Windows 95 і пазней, напрыклад, вы можаце ўставіць яго ў Microsoft Word, калі яно мае Unicode шрыфт, напрыклад Arial або Times New Roman абраны, і ўбачыць некаторыя з нелацінскімі скрыптоў (але не абавязкова ўсе з іх).

Кермен Праект быў членам кансорцыума Unicode на працягу многіх гадоў, і цяпер C-Kermit і Кермен 95 падтрымка Unicode, як перадача набору знакаў, файл набору сімвалаў, і тэрмінал кадоўкі. Раптам у вас ёсць зручны крос-платформенных інструментаў для міграцыі ў Юнікод і ўзаемадзеяння паміж Unicode і традыцыйных асяроддзяў. Напрыклад:

Падтрымка юнікода C-Kermit з'яўляецца інтэграваны з усімі іншымі яе знакавых набораў, якія ахопліваюць ( гл. дыяграму ):

Амаль усё, што вы бачыце на UTF-8 Прыклад старонку, вы таксама можаце бачыць на вашым экране Кермен 95, гэта "проста" пытанне, якія маюць права шрыфта.

Як звычайна, я блукаў па даўжэй, чым планавалася, і да гэтага часу толькі слізгануў па паверхні. Для больш падрабязна, чытайце падзел 06/06 з C-Kermit Notes 7.0 Абнаўленне.

Заўвагі:

  1. Спрашчэнства. Традыцыйныя ўсходне-азіяцкіх набораў знакаў, у прыватнасці, выкарыстанне розных кадовак многобайтовых.
  2. Калі вы можаце дадаваць мовы на гэтай старонцы, калі ласка , дайце мне ведаць.
  3. Каб даведацца пра Unicode падтрымкі ў Linux, наведайце http://www.cl.cam.ac.uk/ mgk25/unicode.html ~.

- Франк

Published (Last edited): Jul 27 , source: http://www.columbia.edu/kermit/unicode.html