Rechercher une page de manuel
utf8
Langue: ru
Version: 26 ÎÏÑÂÒÑ 1995 (ubuntu - 01/11/07)
Section: 7 (Divers)
îáéíåîï÷áîéå
UTF-8 - ASCII-ÓÏ×ÍÅÓÔÉÍÁÑ ÍÎÏÇÏÂÁÊÔÎÁÑ ËÏÄÉÒÏ×ËÁ Unicodeïðéóáîéå
îÁÂÏÒ ÓÉÍ×ÏÌÏ× Unicode ÐÏËÒÙ×ÁÅÔ 16-ÂÉÔÎÏÅ ÐÒÏÓÔÒÁÎÓÔ×Ï ËÏÄÏ×. îÁÉÂÏÌÅÅ ÏÞÅ×ÉÄÎÁÑ ËÏÄÉÒÏ×ËÁ Unicode, ÉÚ×ÅÓÔÎÁÑ ËÁË UCS-2, ÓÏÄÅÒÖÉÔ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÉ 16-ÂÉÔÎÙÈ ÓÌÏ×. ôÁËÉÅ ÓÔÒÏËÉ ÍÏÇÕÔ ÓÏÄÅÒÖÁÔØ ËÏÍÂÉÎÁÃÉÉ ÓÉÍ×ÏÌÏ× (ÎÁÐÒÉÍÅÒ '\0' ÉÌÉ '/'), ËÏÔÏÒÙÅ ÉÍÅÀÔ ÓÐÅÃÉÁÌØÎÏÅ ÚÎÁÞÅÎÉÅ × ÉÍÅÎÁÈ ÆÁÊÌÏ× É ÄÒÕÇÉÈ ÐÁÒÁÍÅÔÒÁÈ ÆÕÎËÃÉÊ ÉÚ ÂÉÂÌÉÏÔÅËÉ ÑÚÙËÁ C. ëÒÏÍÅ ÔÏÇÏ, ÂÏÌØÛÉÎÓÔ×Ï ÕÔÉÌÉÔ UNIX ÐÒÅÄÎÁÚÎÁÞÅÎÙ ÄÌÑ ÏÂÒÁÂÏÔËÉ ASCII-ÆÁÊÌÏ×, É ÎÅ ÍÏÇÕÔ ÞÉÔÁÔØ 16-ÂÉÔÎÙÅ ÓÉÍ×ÏÌÙ ÂÅÚ ÓÐÅÃÉÁÌØÎÏÊ ÍÏÄÉÆÉËÁÃÉÉ. ðÏ ÜÔÉÍ ÐÒÉÞÉÎÁÍ UCS-2 Ñ×ÌÑÅÔÓÑ ÎÅÐÏÄÈÏÄÑÝÅÊ ËÏÄÉÒÏ×ËÏÊ Unicode × ÉÍÅÎÁÈ ÆÁÊÌÏ×, ÔÅËÓÔÏ×ÙÈ ÆÁÊÌÁÈ, ÐÅÒÅÍÅÎÎÙÈ ÏËÒÕÖÅÎÉÑ É Ô. Ä. óÔÁÎÄÁÒÔ ISO 10646 Universal Character Set (UCS), Ñ×ÌÑÀÝÉÊÓÑ ÎÁÄÍÎÏÖÅÓÔ×ÏÍ Unicode, ÐÏËÒÙ×ÁÅÔ ÕÖÅ 31-ÂÉÔÎÏÅ ÐÒÏÓÔÒÁÎÓÔ×Ï ËÏÄÏ×, Á ÉÓÐÏÌØÚÕÅÍÁÑ ÄÌÑ ÎÅÇÏ ÏÞÅ×ÉÄÎÁÑ ËÏÄÉÒÏ×ËÁ UCS-4 (ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔØ 32-ÂÉÔÎÙÈ ÓÌÏ×) ÉÍÅÅÔ ÔÅ ÖÅ ÐÒÏÂÌÅÍÙ.ëÏÄÉÒÏ×ËÁ Unicode É UCS ÐÏÄ ÎÁÚ×ÁÎÉÅÍ UTF-8 ÌÉÛÅÎÁ ÜÔÉÈ ÎÅÄÏÓÔÁÔËÏ× É Ñ×ÌÑÀÔÓÑ ÎÁÉÂÏÌÅÅ ÐÏÄÈÏÄÑÝÅÊ ÄÌÑ ÉÓÐÏÌØÚÏ×ÁÎÉÑ ÎÁÂÏÒÁ ÓÉÍ×ÏÌÏ× Unicode × Unix-ÐÏÄÏÂÎÙÈ ÏÐÅÒÁÃÉÏÎÎÙÈ ÓÉÓÔÅÍÁÈ.
ó÷ïêóô÷á
ëÏÄÉÒÏ×ËÁ UTF-8 ÏÂÌÁÄÁÅÔ ÓÌÅÄÕÀÝÉÍÉ ÐÒÉ×ÌÅËÁÔÅÌØÎÙÍÉ Ó×ÏÊÓÔ×ÁÍÉ:- *
- UCS-ÓÉÍ×ÏÌÙ Ó ËÏÄÁÍÉ ÏÔ 0x00000000 ÄÏ 0x0000007f (ËÌÁÓÓÉÞÅÓËÉÅ ÓÉÍ×ÏÌÙ ÉÚ ÎÁÂÏÒÁ US-ASCII ) ËÏÄÉÒÕÀÔÓÑ ËÁË ÂÁÊÔÙ Ó ËÏÄÁÍÉ 0x00 ÄÏ 0x7f (ÓÏ×ÍÅÓÔÉÍÏÓÔØ Ó ËÏÄÏ×ÏÊ ÔÁÂÌÉÃÅÊ ASCII). üÔÏ ÏÚÎÁÞÁÅÔ, ÞÔÏ ÆÁÊÌÙ É ÓÔÒÏËÉ, ÓÏÄÅÒÖÁÝÉÅ ÔÏÌØËÏ 7-ÂÉÔÎÙÅ ASCII ÓÉÍ×ÏÌÙ, ÂÕÄÕÔ ÉÍÅÔØ ÏÄÉÎÁËÏ×ÏÅ ÐÒÅÄÓÔÁ×ÌÅÎÉÅ ËÁË × ASCII, ÔÁË É × UTF-8.
- *
- ÷ÓÅ UCS-ÓÉÍ×ÏÌÙ Ó ËÏÄÁÍÉ > 0x7f ËÏÄÉÒÕÀÔÓÑ ËÁË ÍÎÏÇÏÂÁÊÔÏ×ÙÅ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÉ, ÓÏÄÅÒÖÁÝÉÅ ÔÏÌØËÏ ÂÁÊÔÙ × ÄÉÁÐÁÚÏÎÅ ÏÔ 0x80 ÄÏ 0xfd, ÔÁË ÞÔÏ ASCII ÂÁÊÔÙ ÎÅ ÏËÁÖÕÔÓÑ ÞÁÓÔØÀ ÄÒÕÇÏÇÏ ÓÉÍ×ÏÌÁ É, ËÁË ÓÌÅÄÓÔ×ÉÅ, ÎÅ ÂÕÄÅÔ ÐÒÏÂÌÅÍ Ó ÉÓÐÏÌØÚÏ×ÁÎÉÅÍ '\0' or '/'.
- *
- óÏÈÒÁÎÑÅÔÓÑ ÌÅËÓÉËÏÇÒÁÆÉÞÅÓËÉÊ ÐÏÒÑÄÏË ÓÏÒÔÉÒÏ×ËÉ ÓÔÒÏË ËÏÄÉÒÏ×ËÉ UCS-4.
- *
- ðÒÉ ÐÏÍÏÝÉ UTF-8 ÍÏÇÕÔ ÂÙÔØ ÚÁËÏÄÉÒÏ×ÁÎÙ ×ÓÅ ×ÏÚÍÏÖÎÙÅ 2^31 ËÏÄÏ× UCS.
- *
- ÷ ËÏÄÉÒÏ×ËÅ UTF-8 ÎÉËÏÇÄÁ ÎÅ ÉÓÐÏÌØÚÕÀÔÓÑ ÂÁÊÔÙ Ó ËÏÄÁÍÉ 0xfe É 0xff.
- *
- ðÅÒ×ÙÊ ÂÁÊÔ ÍÎÏÇÏÂÁÊÔÏ×ÏÊ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÉ, ÐÒÅÄÓÔÁ×ÌÑÀÝÅÊ ÏÄÉÎ ÎÅ-ASCII UCS-ÓÉÍ×ÏÌ, ×ÓÅÇÄÁ ÎÁÈÏÄÉÔÓÑ × ÄÉÁÐÁÚÏÎÅ ÏÔ 0xc0 ÄÏ 0xfd É ÕËÁÚÙ×ÁÅÔ, ËÁËÏÊ ÄÌÉÎÙ ÜÔÁ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔØ. ÷ÓÅ ÐÏÓÌÅÄÕÀÝÉÅ ÂÁÊÔÙ × ÍÎÏÇÏÂÁÊÔÏ×ÏÊ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÉ ÎÁÈÏÄÑÔÓÑ × ÄÉÁÐÁÚÏÎÅ ÏÔ 0x80 ÄÏ 0xbf. üÔÏ ÏÂÅÓÐÅÞÉ×ÁÅÔ ÌÅÇËÕÀ ÒÅÓÉÎÈÒÏÎÉÚÁÃÉÀ, ÕÓÔÒÁÎÑÅÔ ÎÅÏÂÈÏÄÉÍÏÓÔØ ÕÞÉÔÙ×ÁÔØ ÓÏÓÔÏÑÎÉÅ ×ÈÏÄÎÏÇÏ ÐÏÔÏËÁ (statelessness) É ÄÅÌÁÅÔ ËÏÄÉÒÏ×ËÕ ÕÓÔÏÊÞÉ×ÏÊ Ë ÐÒÏÐÕÝÅÎÎÙÍ ÂÁÊÔÁÍ.
- *
- óÉÍ×ÏÌÙ UCS, ÚÁËÏÄÉÒÏ×ÁÎÎÙÅ × UTF-8, ÍÏÇÕÔ ÂÙÔØ ÄÏ ÛÅÓÔÉ ÂÁÊÔ × ÄÌÉÎÕ, ÔÏÇÄÁ ËÁË ÓÉÍ×ÏÌÙ Unicode ÍÏÇÕÔ ÉÍÅÔØ ÄÌÉÎÕ ÌÉÛØ ÄÏ ÔÒÅÈ ÂÁÊÔ. ôÁË ËÁË Linux ÉÓÐÏÌØÚÕÅÔ ÔÏÌØËÏ 16-ÂÉÔÎÏÅ ÐÏÄÍÎÏÖÅÓÔ×Ï UCS -- Unicode, ÔÏ ÐÏÄ Linux ÍÎÏÇÏÂÁÊÔÏ×ÙÅ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÉ UTF-8 ÍÏÇÕÔ ÂÙÔØ ÏÄÎÏ-, Ä×ÕÈ- ÉÌÉ ÔÒÅÈÂÁÊÔÎÙÍÉ.
ëïäéòï÷ëá
îÉÖÅÓÌÅÄÕÀÝÉÅ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÉ ÂÁÊÔ ÉÓÐÏÌØÚÕÀÔÓÑ ÄÌÑ ÐÒÅÄÓÔÁ×ÌÅÎÉÑ ÓÉÍ×ÏÌÏ×. ëÏÎËÒÅÔÎÁÑ ÉÓÐÏÌØÚÕÅÍÁÑ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔØ ÚÁ×ÉÓÉÔ ÏÔ ÎÏÍÅÒÁ ÓÉÍ×ÏÌÁ × ËÏÄÉÒÏ×ËÅ UCS:- 0x00000000 - 0x0000007F:
- 0xxxxxxx
- 0x00000080 - 0x000007FF:
- 110xxxxx 10xxxxxx
- 0x00000800 - 0x0000FFFF:
- 1110xxxx 10xxxxxx 10xxxxxx
- 0x00010000 - 0x001FFFFF:
- 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
- 0x00200000 - 0x03FFFFFF:
- 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
- 0x04000000 - 0x7FFFFFFF:
- 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
ðÏÚÉÃÉÉ ÂÉÔÏ×, ÏÂÏÚÎÁÞÅÎÎÙÅ ËÁË xxx, ÚÁÐÏÌÎÑÀÔÓÑ ÓÏÏÔ×ÅÔÓÔ×ÕÀÝÉÍÉ ÂÉÔÁÍÉ ÉÚ ËÏÄÁ ÓÉÍ×ÏÌÁ × ÂÉÎÁÒÎÏÍ ÐÒÅÄÓÔÁ×ÌÅÎÉÉ. éÓÐÏÌØÚÕÅÔÓÑ ËÒÁÔÞÁÊÛÁÑ ÉÚ ×ÏÚÍÏÖÎÙÈ ÍÎÏÇÏÂÁÊÔÏ×ÙÈ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÅÊ, ËÏÔÏÒÙÅ ÍÏÇÕÔ ÐÒÅÄÓÔÁ×ÉÔØ ËÏÄ ÓÉÍ×ÏÌÁ.
ðòéíåòù
óÉÍ×ÏÌ Unicode Ó ËÏÄÏÍ 0xa9 = 1010 1001 (ÚÎÁË copyright) ËÏÄÉÒÕÅÔÓÑ × UTF-8 ËÁË- 11000010 10101001 = 0xc2 0xa9
Á ÓÉÍ×ÏÌ Ó ËÏÄÏÍ 0x2260 = 0010 0010 0110 0000 (ÚÎÁË "ÎÅ ÒÁ×ÎÏ") ËÏÄÉÒÕÅÔÓÑ ÔÁË:
- 11100010 10001001 10100000 = 0xe2 0x89 0xa0
âåúïðáóîïóôø
óÐÅÃÉÆÉËÁÃÉÑ Unicode ÔÒÅÂÕÅÔ, ÞÔÏÂÙ ÐÒÉ ÚÁÐÉÓÉ ÆÁÊÌÏ× × UTF-8 ÉÓÐÏÌØÚÏ×ÁÌÁÓØ ÓÁÍÁÑ ËÏÒÏÔËÁÑ ÉÚ ×ÏÚÍÏÖÎÙÈ ÆÏÒÍÁ ÚÁÐÉÓÉ; ÎÁÐÒÉÍÅÒ, Ä×ÕÈÂÁÊÔÎÁÑ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔØ Ó ÐÅÒ×ÙÍ ÂÁÊÔÏÍ 0xc0 ÎÅ ÓÏÏÔ×ÅÔÓÔ×ÕÅÔ ÓÔÁÎÄÁÒÔÕ. âÙÌ ÔÁËÖÅ ÏÐÕÂÌÉËÏ×ÁÎ "UTF-8 Corrigendum" (ÐÏÐÒÁ×ËÁ Ë ÓÔÁÎÄÁÒÔÕ), × ËÏÔÏÒÏÍ ÐÒÏÇÒÁÍÍÁÍ ÚÁÐÒÅÝÁÅÔÓÑ ÐÒÉÎÉÍÁÔØ ×ÈÏÄÎÙÅ ÄÁÎÎÙÅ Ó ÎÅ ÓÁÍÙÍÉ ËÏÒÏÔËÉÍÉ ÆÏÒÍÁÍÉ ÚÁÐÉÓÉ. üÔÏ ÓÄÅÌÁÎÏ ÉÚ ÓÏÏÂÒÁÖÅÎÉÊ ÂÅÚÏÐÁÓÎÏÓÔÉ: ÅÓÌÉ ×ÈÏÄÎÙÅ ÄÁÎÎÙÅ ÐÒÏ×ÅÒÑÀÔÓÑ ÎÁ ÐÒÅÄÍÅÔ ×ÏÚÍÏÖÎÙÈ ÎÁÒÕÛÅÎÉÊ ÂÅÚÏÐÁÓÎÏÓÔÉ, ÔÏ ÐÒÏÇÒÁÍÍÁ ÍÏÖÅÔ ÐÒÏ×ÅÒÑÔØ ÔÏÌØËÏ ASCII-×ÅÒÓÉÀ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÅÊ ÔÉÐÁ "/../", ";" ÉÌÉ NUL, É ÐÒÉ ÜÔÏÍ ÕÐÕÓÔÉÔØ ÉÚ ×ÉÄÕ, ÞÔÏ ÅÓÔØ ÍÎÏÖÅÓÔ×Ï ÎÅ ÓÏÏÔ×ÅÔÓÔ×ÕÀÝÉÈ ASCII ÍÅÔÏÄÏ× ÐÒÅÄÓÔÁ×ÉÔØ ÔÁËÉÅ ÐÏÓÌÅÄÏ×ÁÔÅÌØÎÏÓÔÉ. óÍ. ÔÁËÖÅ IETF RFC 2279.ïÄÎÁËÏ, ÎÅËÏÔÏÒÙÅ ÓÉÓÔÅÍÙ (ÉÓÐÏÌØÚÕÀÝÉÅ NUL ÄÌÑ ÚÁ×ÅÒÛÅÎÉÑ ÓÔÒÏË) ÉÓÐÏÌØÚÕÀÔ C0 80 ÄÌÑ ×ÎÕÔÒÅÎÎÅÇÏ ÐÒÅÄÓÔÁ×ÌÅÎÉÑ NUL (ASCII 00).
óôáîäáòôù
ISO 10646, Unicode 1.1, XPG4, Plan 9.á÷ôïò
Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>óíïôòé ôáëöå
unicode(7)ðåòå÷ïä
ðÅÒÅ×ÅÌ Ó ÁÎÇÌÉÊÓËÏÇÏ áÌÅËÓÅÊ íÉÌÌÅÒ <asm@asm.kiev.ua> 2000-- Jayce - A genou ! --
Contenus ©2006-2009 Benjamin Poulain
Design ©2006-2009 Maxime Vantorre