UTF-8说分明 - 明辉手游网

明辉手游网中心：是一个免费提供流行视频软件教程、在线学习分享的学习平台！

文章发布全站软件文章热门搜索：下载折扣 win8系统影响启动速度资讯首页腾讯视频爱奇艺暴风影音酷狗音乐酷我音乐影音大全软件下载软件教程电脑系统下载聊天工具办公软件杀毒教程系统工具图形图像电脑学习应用软件网络软件苹果应用注册码网站教程技术开发安卓教程其它教程您当前所在位置：网视手游站 -> 技术开发 -> UTF-8说分明
UTF-8说分明发表时间：2023-08-19 来源：明辉站整理相关软件相关文章人气： [摘要]首先 UCS(注) 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个或 4 个字节序列... 首先 UCS(注) 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个或 4 个字节序列的串. 这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention). 将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00. 如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00. 在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 '\0' 或 '/', 它们在文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码. 在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法. UTF-8 有以下特性: UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的. 所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分. 表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响. 可以编入所有可能的 231个 UCS 代码 UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长. Bigendian UCS-4 字节串的排列顺序是预定的. 字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到. 下列字节串用来表示一个字符. 用到哪个串取决于该字符在 Unicode 中的序号. U-00000000 - U-0000007F:0xxxxxxx U-00000080 - U-000007FF:110xxxxx 10xxxxxx U-00000800 - U-0000FFFF:1110xxxx 10xxxxxx 10xxxxxx U-00010000 - U-001FFFFF:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx U-00200000 - U-03FFFFFF:111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U-04000000 - U-7FFFFFFF:1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目. 例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为: 11000010 10101001 = 0xC2 0xA9 而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为: 11100010 10001001 10100000 = 0xE2 0x89 0xA0 这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身. 注：什么是 UCS ? 国际标准 ISO 10646 定义了通用字符集 (Universal Character Set, UCS). UCS 是所有其他字符集标准的一个超集. 它保证与其他字符集是双向兼容的. 就是说, 如果你将任何文本字符串翻译到 UCS格式, 然后再翻译回原编码, 你不会丢失任何信息. UCS 包含了用于表达所有已知语言的字符. 不仅包括拉丁语,希腊语, 斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语和乔治亚语的描述, 还包括中文, 日文和韩文这样的象形文字, 以及平假名, 片假名, 孟加拉语, 旁遮普语果鲁穆奇字符(Gurmukhi), 泰米尔语, 印.埃纳德语(Kannada), Malayalam, 泰国语, 老挝语, 汉语拼音(Bopomofo), Hangul, Devangari, Gujarati, Oriya, Telugu 以及其他数也数不清的语. 对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入. 这些语言包括 Tibetian, 高棉语, Runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如 Tengwar, Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的, 印刷用的, 数学用的和科学用的符号, 包括所有由 TeX, Postscript, MS-DOS，MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版系统提供的字符. 标签：UTF-8说分明上一篇：使用TNMSMTP控件在需认证服务器上发送邮件下一篇：对于APACHE的设置文件httpd.conf[转]（二）	推荐资讯总人气榜 1PS提示：因为图层已锁定，无法编辑图层的处理方法 2picacg苹果版怎么找不到\|picacg ios版是不是下架了介绍 3Adobe Illustrator CS5 序列号大全 4ACDsee注册码免费分享（含ACDsee18、ACDsee10等版本） 5Potato(土豆聊天)怎么换头像\|Potato app更改头像方法介绍 6PDF浏览器能看3D文件吗？PDF浏览器看3D文件图文详细教程 7Potato(马铃薯聊天)怎么注册不了\|Potato不能注册处理方法介绍 8最新的Adobe Illustrator CS4序列号大全 9Intel i7-9700K性能跑分曝光：同代提升约12% 10qq邮件是否已读怎么看 QQ邮箱已经发出去的邮件怎么知道对方是否已经查看 11XP系统怎么清除缓存？ 12Intel Z390主板有望10月8日公布：8核9代酷睿随后登场 1PHP 留言簿（带Oracle数据库分页的显示技巧） 2php.ini 设置详细选项 3转：Java技术版主Jeru在IBM的DevelopWorks发表的对于设模的文章 4Visual C++剪贴板设置不完全攻略 5基于ACCESS数据库的纯asp论坛制作心得 610天学会php之首天 7PHP新手上路--6. 网络资源 8Csharp+Asp.net系列图文详细教程（二） 9用PHP开发GUI（一个容易的例子） 10一个技巧完善的专栏管理的程序->这是asp.net的第二个应用(4) 113天学好ADO之首天 12让动态创建的ActiveX控件响应Windows消息最新教程本月人气 1刘徽《9章算术》中的勾股数 2JDBC 处理方案 3实时曲线的绘制与保存 4Resin服务器平台介绍 5SMS中用Unicode编码发送中文 6PHP中使用GD输出汉字案例 76种迅速修理C# Bug的方法 8编程书写规则 9在 WIN 平台上让你的 Apache 2.0.45 支持 PHP 108皇后问题的java完成 11使用ASP经常见问题回答 12MVC设计模式带来更好的软件结构与代码重用 1猎豹浏览器抢票不受12306新版验证码影响 2ios9不越狱怎么恢复短信与照片 ios9不越狱恢复短信与照片图文说明教程 310天学会php之首天 4抱抱app怎么玩抱抱app使用图文说明教程图 5360手机助手红包怎么提现 360手机助手红包提现设置流程 6160wifi远程桌面怎么连接 160wifi远程桌面连接设置方法 7微信PC版1.0.7.33官方下载公布修好bug优化软件 8手机登12306验证码总是出错处理方法介绍 9Linux内核4.2优化了哪一些地方？ 10linux系统使用命令维护RHCS的方法 113天学好ADO之首天 12小米note公布会视频完整版 2015小米note公布会视频直播
相关文章刘徽《9章算术》中的勾股数 JDBC 处理方案实时曲线的绘制与保存 Resin服务器平台介绍 SMS中用Unicode编码发送中文 PHP中使用GD输出汉字案例 6种迅速修理C# Bug的方法编程书写规则在 WIN 平台上让你的 Apache 2.0.45 支持 PHP 8皇后问题的java完成使用ASP经常见问题回答 MVC设计模式带来更好的软件结构与代码重用