动网论坛,站长建站首选,国内使用量最多的论坛软件 动网论坛官方技术讨论区 站长工具 申请属于您自己的免费论坛
首页 | 新闻资讯 | 网站运营 | 网络编程 | 数据库 | 服务器 | 网页设计 | 图像媒体 | 网络应用 | 搜索优化 | 资源下载 | 动网主机 | DVBOX
    本站内  互联网 ASP论坛  ASP.Net论坛  PHP论坛
  
   PHP → 阅读文章

 GD输出汉字的函数的分析

作者来源: 
阅读 1233 人次 , 2006-3-29 4:10:00 


很早以前找到一个把gb码转化为utf-8的函数,配合一个gb到unicode的对照表(gb2312.txt),用于在gd中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。

首先,这是一个unicode到utf-8编码转换的函数,这一部分修改前后没有变化:
function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xc0 | $c>>6);
$str.=(0x80 | $c & 0x3f);
}
else if ($c < 0x10000) {
$str.=(0xe0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3f);
$str.=(0x80 | $c & 0x3f);
}
else if ($c < 0x200000) {
$str.=(0xf0 | $c>>18);
$str.=(0x80 | $c>>12 & 0x3f);
$str.=(0x80 | $c>>6 & 0x3f);
$str.=(0x80 | $c & 0x3f);
}
return $str;
}

这里完全是按照utf-8编码的规则,通过判断字符属于不同的unicode编码段范围,进行不同的移位和位与操作,以转化为utf-8编码。关于该规则可参考http://www.utf8.org/上的说明。

这是修改前的gb转化为utf-8编码的函数,其中调用了上面的u2utf8函数。
function gb2utf8($gb)  /* program writen by sadly www.phpx.com */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));

return $ret;
}
函数中while循环部分,把汉字逐个按照“对照表”转化为unicode,再通过u2utf8函数转化为utf-8。但从中可以看出,while循环结束后,又用一个for循环,把每三个字节合成了一个utf-8字符(见http://www.utf8.org/上的规则说明,每个汉字的utf-8编码为三字节),没有考虑到其中的西文字符(西文字符的utf-8编码为一字节)。所以,如果欲输出的内容中不论是开始时出现西文字符,或是汉字当中穿插西文字符,转化为utf-8后,都会被按照“每三个字节截取”的方式截开,导致乱码。


以下是修改后的函数:
function gb2utf8($gb) /* program writen by sadly  modified by agun */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ret="";
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));
}
else
{
$ret.=substr($gb,0,1);
$gb=substr($gb,1,strlen($gb));
}
}
return $ret;
}

修改后的函数将 gb转化为unicode、unicode转化为utf-8、几个字节合成一个utf-8字符,这三个步骤在一个循环里完成,尤其是几个字节合成一个utf-8字符这一步骤,放在判断了字符属于西文还是属于汉字的条件分支里,据此决定截取一个字节还是三个字节。于是结果正确了!

 
 收藏本文  打印本文  论坛讨论  关闭窗口
· 上一篇:菜鸟初学设计,希望大家多多指点
· 下一篇:在表单中动态增加文本框
· 十天学会php之第八天
· PHP中通过ADO调用Access数据库
· 关于session的几个补充函数
· PHPbb2.0.15远程命令执行漏洞利用程序
· 简单易懂,Session的工作方式


关于本站 | 联系我们 | 业务合作 | 客户案例 | 诚聘英才 | 广告合作 | 收藏本站
海口动网先锋网络科技有限公司版权所有
Copyright © 2000 - 2006 Cndw.Com
中华人民共和国电信与信息服务业务经营许可证编号 琼 ICP 020077