注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

TOTO

Think and Be Different

 
 
 

日志

 
 

关于apache log中处理中文乱码问题  

2009-10-09 15:33:32|  分类: 看看书 写写笔记 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
要解决的问题: 在处理apache log中,从URL中解析出检索词。
(1)利用正则将文字提取出来
(2)将文件正确转码为中文
这里说第二步:
1.有些URL中是这样的\x开头的,这里的编码实际上是%,所以把\x替换为%s,就解决问题了
2.urldecode
3.转码为中文,可能由多种编码构成: GB2312, GBK, GB18030, UTF-8。我这里的顺序是GB2312, UTF-8, GBK, GB18030,这样解决了乱码问题

但是感觉还是不是很合理,因为在这个过程中,大量的时间用于了,如何排列顺序才能更符合实际,这个不是我们想要的。

另外,在php中GBK的编码名字为 CP936, GB18030好像没有,所以直接使用这两种编码转换为其他编码的时候,会有Warning,使用CP936没有问题

  评论这张
 
阅读(770)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017