Python 中有关中文编码解码小记-白红宇

Python 中有关中文编码解码小记

阅读量：6713 次

发布时间：2019-06-25

本文共 1450 字，大约阅读时间需要 4 分钟。

简单记录几点，以备后忘：

1、python 中的默认编码方式为ascii

In [1]: import sysIn [2]: sys.getdefaultencoding()Out[2]: 'ascii'

2、设置python 中的默认编码方式

In [1]: import sysIn [2]: reload(sys)
     
      In [3]: sys.setdefaultencoding('utf-8')In [4]: sys.getdefaultencoding()'utf-8'

3、python 头顶部设置的编码格式 # _*_ coding: utf-8 _*_ 不会影响默认python 的默认编码格式

#! /usr/bin/env python# _*_ coding: utf-8 _*_import sysprint sys.getdefaultencoding()

执行后的结果为 ascii 编码格式

那么python 头顶部设置的编码格式有什么作用呢?

#1、如果代码中有中文注释，就需要此声明

#2、比较高级的编辑器（比如我的emacs），会根据头部声明，将此作为代码文件的格式

#3、程序会通过头部声明，解码初始化 u"人生苦短"，这样的unicode对象，(所以头部声明和代码的存储格式要一致)

以上观点来自于此文

那做个测试吧：

#! /usr/bin/env python# _*_ coding: utf-8 _*_import sysprint sys.getdefaultencoding()#reload(sys)#sys.setdefaultencoding('utf-8')# 会被编码为unicodes1 = u"这是一个测试1"# 会被编码为asciis2 = "这是一个测试2"s1.encode('gbk')s2.encode('gbk')print s1print s2

以上测试结果：

asciiTraceback (most recent call last):  File "testunicoding.py", line 21, in 
     
          s2.encode('gbk')UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 0: ordinal not in range(128)

主要s2这个字符串的默认编码格式为ascii ，无法先decode 成unicode 。出了问题

将默认编码方式更改为utf-8后

#! /usr/bin/env python# _*_ coding: utf-8 _*_import sysprint sys.getdefaultencoding()reload(sys)sys.setdefaultencoding('utf-8')print sys.getdefaultencoding()# 会被编码为unicodes1 = u"这是一个测试1"# 会被编码为asciis2 = "这是一个测试2"s1.encode('gbk')s2.encode('gbk')print s1print s2

执行结果：

asciiutf-8这是一个测试1这是一个测试2

转载于:https://blog.51cto.com/unixman/1656678

你可能感兴趣的文章

metasploit(MSF)终端命令大全

利用ssh+rsync+inotify实现数据的异地实时同步

查看>>

Android官方开发文档Training系列课程中文版：分享简单数据之从其它APP接收简单数据...

查看>>

IN2Windows: Case of the Unexplained Access Denied

查看>>

OpenSSL将于9月22日发布多个漏洞补丁

微信公众号最新数据解读，三分之一停更成僵尸号

查看>>

《CCNP ROUTE 300-101学习指南》——2.2节构建EIGRP拓扑表

查看>>

《为自己工作——世界顶级设计师成功法则》目录—导读

查看>>

Libreboot 项目向开源社区示好和致歉

查看>>

《CMYK 2.0——设计师色彩管理手册》—第1章1.3节副作用

查看>>

java.util.concurrent.locks.LockSupport

查看>>

红帽加入 Node.js 基金会白金会员

查看>>