Python编码&解码

python常用的十进制、16进制、字符串、字节串之间的转换(长期更新帖)

python处理html字符实体& # 34 或& quot 格式

import html
 
data = '"xxId": "pingyi.huang&#34';
data = html.unescape(data)
print(data)

print(bytes(map(ord, '\x26amp;')))
print(html.unescape('\x26amp;'))

unicode解码

"".encode('utf-8').decode('unicode_escape')

base64

# Some byte data
s = b'hello'
import base64

# Encode as Base64
a = base64.b64encode(s)

# Decode from Base64
base64.b64decode(a)

Base64编码仅仅用于面向字节的数据比如字节字符串和字节数组。 此外,编码处理的输出结果总是一个字节字符串。 如果你想混合使用Base64编码的数据和Unicode文本,你必须添加一个额外的解码步骤。例如:

import base64

s = b'hello'
a = base64.b64encode(s).decode('ascii')

2进制

from struct import Struct

8进制

16进制

简单的解码或编码一个十六进制的原始字符串,可以使用 binascii 模块。例如:

# Initial byte string
s = b'hello'
# Encode as hex
import binascii
h = binascii.b2a_hex(s)

# Decode back to bytes
binascii.a2b_hex(h)

print(hex(11242521))
print(int("ab8c19", 16))
print(int("0xab8c19", 16))

类似的功能同样可以在 base64 模块中找到。例如:

import base64
h = base64.b16encode(s)

base64.b16decode(h)

大部分情况下,通过使用上述的函数来转换十六进制是很简单的。 上面两种技术的主要不同在于大小写的处理。 函数 base64.b16decode() 和 base64.b16encode() 只能操作大写形式的十六进制字母, 而 binascii 模块中的函数大小写都能处理。

还有一点需要注意的是编码函数所产生的输出总是一个字节字符串。 如果想强制以Unicode形式输出,你需要增加一个额外的界面步骤。例如:

h = base64.b16encode(s)
print(h)

print(h.decode('ascii'))