[Python]中英文混合字符串的对齐

发布于 2024-02-23  730 次阅读


002-PG002-Python002 中英文混合字符串的对齐

最近几天在研究tkinter的颜色名称,准备写个能展示所有支持的颜色名的小程序。
做着做着发现一个问题,tkinter的listbox不支持多列的list,我那个表有6列,自己写一个class又好烦,于是就想到干脆加点竖线或者制表符排个版对齐一下,看着像表就行了。
于是又遇到一个问题,里面的中文名是我自己翻译的,有一些是中文+数字的组合,Python是对于汉字和英文都算作1个字符的,len('一二三abc')输出是6,而汉字和英文的宽度其实不一样,所以用format()和ljust()等函数都无法对齐,制表符在终端里是可以对齐的,但是tkinter迷之不认制表符,填进去完全没用。

# -*- coding: utf-8 -*-
# 测试程序1

a = '一二三abcde'
b = '一二三四五abcdefg'

print("a='{}',长度为{}\nb='{}',长度为{}".format(a, len(a), b, len(b)))
print('-'*40)
print('format对齐:')
print('{:<20}|\n{:<20}|'.format(a, b))
print('-'*40)
print('ljust对齐:')
print('{}|\n{}|'.format(a.ljust(20), b.ljust(20)))
print('-'*40)
print('制表符(\\t)对齐:')
print('{}\t\t|\n{}\t|'.format(a, b))

终端里里显示的很正常

然后去tkinter的listbox里测试下

# -*- coding: utf-8 -*-
# 测试程序2

import tkinter as tk

a = '一二三abcde'
b = '一二三四五abcdefg'

dialog = tk.Tk()
listbox = tk.Listbox(width=40, height=15)

listbox.insert(tk.END, 'format对齐:')
listbox.insert(tk.END, '{:<20}|'.format(a))
listbox.insert(tk.END, '{:<20}|'.format(b))
listbox.insert(tk.END, '-'*40)
listbox.insert(tk.END, 'ljust对齐:')
listbox.insert(tk.END, '{}|'.format(a.ljust(20)))
listbox.insert(tk.END, '{}|'.format(b.ljust(20)))
listbox.insert(tk.END, '-'*40)
listbox.insert(tk.END, '制表符(\\t)对齐:')
listbox.insert(tk.END, '{}\t\t|'.format(a))
listbox.insert(tk.END, '{}\t|'.format(b))

listbox.pack()
dialog.mainloop()

可以看出listbox里制表符并没有什么用

于是自己写了个函数,给定一个字符串和需要的长度,计算一下汉字和字母的个数然后补空格。如下:

# -*- coding: utf-8 -*-

def my_align(_string, _length, _type='L'):
    """
    中英文混合字符串对齐函数
    my_align(_string, _length[, _type]) -> str

    :param _string:[str]需要对齐的字符串
    :param _length:[int]对齐长度
    :param _type:[str]对齐方式('L':默认,左对齐;'R':右对齐;'C'或其他:居中对齐)
    :return:[str]输出_string的对齐结果
    """
    _str_len = len(_string)  # 原始字符串长度(汉字算1个长度)
    for _char in _string:  # 判断字符串内汉字的数量,有一个汉字增加一个长度
        if u'\u4e00' <= _char <= u'\u9fa5':  # 判断一个字是否为汉字(这句网上也有说是“ <= u'\u9ffff' ”的)
            _str_len += 1
    _space = _length-_str_len  # 计算需要填充的空格数
    if _type == 'L':  # 根据对齐方式分配空格
        _left = 0
        _right = _space
    elif _type == 'R':
        _left = _space
        _right = 0
    else:
        _left = _space//2
        _right = _space-_left
    return ' '*_left + _string + ' '*_right

随便写个程序测试下

# -*- coding: utf-8 -*-
# 测试程序3

import tkinter as tk

def my_align(_string, _length, _type='L'):
    ...
# 函数就省略了

a = '一二三'
b = '一二三四abcde'
c = '一二三四五abcdefgh'

print('{}|\n{}|\n{}|'.format(my_align(a, 20), my_align(b, 20), my_align(c, 20)))

dialog = tk.Tk()
listbox = tk.Listbox(width=40, height=15, font='consolas')  # 防止英文字体不等宽的干扰,用一个等宽字体

listbox.insert(tk.END, 'my_align对齐:')
listbox.insert(tk.END, '{}|'.format(my_align(a, 20)))
listbox.insert(tk.END, '{}|'.format(my_align(b, 20)))
listbox.insert(tk.END, '{}|'.format(my_align(c, 20)))

listbox.pack()
dialog.mainloop()

终端里显示正常,然而listbox里……什么鬼?

理论上讲应该是正确的,研究了下应该是中英文混排的时候,实际中文字宽不等于2倍英文字宽造成的,包括用全角空格和半角空格补充字符串混排也是对不齐的。
于是我就去找了个中英文混合等宽字体,微软雅黑与Consolas的混合:YaHei Consolas Hybrid,改上去。
顺便说一句,还有个【更纱黑体(Sarasa Gothic)】也不错,但英文太窄了看不习惯,想要的可以去GitHub找到。

OK,完美

完美,问题解决。