Python的Buffer机制

334

一个意外的特性(Bug)引起的对Python Buffer机制的研究

环境准备


Python版本: 3.7.1(3.7以上版本)
清空PYTHONUNBUFFERED环境变量(默认是空的,不过以防万一还是清空下)

cmd清空
set PYTHONUNBUFFERED=""


powershell清空
$env:PYTHONUNBUFFERED=""


bash清空
export PYTHONUNBUFFERED=""


将下面内容保存到test.py,执行下面的语句
import sys
sys.stdout.write("stdout1 ")
sys.stderr.write("stderr1 ")
sys.stdout.write("stdout2 ")
sys.stderr.write("stderr2 ")


执行python test.py, 输出stderr1 stderr2 stdout1 stdout2
执行python -u test.py, 输出stdout1 stderr1 stdout2 stderr2

缓冲区



现象解释



对于stderr,其名称是标准错误输出文件,标准里规定是无缓冲的,每次输出一个字符就直接显示到屏幕上
而对于stdout,其名称是标准输出文件,UNIX标准里规定是行缓冲的,遇到换行或者积累到一定的大小一次性输出到屏幕上

由于默认情况下,缓冲区是开启的。
因此stdout的输出会先存入到一个buffer中,而stderr的内容是直接显示的,因此默认输出顺序是stderr1 stderr2 stdout1 stdout2

当将其改为
import sys
sys.stdout.write("stdout1\n")
sys.stderr.write("stderr1\n")
sys.stdout.write("stdout2\n")
sys.stderr.write("stderr2\n")


由于stdout是行缓冲,遇到换行后也是直接输出,因此此时输出内容就是正常顺序

对于Python而言,其规定如下:
  • 对于Python2.x: stdout行缓存,stderr是无缓冲(和规范相同)
  • 对于Python3.x: stdout和stderr都是行缓冲

关于该改动的讨论: Improve documentation of stdout/stderr buffering in Python 3.x

而对于-u参数:
  • 对于3.6以下版本: 二进制流使用unbuffered(不使用buffer),但是文本流采用line-buffer(3.6 相关文档)
  • 对于3.7以上版本: 全部采用unbuffered(3.7 相关文档)

而当PYTHONPATH不为空,视为使用了-u参数

虽然输出结果与行缓冲与无缓冲的结果相同,但是仍然需要注意这里并非是如同规范那样定义

什么时候不应该使用缓冲区



一般来说,第一次接触缓冲区应该都是C语言读入部分

比如如果要有用户交互输入数据,需要分析输入内容,可能会牵扯到换行的处理
当用户一次性输入很多数据时,这些数据都会被存放在输入缓冲区内,每次使用getchar();或者scanf("%c", &c);会从中取出一个字符出来
这时,如果输入末尾有无效输入,比如用户多打了个空格才换行等奇怪的操作,可能会导致输入缓冲区留下一部分数据,从而导致下一次处理数据出错
这时,往往要使用fflush(stdin);在每次读入前清空缓冲区,以确保读到的数据是用户刚刚输入的内容

在Python中,最常见的操作是使用flask、django时,后台打印log.
当同时有两个请求送达,两个打印log的操作同时写入输出缓冲区,很可能你看到的就是两个log混杂在一起的内容,这时为了保证log的完整以及有序,就应该关闭缓冲区

而在Python中,关闭缓冲区有三种方法:
  • sys.stdout.flush()
  • python -u xxx.py
  • set PYTHONUNBUFFERED=""

什么时候应该使用缓冲区


缓冲区(buffer)原本是用于中和内外存读取速度不同而设计的一个缓冲
因此当读写速度与运算、处理速度不匹配时就应该使用缓冲区

如大量写入文件,尽管可以使用"n".join(data_list)来将数据拼接成文本一次写入,但是有时候可能会由于异步、数据结构过于复杂,需要用多个f.write()来写入文件,这时就需要使用buffer
将要写到文件的数据先存入内存中,关闭文件时一次性写入,从而减少了io操作次数

另外,引起该篇博文的原因代码是:
print(";".join([str(i) for i in range(10000)]))


这段代码在Windows环境下的Python3.9以下版本使用python -u test.py会导致奇怪的截断
简单解释就是Windows 7以下的控制台对写出有限制(64KiB),因此python会尝试将输出内容除以2来输出
最终导致输出内容被截断
该“特性”将在Python3.9被移除
相关讨论: StackOverflow: Why does this code print a different result between Windows and Linux?


参考资料



发布评论
  • 点击查看/关闭被识别为广告的评论