文件操作

我们开发程序,经常需要从文本文件中读入信息,比如从日志文件中读取日志,从而分析数据信息;

也经常需要写入文本信息到文件中,比如写入操作信息到日志文件中。

在python语言中,我们要读写文本文件, 首先通过内置函数open 打开一个文件。

open函数会返回一个对象,我们可以称之为文件对象。

这个返回的文件对象就包含读取文本内容和写入文本内容的方法。

前面的课程我们刚刚学过,要写入字符串到文件中,需要先将字符串编码为字节串

而从文本文件中读取的文本信息都是字节串,要进行处理之前,必须先将字节串解码为字符串

文本文件读写

open函数的参数

要读写文件,首先要通过内置函数open 打开文件,获得文件对象。

函数open的参数如下

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) 

其中下面3个参数是我们常用的。

  • 参数 file

    file参数指定了要打开文件的路径。 可以是相对路径,也可以是绝对路径。


  • 参数 mode

    mode参数指定了文件打开的模式,从而决定了可以怎样操作文件。

    常用的打开模式有

    • r 只读模式打开,这是最常用的一种模式

    • w 只写模式打开

    • a 追加模式打开

    如果我们要 读取文本文件内容到字符串对象中 , 就应该使用 r 模式。

    我们可以发现mode参数的缺省值 就是 ‘r’ 。

    就是说,调用open函数时,如果没有指定参数mode的值,那么该参数就使用缺省值 ‘r’,表示只读打开。

    如果我们要 创建一个新文件写入内容,或者清空某个文本文件重新写入内容, 就应该使用 ‘w’ 模式。

    如果我们要 从某个文件末尾添加内容, 就应该使用 ‘a’ 模式。


  • 参数 encoding

    encoding 参数指定了读写文本文件时,使用的 字符解码编码 方式。

    调用open函数时,如果指定该参数值,如果是写入字符串到文件中,会使用指定方式编码为字节串;如果是从文本文件中读文本,会使用指定方式解码为字符串对象

    如果调用的时候没有指定该参数的值,那么就是使用系统缺省字符编码方式。 比如在中文的Windows系统上,就是使用cp936(就是gbk编码)。

    使用该参数后,读写文件时,就不需要我们自己写 编解码字符串的代码了。所以建议大家每次都指定该参数的值。



写文件示例

下面的示例代码写入文本内容到文件中, 大家可以拷贝执行一下。

# 指定编码方式为 utf8
f = open('tmp.txt','w',encoding='utf8')

# write方法会将字符串编码为utf8字节串写入文件
f.write('白月黑羽:祝大家好运气')

# 文件操作完毕后, 使用close 方法关闭该文件对象
f.close()

上面使用的是utf8编码写入文件的。

运行一下,我们用notepad++文本编辑器(notepad++可以百度搜索下载)打开该文件。

可以发现该文件确实是utf8编码。

image



如果我们换成用gbk编码字符串写入到文件中

# 指定编码方式为 gb2312
f = open('tmp.txt','w',encoding='gb2312')

# write方法会将字符串编码为gb2312字节串存入文件中
f.write('白月黑羽:祝大家好运气')

# 文件操作完毕后, 使用close 方法关闭该文件对象
f.close()

运行一下,用notepad++文本编辑器打开该文件。

image

可以发现该文件确实是gb2312编码。




mode参数为’w’,是覆盖写文件。 这就意味着,如果原来文件中有内容, 该模式打开文件后,文件中所有的内容都会被 !!!删除掉!!!

所以要特别的小心。

有的场合下,我们需要在文件末尾添加新的内容,而不是删除掉原来的内容重新写。比如写日志文件,在重新启动系统的时候,需要接着在原来的日志文件后面添加新的内容。

这时,我们可以用追加模式 a 打开文件。

例如

# a 表示 追加模式 打开文件
f = open('tmp.txt','a',encoding='gb2312')
f.write('白月黑羽再次祝大家 :good luck')
f.close()



读文件示例

下面的示例代码从上面代码生成的文本文件中,读出内容到字符串对象中,并且截取出其中的名字部分, 大家可以拷贝执行一下。

# 指定编码方式为 gbk,gbk编码兼容gb2312
f = open('tmp.txt','r',encoding='gbk')

# read 方法会在读取文件中的原始字节串后, 根据上面指定的gbk解码为字符串对象返回
content = f.read()

# 文件操作完毕后, 使用close 方法关闭该文件对象
f.close()

# 通过字符串的split方法获取其中用户名部分
name = content.split(':')[0]

print(name)

注意点

read函数有参数size,读取文本文件的时候,用来指定这次读取多少个字符。 如果不传入该参数,就是读取文件中所有的内容。

大家可以创建一个文本文件,内容如下

hello
cHl0aG9uMy52aXAgYWxsIHJpZ2h0cyByZXNlcnZlZA==

我们可以这样读取该文本文件

# 因为是读取文本文件的模式, 可以无须指定 mode参数
# 因为都是 英文字符,基本上所以的编码方式都兼容ASCII,可以无须指定encoding参数
f = open('tmp.txt')

tmp = f.read(3)  # read 方法读取3个字符
print(tmp)       # 返回3个字符的字符串 'hel' 


tmp = f.read(3)  # 继续使用 read 方法读取3个字符
print(tmp)       # 返回3个字符的字符串 'lo\n'  换行符也是一个字符


tmp = f.read()  # 不加参数,读取剩余的所有字符
print(tmp)       # 返回剩余字符的字符串 'cHl0aG9uMy52aXAgYWxsIHJpZ2h0cyByZXNlcnZlZA==' 


# 文件操作完毕后, 使用close 方法关闭该文件对象
f.close()  



读取文本文件内容的时候,通常还会使用readlines方法,该方法会返回一个列表。 列表中的每个元素依次对应文本文件中每行内容。

f = open('tmp.txt')
linelist = f.readlines() 
f.close()  
for line in linelist:
    print(line)

但是这种方法,列表的每个元素对应的字符串 最后有一个换行符。 如果你不想要换行符,可以使用字符串对象的splitlines方法

f = open('tmp.txt')
content = f.read()   # 读取全部文件内容
f.close()  

# 将文件内容字符串 按换行符 切割 到列表中,每个元素依次对应一行
linelist = content.splitlines()
for line in linelist:
    print(line)

二进制方式打开文件

不知道大家有没有注意,前面我们讲的打开文件,读写文件。都强调这是 文本文件

其实就文件存储的底层来说,不管什么类型的文件,存储的都是字节,不存在文本和二进制的区别,可以说都是二进制。

读写文件底层操作读写的 都是字节

以文本模式打开文件后, 后面的读写文件的方法(比如 read,write等),底层实现都会自动的进行 字符串(对应Python的string对象)和字节串(对应Python的bytes对象) 的转换。

其实我们可以指定open函数的mode参数,直接读取原始的 二进制 字节串 到一个bytes对象中。

大家可以写入字符串 白月黑羽 到一个文件中,保存时使用utf8编码

然后我们这样运行下面的代码

# mode参数指定为rb 就是用二进制读的方式打开文件
f = open('tmp.txt','rb')
content = f.read()   
f.close()  

# 由于是 二进制方式打开,所以得到的content是 字节串对象 bytes
# 内容为 b'\xe7\x99\xbd\xe6\x9c\x88\xe9\xbb\x91\xe7\xbe\xbd'
print(content) 

# 该对象的长度是字节串里面的字节个数,就是12,每3个字节对应一个汉字的utf8编码
print(len(content))

with 语句

如果我们开发的程序 在进行文件读写之后,忘记使用close方法关闭文件, 就可能造成意想不到的问题。

我们可以使用with 语句 打开文件,像这样,就不需要我们调用close方法关闭文件。 Python解释器会帮我们调用文件对象的close方法。

如下

# open返回的对象 赋值为 变量 f
with open('tmp.txt') as f:
    linelist = f.readlines() 
    for line in linelist:
        print(line)

对文件的操作都放在with下面的缩进的代码块中。




课后练习

去做练习

上一页 下一页