type
status
date
slug
summary
tags
category
icon
password
一、需求背景
抓取网页中的附件,并将附件中的文字存储下来,不要求格式及段落顺序。
二、Spider
1、FilesPipeline
使用scrapy默认的pipeline,统一下载后根据不同格式进行文件处理。
三、处理文件
1、处理excel
2、处理pdf
3、处理doc/wps/docx
注意由于linux环境用不了win32com,所以在linux上采用libreoffice将文件转换成docx。
libreoffice将文件转换成txt。
4、安装libreoffice
转换命令,可以转换成各种各种如doc、docx、txt,当然上面的代码也可以改成转换成txt格式的直接读取。
- 作者:404False
- 链接:https://blog.404nofoundx.top//article/04186f25-27e0-4cb3-97f1-93b7d560fc96
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。