Lazy loaded image
Spider
Scrapy使用FilesPipeline下载并读取Excel/Doc/Dox/Pdf内容
字数 1083阅读时长 3 分钟
2022-6-18
2024-7-5
type
status
date
slug
summary
tags
category
icon
password

一、需求背景

抓取网页中的附件,并将附件中的文字存储下来,不要求格式及段落顺序

二、Spider

1、FilesPipeline

使用scrapy默认的pipeline,统一下载后根据不同格式进行文件处理。

三、处理文件

1、处理excel

2、处理pdf

3、处理doc/wps/docx

注意由于linux环境用不了win32com,所以在linux上采用libreoffice将文件转换成docx。
libreoffice将文件转换成txt。

4、安装libreoffice

转换命令,可以转换成各种各种如doc、docx、txt,当然上面的代码也可以改成转换成txt格式的直接读取。
上一篇
Windows WX注入原理
下一篇
常见的几种DLL注入技术

评论
Loading...