33 lines
1006 B
Python
33 lines
1006 B
Python
|
#encoding:utf-8
|
|||
|
#爬虫配置文件
|
|||
|
##########################################
|
|||
|
#筛选条件设计为:
|
|||
|
#出现任意【排除词】,则不显示
|
|||
|
#必须包含全部【必须词】,否则不显示
|
|||
|
#满足前两条件下,出现任意【包含词】,则显示
|
|||
|
#若没有【包含词】,则不显示
|
|||
|
##########################################
|
|||
|
|
|||
|
#【排除词】。出现任意一个词,将被筛掉。优先级最高
|
|||
|
exclude = ['停止招生']
|
|||
|
|
|||
|
#【必须词】。必须出现这个词,否则不显示。优先级为中
|
|||
|
focus_include = ['2020']
|
|||
|
|
|||
|
#【包含词】。出现任意一个词,将显示。优先级为低
|
|||
|
include = ['计算机', '软件', '电子信息', '人工智能', '网络', '大数据']
|
|||
|
|
|||
|
#找多少页
|
|||
|
page_end= 50
|
|||
|
|
|||
|
#爬虫的时间间隔,切勿将本选项设置过低,否则坐等被封IP
|
|||
|
interval= 3
|
|||
|
|
|||
|
#缓存文件目录
|
|||
|
cache_file = '/cache.dat'
|
|||
|
|
|||
|
#是否开启调试报告
|
|||
|
debug_info = False
|
|||
|
|
|||
|
if __name__ == "__main__":
|
|||
|
print("execute spider.py!!!\n NOT config.py")
|