xspider 简单python抓取框架

xspider

抓取单线程
简单api使用
xpath/css/json提取器
多种队列
架构代码逻辑清晰，可以了解spider抓取过程
it's easy to crawl and extract web;

:::python

main.py:

	from xspider.spider.spider import BaseSpider
	from xspider.filters import urlfilter
	from kuailiyu import KuaiLiYu

if __name__ == "__main__":
	spider = BaseSpider(name = "kuailiyu"  , page_processor = KuaiLiYu() , allow_site = ["kuailiyu.cyzone.cn"] , start_urls = ["http://kuailiyu.cyzone.cn/"])
	spider.url_filters.append(urlfilter.UrlRegxFilter(["kuailiyu.cyzone.cn/article/[0-9]*\.html$","kuailiyu.cyzone.cn/index_[0-9]+.html$"]))
	spider.start()

kuailiyu.py
	from xspider import processor 
	from xspider.selector import xpath_selector
	from xspider import model


	class KuaiLiYu(processor.PageProcessor.PageProcessor):


		def __init__(self):
    		super(KuaiLiYu , self).__init__()
    		self.title_extractor = xpath_selector.XpathSelector(path = "//title/text()")

		def process(self , page , spider):
    		items = model.fileds.Fileds()
    		items["title"] = self.title_extractor.find(page)
    		items["url"] = page.url
    		return items

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
test		test
xspider		xspider
.gitignore		.gitignore
README.md		README.md
buyiker.py		buyiker.py
kuailiyu.py		kuailiyu.py
nlpjob.py		nlpjob.py
requirements.txt		requirements.txt
setup.py		setup.py
test.py		test.py
test1.py		test1.py
test_36kr.py		test_36kr.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

xspider 简单python抓取框架

xspider

About

Uh oh!

Releases

Packages

Languages

ichenfujun/xspider

Folders and files

Latest commit

History

Repository files navigation

xspider 简单python抓取框架

xspider

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages