1樓清空數據 2樓查看數據,3樓網址庫講解 請你看完
1,清空網址和數據
如果你想把規則里的數據清空從新采集請按照下面的操作:
右擊采集規則====》清空任務所有采集數據,清空該任務網址庫(備注:這個2個都要選擇下)
這樣就會把任務采集到數據和網址全部清空掉,再次運行任務就從新采集了
2,只清空數據
按照上面的操作,會把采集的地址也會清空掉,地址就要從新采集了
假如你只是想從新采集內容的話可以只要把這條采集信息勾選為未采集狀態辦法看下面
1,手動勾選
如果數據不多或者只是針對部分數據需要重新采集可以選擇此方法
首先打開本地編輯任務采集數據如下圖
然后采集器的右側可以看到采集到的數據
把采集的狀態設置為未采集如下圖
這樣運行任務 不需要勾選采集網址 直接勾選采集內容就可以了 節省時間
2,sql語句
如果數據很多 ,我們就使用sql語句來批量修改采集的狀態為“未采集”
說明下你選擇保存的數據庫是什么 這樣對應的sql語句是有所不一樣的
知道數據庫的童鞋都知道每個數據庫的Sql語句格式都是不一樣的
我本地是使用sqlite數據庫,做為演示
點擊Sql按鈕如下圖:
寫sql語句如下圖,采集器把對應數據庫的sql語句列出了,我們這里選擇“更新”數據庫
sql語句這里就不說明了會的自然會,不會的在這里也說不明白 不明白的大家問度娘去。。
這里sql語句寫成“UPDATE Content SET [已采]=1” 下面的執行就可以了
執行成功了,點擊從新加載數據 就看到變化了 再次采集的時候會把之前采集的覆蓋掉。
假如你本地保存數據庫選擇的是mysql
使用“更新”sql語句是:“UPDATE `Data_Content_任務ID` SET `已發`=1 WHERE `標題` is null”
這里說下這個任務id是什么
看下圖
把“任務ID” 對應修改成數字就好
】
大家疑惑會什么不同的數據庫會這么大的區別,不需要去疑惑,本身不同的數據庫就是不一樣的
現在我們來說下如果查看采集到的數據
1,本地編輯采集任務數據
采集器有自帶的編輯器,我們可以通過這個個編輯器查看數據
按照上圖,右側就可以打開數據了
我們可以查看數據如果你是商業版用戶也可以修改數據后保存
如上圖選擇要修改的值 在下面編輯器那里修改 然后點擊下面的保存按鈕就可以了
2,從數據庫查看數據
大家都知道采集器這個目錄 \Data\LocoySpider 就是存放規則采集到的數據的地方,打開后看到的是
一個一個按照數字命名的文件夾 這個數字就是對應的任務id 數字 按照任務ID命名的文件下面的數據庫文件就是存放的
對應規則的采集數據
這里如果知道規則的任務ID呢?看下圖
如上圖所示有2種方式打開 對應的文件
1,規則右擊==》打開DATA下任務文件夾 這樣就可以直接打開對應的數據庫文件夾
2,選中規則,有下角 會顯示任務對應的ID 然后去DATA文件夾下找到對應的文件
數據庫文件名是SpiderResult。如果后綴是db3說明你本地保存的數據庫是sqlite 如果打開這個文件請百度下
如果后綴名是mdb 說明你本地保存的數據庫是選擇的access數據庫 這個可以直接用excel 打開
如果你想用更專業的工具打開它 也請你百度下如果打開
如果你本地保存數據庫選擇的是mysql sqlserver mongodb 那么你一定不是菜鳥 對數據庫有一定的了解
那么如果查看我就不要說了
網址庫
大家知道規則的網址庫是那個嗎
就是\Data\LocoySpider\PageUrl 同樣是根據任務ID命名的
采集器把任務采集到的地址都保存到這里面的文件下用來
檢測網址重復呀 都是根據這里面的數據庫文件
里面內容是加密的