【南開】《網(wǎng)絡爬蟲與信息提取》20春期末考核(標準答案)

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時間:2020/9/2 1:21:03來源:admin瀏覽: 43 次

可做奧鵬院校所有作業(yè),畢業(yè)論文,咨詢請?zhí)砑観Q:3230981406      微信:aopopenfd777




《網(wǎng)絡爬蟲與信息提取》20春期末考核-00001

試卷總分:100  得分:100

一、單選題 (共 20 道試題,共 40 分)

1.如果使用Python的數(shù)據(jù)結構來做類比的話,MongoDB中文檔相當于一個()

A.列表

B.元組

C.字典

D.集合

答案:C


2.使用UI Automatorr輸入文字的操作是得到相應控件后使用命令()

A.settext

B.set

C.set_text

D.text

答案:C


3.在Scrapy的目錄下,哪個文件負責存放爬蟲文件?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py

答案:A


4.HTTP常用狀態(tài)碼表明服務器正忙的是()

A.500

B.503

C.403

D.404


5.如果很多爬蟲同時對一個網(wǎng)站全速爬取,那么其實就是對網(wǎng)站進行了()攻擊

A.XSS

B.DOS

C.DDOS

D.跨域


6.使用UI Automatorr判斷元素是否存在的操作是得到相應控件后使用命令()

A.exist

B.exists

C.isnull

D.contains


7.帶上通過Chrome瀏覽器從評論頁面復制而來的()再發(fā)起請求,可以減少爬蟲被網(wǎng)站封鎖的概率

A.Cookie

B.Html

C.Headers

D.CSS


8.Redis中查看一個列表長度,使用關鍵字()

A.len

B.length

C.llen

D.count


9.使用Xpath獲取文本使用()

A.text

B.text()

C.content

D.content()


10.使用python定制mitmproxy,下面的語句請求的是()。{req.headers["User-Agent"]}

A.headers

B.文本內容

C.目標網(wǎng)站

D.user-agent


11.Python中Object={1, 2, 3, 4, 5},則Objcet是()

A.列表

B.元組

C.字典

D.集合


12.在Scrapy的目錄下,哪個文件負責存放爬蟲的各種配置信息?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py


13.Redis是一個開源的使用()語言編寫

A.ANSI C

B.C++

C.JAVA

D.Python


14.某些網(wǎng)站在發(fā)起Ajax請求時會攜帶()字符串用于身份驗證

A.Token

B.Cookie

C.ReqTime

D.sum


15.使用UI Automatorr點亮屏幕的操作是得到相應控件后使用命令()

A.wakeup

B.light

C.bright

D.sleep


16.Chrome的開發(fā)者工具中哪個選項可以查找到cookies

A.Elements

B.Sources

C.Network

D.Peformance


17.Scrapy中使用Xpath獲得的結果調用了.extract方法,結果以()形式生成

A.列表

B.元組

C.字典

D.集合


18.以下哪個命令是創(chuàng)建文件夾命令()

A.curl

B.tar -zxvf

C.mkdir

D.cp


19.可以通過()繞過網(wǎng)站登錄。

A.session

B.cookies

C.moonpies

D.localstorage


20.Python中把列表轉換為集合需要使用##函數(shù)

A.set

B.list

C.convert

D.change


二、多選題 (共 5 道試題,共 10 分)

21.Python中的容器有()

A.列表

B.元組

C.字典

D.集合


22.HTTP常用狀態(tài)碼表明表明服務器本身發(fā)生錯誤的有()

A.403

B.404

C.500

D.503


23.Python中哪種容器生成后可以修改內容

A.列表

B.元組

C.字典

D.集合


24.最常見的HTTP請求類型有()

A.GET

B.POST

C.SEND

D.RECEIVE


25.BS4可以用來從()中提取數(shù)據(jù)

A.HTML

B.XML

C.數(shù)據(jù)庫

D.JSON


三、判斷題 (共 10 道試題,共 20 分)

26.在Linux的終端使用apt-get命令安裝一系列依賴庫時,其中如果存在有已經安裝的庫,會覆蓋掉之前的庫重新安裝


27.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要開通內網(wǎng)訪問即可,不許經過輸入密碼


28.process_spider_output(response, result, output)是在下載器中間件處理完成后,馬上要進入某個回調函數(shù)parse_xxx()前調用


29.Robo 3T與RoboMongo是完全不一樣的軟件


30.Python正則表達式中“.*?”是非貪婪模式,獲取最短的能滿足條件的字符串。


31.Redis插入數(shù)據(jù)都是插入到列表右側,因此讀取數(shù)據(jù)也是從右側讀取


32.爬蟲登錄需要識別驗證碼可以先把程序關閉,肉眼識別以后再重新運行


33.在Ubuntu下若要運行Redis可以使用CMD進入解壓以后的文件夾并運行命令redis-server.exe redis.windows.conf啟動Redis


34.middlewares.py是下載器中間件


35.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。


四、主觀填空題 (共 4 道試題,共 8 分)

36.使用了RedisSpider作為爬蟲的父類以后,爬蟲會直接監(jiān)控##中的數(shù)據(jù),并不讀取start_urls中的數(shù)據(jù)。


37.一般通過##表達式來解析網(wǎng)頁數(shù)據(jù)


38.實現(xiàn)異步加載需要利用##技術


39.Python中定義函數(shù)關鍵字為##


五、簡答題 (共 2 道試題,共 10 分)

40.Python正則表達式中search和findall方法比較


41.在MacOS下安裝Scrapy,當pip的網(wǎng)絡受到干擾導致安裝的速度很慢時,應該如何應對?


六、名詞解釋 (共 4 道試題,共 12 分)

42.multiprocessing


43.URI


44.CSS


45.HTML


  • 上一篇:
  • 下一篇:
  • 作業(yè)咨詢 論文咨詢
    微信客服掃一掃

    回到頂部