回复
24
查看
2111
收藏
2

34

赠楼

1%

赠楼率

603

蒸汽

290

主题

4155

帖子

2980

积分

▘片十字花瓣

发表于 2018-11-10 23:35:37 | 显示全部楼层 |阅读模式

社区昵称:OceanLeemh 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+215/-0

30蒸汽
鄙人在工作上的一个想法,想在论坛请程序员大佬帮忙看一下可行性,不确定能不能发在问题区/发在问题区的哪个区,就先发在这里
我在一个学术期刊工作,一部分工作内容是要在这个网站查大量学者的两个数据:h-index和citations(总引文数)。

这部分工作非常机械,所以我想能不能通过脚本之类的手段来批量的获取所需的信息?

输入的数据,是作者的姓 和 名,输出的数据是作者的scopus网址、h-index和citation这三个即可

人工查阅碰到的问题会有:
1. 重名的作者;
2. 这个网站比较垃圾,如果同时查两个人,他们的数据可能会错位、串页,所以最好一个个查
3. 数据带有一定的动态性,根据经验,网站是一个季度更新一次。

想请教的大佬,我的想法是否可行?如果要请人做的话,多少的价位比较合适?(总不能请别人用爱发电帮我做事吧)

我本人完全不懂编程,若有冒失,还请海涵。

最佳答案

查看完整内容

这网站本身就有API,github上也有nodejs和py的demo。有需求的话可以加我
本人的HB月包推广链接,寻求合作(有偿)
回复

使用道具 举报

5

赠楼

1%

赠楼率

639

蒸汽

80

主题

2514

帖子

3159

积分

发表于 2018-11-10 23:35:38 | 显示全部楼层

社区昵称:Out 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+83/-0

这网站本身就有API,github上也有nodejs和py的demo。有需求的话可以加我

点评

大佬,加你了哈  发表于 2018-11-11 17:06

评分

参与人数 1体力 +1 蒸汽 +1 收起 理由
pinkgun + 1 + 1 热心反馈

查看全部评分

回复

使用道具 举报

16

赠楼

1%

赠楼率

918

蒸汽

99

主题

1万

帖子

1万

积分

I thought i was, but i am not.

▘片十字花瓣

发表于 2018-11-10 23:43:41 | 显示全部楼层

社区昵称:帅疯疯想做照骗 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+21/-0

建议给个范例比较好。
另外这个属于爬虫了,不过感觉应该不会很难。

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

9

赠楼

1%

赠楼率

574

蒸汽

19

主题

462

帖子

1679

积分

发表于 2018-11-10 23:47:28 | 显示全部楼层

社区昵称:两道风 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

这看着像搞个爬虫就可以了。没做过爬虫,去类似猪八戒这种外包网站看一下可以提这需求不?

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

14

赠楼

1%

赠楼率

150

蒸汽

47

主题

1762

帖子

1392

积分

发表于 2018-11-11 00:02:15 | 显示全部楼层

社区昵称:风(追梦雪崩-越追越崩) 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+2/-0

web scraper?谷歌爬虫插件 上手也不是很难
回复

使用道具 举报

15

赠楼

2%

赠楼率

245

蒸汽

76

主题

1443

帖子

1643

积分

发表于 2018-11-11 00:04:49 | 显示全部楼层

社区昵称:The_D 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

一般学术网站的反爬措施都做得挺不错的
回复

使用道具 举报

25

赠楼

1%

赠楼率

1878

蒸汽

118

主题

5315

帖子

4491

积分

K1L4R-D0N7R-36R37

▘喵科色谱▘W33D▘七步之遥▘片十字花瓣▘成人学生卡

发表于 2018-11-11 00:05:56 | 显示全部楼层

社区昵称:kilarbourbon 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+22/-0

我觉得是可以的= -=
回复

使用道具 举报

0

赠楼

0%

赠楼率

831

蒸汽

144

主题

3978

帖子

3861

积分

发表于 2018-11-11 00:19:05 | 显示全部楼层

社区昵称:道貌岸然的王教授 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+68/-0

写个爬虫,把数据全拉过来就好了,看你说这个网站很垃圾,估计也不会有什么数据加密了

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

198

蒸汽

4

主题

501

帖子

1156

积分

发表于 2018-11-11 00:22:45 | 显示全部楼层

社区昵称:Tenno 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+7/-0

Github 搜索然后语言勾python搜搜试试

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

6

赠楼

3%

赠楼率

887

蒸汽

222

主题

7092

帖子

4501

积分

发表于 2018-11-11 00:30:42 | 显示全部楼层

社区昵称:programlin 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+137/-0

可以的
價格部分程序這東西很難訂,因為這跟你需求複雜度有關,你的需求必須詳細的描述出來
譬如你上面的需求並沒有說你取得後的數據要如何保存,是否需要排程執行,數據擷取之後是不是還有其他查詢瀏覽功能....這些需求都會影響工時,而且你這種需求完全是客製化(很多程序項目開價便宜是因為有現成模板或範例可以直接套用稍作修改即可).
因此你應該到一些外包網站(譬如豬八戒)去提出需求,看下有沒有人報價跟金額來比較.基本上如果需求不多那麼幾百腿到上千應是正常的,最終還是要看你的需求內容決定.

评分

参与人数 4体力 +5 蒸汽 +1 收起 理由
neulin + 1 热心反馈
cmdkf + 1 热心反馈
pinkgun + 1 + 1 热心反馈
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

235

蒸汽

222

主题

2313

帖子

1695

积分

发表于 2018-11-11 00:35:41 发自移动设备 - 你的掌上 SteamCN 社区 | 显示全部楼层

社区昵称:Jack Lee 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+126/-0

可以参考下 NoteExpress嘛
回复

使用道具 举报

5

赠楼

1%

赠楼率

1786

蒸汽

436

主题

4936

帖子

6758

积分

つねもり あかね

▘片十字花瓣

发表于 2018-11-11 01:06:44 | 显示全部楼层

社区昵称:zxrzy 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+40/-0

淘宝找写爬虫的差不多能解决
回复

使用道具 举报

2

赠楼

110%

赠楼率

757

蒸汽

9

主题

1387

帖子

1494

积分

爱猫人士

发表于 2018-11-11 01:17:12 | 显示全部楼层

社区昵称:neomomo 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

orcid应该是唯一的吧
回复

使用道具 举报

3

赠楼

7%

赠楼率

781

蒸汽

24

主题

628

帖子

1934

积分

发表于 2018-11-11 01:27:27 | 显示全部楼层

社区昵称:chakyam 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

粗略看了一下好像不难
既然你在学术期刊工作的话,找个会编程的出去搓一顿应该就可以了
回复

使用道具 举报

5

赠楼

0%

赠楼率

168

蒸汽

41

主题

1314

帖子

751

积分

发表于 2018-11-11 01:46:55 发自移动设备 - 你的掌上 SteamCN 社区 | 显示全部楼层

社区昵称:爱梦筱溪 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+25/-0

难道不能直接从数据库拿吗?去重的话select distinct一下
回复

使用道具 举报

7

赠楼

1%

赠楼率

1021

蒸汽

36

主题

362

帖子

1384

积分

发表于 2018-11-11 07:37:37 | 显示全部楼层

社区昵称:伊祁此一 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

爬虫就好了嘛
回复

使用道具 举报

3

赠楼

1%

赠楼率

311

蒸汽

48

主题

3462

帖子

2030

积分

你摸鱼还是鱼摸你

发表于 2018-11-19 08:59:17 | 显示全部楼层

社区昵称:银河系外有只猫 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+7/-0

http://www.locoy.com/        火车头了解一下

评分

参与人数 1体力 +1 收起 理由
oceanleemy + 1 热心反馈

查看全部评分

回复

使用道具 举报

52

赠楼

6%

赠楼率

842

蒸汽

111

主题

3251

帖子

2546

积分

Grim Reaper

▘片十字花瓣

发表于 2018-11-19 11:45:33 | 显示全部楼层

社区昵称:liu0hy 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+33/-0

本帖最后由 liu0hy 于 2018-11-19 11:46 编辑

我看了下,这网站明明提供了API的,一堆人看都没看就说爬虫

评分

参与人数 1体力 +1 收起 理由
oceanleemy + 1 热心反馈

查看全部评分

回复

使用道具 举报

4

赠楼

1%

赠楼率

193

蒸汽

31

主题

2230

帖子

1449

积分

发表于 2018-11-19 13:51:11 | 显示全部楼层

社区昵称:ssxbxk 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

API 教程地址:
https://dev.elsevier.com/

没仔细看, 应该不难...使用API Key要注册个账号, API请求每秒的次数有限制, 不过应该不影响

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

图挂了...
回复

使用道具 举报

2

赠楼

1%

赠楼率

462

蒸汽

13

主题

1405

帖子

1691

积分

发表于 2018-11-19 16:06:23 | 显示全部楼层

社区昵称:justphoenix 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+12/-0

看着确实像爬虫,建议从这个方面入手,设置关键词检索滤过条件,应该不是很难,找个玩过数据的同学就行。

评分

参与人数 2体力 +3 收起 理由
oceanleemy + 2 热心反馈
sakamaki + 1 39/50

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

493

蒸汽

0

主题

153

帖子

475

积分

发表于 2018-11-19 16:24:55 | 显示全部楼层

社区昵称:houhongzhao 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

网工帮顶一下,不是程序猿
回复

使用道具 举报

0

赠楼

0%

赠楼率

591

蒸汽

39

主题

1435

帖子

1312

积分

发表于 2018-11-19 18:32:27 | 显示全部楼层

社区昵称:黄大人 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

本帖最后由 hq136234303 于 2018-11-19 18:33 编辑

这个爬虫很简单的。如果有api的话就更简单了
回复

使用道具 举报

0

赠楼

0%

赠楼率

228

蒸汽

10

主题

839

帖子

597

积分

发表于 2018-11-19 20:33:34 | 显示全部楼层

社区昵称:▄︻┻┳═一 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

搜索过程之后跳转的页面url中含有自己提交的参数(只用了一个参考smith)
跳转完了之后网页源码中也有author 等等之类的
但是我怎么用re匹配不出来啊(打印过源码了 ,想抓的信息都能看到)

评分

参与人数 1体力 +3 收起 理由
oceanleemy + 3 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

794

蒸汽

30

主题

829

帖子

1489

积分

发表于 2018-11-20 02:25:03 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  作为民间站点,自 2004 年起为广大中文 Steam 用户提供技术支持与讨论空间。历经十余载风雨,如今已发展为国内最大的正版玩家据点。

列表模式 · · 微博 · 群组 · 贴吧 · QQ群 
SteamCN 蒸汽动力 ©2004-2019 Chinese Steam User Fan Site.
Designed by Lee in Singapore, Powered by Discuz!
推荐使用 ChromeMicrosoft Edge 来浏览本站
广告投放|文字版|SteamCN 蒸汽动力 ( 冀ICP备05004600号 )
GMT+8, 2019-7-20 09:44, PE: 0.082378s , QE: 18, Redis On.
快速回复 返回顶部 返回列表