回复
24
查看
1736
收藏
2

27

赠楼

1%

赠楼率

516

蒸汽

267

主题

4092

帖子

2698

积分

『片十字花瓣』

发表于 2018-11-10 23:35:37 | 显示全部楼层 |阅读模式

社区昵称:OceanLeemh 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+213/-0

30蒸汽
鄙人在工作上的一个想法,想在论坛请程序员大佬帮忙看一下可行性,不确定能不能发在问题区/发在问题区的哪个区,就先发在这里
我在一个学术期刊工作,一部分工作内容是要在这个网站查大量学者的两个数据:h-index和citations(总引文数)。

这部分工作非常机械,所以我想能不能通过脚本之类的手段来批量的获取所需的信息?

输入的数据,是作者的姓 和 名,输出的数据是作者的scopus网址、h-index和citation这三个即可

人工查阅碰到的问题会有:
1. 重名的作者;
2. 这个网站比较垃圾,如果同时查两个人,他们的数据可能会错位、串页,所以最好一个个查
3. 数据带有一定的动态性,根据经验,网站是一个季度更新一次。

想请教的大佬,我的想法是否可行?如果要请人做的话,多少的价位比较合适?(总不能请别人用爱发电帮我做事吧)

我本人完全不懂编程,若有冒失,还请海涵。

最佳答案

查看完整内容

这网站本身就有API,github上也有nodejs和py的demo。有需求的话可以加我
本人的HB月包推广链接,寻求合作(有偿)
回复

使用道具 举报

5

赠楼

1%

赠楼率

540

蒸汽

75

主题

2324

帖子

2917

积分

发表于 2018-11-10 23:35:38 | 显示全部楼层

社区昵称:Out 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+64/-0

这网站本身就有API,github上也有nodejs和py的demo。有需求的话可以加我

点评

大佬,加你了哈  发表于 2018-11-11 17:06

评分

参与人数 1体力 +1 蒸汽 +1 收起 理由
pinkgun + 1 + 1 热心反馈

查看全部评分

回复

使用道具 举报

2

赠楼

0%

赠楼率

756

蒸汽

78

主题

1万

帖子

9275

积分

又不高又不帅又不富的傻肥肥@心情复杂

『片十字花瓣』

发表于 2018-11-10 23:43:41 | 显示全部楼层

社区昵称:帅疯疯想做照骗 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+17/-0

建议给个范例比较好。
另外这个属于爬虫了,不过感觉应该不会很难。

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

9

赠楼

1%

赠楼率

478

蒸汽

16

主题

433

帖子

1556

积分

发表于 2018-11-10 23:47:28 | 显示全部楼层

社区昵称:两道风 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

这看着像搞个爬虫就可以了。没做过爬虫,去类似猪八戒这种外包网站看一下可以提这需求不?

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

8

赠楼

1%

赠楼率

148

蒸汽

38

主题

1568

帖子

1187

积分

发表于 2018-11-11 00:02:15 | 显示全部楼层

社区昵称:风(追梦雪崩-越追越崩) 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+2/-0

web scraper?谷歌爬虫插件 上手也不是很难
回复

使用道具 举报

15

赠楼

2%

赠楼率

163

蒸汽

72

主题

1281

帖子

1456

积分

发表于 2018-11-11 00:04:49 | 显示全部楼层

社区昵称:The_D 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

一般学术网站的反爬措施都做得挺不错的
回复

使用道具 举报

25

赠楼

1%

赠楼率

1783

蒸汽

118

主题

5148

帖子

4318

积分

K1L4R-D0N7R-36R37

『喵科色谱』『W33D』『七步之遥』『片十字花瓣』『滴学生卡』

发表于 2018-11-11 00:05:56 | 显示全部楼层

社区昵称:kilarbourbon 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+22/-0

我觉得是可以的= -=
回复

使用道具 举报

0

赠楼

0%

赠楼率

714

蒸汽

141

主题

3889

帖子

3731

积分

发表于 2018-11-11 00:19:05 | 显示全部楼层

社区昵称:道貌岸然的王教授 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+68/-0

写个爬虫,把数据全拉过来就好了,看你说这个网站很垃圾,估计也不会有什么数据加密了

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

118

蒸汽

4

主题

492

帖子

1072

积分

发表于 2018-11-11 00:22:45 | 显示全部楼层

社区昵称:Tenno 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+7/-0

Github 搜索然后语言勾python搜搜试试

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

6

赠楼

4%

赠楼率

658

蒸汽

203

主题

6186

帖子

4058

积分

发表于 2018-11-11 00:30:42 | 显示全部楼层

社区昵称:programlin 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+134/-0

可以的
價格部分程序這東西很難訂,因為這跟你需求複雜度有關,你的需求必須詳細的描述出來
譬如你上面的需求並沒有說你取得後的數據要如何保存,是否需要排程執行,數據擷取之後是不是還有其他查詢瀏覽功能....這些需求都會影響工時,而且你這種需求完全是客製化(很多程序項目開價便宜是因為有現成模板或範例可以直接套用稍作修改即可).
因此你應該到一些外包網站(譬如豬八戒)去提出需求,看下有沒有人報價跟金額來比較.基本上如果需求不多那麼幾百腿到上千應是正常的,最終還是要看你的需求內容決定.

评分

参与人数 4体力 +5 蒸汽 +1 收起 理由
neulin + 1 热心反馈
cmdkf + 1 热心反馈
pinkgun + 1 + 1 热心反馈
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

112

蒸汽

146

主题

1505

帖子

1054

积分

发表于 2018-11-11 00:35:41 发自移动设备 - 你的掌上 SteamCN 社区 | 显示全部楼层

社区昵称:Jack Lee 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+81/-0

可以参考下 NoteExpress嘛
回复

使用道具 举报

5

赠楼

1%

赠楼率

1494

蒸汽

387

主题

4627

帖子

6147

积分

つねもり あかね

『片十字花瓣』

发表于 2018-11-11 01:06:44 | 显示全部楼层

社区昵称:zxrzy 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+40/-0

淘宝找写爬虫的差不多能解决
回复

使用道具 举报

2

赠楼

110%

赠楼率

642

蒸汽

9

主题

1307

帖子

1358

积分

爱猫人士

发表于 2018-11-11 01:17:12 | 显示全部楼层

社区昵称:neomomo 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

orcid应该是唯一的吧
回复

使用道具 举报

3

赠楼

7%

赠楼率

699

蒸汽

23

主题

602

帖子

1822

积分

发表于 2018-11-11 01:27:27 | 显示全部楼层

社区昵称:chakyam 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

粗略看了一下好像不难
既然你在学术期刊工作的话,找个会编程的出去搓一顿应该就可以了
回复

使用道具 举报

2

赠楼

1%

赠楼率

63

蒸汽

27

主题

904

帖子

490

积分

发表于 2018-11-11 01:46:55 发自移动设备 - 你的掌上 SteamCN 社区 | 显示全部楼层

社区昵称:爱梦筱溪 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+24/-0

难道不能直接从数据库拿吗?去重的话select distinct一下
回复

使用道具 举报

7

赠楼

1%

赠楼率

975

蒸汽

31

主题

331

帖子

1290

积分

发表于 2018-11-11 07:37:37 | 显示全部楼层

社区昵称:豬軟骨拉麵 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

爬虫就好了嘛
回复

使用道具 举报

3

赠楼

1%

赠楼率

349

蒸汽

42

主题

3162

帖子

1681

积分

你摸鱼还是鱼摸你

发表于 2018-11-19 08:59:17 | 显示全部楼层

社区昵称:银河系外有只猫 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+5/-0

http://www.locoy.com/        火车头了解一下

评分

参与人数 1体力 +1 收起 理由
oceanleemy + 1 热心反馈

查看全部评分

回复

使用道具 举报

52

赠楼

6%

赠楼率

743

蒸汽

109

主题

2988

帖子

2386

积分

Grim Reaper

『片十字花瓣』

发表于 2018-11-19 11:45:33 | 显示全部楼层

社区昵称:liu0hy 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+30/-0

本帖最后由 liu0hy 于 2018-11-19 11:46 编辑

我看了下,这网站明明提供了API的,一堆人看都没看就说爬虫

评分

参与人数 1体力 +1 收起 理由
oceanleemy + 1 热心反馈

查看全部评分

回复

使用道具 举报

4

赠楼

1%

赠楼率

134

蒸汽

27

主题

1951

帖子

1271

积分

发表于 2018-11-19 13:51:11 | 显示全部楼层

社区昵称:ssxbxk 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

API 教程地址:
https://dev.elsevier.com/

没仔细看, 应该不难...使用API Key要注册个账号, API请求每秒的次数有限制, 不过应该不影响

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

图挂了...
回复

使用道具 举报

2

赠楼

1%

赠楼率

370

蒸汽

13

主题

1343

帖子

1513

积分

发表于 2018-11-19 16:06:23 | 显示全部楼层

社区昵称:justphoenix 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+12/-0

看着确实像爬虫,建议从这个方面入手,设置关键词检索滤过条件,应该不是很难,找个玩过数据的同学就行。

评分

参与人数 2体力 +3 收起 理由
oceanleemy + 2 热心反馈
sakamaki + 1 39/50

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

443

蒸汽

0

主题

120

帖子

434

积分

发表于 2018-11-19 16:24:55 | 显示全部楼层

社区昵称:houhongzhao 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

网工帮顶一下,不是程序猿
回复

使用道具 举报

0

赠楼

0%

赠楼率

503

蒸汽

33

主题

1225

帖子

1146

积分

发表于 2018-11-19 18:32:27 | 显示全部楼层

社区昵称:黄大人 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

本帖最后由 hq136234303 于 2018-11-19 18:33 编辑

这个爬虫很简单的。如果有api的话就更简单了
回复

使用道具 举报

0

赠楼

0%

赠楼率

189

蒸汽

10

主题

615

帖子

393

积分

发表于 2018-11-19 20:33:34 | 显示全部楼层

社区昵称:▄︻┻┳═一 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

搜索过程之后跳转的页面url中含有自己提交的参数(只用了一个参考smith)
跳转完了之后网页源码中也有author 等等之类的
但是我怎么用re匹配不出来啊(打印过源码了 ,想抓的信息都能看到)

评分

参与人数 1体力 +3 收起 理由
oceanleemy + 3 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

759

蒸汽

15

主题

604

帖子

1318

积分

单身狗

发表于 2018-11-20 02:25:03 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  作为民间站点,自 2004 年起为广大中文 Steam 用户提供技术支持与讨论空间。历经十余载风雨,如今已发展为国内最大的正版玩家据点。

列表模式 · · 微博 · 群组 · 贴吧 · QQ群 
SteamCN 蒸汽动力 ©2004-2019 Chinese Steam User Fan Site.
Designed by Lee in Singapore, Powered by Discuz!
推荐使用 ChromeMicrosoft Edge 来浏览本站
广告投放|文字版|SteamCN 蒸汽动力 ( 冀ICP备05004600号 )
GMT+8, 2019-3-21 10:24, PE: 0.194704s , QE: 250, Redis On.
快速回复 返回顶部 返回列表