回复
24
查看
1489
收藏
2

27

赠楼

1%

赠楼率

451

蒸汽

262

主题

4031

帖子

2586

积分

『片十字花瓣』

发表于 2018-11-10 23:35:37 | 显示全部楼层 |阅读模式

社区昵称:OceanLeemh 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+213/-0

30蒸汽
鄙人在工作上的一个想法,想在论坛请程序员大佬帮忙看一下可行性,不确定能不能发在问题区/发在问题区的哪个区,就先发在这里
我在一个学术期刊工作,一部分工作内容是要在这个网站查大量学者的两个数据:h-index和citations(总引文数)。

这部分工作非常机械,所以我想能不能通过脚本之类的手段来批量的获取所需的信息?

输入的数据,是作者的姓 和 名,输出的数据是作者的scopus网址、h-index和citation这三个即可

人工查阅碰到的问题会有:
1. 重名的作者;
2. 这个网站比较垃圾,如果同时查两个人,他们的数据可能会错位、串页,所以最好一个个查
3. 数据带有一定的动态性,根据经验,网站是一个季度更新一次。

想请教的大佬,我的想法是否可行?如果要请人做的话,多少的价位比较合适?(总不能请别人用爱发电帮我做事吧)

我本人完全不懂编程,若有冒失,还请海涵。

本人的HB月包推广链接,寻求合作(有偿)
回复

使用道具 举报

2

赠楼

0%

赠楼率

702

蒸汽

70

主题

8722

帖子

7943

积分

又不欧又不高又不帅又不富的傻肥肥@心情低落

『片十字花瓣』

发表于 2018-11-10 23:43:41 | 显示全部楼层

社区昵称:帅疯疯想做照骗 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+17/-0

建议给个范例比较好。
另外这个属于爬虫了,不过感觉应该不会很难。

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

9

赠楼

1%

赠楼率

377

蒸汽

16

主题

424

帖子

1444

积分

发表于 2018-11-10 23:47:28 | 显示全部楼层

社区昵称:两道风 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

这看着像搞个爬虫就可以了。没做过爬虫,去类似猪八戒这种外包网站看一下可以提这需求不?

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

2

赠楼

0%

赠楼率

146

蒸汽

25

主题

1214

帖子

896

积分

发表于 2018-11-11 00:02:15 | 显示全部楼层

社区昵称:风(沉迷追梦-无法自拔) 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

web scraper?谷歌爬虫插件 上手也不是很难
回复

使用道具 举报

2

赠楼

1%

赠楼率

196

蒸汽

50

主题

1106

帖子

1249

积分

发表于 2018-11-11 00:04:49 | 显示全部楼层

社区昵称:The_D 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

一般学术网站的反爬措施都做得挺不错的
回复

使用道具 举报

25

赠楼

1%

赠楼率

1737

蒸汽

117

主题

4923

帖子

4142

积分

K1L4R-D0N7R-36R37

『喵科色谱』『W33D』『七步之遥』『片十字花瓣』『滴学生卡』

发表于 2018-11-11 00:05:56 | 显示全部楼层

社区昵称:kilarbourbon 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+22/-0

我觉得是可以的= -=
回复

使用道具 举报

0

赠楼

0%

赠楼率

613

蒸汽

124

主题

3523

帖子

3480

积分

发表于 2018-11-11 00:19:05 | 显示全部楼层

社区昵称:道貌岸然的王教授 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+68/-0

写个爬虫,把数据全拉过来就好了,看你说这个网站很垃圾,估计也不会有什么数据加密了

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

28

蒸汽

3

主题

440

帖子

904

积分

发表于 2018-11-11 00:22:45 | 显示全部楼层

社区昵称:Kareshi 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+7/-0

Github 搜索然后语言勾python搜搜试试

评分

参与人数 1体力 +2 收起 理由
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

6

赠楼

4%

赠楼率

392

蒸汽

184

主题

5218

帖子

3595

积分

发表于 2018-11-11 00:30:42 | 显示全部楼层

社区昵称:programlin 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+129/-0

可以的
價格部分程序這東西很難訂,因為這跟你需求複雜度有關,你的需求必須詳細的描述出來
譬如你上面的需求並沒有說你取得後的數據要如何保存,是否需要排程執行,數據擷取之後是不是還有其他查詢瀏覽功能....這些需求都會影響工時,而且你這種需求完全是客製化(很多程序項目開價便宜是因為有現成模板或範例可以直接套用稍作修改即可).
因此你應該到一些外包網站(譬如豬八戒)去提出需求,看下有沒有人報價跟金額來比較.基本上如果需求不多那麼幾百腿到上千應是正常的,最終還是要看你的需求內容決定.

评分

参与人数 4体力 +5 蒸汽 +1 收起 理由
neulin + 1 热心反馈
cmdkf + 1 热心反馈
pinkgun + 1 + 1 热心反馈
oceanleemy + 2 热心反馈

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

130

蒸汽

50

主题

629

帖子

392

积分

发表于 2018-11-11 00:35:41 发自移动设备 - 你的掌上 SteamCN 社区 | 显示全部楼层

社区昵称:我永远喜欢 五和 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+41/-0

可以参考下 NoteExpress嘛
回复

使用道具 举报

5

赠楼

1%

赠楼率

1099

蒸汽

344

主题

4045

帖子

5183

积分

つねもり あかね

『片十字花瓣』

发表于 2018-11-11 01:06:44 | 显示全部楼层

社区昵称:zxrzy 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+38/-0

淘宝找写爬虫的差不多能解决
回复

使用道具 举报

2

赠楼

110%

赠楼率

549

蒸汽

7

主题

1190

帖子

1220

积分

爱猫人士

发表于 2018-11-11 01:17:12 | 显示全部楼层

社区昵称:neomomo 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

orcid应该是唯一的吧
回复

使用道具 举报

3

赠楼

12%

赠楼率

634

蒸汽

23

主题

579

帖子

1717

积分

发表于 2018-11-11 01:27:27 | 显示全部楼层

社区昵称:chakyam 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

粗略看了一下好像不难
既然你在学术期刊工作的话,找个会编程的出去搓一顿应该就可以了
回复

使用道具 举报

0

赠楼

0%

赠楼率

82

蒸汽

3

主题

138

帖子

135

积分

发表于 2018-11-11 01:46:55 发自移动设备 - 你的掌上 SteamCN 社区 | 显示全部楼层

社区昵称:爱梦筱溪 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

难道不能直接从数据库拿吗?去重的话select distinct一下
回复

使用道具 举报

7

赠楼

1%

赠楼率

935

蒸汽

28

主题

274

帖子

1191

积分

发表于 2018-11-11 07:37:37 | 显示全部楼层

社区昵称:豬軟骨拉麵 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

爬虫就好了嘛
回复

使用道具 举报

5

赠楼

1%

赠楼率

345

蒸汽

69

主题

2065

帖子

2274

积分

发表于 2018-11-11 07:56:06 | 显示全部楼层

社区昵称:Out 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+58/-0

这网站本身就有API,github上也有nodejs和py的demo。有需求的话可以加我

点评

大佬,加你了哈  发表于 2018-11-11 17:06

评分

参与人数 1体力 +1 蒸汽 +1 收起 理由
pinkgun + 1 + 1 热心反馈

查看全部评分

回复

使用道具 举报

2

赠楼

1%

赠楼率

239

蒸汽

36

主题

2358

帖子

1326

积分

系条咸鱼

发表于 3 天前 | 显示全部楼层

社区昵称:银河系外有只猫 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+4/-0

http://www.locoy.com/        火车头了解一下
回复

使用道具 举报

52

赠楼

7%

赠楼率

631

蒸汽

108

主题

2503

帖子

2170

积分

Grim Reaper

『片十字花瓣』

发表于 3 天前 | 显示全部楼层

社区昵称:liu0hy 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+11/-0

本帖最后由 liu0hy 于 2018-11-19 11:46 编辑

我看了下,这网站明明提供了API的,一堆人看都没看就说爬虫
回复

使用道具 举报

1

赠楼

0%

赠楼率

342

蒸汽

15

主题

1049

帖子

763

积分

发表于 3 天前 | 显示全部楼层

社区昵称:ssxbxk 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

API 教程地址:
https://dev.elsevier.com/

没仔细看, 应该不难...使用API Key要注册个账号, API请求每秒的次数有限制, 不过应该不影响
回复

使用道具 举报

1

赠楼

1%

赠楼率

196

蒸汽

8

主题

532

帖子

510

积分

发表于 3 天前 | 显示全部楼层

社区昵称:justphoenix 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

看着确实像爬虫,建议从这个方面入手,设置关键词检索滤过条件,应该不是很难,找个玩过数据的同学就行。

评分

参与人数 1体力 +1 收起 理由
sakamaki + 1 39/50

查看全部评分

回复

使用道具 举报

0

赠楼

0%

赠楼率

383

蒸汽

0

主题

105

帖子

366

积分

发表于 3 天前 | 显示全部楼层

社区昵称:houhongzhao 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

网工帮顶一下,不是程序猿
回复

使用道具 举报

0

赠楼

0%

赠楼率

442

蒸汽

22

主题

935

帖子

912

积分

发表于 3 天前 | 显示全部楼层

社区昵称:黄大人 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+1/-0

本帖最后由 hq136234303 于 2018-11-19 18:33 编辑

这个爬虫很简单的。如果有api的话就更简单了
C:\Users\admin\Desktop\109951163421916884.gif
回复

使用道具 举报

0

赠楼

0%

赠楼率

128

蒸汽

6

主题

333

帖子

230

积分

发表于 3 天前 | 显示全部楼层

社区昵称:▄︻┻┳═一 资料 加好友 聊天 库存 截图 好友 群组 愿望单 评测 信誉+0/-0

搜索过程之后跳转的页面url中含有自己提交的参数(只用了一个参考smith)
跳转完了之后网页源码中也有author 等等之类的
但是我怎么用re匹配不出来啊(打印过源码了 ,想抓的信息都能看到)
回复

使用道具 举报

0

赠楼

0%

赠楼率

683

蒸汽

10

主题

479

帖子

1190

积分

单身狗

发表于 前天 02:25 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  作为民间站点,自 2004 年起为广大中文 Steam 用户提供技术支持与讨论空间。历经十余载风雨,如今已发展为国内最大的正版玩家据点。

列表模式 · · 微博 · 群组 · 贴吧 · QQ群 
SteamCN 蒸汽动力 ©2004-2017 Chinese Steam User Fan Site.
Designed by Lee in Singapore, Powered by Discuz!
推荐使用 ChromeMicrosoft Edge 来浏览本站
广告投放|文字版|SteamCN 蒸汽动力 ( 冀ICP备05004600号 )
GMT+8, 2018-11-22 19:23, PE: 0.680632s , QE: 250, Redis On.
快速回复 返回顶部 返回列表