.js文件内容不是普通文本,如何解决

#1

最近想爬一下鼠绘上的海贼王漫画(https://www.ishuhui.com/comics/anime/1),使用wget https://www.ishuhui.com/comics/anime/1 看了下文件,发现里面是js
然后又 wget https://www.ishuhui.com/static/js/main.76d0515f.js ,下载下来的这个.js文件居然是二进制的,但是我使用浏览器访问这个文件,却是正常的js文件
对前端不太了解,我wget下来的是被加密了还是说被怎么处理过了?
如何才能把它解成浏览器访问那种正常的样子

#2

firefox f12 右键复制curl命令

#3

通过浏览器,能得的正常的js文件,我想不通过浏览器怎么获得

#4

这种问题只能用 Puppeteer 之类无头浏览器的解决吧。参见我用来抓取 Instagram 照片的脚本:

#5

谢谢,我想知道,我wget下来的.js文件,不是文本的,是被加密了还是说被加密了,还是怎么处理的???

#6

应该是被混淆了,防盗链的。和加密没关系。

#7

混淆了也是文本啊

#8

@guoyunhe @runapp
这个是我 wget https://www.ishuhui.com/static/js/main.76d0515f.js 下来的截图


我看着,不像是文本啊,感觉像是被加密的样子

#9

Windows 记事本???

你还是下载个什么 Notepad++ 之类的打开吧。

#11

不是呀,左边的是用记事本打开的,右边的使用sublime3打开的,是同一个文件,wget下来的

#12

所以跟你说了复制为curl命令啊

#13

等会,这不是gzip吗

#14

确实是gzip,你自己搞吧。我不知道为啥wget不处理gzip解码。

#15

加上后缀.gz,解压后还真是。。。:rofl:
我用 curl -o xxx.js https://www.ishuhui.com/static/js/main.76d0515f.js
下载下来的,也是压缩的,
谢谢帮助,知道是压缩了,那就自己处理
十分感谢:rofl:

于关闭 #16

本主题在最后一个回复创建后60分钟后自动锁定。不再允许添加新回复。