上周v2ex发了个帖子火了,顺便观察了一下v友们关心的话题

· 0 · 0 ·
v2ex 随笔
超级浩码
作者
超级浩码
数字手艺人,独立开发体验师。
目录

前言 #

上周,我在v2ex上发表了一篇文章,题目是《聊聊我在一个月抖音小红书粉丝累积到3万最后不再维护的事》。

帖子在v站火了,差不多连续四五天在节点榜首,也有不少人点赞收藏。我很少在v站上发帖,我记得再上一篇还是在2019年8月。 在v站发帖是因为经常看到做独立开发的小伙伴在v站推广APP,来积累种子用户。

所以我想着通过爬虫爬取了v站上所有的帖子和评论,来对其做一些研究。

那些天,打开v站的消息提醒,全都是有关这个帖子的留言,感谢或者是收藏,差不多有500多条。要知道v站的用户总数其实并不多。每天同一时刻在线用户差不多是4000~6000左右。数据算是比较可观了。

可能有些网友不知道,v站是什么,来看下维基百科。

也就是说v站是一个面向程序员,极客人群分享交流的社区。这也同时说明这里的用户画像都是基于程序员和极客人群的。 这让我猛然产生了好奇心,我想知道这类的人群,当下的大环境关心哪些话题,所以我想着通过爬虫爬取了v站上所有的帖子和评论,来做一些数据分析。

如何分析 #

我的计划很简单,就是爬取v站所有的内容。要想写这样一个爬虫其实也比较花时间,我在Github调研了很多爬虫脚本和框架,在此要感谢为爱发电的开源力量。我使用了名为 v2ex_scrapy的爬虫脚本进行了内容收集,用起来非常舒服,非常感谢作者。

同时我尝试了使用 Chatgpt 最新的 gpts 功能,尝试把爬下来的整个 sqlite 作为 gpts 的数据库,想让gpts来为我做数据分析的业务。

很可惜 Chatgpt 对中文分词的支持能力比较差,没法完成任务。不过也根据提示了解到 Python 的 jieba 库来做分词。于是调研了一下 jiebawordclound 开始敲代码。

词云图 #

先来看看v友们平时都聊的话题。

我们根据词云图中内容的大小了解到,词频的频率。
从图上可以看出排名靠前的词都是和程序员有关的。


上一张词图是所有帖子的,现在把时间锁定到新冠爆发半年后开始(经济开始下行)。

乍一看好像没有明显的变化还是围绕着程序员相关。我发现两个有趣的地方,一、开始流行一个词迫于大多流行在二手交易节点。二、Mac苹果系始终是这群人的焦点。


最后这张词云图把时间锁定在了去年十一月之后,chatgpt横空出世。

在这一时段,出现大量的Chatgpt,会员,API,openAI等新的词汇。


每月新增 #

接下来我们看一下每月新增帖子和评论数量。

可以看到大多数人还是以一个看热闹的心态在v站闲逛,回复数要远高于发帖数。


按小时聚合 #

另外,我统计了所有的帖子和回复评论的发布时间段,有个很有趣的现象。

细心的你一定发现了,抛开0-7点睡眠时间外,上午是逛v站的高峰,中午饭点有所下降,下午又一波小高峰直到下班时间开始下降。

有人会说很多都是周末数据,其实我已经把周六周日的数据给过滤了。
澄清一下,这些数据只是相对来说逛论坛的分析,不代表所有人都在这些时间点摸鱼,这是所有数据的总和。


前十数据 #

最后,看看所有帖子排名靠前的都是哪些。

感谢最多的前十 #

收藏最多的前十 #

点击最多的前十 #

投票最多的前十 #

总结 #

总的来说,v2ex 还是很有意思的一个社区,在这里包罗了所有程序员、极客,工作和生活上的有趣的内容。也是这个群里摸鱼的一个好去处,当然在这里你也能看到一些,学到一些。 我也常常在v站潜水。最近发帖才知道,原来帖子发出后有一个保护期超过这个时间后,帖子将无法修改也无法删除,所以在这里发言还是要慎重一些。

一些 Tips:

本文的数据来源都是 v2ex_scrapy开源项目中获得。

由于个人电脑原因我爬取的时间经常在半夜中断,时间也比较长最后选择之后了作者之前爬取更新至2023-7-22为止的数据。我用自己写的脚本对数据进行二次加工进行最终分析统计。

部分图表是把脚本跑完的数据传给chatgpt,最终由gpt生成。





评论