上周v2ex发了个帖子火了,顺便观察了一下v友们关心的话题
目录
前言 #
上周,我在v2ex上发表了一篇文章,题目是《聊聊我在一个月抖音小红书粉丝累积到3万最后不再维护的事》。
帖子在v站火了,差不多连续四五天在节点榜首,也有不少人点赞收藏。我很少在v站上发帖,我记得再上一篇还是在2019年8月。 在v站发帖是因为经常看到做独立开发的小伙伴在v站推广APP,来积累种子用户。
所以我想着通过爬虫爬取了v站上所有的帖子和评论,来对其做一些研究。
那些天,打开v站的消息提醒,全都是有关这个帖子的留言,感谢或者是收藏,差不多有500多条。要知道v站的用户总数其实并不多。每天同一时刻在线用户差不多是4000~6000左右。数据算是比较可观了。
可能有些网友不知道,v站是什么,来看下维基百科。 也就是说v站是一个面向程序员,极客人群分享交流的社区。这也同时说明这里的用户画像都是基于程序员和极客人群的。 这让我猛然产生了好奇心,我想知道这类的人群,当下的大环境关心哪些话题,所以我想着通过爬虫爬取了v站上所有的帖子和评论,来做一些数据分析。
如何分析 #
我的计划很简单,就是爬取v站所有的内容。要想写这样一个爬虫其实也比较花时间,我在Github调研了很多爬虫脚本和框架,在此要感谢为爱发电的开源力量。我使用了名为 v2ex_scrapy的爬虫脚本进行了内容收集,用起来非常舒服,非常感谢作者。
同时我尝试了使用 Chatgpt 最新的 gpts 功能,尝试把爬下来的整个 sqlite 作为 gpts 的数据库,想让gpts来为我做数据分析的业务。
很可惜 Chatgpt 对中文分词的支持能力比较差,没法完成任务。不过也根据提示了解到 Python 的 jieba 库来做分词。于是调研了一下 jieba
和 wordclound
开始敲代码。
词云图 #
先来看看v友们平时都聊的话题。
我们根据词云图中内容的大小了解到,词频的频率。
从图上可以看出排名靠前的词都是和程序员有关的。
上一张词图是所有帖子的,现在把时间锁定到新冠爆发半年后开始(经济开始下行)。
乍一看好像没有明显的变化还是围绕着程序员相关。我发现两个有趣的地方,一、开始流行一个词迫于
大多流行在二手交易节点。二、Mac苹果系始终是这群人的焦点。
最后这张词云图把时间锁定在了去年十一月之后,chatgpt横空出世。 在这一时段,出现大量的Chatgpt,会员,API,openAI等新的词汇。
每月新增 #
接下来我们看一下每月新增帖子和评论数量。
可以看到大多数人还是以一个看热闹的心态在v站闲逛,回复数要远高于发帖数。
按小时聚合 #
另外,我统计了所有的帖子和回复评论的发布时间段,有个很有趣的现象。
细心的你一定发现了,抛开0-7点睡眠时间外,上午是逛v站的高峰,中午饭点有所下降,下午又一波小高峰直到下班时间开始下降。
有人会说很多都是周末数据,其实我已经把周六周日的数据给过滤了。
澄清一下,这些数据只是相对来说逛论坛的分析,不代表所有人都在这些时间点摸鱼,这是所有数据的总和。
前十数据 #
最后,看看所有帖子排名靠前的都是哪些。
感谢最多的前十 #
收藏最多的前十 #
点击最多的前十 #
投票最多的前十 #
总结 #
总的来说,v2ex
还是很有意思的一个社区,在这里包罗了所有程序员、极客,工作和生活上的有趣的内容。也是这个群里摸鱼的一个好去处,当然在这里你也能看到一些,学到一些。
我也常常在v站潜水。最近发帖才知道,原来帖子发出后有一个保护期超过这个时间后,帖子将无法修改也无法删除,所以在这里发言还是要慎重一些。
一些 Tips:
本文的数据来源都是 v2ex_scrapy开源项目中获得。
由于个人电脑原因我爬取的时间经常在半夜中断,时间也比较长最后选择之后了作者之前爬取更新至2023-7-22为止的数据。我用自己写的脚本对数据进行二次加工进行最终分析统计。
部分图表是把脚本跑完的数据传给chatgpt,最终由gpt生成。