Damus
ID-Hub · 154w
这个是一个日本用户的元数据,是否可以用name来判断是否包含片假名,来检测是否是日本用户? {"id":"1ede94a90be721b027eac95b6671547d2938b0b3a57bbc36c405d829766c41d3...
爱花 profile picture
name displayname about 过往的各种post,任何地方检测到比如超过30%的假名就可以否决了,可以试试不同阈值。

综合考量的信息越多越准确,其实最好的方法还是基于贝叶斯概率分类,你手动标注几个之后,就能算出来一个用户是中文用户还是日文用户的概率,然后你给定一个阈值即可,比如95%以上概率是中文用户的收集出来。