人力资源中的文本分析:一个实例

你在这里:
人力资源中的文本分析:一个实例

在人力资源部门,我们面临的挑战之一是了解我们员工的内心和思想。通常有一个被忽视的数据源可以最直接地反映这一点:文本。通过文本,我们可以深入了解人们在讨论什么,他们是否在有效地沟通,甚至在一定程度上,通过情绪分析,我们可以了解他们的感受。

正因为如此,文本挖掘和自然语言处理可以极大地帮助将员工放在第一位,并通过分析来支持他们。它可以巩固支持组织的人力和文化方面与使用数据和分析优化业务之间的结合。文本数据可以为持续倾听、员工体验、衡量敬业度等提供见解。然而,分析文本并不像在电子表格中处理数字那么简单。

但这是可以做到的!在本文中,我将在分析2019年发表在《AIHR》上的文章时讨论一些技术。总共有50篇文章要处理。讨论了什么,我们能从中学到什么?让我们看看我们发现了什么!

2019年AIHR年度词汇排行榜

如果你想快速了解一篇文章的内容,最基本的分析就是字数。在这种情况下,不是计算单词的总数(Word可以为您这样做),而是计算每个单词的出现次数。结果可以显示为一个时髦的词云,单词大小反映了单词出现的频率。

AIHR-top-words-wordcloud

使用WordCloud对于Python,我可视化了2019年文章中最常用的单词(在过滤掉过度常用的单词,如articles - the, a, an -,并将共轭动词和复数/单数归类为最常用的形式之后)。
除了看起来不错,这个词云还告诉了我们一些事情:

  • 毫无疑问,最热门的术语是‘数据的和“人力资源的
  • 人的”,员工的”,组织的和“公司从它们的大小来判断,它们出现的次数相似。这是否反映了一种普遍观点?难道这仅仅是人力资源的本质,即同时满足个人/员工和组织/公司的需求吗?
  • 需要的和“使用“也有突出的特征,但这真的能告诉我们什么特别的东西吗?

我们还可以这样持续一段时间,但研究结果提出了许多问题。最大的缺点是我们只看词频。常见的词汇可能并不总是重要的。采取“使用“和“需要的举个例子:它们是经常因为关注需要或应该使用什么而出现,还是通常在通过写作分享知识时出现?

相关(免费)资源!继续往下读↓

51人力资源指标备忘单

数据驱动的人力资源从实施相关的人力资源指标开始。下载51个人力资源指标的免费小抄

区分AIHR内容|关键字识别

要识别关键字或关键内容,常用的技术是术语频率逆文档频率(简称TFIDF)。这可以让我们比之前的方法挖掘得更深一些。

那么,TFIDF是如何工作的呢?这个想法不是简单地计算一个单词在文本中的出现次数(术语频率),而是乘以一个单词在文档中越常见的权重(逆文档频率)。最后,得分最高的词汇被认为是最重要的。

要确定一个词是否常见,您需要一个文档集合来推导它。TFIDF通常应用于选定的一组文档,以指示该集合中的任何特定文档,使其在内容方面有别于其他文档。如果我们对数据集中的博客这样做,我们就会知道特定的博客是关于必威 官方网站什么的。这不是我想要的:我很好奇AIHR博客一般都在处理什么问题,以及它与标准的人力资源导向型文章有什么不同。必威 官方网站

因此,我决定将AIHR博客作为一个内容来源,并将90篇关必威 官方网站于管理和人力资源管理的学术出版物添加到集合中,以计算TFIDF。(Apache是将PDF和许多其他文档格式转换为纯文本和元数据以供进一步分析的一个不错的开源解决方案Tika)。通过使用TFIDF, AIHR的博客为我们提供了以下词必威 官方网站汇云:

graduation-cap-shaped-aihr-word云

从上一个词云到这个词云发生了有趣的变化!(不,这不是我决定用的形状。)”数据的已经给'让路了人力资源分析作为得分最高的词汇。”需要和"使用都半途而废了。我们看到了与量化、数字化和技术相关的新术语:人力资源信息系统kpi指标SWP人力资源系统指示板算法等。我发现其他有趣的新词还有‘HRBPs和"人力资源专业人士”。

这些词告诉我们什么?在查看了这些术语在AIHR文章中出现的位置后,我对这些结果的解释如下:AIHR为人力资源带来了明确的“数字和技术”观点,并将其转化为人力资源工作人员的实践知识(例如讨论指标、kpi和奇怪的HRIS)。这似乎很好地符合AIHR的使命:“为你的人力资源未来提供技能”。

文章还说明了TFIDF的不足之处:像'真正的”,大的和“很多的最终被标记为关键术语?必威 官方网站博客文章往往比学术出版物使用更口语化的语调。此外,人力资源的得分仍然很高。为什么呢?因为在我的数据集中,大多数学术出版物倾向于使用这个术语人力资源管理'而不是'人力资源”。因此,在使用TFIDF时,在选择要相互比较的文档时要小心。

文章中单词的含义|词嵌入

我们能从AIHR的博客中提取信息或主题吗?必威 官方网站我们需要知道哪些词属于一起并构成这些主题。按内容对文档进行集群的方法,例如潜狄利克雷分配(Latent Dirichlet Allocation, LDA)可以帮助实现这一点。

另一种方法是使用词嵌入来表示单词在意义上的相似程度。潜在地,这也允许随后构建更高级的应用程序,从建议同义词到成熟的聊天机器人。

对于词嵌入,谷歌'sWord2vec是一个受欢迎的选择。你可能熟悉一个经典的例子,让一个训练有素的word2vec模型给出一个与“国王”和“女人”意义最相似,但与“男人”意义最不同的词,模型回答“女王”。

Word2vec使用一种直观的方法来估计哪些单词在语义上相似或相关:如果在特定单词附近遇到一个单词,那么它的意思很可能与与这些特定单词遇到的其他术语相似。然后,单词的“意义”被表示为一个数字向量,这样就可以计算单词之间的距离(即含义相似或相关的单词将以相似的向量表示结束,而含义不同的单词将以不同的向量结束)。

仅在50篇长度适中的文章上训练这样的模型不会提供最好的结果。可靠地找到同义词之类的可能性很小。但我还是继续演示单词关系。(我用了gensim word2vec在Python中实现。)

HR职业路径
工具

规划好你的HR职业道路是实现你的职业和个人目标的关键。使用我们的新工具绘制您自己的人力资源职业道路。

开始

让我们看看结果,好吗?我们之前看到的那些人力资源专家和hrbp激起了我的兴趣。由'的模型返回的顶部项人力资源的+ '专业人士+ 'hrbps”都与测量有关:推导出的”,预测的和“量化的.这个列表还包括像‘工具的和“真知灼见的似乎主要集中在用数据支持决策。

这是否意味着这就是人力资源专业人士或hrbp所做的一切?当然不是!这是《国际卫生条例》的内容所反映的,在这种情况下是有意义的。毕竟,AIHR通过教育人力资源专业人员来处理“数字化”的主题。单词'的结果是否支持这一点?数字的?我把这个留给你们自己决定:

  1. AIHR
  2. DigitalHRTech
  3. 学院
  4. 人力资源

结论

有几种技术可以帮助理解文本数据,并提供关于占据思想的内容、组织中特定术语的含义,甚至人们对他们的工作的感觉等方面的见解。这些主题是人力资源的核心。

越来越多地使用自然语言处理技术将使人力资源更有效,并带来积极的变化。一开始变化可能很小:想想大型的多项选择调查被使用几个开放式问题的格式所取代,减少调查疲劳,同时提供更丰富的见解。接下来会发生什么?

我认为我们将越来越多地使用技术来支持和理解组织的人力和文化方面,而不是取代它。在解释分析结果时,人也是最重要的。在我看来,文本挖掘和自然语言处理就是最好的例子。我们的数字未来围绕着理解和支持人类,让事情变得更容易,同时又不忽视我们的价值观。

但那只是我发泄我的意见。不要相信我的话。相反,让我们问模型最后一个问题。数字化的未来会怎样?”未来”+ '数字的匹配:

  1. 自动化
  2. 技术
  3. 旅程
  4. 继续
  5. 文化

这符合你的观点吗?无论你从上面列出的文字中读到什么,我希望你对文本数据如何适合你现在或将来的工作有新的想法。

其他阅读链接:

订阅我们的每周通讯了解最新的人力资源新闻、趋势和资源。

你准备好迎接HR的未来了吗?

在线学习现代和相关的人力资源技能

浏览课程 现在招收