我的项目梳理

完整项目梳理

目录如下

一、背景介绍

二、需求分析

三、技术架构图

四、详细流程图

五、具体模型结构

六、部署运行

七、项目发展历程

八、项目中经历的问题&解决

九、未来待解决的问题


一、背景介绍

人岗匹配:候选人的基本条件、专业能力、个性、素质等各维度与岗位对职责要求的匹配

两大使用场景

1.简历自动筛选:解决HR手动筛选简历效率低下怎么办

2.人才库简历激活:解决岗位没人投怎么办

二、需求分析

针对以上两大场景,实现人岗匹配功能,且目前已有简历解析功能(即将非结构化简历文件专程结构化数据,具体可见:简历解析项目

三、技术架构图

 

四、详细流程图

第一步过滤条件有哪些?如果进行过滤的?

答:(根据规则直接淘汰,不会进入下一阶段匹配打分环节

1.硬性条件过滤:学历,学位、工作年限、性别等,直接pass掉。

2.人才库无效过滤:刚被职位淘汰的,两年没有投递记录的等。

3.租户自定义过滤条件:租户级别,职位级别,条件租户。

冷启动是什么?热启动是什么?

答:

冷启动在做什么?

答:冷启动分为以下两个部分:召回和语义匹配

召回在做什么?

召回:简历(CV)与职位描述(JD)的结构化信息进行匹配。

召回的具体步骤?

第一步:将CV和JD分别进行解析,得到结构化数据。(工作地点、年限、学历、技术要求)

第二步:数据清洗,知识归一。

第三步:计算文本相似度,采用jaccard系数得出召回相似度。

 

过滤和召回步骤中都是对这些字段进行比较有何不同?

答:过滤是直接比较字符串,不一致就pass;而召回是打分,计算相似度分值。

 

语义匹配在做什么?

答:在一段文本中匹配语义相似度,不同的两段文本表达类似的语义,这样匹配度越高。

如何做语义匹配的?

答:在JD中的工作职责和任职要求中提取关键词,与CV的工作经验和项目经验中提取关键词,进行关键词文本相似度计算,jaccard系数越大,JD和CV的语义匹配度越高。

 

关键词如何提取的?

答:使用TF-IDF。

 

热启动在做什么?

答:根据HR在此职位下的筛选简历操作,个性化推荐适合此职位的简历。

什么情况下进行热启动?

答:由于机器学习算法需要一定的训练数据才能建立起泛化能力较强的预测模型,所以我们对建模的启动设定了一个阈值。目前启动建模的阈值是一个职位下被HR淘汰和通过的简历均超过15个,且处理量越大模型效果越好。

热启动中建模颗粒度是怎么样的?

答:

采用什么模型?why?

答:决策树模型,对于二分类问题效果不错,可解释性强。

如何做的特征工程?

答:根据cv信息进行tf-idf向量化做特征工程。

五、具体模型结构

六、部署运行

七、项目发展历程

八、项目中经历的问题&解决

简单介绍一下完整的处理流程?

答:

如何做特征工程的?

答:首选我们的样本数据中包含CV和JD的相关信息

一、【特征抽取】:我们这边文本采用TFIDF进行特征的抽取。

二、【特征预处理】:无量纲化:标准化。

三、【特征提取选择】:过滤式方差选择法,过滤掉低方差的一些特征。

四、【降维】PCA降维

 

如何用TFIDF?提取关键词,计算文本相似度?

答:

将职位和简历分别构建TFIDF模型,提取关键词

gensim中提供了很好的使用,可以借助tfidf模型构造相似混合矩阵,利用此矩阵可快速计算量文本之间相似度。(原理余弦相似度)

 

为什么选用决策树?

答:可解释性强、适合小数量(百、千条样本数据集)、可支持线性不可分割数据,速度快。

特别适用于二分类问题,根据特征输入,模型最后输出预测为正向的概率,打分。

为什么选用随机森林模型?

答:

评估参数是什么?

答:

还尝试过其他模型吗?

答:

数据样本从哪里来?

答:

样本分配不均如何处理?

答:

遇到什么障碍是如何解决?

答:

 

 

 

九、未来待解决的问题


 

 

2

发表评论

电子邮件地址不会被公开。 必填项已用*标注

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

我的项目梳理
嘿!有什么能帮到您的吗?
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close