文本的识别方法、装置、处理器以及电子设备与流程-凯发k8天生赢家

文档序号:35873010发布日期:2023-10-28 08:59阅读:0来源:国知局
文本的识别方法、装置、处理器以及电子设备与流程

1.本技术涉及人工智能领域,具体而言,涉及一种文本的识别方法、装置、处理器以及电子设备。


背景技术:

2.随着大型语言模型的快速发展,各种语言模型走入大家视野,例如,palm(也即自然语言处理模型:pretraining and lexicalization model)和chat gpt(也即生成式预训练变换器:generative pre-trained transformer)等大型语言模型(llm:language logarithmic model)可以对需要查询的问题做出快速响应,可以生成“令人信服”的关于复杂问题的回答。但是,由大型语言模型生成的回答中很容易出现无科学依据、不符合公知常识的错误,这些包含着事实性错误的回答很容易对读者产生误导,因此需要对由大型语言模型生成的文本信息进行审查。
3.相关技术中,通常是由审查员进行人工审查,但是在对大型语言模型生成的文本和人类编写的文本进行人工区分时,很难将这些文本准确并快速的识别出。
4.针对相关技术中难以准确识别机器生成的待检测文本的问题,目前尚未提出有效的凯发真人首先娱乐的解决方案。


技术实现要素:

5.本技术的主要目的在于提供一种文本的识别方法、装置、处理器以及电子设备,以解决相关技术中难以准确识别机器生成的待检测文本的问题。
6.为了实现上述目的,根据本技术的一个方面,提供了一种文本的识别方法。该方法包括:获取待检测文本,对待检测文本进行文本处理,得到文本数据;获取文本数据包含的多个单词的文本概率,根据文本概率计算文本数据的文本指标,其中,文本概率用于表征每个单词的单词类型为机器生成单词的概率,文本指标至少包括第一类数据以及第二类数据,第一类数据用于表征待检测文本的用词随机性,第二类数据用于表征待检测文本的用词合理度;根据文本指标确定待检测文本的文本类型,输出文本类型,其中,文本类型包括机器生成类型以及人工生成类型。
7.可选地,在文本指标为第一类数据的情况下,根据文本概率计算文本数据的文本指标包括:计算多个单词的文本概率的乘积,并计算乘积的倒数,得到第一数值;计算第一数值的n次方根,得到第一类数据,其中,n为多个单词的数量,n为正整数。
8.可选地,在文本指标为第二类数据的情况下,根据文本概率计算文本数据的文本指标包括:对于每个单词,计算单词的文本概率的对数值与文本概率的乘积,并判断乘积是否大于第二阈值;在乘积大于第二阈值的情况下,将乘积确定为单词的第二类数据,在乘积小于第二阈值的情况下,将单词的第二类数据确定为零;计算所有单词的第二类数据的总和,将总和确定为文本数据的第二类数据。
9.可选地,根据文本指标确定待检测文本的文本类型包括:根据文本指标计算待检
测文本的评价函数值,并判断评价函数值是否大于第三阈值;在评价函数值大于第三阈值的情况下,将待检测文本的文本类型确定为机器生成类型,在评价函数值小于第三阈值的情况下,将待检测文本的文本类型确定为人工生成类型。
10.可选地,根据文本指标计算待检测文本的评价函数值包括:计算第一类数据与第一预设权重的乘积,得到第一乘积,并计算第二类数据与第二预设权重的乘积,得到第二乘积;计算第一乘积与第二乘积的总和,并计算总和与权重总和的比值,得到评价函数值,其中,权重总和是指第一预设权重和第二预设权重的总和。
11.可选地,对待检测文本进行文本处理,得到文本数据包括:获取文本处理规则,其中,文本处理规则用于删除待检测文本中的影响第一类数据的文本,文本处理规则至少包括以下之一:删除文字数量小于第一阈值的语句、删除常用语句表中包含的辅助词以及删除标号;遍历待检测文本,根据文本处理规则清理待检测文本中的影响第一类数据的文本,得到文本数据。
12.可选地,多个单词的文本概率由大语言处理模型确定,其中,大语言处理模型用于确定多个单词的文本概率,大语言处理模型由m个经过预设数量的掩码处理的样本文本以及每个样本文本中的单词的文本概率训练得到,掩码用于将每个样本文本的语句进行随机模糊处理,m为正整数。
13.为了实现上述目的,根据本技术的另一方面,提供了一种文本的识别装置。该装置包括:第一获取单元,用于获取待检测文本,对待检测文本进行文本处理,得到文本数据;第二获取单元,用于获取文本数据包含的多个单词的文本概率,根据文本概率计算文本数据的文本指标,其中,文本概率用于表征每个单词的单词类型为机器生成单词的概率,文本指标至少包括第一类数据以及第二类数据,第一类数据用于表征待检测文本的用词随机性,第二类数据用于表征待检测文本的用词合理度;确定单元,用于根据文本指标确定待检测文本的文本类型,输出文本类型,其中,文本类型包括机器生成类型以及人工生成类型。
14.根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种文本的识别方法。
15.根据本发明实施例的另一方面,还提供了一种电子设备,包含一个或多个处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种文本的识别方法。
16.通过本技术,采用以下步骤:获取待检测文本,对待检测文本进行文本处理,得到文本数据;获取文本数据包含的多个单词的文本概率,根据文本概率计算文本数据的文本指标,其中,文本概率用于表征每个单词的单词类型为机器生成单词的概率,文本指标至少包括第一类数据以及第二类数据,第一类数据用于表征待检测文本的用词随机性,第二类数据用于表征待检测文本的用词合理度;根据文本指标确定待检测文本的文本类型,输出文本类型,其中,文本类型包括机器生成类型以及人工生成类型,解决了相关技术中难以准确识别机器生成的待检测文本的问题,通过对待检测文本进行处理,得到处理后的文本数据以及文本数据中包含的单词的文本概率,利用文本概率计算得到困惑度数据以及突发性数据这两个文本指标,进而利用困惑度数据和突发性数据进行计算,根据计算结果确定待检测文本的文本类型,进而达到了快速并准确识别待检测文本的文本类型的效果。
附图说明
17.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
18.图1是根据本技术实施例提供的文本的识别方法的流程图;
19.图2是根据本技术实施例提供的可选的文本的识别系统的示意图;
20.图3是根据本技术实施例提供的文本的识别装置的示意图;
21.图4是根据本技术实施例提供的电子设备的示意图。
具体实施方式
22.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
23.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
24.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
26.随着人工智能的发展,越来越多的用户使用大语言处理模型,通过对模型进行大规模的无监督预训练,在学习语言的统计规律和语义信息后生成用户需要的文本内容。例如,为了减少写作时间,学生利用大语言处理模型生成书面报告、记者利用大语言处理模型生成新闻并将其进行发布等,但大语言处理模型与人工之间的差异,导致这些文本内容在书面表达以及科学逻辑等方面很容易存在事实性错误,容易使教师无法对学生的学习情况进行判断,或使读者在阅读新闻后产生理解偏差,因此,为了防止因大语言处理模型生成的错误对阅读者产生误导,需要对这些文本内容进行审核,本技术实施例提供文本的识别方法对机器生成的文本内容进行审核。
27.下面结合优选的实施步骤对本发明进行说明,图1是根据本技术实施例提供的文本的识别方法的流程图,如图1所示,该方法包括如下步骤:
28.步骤s101,获取待检测文本,对待检测文本进行文本处理,得到文本数据。
29.具体的,为了准确并快速检测接收到的文本内容是否为大语言处理模型生成的内容,需要将接收到的待检测文本进行处理,并根据处理后的文本数据进行类型判断,其中,文本的类型可以包括机器生成类型以及人工生成类型,机器生成类型的文本是指由大语言
处理模型生成的文本,人工生成类型是指由人工进行撰写的文本。
30.需要说明的是,由于大语言处理模型在生成文本前,会根据输入的训练样本学习语言规则和语义信息,进而使生成的文本可以与人为编写的文本更加相似,因此,为了更加准确检测出文本的类型,需要将待检测文本中容易影响文本类型判断的词语等信删除,以此保证检测的准确性。
31.步骤s102,获取文本数据包含的多个单词的文本概率,根据文本概率计算文本数据的文本指标,其中,文本概率用于表征每个单词的单词类型为机器生成单词的概率,文本指标至少包括第一类数据以及第二类数据,第一类数据用于表征待检测文本的用词随机性,第二类数据用于表征待检测文本的用词合理度。
32.具体的,在对待检测文本进行处理后,可以根据处理后得到的文本数据获取每个文本数据中包含的单词的文本概率,也即获取单词为机器生成的概率。进一步的,利用文本概率计算文本指标,第一类数据可以为文本的困惑度数据,第二类数据可以为文本的突发性数据,例如,可以根据待检测文本中用词随机性进行文本类型的判断,也即根据困惑度进行文本类型的判断,相较于大语言处理模型所生成的文本,由人工撰写的作品往往在措辞上更加难以预测,如果某一段文本十分随性,以至于无法预测接下来的语句,则很有可能这段文本是由真人所写。然而,若该段文本对检测系统来说异常的熟悉,则很大几率上该段文本是由大语言处理模型所写;此外,还可以根据待检测文本中用词是否符合语言规范进行文本类型的判断,也即根据突发性进行文本类型的判断,大语言处理模型所生成的文本中,用词相较于人工撰写的文本会更不符合文本使用场景。
33.步骤s103,根据文本指标确定待检测文本的文本类型,输出文本类型,其中,文本类型包括机器生成类型以及人工生成类型。
34.具体的,在根据文本数据确定待检测文本的文本指标后,可以根据文本指标确定评价函数值,再利用评价函数值确定待检测文本的文本类型,当计算出的评价函数值大于预设的阈值时,将该待检测文本的文本类型确定为机器生成类型,也即将该待检测文本确定为大语言处理模型生成的文本;当评价函数值小于预设的阈值时,判断该待检测文本的文本类型为人工生成类型,也即将该待检测文本确定为人工撰写的文本。
35.本技术实施例提供的文本的识别方法,通过获取待检测文本,对待检测文本进行文本处理,得到文本数据;获取文本数据包含的多个单词的文本概率,根据文本概率计算文本数据的文本指标,其中,文本概率用于表征每个单词的单词类型为机器生成单词的概率,文本指标至少包括第一类数据以及第二类数据,第一类数据用于表征待检测文本的用词随机性,第二类数据用于表征待检测文本的用词合理度;根据文本指标确定待检测文本的文本类型,输出文本类型,其中,文本类型包括机器生成类型以及人工生成类型,解决了相关技术中难以准确识别机器生成的待检测文本的问题,通过对待检测文本进行处理,得到处理后的文本数据以及文本数据中包含的单词的文本概率,利用文本概率计算得到困惑度数据以及突发性数据这两个文本指标,进而利用困惑度数据和突发性数据进行计算,根据计算结果确定待检测文本的文本类型,进而达到了快速并准确识别待检测文本的文本类型的效果。
36.文本指标通过文本概率计算得到,可选地,在本技术实施例提供的文本的识别方法中,在文本指标为第一类数据的情况下,根据文本概率计算文本数据的文本指标包括:计
算多个单词的文本概率的乘积,并计算乘积的倒数,得到第一数值;计算第一数值的n次方根,得到第一类数据,其中,n为多个单词的数量,n为正整数。
37.具体的,当文本指标为困惑度数据时,需要根据待检测文本处理后的文本数据包含的所有单词的文本概率进行计算,首先获取文本数据中每一个单词的文本概率,也即获取每一单词为机器编译的单词的概率,在计算得到所有单词的文本概率的乘积后,根据乘积确定乘积的倒数。
38.进一步的,在得到乘积的倒数后,对其计算n次方根,也即通过下式计算得到困惑度数据pp(s):
[0039][0040]
其中,s表示待检测文本,n是待检测文本中单词的数量,p(wi)表示第i句中单词为机器编译的单词的概率,第一个词即为p(w1|w0),而w0表示句子的起始字符,可以看做占位符,i为单词的排名情况。
[0041]
需要说明的是,困惑度数据还可以根据交叉熵损失函数j(θ)计算得到:perplexity=e
j(θ)
;其中,yi为待检测文本,为待检测文本的预测文本类型。
[0042]
进一步的,根据上式可知,交叉熵越低,困惑度就越低。较低的困惑度通常意味着模型能够更好地理解输入并生成合理的回答,而较高的困惑度可能表示模型对输入的理解存在问题或在生成回答时存在较大的不确定性。例如,当困惑度数据为90时,表明模型生成一句话时的单词有90个合理选择,当可选词数越少,可以认为模型越准确。本实施例通过计算困惑度数据,根据该数据判断待检测文本的文本类型,当困惑度数据越大时,表明待检测文本的文本类型为机器生成类型的可能性越大,进而为判断文本类型奠定基础。
[0043]
当文本指标为突发性数据时,文本指标也可以通过文本概率计算得到,可选地,在本技术实施例提供的文本的识别方法中,在文本指标为第二类数据的情况下,根据文本概率计算文本数据的文本指标包括:对于每个单词,计算单词的文本概率的对数值与文本概率的乘积,并判断乘积是否大于第二阈值;在乘积大于第二阈值的情况下,将乘积确定为单词的第二类数据,在乘积小于第二阈值的情况下,将单词的第二类数据确定为零;计算所有单词的第二类数据的总和,将总和确定为文本数据的第二类数据。
[0044]
具体的,当文本指标为突发性数据时,也需要根据待检测文本处理后的文本数据包含的所有单词的文本概率进行计算,首先需要计算待检测文本的每一句话中每个单词的文本概率的对数值和该文本概率的乘积,并将乘积记作p(w)log
2 p(w)。
[0045]
进一步的,判断该乘积与预设阈值的大小关系,当乘积大于预设阈值时,将该单词的乘积确定为该单词的突发性数据,当乘积小于第二阈值时,将该单词的突发性数据确定为0,也即:
[0046][0047]
其中,threshold表示设置的预设阈值,也即第二阈值,p(w)表示该句中单词为机
器编译的单词的概率,在获取每一句中每一个单词的突发性数据后,将该句的所有突发性数据进行求和,也即:burstiness(sentence)=∑burstiness(w);进而可以得到待检测文本的文本数据的突发性数据。本实施例通过计算突发性数据,并根据该数据判断待检测文本的文本类型,当突发性数据越大时,表明待检测文本的文本类型为机器生成类型的可能性越大,从而可以与困惑度数据结合时,提高判断待检测文本的文本类型的准确性。
[0048]
文本类型需要利用评价函数值进行确定,可选地,在本技术实施例提供的文本的识别方法中,根据文本指标确定待检测文本的文本类型包括:根据文本指标计算待检测文本的评价函数值,并判断评价函数值是否大于第三阈值;在评价函数值大于第三阈值的情况下,将待检测文本的文本类型确定为机器生成类型,在评价函数值小于第三阈值的情况下,将待检测文本的文本类型确定为人工生成类型。
[0049]
具体的,在根据文本数据的所有单词的文本概率计算得到困惑度数据以及突发性数据后,为了更准确的判断待检测文本的文本类型,可以将计算出的困惑度数据以及突发性数据进行结合,得到评价函数值。
[0050]
进一步的,将评价函数值与第三阈值进行对比,当评价函数值大于第三阈值时,表明待检测文本关联的困惑度数据和突发性数据数值较高,则将待检测文本的文本类型确定为机器生成类型,也即将待检测文本确定为大语言处理模型生成的文本;当评价函数值小于第三阈值时,表明待检测文本关联的困惑度数据和突发性数据数值较低,则将待检测文本的文本类型确定为人工生成类型,也即待检测文本为人工撰写文本。本实施例通过对文本指标进行结合,利用组合后的数值与预设的阈值进行比较,进而能较为准确的判断出待检测文本的文本类型,从而提高检测的准确度。
[0051]
待检测文本的文本类型是根据计算评价函数值确定的,而评价函数值是根据计算出的困惑度数据以及突发性数据进行结合得到的,可选地,在本技术实施例提供的文本的识别方法中,根据文本指标计算待检测文本的评价函数值包括:计算第一类数据与第一预设权重的乘积,得到第一乘积,并计算第二类数据与第二预设权重的乘积,得到第二乘积;计算第一乘积与第二乘积的总和,并计算总和与权重总和的比值,得到评价函数值,其中,权重总和是指第一预设权重和第二预设权重的总和。
[0052]
具体的,首先确定权重参数,由于判断待检测文本的文本类型时,是将困惑度数据作为主要评价标准,将突发性数据作为辅助评价标准,因此,在确定权重参数时可以将困惑度数据的权重参数设置为大于1的值,也即将第一预设权重设置为大于1的值,将突发性数据的权重参数设置为1,也即将第二预设权重设置为1。
[0053]
进一步的,根据困惑度数据、突发性数据以及相应的权重参数进行加权平均数的计算,也即通过下式计算得到评价函数值score(text):
[0054][0055]
其中,plexitity(sentencei)表示待检测文本的困惑度数据,burstiness(sentencei)表示待检测文本的突发性数据,n表示待检测文本中包含的单词的数量,i表示语句的排序情况,a为困惑度数据的权重参数,也即第一预设权重。本实施例通过利用困惑度数据和突发性数据计算评价函数值,在计算得到评价函数值后,可以利用评价函数值准
确判断待检测文本的文本类型。
[0056]
文本处理包括多种处理规则,可选地,在本技术实施例提供的文本的识别方法中,对待检测文本进行文本处理,得到文本数据包括:获取文本处理规则,其中,文本处理规则用于删除待检测文本中的影响第一类数据的文本,文本处理规则至少包括以下之一:删除文字数量小于第一阈值的语句、删除常用语句表中包含的辅助词以及删除标号;遍历待检测文本,根据文本处理规则清理待检测文本中的影响第一类数据的文本,得到文本数据。
[0057]
具体的,由于困惑度数据是评价文本中用词的随机情况,因此困惑度数据的大小与文本中的每一个单词息息相关。文本中的某些特定的单词在对困惑度数据产生较大影响的同时,并不能为判断文本的文本类型提供帮助,所以在计算待检测文本的困惑度数据以及突发性数据前,需要对待检测文本进行文本处理。
[0058]
需要说明的是,由于在根据困惑度数据以及突发性数据计算评价函数值时,需要确定困惑度数据以及突发性数据的权重参数,而权重参数是需要利用多个训练样本集确定的,通过利用多个训练样本集计算困惑度数据和突发性数据,根据计算出的数据与训练样本集中每一个训练样本的文本类型进行比较,再对权重参数进行优化,以此确定两者的权重参数,而困惑度数据与训练样本集的大小呈现负相关关系,当训练样本集越大,困惑度数据会下降得更低,不同大小的训练样本集计算出的困惑度数据不同,得到的训练结果也不同,因此,在确定权重参数时,需要使用相同的训练样本集。
[0059]
进一步的,文本中存在的“我不知道”这些常见生成语等也会影响困惑度数据的计算,此外,文本中的标点符号虽然在文本中仅起到语句的划分作用,但文本中的标点符号会对困惑度数据产生很大影响,因此,需要删除文字数量小于第一阈值的语句、常用语句表中包含的辅助词以及标号,例如,需要删除语句中包含的词语数字小于预设的第一阈值的语句,需要删除“我不知道”等常用语,删除逗号、句号、分号等符号,并删除“的”、“了”等语气助词。将删除后的待检测文本作为文本数据计算文本指标,能够更为准确的判断待检测文本的文本类型。
[0060]
可选地,在本技术实施例提供的文本的识别方法中,多个单词的文本概率由大语言处理模型确定,其中,大语言处理模型用于确定多个单词的文本概率,大语言处理模型由m个经过预设数量的掩码处理的样本文本以及每个样本文本中的单词的文本概率训练得到,掩码用于将每个样本文本的语句进行随机模糊处理,m为正整数。
[0061]
具体的,待检测文本中每一个单词的文本概率是由大语言处理模型识别得到的,其中,大语言处理模型,也即llm模型(large language model)是一种自然语言处理模型,通过使用多层的自注意力机制,能够在生成文本时考虑到上下文的关系,以根据上下文关系输出每一个单词的单词类型为机器生成类型的概率。
[0062]
需要说明的是,该模型在确定单词的文本概率前,需要利用大量的训练样本集进行训练,为更准确的识别每一个单词的文本概率,可以对训练样本集中的训练样本进行处理,可以利用算法随机对训练样本的句子中的词语进行掩码,通过设置不同随机掩码率得到不同的训练样本集,例如,某一词语为123456789的数字,在对其进行掩码时,可以设置为12*4****9,本实施例通过设置随机掩码处理,可以提升识别单词文本概率的准确性。
[0063]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不
同于此处的顺序执行所示出或描述的步骤。
[0064]
本技术实施例还提供了一种可选的文本的识别方法,该方法应用于文本的识别系统中,图2是根据本技术实施例提供的可选的文本的识别系统的示意图,如图2所示,系统包括预处理子系统和算法子系统,预处理子系统包含:训练数据集子单元、短语句处理子单元、常用词词表处理子单元、标点处理子单元以及无语义词处理子单元;算法计算子系统为核心系统,包括算法定义子单元、随机掩码子单元以及算法计算模型子单元。
[0065]
具体的,预处理子系统用于使用队列的数据结构的形式对待检测文本进行先进先出的预处理操作,其中,训练数据集子单元用于将训练时的训练样本集确定为相同的样本组合;短语句处理子单元用于删除语句中包含的词语数字小于预设的第一阈值的语句;常用词词表处理子单元用于删除“我不知道”等常用语;标点处理子单元用于删除逗号、句号、分号等符号;无语义词处理子单元用于删除“的”、“了”等语气助词以及其余无意义词。
[0066]
进一步的,算法计算子系统用于存储困惑度数据和突发性数据的策略以及计算算法,并根据获取的单词的文本概率计算困惑度数据和突发性数据。
[0067]
利用上述文本的识别系统,可以实现文本的识别方法,具体的,获取待检测文本后,利用预处理子系统对待检测文本进行文本处理,得到文本数据。进一步的,获取由大语言处理模型输出的文本数据包含的单词的文本概率后,根据单词的文本概率计算得到所有单词的文本概率的乘积后,根据乘积确定乘积的倒数,再对其计算n次方根,可以得到困惑度数据。
[0068]
同时,利用计算单词的文本概率的对数值与文本概率的乘积确定待检测文本的突发性数据,在计算得到困惑度数据和突发性数据后,计算待检测文本的评价函数值,并判断评价函数值与预设阈值的关系。在评价函数值大于第三阈值的情况下,将待检测文本的文本类型确定为机器生成类型,在评价函数值小于第三阈值的情况下,将待检测文本的文本类型确定为人工生成类型。
[0069]
本实施例通过对待检测文本进行处理,得到处理后的文本数据以及文本数据中包含的单词的文本概率,利用文本概率计算得到困惑度数据以及突发性数据这两个文本指标,进而利用困惑度数据和突发性数据进行计算,根据计算结果确定待检测文本的文本类型,进而达到了快速并准确识别待检测文本的文本类型的效果。
[0070]
本技术实施例还提供了一种文本的识别装置,需要说明的是,本技术实施例的文本的识别装置可以用于执行本技术实施例所提供的用于文本的识别方法。以下对本技术实施例提供的文本的识别装置进行介绍。
[0071]
图3是根据本技术实施例提供的文本的识别装置的示意图,如图3所示,该装置包括:第一获取单元30、第二获取单元31、确定单元32。
[0072]
第一获取单元30,用于获取待检测文本,对待检测文本进行文本处理,得到文本数据;
[0073]
第二获取单元31,用于获取文本数据包含的多个单词的文本概率,根据文本概率计算文本数据的文本指标,其中,文本概率用于表征每个单词的单词类型为机器生成单词的概率,文本指标至少包括第一类数据以及第二类数据,第一类数据用于表征待检测文本的用词随机性,第二类数据用于表征待检测文本的用词合理度;
[0074]
确定单元32,用于根据文本指标确定待检测文本的文本类型,输出文本类型,其
中,文本类型包括机器生成类型以及人工生成类型。
[0075]
可选地,在本技术实施例提供的文本的识别装置中,在文本指标为第一类数据的情况下,第二获取单元31包括:第一计算模块,用于计算多个单词的文本概率的乘积,并计算乘积的倒数,得到第一数值;第二计算模块,用于计算第一数值的n次方根,得到第一类数据,其中,n为多个单词的数量,n为正整数。
[0076]
可选地,在本技术实施例提供的文本的识别装置中,在文本指标为第二类数据的情况下,第二获取单元31包括:第三计算模块,用于对于每个单词,计算单词的文本概率的对数值与文本概率的乘积,并判断乘积是否大于第二阈值;第一确定模块,用于在乘积大于第二阈值的情况下,将乘积确定为单词的第二类数据,在乘积小于第二阈值的情况下,将单词的第二类数据确定为零;第四计算模块,用于计算所有单词的第二类数据的总和,将总和确定为文本数据的第二类数据。
[0077]
可选地,在本技术实施例提供的文本的识别装置中,确定单元32包括:第五计算模块,用于根据文本指标计算待检测文本的评价函数值,并判断评价函数值是否大于第三阈值;第二确定模块,用于在评价函数值大于第三阈值的情况下,将待检测文本的文本类型确定为机器生成类型,在评价函数值小于第三阈值的情况下,将待检测文本的文本类型确定为人工生成类型。
[0078]
可选地,在本技术实施例提供的文本的识别装置中,确定单元32包括:第六计算模块,用于计算第一类数据与第一预设权重的乘积,得到第一乘积,并计算第二类数据与第二预设权重的乘积,得到第二乘积;第七计算模块,用于计算第一乘积与第二乘积的总和,并计算总和与权重总和的比值,得到评价函数值,其中,权重总和是指第一预设权重和第二预设权重的总和。
[0079]
可选地,在本技术实施例提供的文本的识别装置中,第一获取单元30包括:获取模块,用于获取文本处理规则,其中,文本处理规则用于删除待检测文本中的影响第一类数据的文本,文本处理规则至少包括以下之一:删除文字数量小于第一阈值的语句、删除常用语句表中包含的辅助词以及删除标号;遍历模块,用于遍历待检测文本,根据文本处理规则清理待检测文本中的影响第一类数据的文本,得到文本数据。
[0080]
可选地,在本技术实施例提供的文本的识别装置中,多个单词的文本概率由大语言处理模型确定,其中,大语言处理模型用于确定多个单词的文本概率,大语言处理模型由m个经过预设数量的掩码处理的样本文本以及每个样本文本中的单词的文本概率训练得到,掩码用于将每个样本文本的语句进行随机模糊处理,m为正整数。
[0081]
本技术实施例提供的文本的识别装置,通过第一获取单元30,用于获取待检测文本,对待检测文本进行文本处理,得到文本数据;第二获取单元31,用于获取文本数据包含的多个单词的文本概率,根据文本概率计算文本数据的文本指标,其中,文本概率用于表征每个单词的单词类型为机器生成单词的概率,文本指标至少包括第一类数据以及第二类数据,第一类数据用于表征待检测文本的用词随机性,第二类数据用于表征待检测文本的用词合理度;确定单元32,用于根据文本指标确定待检测文本的文本类型,输出文本类型,其中,文本类型包括机器生成类型以及人工生成类型,解决了相关技术中难以准确识别机器生成的待检测文本的问题,通过对待检测文本进行处理,得到处理后的文本数据以及文本数据中包含的单词的文本概率,利用文本概率计算得到困惑度数据以及突发性数据这两个
文本指标,进而利用困惑度数据和突发性数据进行计算,根据计算结果确定待检测文本的文本类型,进而达到了快速并准确识别待检测文本的文本类型的效果。
[0082]
文本的识别装置包括处理器和存储器,上述第一获取单元30、第二获取单元31、确定单元32等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0083]
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中难以准确识别机器生成的待检测文本的问题。
[0084]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0085]
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现文本的识别方法。
[0086]
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行文本的识别方法。
[0087]
图4是根据本技术实施例提供的电子设备的示意图,如图4所示,本发明实施例提供了一种电子设备,电子设备40包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种文本的识别方法。本文中的设备可以是服务器、pc、pad、手机等。
[0088]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行一种文本的识别方法。
[0089]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0090]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0091]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0092]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
[0093]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0094]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0095]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0096]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0097]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0098]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图