基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解.词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型
依托全网海量优质数据和深度神经网络技术,通过词语的向量化来实现文本的可计算,帮助您快速完成语义挖掘、相似度计算等应用。词向量计算是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算
依托全网海量优质数据和深度神经网络技术,通过词语向量化来计算两个词之间的相似度,满足高精度要求的业务场景需求,该技术常用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高,词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一
依托全网海量优质数据和深度神经网络技术,判断一句话是否符合语言表达习惯,帮助您实现文本分析、纠错、对话等多种语义应用,语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯 通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等
自动分析文本中的依存句法结构信息,实现对自然语言的精准理解,利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系) ,并用树状结构来表示整句的的结构(如主谓宾、定状补)等,在大规模人工标注的数据基础上,句法结构描述体系简洁通用,海量数据训练让文本匹配更准确
依托全网海量优质数据和深度神经网络技术,为您提供高精度的短文本相似度服务,帮助快速实现推荐、检索、排序等应用,提供两个短文本之间的语义相似度计算能力,输出的相似度是一个介于0到1之间的实数值,输出数值越大,则代表语义相似程度相对越高,通过语义相似度计算,判断两个短文本的语义表述是否相近,从而实现相似短文本的聚合或去重
对文章进行核心关键词分析,为新闻个性化推荐、相似文章聚合、文本内容分析等提供技术支持,文章标签服务对文章的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的标签置信度,包含多维度信息,全面覆盖文章关键信息主题,可广泛应用在文章聚合、个性化推荐、内容检索等场景中
对文章按照内容类型进行自动分类,首批支持娱乐、体育、科技等26个主流内容类型,为文章聚类、文本内容分析等应用提供基础技术支持,文章分类服务对文章内容进行深度分析,输出文章的主题一级分类、主题二级分类,如娱乐、社会、音乐、人文、科学、历史、军事、体育、科技、教育等分类结果 ,可通过文章分类结果,给出对应的一定置信相关度分值,如一般相关、非常相关、相关度较低。在个性化推荐、文章聚合、文本内容分析等场景具有广泛应用价值
识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容,准确识别输入文本中出现的拼写错别字及其段落位置信息,并针对性给出正确的建议文本内容,支持短文本、长文本、语音识别结果等多种文本内容,在搜索引擎、语音识别、内容审核有广泛应用,能显著提高各场景下语义的准确性和用户阅读体验
基于深度语义分析模型,自动抽取新闻文本中的关键信息并生成指定长度的新闻摘要。可用于热点新闻聚合、新闻推荐、语音播报、APP消息Push等场景,结合传统语义特征和深度学习模型,充分考虑段落分布和篇章结构,准确计算新闻语句的重要性,对新闻内容进行全面的语义理解与分析,能根据需求灵活控制摘要长度,自动抽取关键信息,形成摘要结果。可用于内容理解、内容分发、智能写作等多种应用,是智能媒体等行业必备AI能力之一
自动抽取和分析评论观点,帮助您实现舆情分析、用户理解,支持产品优化和营销决策,自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持13类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策
自动检测用户日常对话文本中蕴含的情绪特征,帮助企业更全面的把握产品体验、监控客户服务质量,在对话场景中,识别对话双方文本背后蕴含的用户情绪,一级情绪分为正向、中性、负向3种,正向情绪细分为:喜爱、愉快、感谢3种;负向情绪细分为:抱怨、愤怒、厌恶、恐惧、悲伤5种,针对机器识别到的负向情绪,结合上下文语境给出有针对性的参考回复话术,帮助应用方第一时间安抚客户负向情绪
精准提取快递填单文本中的姓名、电话、地址信息,通过自然语言处理辅助地址识别做自动补充和纠正,生成标准规范的结构化信息,大幅提升企业效率,精准提取文本填单中的地址信息,并按省、市、区、街道、详细地址的格式结构化输出