安下载行业软件

分类分类

LABB-CAT(语言学研究工具)

LABB-CAT(语言学研究工具)

v20210216 官方版

大小:211.0 MB 更新:2021/04/17

类别:其它行业系统:WinXP, Win7, Win8, Win10, WinAll

立即下载

  LABB-CAT提供语言学研究功能,可以使用多种语言分析您的注释内容,支持语料库管理功能,在transcripts上传过程中,LaBB-CAT会查找transcripts中指定的参与者,如果找不到匹配的参与者记录,则会创建一个新的记录,支持改变语料库,每个情节都属于一个“语料库”,如果您选择了错误的语料库就可以使用菜单上的系列管理器选项在上传transcripts后进行此类更改;LaBB-CAT包括Unisyn图层管理器,该管理器用于摄取Unisyn口音特定的词典并执行包含的脚本来生成所需品种的词典,可以将生成的文件添加到LaBB-CAT,然后可以将层管理器配置为使用该文件来用单词音标标记单词标记,支持用Unisyn词典进行音标标记、使用纯文本文件的音标标记、用西班牙语音转录器进行音标标记,具有的语言分析功能很多,如果你需要就下载吧!

LABB-CAT(语言学研究工具)

基本介绍

  LaBB-CAT是基于浏览器的语言学研究工具,用于存储音频或视频记录,文本笔录和其他注释。

  各种类型的注释可以自动生成或手动添加。

  可以在transcripts和注释中搜索特定的文本或正则表达式。可以以多种格式查看或保存搜索结果或整个transcripts,并且可以直接通过Web浏览器在声学分析软件中播放或打开录音的相关部分。

软件功能

  媒体和transcripts的存储

  LaBB-CAT本质上是一个音频/视频记录的按时间记录的笔录的存储库。可以使用Transcriber, Praat或ELAN (可用于创建将笔录文本与音频/视频记录中的相应位置对齐)的文档来生成时间对齐的笔录。然后将transcripts上传到LaBB-CAT,后者可以存储有关发言人和transcripts的其他信息。

LABB-CAT(语言学研究工具)

  启发任务

  您还可以定义启发任务,包括参与者阅读提示和他们要回答的问题。

  参与者(使用他们的浏览器或移动设备)执行任务时,其语音将被记录并自动直接上传到LaBB-CAT:

LABB-CAT(语言学研究工具)

  自动注释

  结合信号数据,原始正字法转录本以及一些第三方数据和工具,可以自动注释记录本,例如:

  词法标记

LABB-CAT(语言学研究工具)

  借助CELEX的数据,可以自动用进一步的数据注释单词:

  语音学

  音节化

  形态学

  词性

  频率

  还可以集成其他词典,包括CMU的发音词典和Unisyn词典。

  强制对准

  借助HTK或WebMAUS,可以将在话语级别对齐的笔录强制对齐到单词和句段级别:

LABB-CAT(语言学研究工具)

  统计层

  LaBB-CAT数据库本身的词频数据可以直接在每个词上进行计算和注释:

LABB-CAT(语言学研究工具)

  “语言查询和字数统计”(LIWC)可用于将语料库与参考语料库进行比较:

LABB-CAT(语言学研究工具)

  结合时间对齐信息和来自CELEX的音节计数,可以在不同的域上计算语音速率:

LABB-CAT(语言学研究工具)

  脚本编写

  可以使用Python或Javascript编写脚本来执行树状计算和注释任务:

LABB-CAT(语言学研究工具)

  IBM Watson个性化见解

  LaBB-CAT可以与IBM Watson的Personality Insights Web服务集成,以对笔录执行个性分析:

LABB-CAT(语言学研究工具)

软件特色

  1、音标

  根据您的语音数据,有几种方法可以获取单词的音素转录:

  2、词法标记

  CELEX-使用其中一种CELEX层管理器,用于英式英语,德语,荷兰语。

  CMU发音词典-用于美国英语,使用CMU发音词典层管理器。

  Unisyn-使用Unisyn图层管理器,适用于各种英语品种。

  定义自己的词典,然后使用平面文件字典层管理器将其集成到LaBB-CAT中。

  3、从拼字法推断发音

  西班牙语,使用西班牙语语音转录器图层管理器

  基础Web服务:G2P-用于各种语言。

  使用Character Mapper图层管理器定义您自己的从拼字法到音系学的简单映射规则。

  4、CELEX的音标

  如果您有权访问 CELEX 数据库,则可以将LaBB-CAT与它集成在一起,从而允许使用来自CELEX的数据来注释成绩单中的单词-可以包括:

  标准音位转录-例如“差异”→“dɪfrəns”或“dɪfərəns”

  形态信息-例如“差异”→“差异+差异”

  可能的句法类别-例如“差异”→“ N”

  频率数据

  引理

  音节数

  5、手动注释

  注释可以手动添加,例如

  主题标记

  针对单个单词的文本标签

  可以使用Praat注释时间点或间隔:

LABB-CAT(语言学研究工具)

安装方法

  1、打开install-labbcat-personal_20210216.jar进入安装界面,点击start

LABB-CAT(语言学研究工具)

  2、提示开始安装软件到电脑,等待安装结束

LABB-CAT(语言学研究工具)

官方教程

  转录指南

  有多种工具可用于转录录音,并且LaBB-CAT支持最常用工具使用的转录文件格式。这些工具中的每一个都有其自己的功能,用于指定发言人和元数据以及添加注释。

  除了用于转录的特定工具和文件格式以外,还有一些通用原则可以促进LaBB-CAT中语音数据的后续处理。

  拼写

  许多自动注释任务都涉及查找标准词典,未注释的单词不会被注释,因此在可能的情况下使用标准拼写很重要。

  使用常规拼写,如果不确定如何拼写,请在字典或地图中查找。

  用空格而不是连字符将所有数字完整写出-例如

LABB-CAT(语言学研究工具)

  使用缩写时,如果每个字母分开说,请在每个字母之间使用大写字母,否则,请使用不带空格的大写字母-例如

LABB-CAT(语言学研究工具)

  所有单词都应完整拼写,例如“ and”和“ suppose”。即使是说话者所说的话,也不应从单词中删除最终的g s和d s-例如

LABB-CAT(语言学研究工具)

  即使在音节之间有停顿,也应该始终将单个单词拼写为整个单词。

  不要整理演讲。保留重复,填充和错误。

  可能会定义一组简短的单词和缩略词,只要一致地使用它们就可以了-例如,如果您将cos用作因为的简化版本,因为,请始终将其拼写为cos,并且永远不会造成,也不会'cause,也不堂妹。例如:

LABB-CAT(语言学研究工具)

  不满

  与填充的暂停符的拼写保持一致很重要:

LABB-CAT(语言学研究工具)

  推荐使用最后三个字母的拼写,因为三个拼写为m- m-可以匹配字典中字母M的名称,因此可以将发音标记为/εm/,如果它的拼写有两个M的-毫米-这有时相匹配的单词的替换拼写毫米,所以发音可以被标记/'mɪ-lɪ-“みtə/ 。

  未填满的停顿可以用连字符(由空格括起来)进行转录;一些模块使用这样的暂停信息来帮助自动注释(例如,具有这样的暂停注释的具有HTK优势的强制对齐)-例如

LABB-CAT(语言学研究工具)

  不完整的单词应在单词的末尾标记波浪号〜(而不是连字符,可以解释为暂停),例如:

LABB-CAT(语言学研究工具)

  对于很短的犹豫-但是,某些发音模块可以推断出此类单词的发音,而无需手动发音标签。

  文字标签和其他原位注释

  一些转录工具允许使用额外的信息标记单个单词,而其他工具则不允许。对于这些,例如,用单词的发音标记单词的唯一方法是使用转录约定。

  如果您使用ELAN成绩单,Praat TextGrids或纯文本文件作为成绩单,则LaBB-CAT可选地支持以下转录约定:

  一个发明词或犹豫的发音可通过使用方括号中的字之后立即(即,与字和注释之间没有空格)被标记-例如

  stut〜[stVt]

  犹豫(或带有非标准拼写的其他单词)的标准形式的完整形式可以通过在单词之后使用括号来标记(即,单词和注释之间没有空格),例如

  stut〜[stVt](stutter)

  可以使用方括号将噪声标记为空白,例如用空格将方括号括起来,例如

  现在[舌头点击]

  可以使用大括号括起来的空白添加注释,例如,

  它在这里打到我{指向寺庙}

  话语/线

  诸如强制对齐之类的某些过程涉及处理记录中的各个发音,这些发音对应于许多转录系统中的文本行。很长或很短的话语可能很难处理。

  理想情况下,成绩单中的每一行都应为5到15个字长,并且应该在出现语音暂停的地方进行换行。

  一些注释工具允许标记同时讲话的时间段,即同时讲话的人不止一个的时间段。这些时间段应尽可能准确地对齐,因为某些自动处理(例如,强制对齐)会忽略同时语音。简短的同时发声保证了尽可能少的语音被忽略。

  强制对准

  强制对齐是自动处理发声记录及其正字记录,以便确定各个单词以及单词中的电话的开始和结束时间。

LABB-CAT(语言学研究工具)

  LaBB-CAT可以通过三种主要方法来实现强制对齐:

  1、具有BAS Web服务的WebMAUS

  2、使用Penn Aligner(P2FA)预训练的声学模型的HTK

  3、通过训练自己的声学模型进行对准来实现HTK(“训练并对准”)

  对准精度

  作为无人监督的自动过程,对齐并不总是最佳的。各种因素都会降低比对的质量:

  数据不足(如果您使用的是“训练并对齐”方法)

  录制质量差,背景噪音等。

  语音同步(默认情况下被忽略)

  成绩单不正确

  话语对齐不正确

  成绩单中没有暂停标记

  词典和语音之间的音系不匹配,

  例如使用流变字典对齐非流变语音

  因此,您应该手动检查并可能更正至少一些数据。

  检查/校正对齐

  您可以通过两种方式检查/更正对齐方式:

  1、LaBB-CAT与Praat集成

  2、LaBB-CAT与EMU-webApp集成

  对齐后

  数据经过强制对齐后,电话中的开始/结束时间将在单词范围内,例如,这为分析和进一步注释提供了许多可能性。

  1、使用Praat批量处理目标代币

  2、音节的重建

  BAS Web服务管理器和WebMAUS

  在巴伐利亚昔日语音信号(BAS) ,欣然公布了一套语音处理Web服务包括一个用于强制排列称为WebMAUS。您可以使用Web浏览器直接直接使用此服务,但是LaBB-CAT还具有一个称为BAS Services Manager的自动使用模块。

  一般过程如下图所示:

LABB-CAT(语言学研究工具)

  注意:使用WebMAUS进行强制对齐需要LaBB-CAT通过互联网将您的录音和成绩单发送给第三方。尽管BAS Web服务服务条款的第3点明确指出,上传的数据将在24小时后删除,但仅在您征得参与者同意的情况下,才使用该服务。

  如果您的语音使用以下任何一种语言,则可以使用WebMAUS进行强制对齐:

LABB-CAT(语言学研究工具)

  LaBB-CAT必须能够识别每个成绩单所使用的语言,因此您必须确保设置了该语言

  在成绩单的“语言成绩单”属性中,或在语料库页面上(您可以在其中为每个语料库的所有笔录定义语言)。

  可以通过以下方式在LaBB-CAT中设置可用的语言选项:进入“成绩单属性”页面,然后单击“语言”属性的“选项”按钮。该值必须是一个由两个字母组成的ISO639-1代码,并可选地附加一个由两个字母组成的国家/地区代码-例如en或en-NZ。

  脚步

  安装层管理器:

  1、在LaBB-CAT中,单击菜单上的“ 图层管理器”链接,该列表为您提供了已安装的图层管理器的列表。

  2、在页面底部,单击 “选择文件”,然后单击“ 尚未安装的图层管理器列表”链接。

  3、在列表中查找BAS Web服务管理器,然后单击它的“安装”按钮。

  4、单击使用条款链接并阅读条款。

  5、关闭条款页面,返回到LaBB-CAT。

  6、为“接受使用条款”选项选择“ true ”

  7、单击安装。

  您将看到有关图层管理器的信息页面,包括有关如何设置强制对齐的说明。

  设置一个层来触发强制对齐:

  1、单击 菜单上的元图层选项

  2、页面底部有一个空白表格,用于创建新图层。填写以下详细信息:

  描述:对准时间

  简短说明:MAUS

  图层类型:文字

  层管理器:BAS Web服务管理器

  对齐:时间间隔

  生成:始终

  3、点击 新建

  4、您将看到一个表格,该表格可让您配置图层。查看该页面的在线帮助以指导您。主要选择是“音素”编码:默认选项,碟片,这可能是最好的,因为使用此音素编码可确保该图层与其他模块配合良好,并且易于搜索。但是,可以选择amp相反,在这种情况下,层类型的的段层应被设置为文本。

  5、点击 保存

  6、如果要立即强制对齐语料库中的所有录音,请单击“重新生成”。

  用Praat检查/校正对齐

  强制对齐成绩单后,可以使用Praat集成成绩单页面直接从LaBB-CAT检查并更正对齐。

LABB-CAT(语言学研究工具)

  要检查对齐方式:

  1、在LaBB-CAT中,打开一个成绩单页面。

  2、勾选HTK层和segments层。

  您将看到哪些行已经过强制对齐,因为它们具有HTK时间戳记,并且填充了细分图层。如果错过了某些行,则很可能是因为有一个未知的单词,另一位发言者在同时,或者可能是HTK根本无法使线对齐(发生这种情况的原因有很多,包括培训数据不足,录音噪声大,转录不准确等)。

  交互式笔录页面不会显示单词或电话的对齐方式,但是您可以看到

  使用Praat的单词或电话的对齐方式。您可以直接从成绩单页面在Praat中打开单个语音,但首先,

  必须建立LaBB-CAT / Praat集成;只需执行一次:

  3、在页面的右上方,播放控件上方,有一个Praat图标?- 点击它。

  4、请按照出现的说明进行操作(这些说明会因您使用的Web浏览器而异)。

  可能会询问您是否允许?LaBB-CAT集成小程序?跑步。如果您勾选?不再次显示?选项,则每次打开笔录时都不会出现此消息。

  您可能需要授予浏览器扩展程序许可才能安装,并且可能需要连接到互联网才能下载此扩展程序。

  您可能还会被问到Praat的安装位置。导航到Praat的安装位置,然后双击?。Praat.exe吗?文件(在某些系统上,该文件可以简称为?Praat?)。

  Praat程序可以打开,然后立即关闭,因为LaBB-CAT测试它可以与Praat通信。

  现在已经建立了Praat集成,并且您应该可以

  从现在开始在笔录页面中访问Praat选项...

  5、单击已对齐的行,然后在菜单上选择“在Praat中打开文本网格”选项。

  可能会询问您是否要允许访问“ LaBB-CAT集成小程序”?-如果是这样,请勾选“不再显示此内容”,然后单击“允许”。

  Praat应该会打开,并向您显示该行音频的声谱图,下面是一个包含单词和句段的TextGrid。

  6、如果您单击一个单词并按下键,则会播放该单词的间隔。尝试各种单词,看看您如何看待HTK与其对齐方式的准确性。

  尝试使用成绩单中的不同行来进行此操作。

  您会看到在某些情况下对齐效果很好,而在其他情况下则不太好。

  7、调整单词和电话的对齐方式,使它们更加准确,然后单击“成绩单”页面(在LaBB-CAT中)中的“导入更改”按钮。

  这些更改被标记为手动编辑,因此,如果再次运行强制对齐,则不会被新的错误对齐覆盖。因此,您所做的更改实际上是改进,这一点很重要,因为HTK永远不会再次更改它们。

  关于您可以更改的内容,有一些规则:

  您不允许添加或删除单词(如果有必要,请改正成绩单来完成此操作)。

  所有电话都必须在自己的字词范围内。

  第一个电话的开头应与单词的开头对齐,而最后一个电话的末尾应与单词的结尾对齐。

  您不应该更改发音本身的对齐方式(只有在“ Praat”选项中选择“ Open Text Grid incl。±1 anceance”时才有可能)。

精品推荐
同类推荐
相关下载
  • 最新排行
  • 最热排行
  • 评分最高
行业软件排行榜
实时热词