本地语音转文字 STT Powered by Faster Whisper CPU可用

2024-8-16

v0.2更新

应要求换掉了识别精度较差的base，增加了small和large两种模型；
现在你可以在识别过程中终止操作了；
保存结果可以选择位置了;
更改模型默认保存位置为当前文件夹 model 目录下。

背景

最近接到一个需求，需要把录音转换为文字，一看网上几款常用的工具，想不到都是收费的；论坛里面找了找，发现基本上都需要云端api，仅有的几个本地的都需要使用GPU中的cuda计算。因此，开发了这么一款语言转文字的小工具，基于Faster Whisper模型，在cpu上也能达到不错的效果。

使用方式

双击文件打开，在左上角选择模型，左下角选择推理方式与精度（cpu推荐int8，速度更快）。
若没有支持cuda的GPU请不要选择GPU，否则会崩溃（原本想导入pytorch库判断cuda_is_available的，但是这样打出来的包会把一整个pytorch一起打包进去，太大了，后来就没这么处理）
首次使用需要下载模型，进度在console中可见，请耐心等待。