本地语音转文字 STT Powered by Faster Whisper CPU可用
v0.2更新
- 应要求换掉了识别精度较差的base,增加了small和large两种模型;
- 现在你可以在识别过程中终止操作了;
- 保存结果可以选择位置了;
- 更改模型默认保存位置为当前文件夹 model 目录下。
背景
最近接到一个需求,需要把录音转换为文字,一看网上几款常用的工具,想不到都是收费的;论坛里面找了找,发现基本上都需要云端api,仅有的几个本地的都需要使用GPU中的cuda计算。因此,开发了这么一款语言转文字的小工具,基于Faster Whisper模型,在cpu上也能达到不错的效果。
使用方式
双击文件打开,在左上角选择模型,左下角选择推理方式与精度(cpu推荐int8,速度更快)。
若没有支持cuda的GPU请不要选择GPU,否则会崩溃(原本想导入pytorch库判断cuda_is_available的,但是这样打出来的包会把一整个pytorch一起打包进去,太大了,后来就没这么处理)
首次使用需要下载模型,进度在console中可见,请耐心等待。
测试截图
阅读剩余
版权声明:
作者:admin
链接:http://www.txllsm.com/archives/453
文章版权归作者所有,未经允许请勿转载。
THE END