从零开始做 Jarvis——基于 Python 的智能语音管家(一).

让我们用 Python 去做一个 Jarvis 吧!

这一部分主要是先前的大体介绍,而且由于这是我利用课余时间而作,所以相对于其他的项目而言进度可能并不会特别及时,更新缓慢且随缘。

先简单地做一下项目介绍。

在一次比赛现场与朋友攀谈,并由此激发了一个一直存于我内心的想法——做出像钢铁侠的 Jarvis 一般的智能助手。它能够在日常生活和工作学习中为我及时提供建议以及我所需要的信息,还能够帮我管理我的社交网络以及我的各种数码设备等等。

当时与朋友聊完这个宏大愿景后,我便留下了不学无术的泪水(毕竟能力有限 TAT)。所以结合目前的状况,我简单地对其可行性进行了进一步的思考和完善。

其实,从技术上实现一个在生活辅助方面的智能语音助手并不难。而现有的产品之所以功能并非如此强大,更多是公司的商业考量对用户隐私的保护

所以,怎么做?

迫于技术上的压力,我目前的暂时性目标,是做出一个“简易版”的 Jarvis。它离真正的“人工智能”有着一定的距离,定位是一个在日常的工作和学习中能够帮得上忙的(至少比我手机上的小爱要来的有用的)“智能程序”。

所以围绕着这个,我产生了以下的想法:

  • 首先要做到的是我们的 Jarvis 能够对我们说的话有基本的反应行为,比如查查天气、问些问题、聊聊天,诸如此类。其次便是一些高级的操作,比如随时检索我们彼时工作或者学习等方面所需要的任何信息;根据我们的情况作出合理的决策;跨设备交互和智能的设备控制和管理等等。

然后便是怎么做?截至我写作的时间,由于我的 Python 方面做过的项目比较多,所以选择了 Python 作为主要语言。

  • 从结构上来看,我们如果要实现一个闭环,就需要做到语音识别NLP信息处理和分析语音(或者画面)反馈。由于我有着 Jarvis 情怀,所以我会倾向于先完成语音部分的反馈环节。

至此,我们完成了整个项目的大致框架,显然,我们后续的程序框架以及整体思路也会依照这个来展开。

下一个部分,我会介绍语音识别部分实现。

Peace.