2025年上半年,本人有幸获得复旦大学教务处的资助,得以在本科阶段通识课程“16-20世纪的欧洲殖民帝国”的教学中引入AI助教,这位AI助教由某知名数据服务公司提供技术支持。如今,学期已进入尾声,我的初代AI助教完成了本学期的工作任务,在系统里留下了同学们的访问数据,帮助我复盘这项教改实验。
什么样的高等教育场景需要一位AI助教?
相较于基础教育阶段,高等教育阶段人文类课程的知识点的结构化和标准化程度较低,考核形式多元,也就很难吸引企业研发出商业化产品。而在人文学科所教授的诸多内容中,有关学术论文写作的知识点结构化和标准化程度较高,市面上已有许多专门针对这一内容的高质量作品。因此,从可行性来看,将这些出版物的内容根据自身需求进行结构化处理后,就可以用于训练服务特定课程需要的、帮助学生提高论文写作水平的智能体。
图1-3:撰写学术论文的参考书
从技术条件来看,近几年不少为高校提供在线教育平台的企业都已经将大语言模型融入产品中,如推出AI助教功能。对于理工医科的课程来说,AI助教可以提供答疑、出题、复习等服务,帮助学生巩固知识点。对人文类的教师来说,同样可以利用AI助教提供针对学术论文写作的专项服务。
从现实需求来看,尽管不同学科都在许多领域投入人力和资源帮助学生提高学术论文写作水平,但学生提交的论文的质量依然不够理想。为了帮助学生提高通识课论文的写作能力,有些学校会提供写作指导,有些老师会让学生在期中提交一份写作计划随后进行指导。前者因为服务能力的限制和学生学习时间的限制,能覆盖到的群体规模有限。后者受班级规模限制,而通识课一般选课人数较多,因此人均可以获得的指导时间也相对较少。
如何提高非人文社科专业的学生提交的文科通识课论文水平,对任课教师来说是一个必须直面的难点。不可否认,在我评阅通识课的学生论文时,有不少高水平的论文是由非人文社科专业的学生完成的。但此类学生中仍有相当一部分提交的论文像是在用数千字回答一道极为宏大的高考历史问答题。
近年来,选修我讲授的通识课的学生来源发生了显著的变化,人文社科类学生的占比从超过70%降低到了40%,使得帮助非人文社科专业的学生提高论文写作水平的需求更为迫切。综合上述考虑,对于人文类通识课来说,需要为学生在学期内提供个性化指导,以提高他们撰写人文类论文的能力,且指导的内容仅限于规则讲授、初步评价、资料推荐,不包括为学生直接提供论文选题或生成研究内容。这既能解决一个长期以来被忽视的学业转段后的学习难点,也能限制性利用新的技术手段。指导的目标是为了提高论文的下限,帮助学生,使用符合规范的表达形式,并将更多的时间用于寻找研究问题。这便是我为AI助教设置的工作目标和工作场景。
岗前培训:这位助教该学点什么?
训练AI智能体的常用手段是提供系统提示词、高质量知识库和问答对。三者共同的目标是减少通用大语言模型生成时出现幻觉,提供更可靠、更有针对性的答案。系统提示词即是智能体工作的准则,可以提供的文本总量较少,形式上则要便于AI访问和使用。其中需要解释AI助教的工作目标、主要技能和运行中的限制。目标和技能都包括三个方面,即梳理课程内容、确定论文选题和提高写作质量。具体而言,涉及到智能体应优先访问哪些资料,哪些选题符合课程要求并更具有可操作性,以及写作中的注意事项。至于AI助教的行为限制,则包括该智能体只能提供建议,不能代为生成文稿,以及面对现有知识库不能覆盖的问题时,智能体应如何解决。
图4:训练AI助教的步骤和主要内容
知识库中的资料和智能体的目标与技能相互呼应,包括三个部分。第一部分是课程最主要的知识点整理和主要参考文献,第二部分是论文写作指导,第三部分是学术规范和AI使用规范。准备第一部分内容的难度最高,原因是要将现有的教学详案重新梳理,根据时间、空间和主题归纳知识点,再以便于机器使用的形式来呈现。由于这门课的知识点并不是学生需要通过AI助教学习的内容,只是作为帮助学生选题的背景知识,因此覆盖的范围越大越好,而非结构化程度越高越好。直接为知识库提供文稿比向学生提供知识图谱更能匹配这个智能体的任务。
第二部分的内容根据学生写作论文的流程展开,包括可用于查找文献的数据库信息、选题原则与不同选题的侧重和难度、如何实践历史学的研究方法、运用其他学科方法的原则和论文自查的要点。其中的数据库信息与学校图书馆提供的电子资源库匹配,引导学生从可以获得的资源中找到合适的资料。对于选题的建议则基于课程主题、不同时段的主要研究问题和不同研究问题的难度等。这些建议源自以往评阅中发现的问题,包括论文选题和课程主题在时空范围上不匹配,或者是用当代概念去分析更早时段的现象,又或是学生自以为是“历史研究”的问题,实则只是现象描述。不适当的选题背后,折射的是学生对时空观念、概念工具、史学论点构建等史学研究的基础知识未很好掌握。因此,调整选题的过程,其实是增进学生对“什么是历史研究”的认识的过程。
与研究方法和论文自查要点有关的内容包括论文必要的组成部分、每个部分适当的长度、关键部分的内容构成等等。自查要点与课程的评分标准对齐,与第三部分的规范性文件呼应。我设置的论文评分标准包括四大类17个子项和往年失分点分析,其中有大量涉及对论文的形式要求,而非内容要求。此举不仅是为了便于AI助教开展有针对性的评价,也是因为形式要求既稳定,同时能提高论文的学术性。
这里所说的“学术性”不仅是为了让论文排版上“看起来像”论文,而是因为遵从形式要求的过程中,不擅长史学论文写作的学生能慢慢将“广而全”的史实罗列向“专而精”的学术研究推进。例如,学生在询问课程论文要求时,会发现需要讨论研究前史,即“文献回顾”。学生要得到这部分分数,就需要明白这项工作的重点和目的。AI助教可以从知识库中访问到相关内容,并引导学生在写作文献回顾的过程中,寻找有新意的研究问题,还可以为学生提供初步的质量评价。
图5:逐步获得有关“文献回顾”的信息、要求、步骤和质量评价的示例问答
第三部分的规范包含两份文件,一份是复旦大学通识教育中心提供的格式与引用规则,另一份是复旦大学公布的AI使用规则。未能被这两份规则包括的少量要求是在课堂上提供的,也在可供学生下载的课件中进行了说明。此举是为了通过论文中的细节表现来了解学生课堂学习的效果,让期末成绩能更好地反映学生学习的整体情况。
在系统提示词注入和知识库搭建完成后,我与AI助教进行了几轮对话,提出了几个比较基本的问题。AI助教给出的答案基本符合我的预期,能优先访问相关性更高的高质量资料。由于此前从未使用过AI助教,我选择通过初代AI助教来收集学生的问题,在训练二代AI助教时提供更有针对性的问答对。
工作实测:这位助教解答了哪些问题?
从2025年9月上线,到12月提交论文,选课学生中有超过75%访问了AI助教,约60%向AI助教提出了问题。在所有提出问题的学生中,约有40%进行了10轮及以上的对话。从访问时间来看,出现过两个高峰。第一个高峰在10月,命中提问的信息主要来自大模型本身。第二个高峰在12月,命中问题的信息主要来自知识库。
图6:访问时间和命中量
如果对学生提问的内容和机器的回答进行更为细致的分析,既能发现他们感兴趣的问题,也能观察他们提问的方式,以及智能体是否可以准确地理解学生的意图,并以符合我预期的方式来回答。下图按照论文写作的工作流程排定先后展现学生提出不同类型的问题的比例。我对“访问知识库”的界定比AI助教平台定义的“知识库命中”显然要宽泛一点,包含了系统提示词发挥约束作用的情况。
图7:学生提问分类汇总表
从学生的需求来看,他们最希望利用AI助教帮助寻找文献资料,或是为某个主题提供推荐读物,或是为自己看到的文献提供出处。AI助教在回答这部分问题时主要利用大模型预训练信息,较少访问知识库中的信息。有学生使用后反馈称,虽然这个智能体虚构文献的情况不能算十分严重,但并未完全避免虚构的情况出现。
学生的第二大需求是希望AI助教生成内容,包括名词解释、概括上传的文件内容、翻译英语文献等。智能体在完成此项工作时一般会调用知识库的内容协助回答,只有在学生明确提出要求分析上传文件时,才不会被系统提示词或知识库约束。
与第二大需求接近的是提供评价,其中一半是让AI助教评价论文选题是否符合课程要求,另一半是希望评价自己写的论文是否符合要求。多数情况下,AI助教能通过访问论文写作要求来进行有针对性地评价,但偶尔会直接用大模型预训练的结果提出建议,让引导变成了误导。
需求占比排在第四位的是和选题有关的问题,包括课程对选题的要求、对选题的建议,还有对选题的评价。这部分中和评价有关的数据是和“提供评价”这类需求中的数据重合的。从占比来看,多数学生是在有选题意向后希望AI助教能确认是否符合课程要求,较少学生会先提出让AI助教陈述要求,随后自行参照。这种做法也和与写作建议有关的问题甚少被提到相呼应。学生在提问时很少让AI助教直接输出知识库的信息,尤其是和学术规范有关的信息。在评阅论文时,没有准确掌握学术规范的论文比例和往年基本相当,可见即便有了互动式学习工具,学生依然缺乏主动询问学术规范的意识。
面对学生提出的所有问题,AI助教遵循系统提示词中设定的原则,拒绝回答的占10%左右,主要是学生让AI助教提供论文选题或者生成某些内容。有几位经过了与AI助教的多轮问答后,并不信任AI助教的答案,便与老师联系以获得确认。这种质疑智能体生成内容的做法获得了我的肯定。虽然AI助教给出的答案符合我的设定,但对现阶段智能体输出的结果保持警惕依然是必要的。
反思:如何让AI助教更好地发挥作用?
在与AI助教进行了多轮问答的学生中,专业背景并不是影响他们提问质量与效果的决定性因素。学生向智能体提问的方式、对于研究问题本身和对论文评价要点的熟悉程度影响了他们是否能从AI助教这里获得更高质量的答案。所以,如果要让学生从AI助教这里获得更多可靠且有效的答案,除了提供匹配他们需求的高质量问答对作为示例,也要帮助他们提高提问的能力。
要提高这种能力意味着提供三方面的补充知识。一是如何使用结构化的提问形式和提示词帮助AI解码问题,从而更明确地表达需求。二是了解撰写论文每一个阶段要解决的问题是什么,以及通常是以何种方式获得这些问题的答案。三是理解什么是“研究性问题”。如果学生能理解文科学术论文和高考历史问答题之间的巨大差别,也就不会把AI生成的描述性的史实罗列变成论文的一部分,将更多的精力投入到提出研究问题并探求答案之上。这些知识可以通过AI助教来提供,可以在课堂上讲授,也可以作为补充阅读材料。让学生提问的能力匹配目前智能体回答问题的能力,仍是这一阶段利用人工智能教学工具的重要前提。
在常规教学内容方面,面对尚未完全适应通过与智能体互动的方式来学习的学生,依然需要为他们提供常规的学习材料。虽然此次依然为学生提供了这部分材料,但仍有许多学生忽视了这部分内容。对于在传统课堂中成长起来的学生而言,传统的教学方法和内容仍有长期保留的必要性。
(声明:已在课堂上告知选课学生,他们与AI助教互动的数据将被用作公开发表的文章素材,并承诺不会公开具体的问答内容,故本文不展示问答实例。)