开篇问题
有一个Linux的多线程程序,在某一台服务器上运行10天后,该程序进程产生了120个线程,此时业务的性能变得很差(可以容易获取业务性能表现的指标)。 我们检查了同时启动服务的其他10台服务器,这10台服务器的业务表现都正常。 我们使用了各种手段分析排查产生性能下降的原因,但没有找到。 不过经过对比,我们对其中一个业务产生了比较大的怀疑,这个业务本身很独立,别的流程对它没有依赖。 我们怀疑这个业务的线程运行过程中执行了某些特殊代码,对系统整体性能产生了影响。 这个业务一共启动了12个线程,而且这个业务也没有运行时开关。 但是我们不能重启程序,因为担心无法复现问题。 现在,怎么来确认这个怀疑是对的还是错的?
大约 8 分钟