在当今分散的员工队伍中,保持系统的正常运行变得更加重要。这是使工程团队随时准备就绪的五种方法。
在当今的“ 始终开启”世界中,仅从基础架构角度来看还不够。服务不仅需要响应请求,而且还需要确保所有集成点均正常工作,并且它们在应用程序生态系统中的核心功能以预期的方式和预期的速度运行。始终需要一支有弹性的工程团队,尤其是在公司,在这里,身份对于我们所做的一切至关重要。
保持系统正常运行始终很关键,但是,如今的分布式员工队伍比以往任何时候都更为关键。在过去的12年中,我们一直在我的团队中进行实践,因此,我们创造了一些独特的方法来推动整个工程团队的发展。以下是五种入门方法:
监控和可见性
实施持续监控以确保您的团队在紧急情况下能够迅速采取行动至关重要。您必须在应用程序级别进行监视,识别关键的用户流,并确保创建综合交易记录和启发式监视,以在客户体验开始下降之前识别出中断的迹象。
挑战工程师为未知事物做准备的一种方法是通过常规游戏和测试机会,例如SRT(站点可靠性测试)和中断模拟。在这些游戏中,我们将团队一分为二。一个团队的任务是了解如何监视新技术的多个指标,以确保新技术正常运行,并在发现中断后在需要时采取手动措施以恢复服务。另一个团队将有目的地介绍几种破坏模式,并监视它们如何影响系统。在这过程中,我们可以用SparkleComm视频会议系统来进行工作与交流。可以甚至鼓励推动团队超越极限,迫使他们重新评估自己并为下一次学习而努力。
“冗余为王”的态度
为了确保弹性工程,没有单点故障并主动为可能需要“备份”的地方做准备是至关重要的。这看起来像是多个服务器支持的多个单元,并且所有单元都由不同的数据中心支持。当您发送凭据进行身份验证时,如果一个子系统不起作用,则可以重定向到另一个子系统,这样身份验证就可以正常工作,并且对最终用户而言是无缝的。我们花了很多时间来了解故障模式,并确保我们的体系结构可以立即解决这些故障模式。
始终记住,不仅应该在基础架构中,而且在与您依赖的第三方提供商或服务之间,都应该考虑冗余。