分类标签归档:运维

对稳定性工作的一些思考 - 什么是SRE


什么是SRE

最早接触SRE这个名词还是在跟CloudFlare进行一些业务合作的时候,当时他们有一个专门的SRE团队来负责整个CDN系统的稳定性。 本着好奇的心态去了解,发现SRE的全称是(Site Reliability Engineering,aka:站点可靠性/稳定性工程师)成为一名合格的SRE需要同时具备研发(Dev)和运维(OP)的能力。同时它又不仅仅是2个职能的叠加,而是一种对系统稳定性、可用性、团队持续迭代喝持续建设的体系化解决方案。

如何做一名SRE

研发和SRE的区别

那些跟我一样从研发开始接触稳定性工作的选手在刚开始时可能会有类似的问题那就是对于稳定性相关的工作不知...

Read more

Ubuntu编译安装Python3


背景

因为工作原因,所以经常需要给新机器安装Python3运行环境。所以记录一下安装过程,方便后续查阅。

安装Python

下载源码

Python的源码下载需要到官网下载,地址为:

https://www.python.org/downloads/source/

找到需要的版本进行下载,比如: 3.8.2版本。

安装依赖

在编译安装Python之前,需要先安装一些系统依赖,可以使用如下命令:

sudo apt-get install zlib1g-dev libbz2-dev libssl-dev libncurses5-dev  libsqlite3-dev libreadline-d...

Read more

使用filebeat收集k8s集群中的应用日志


最近有一个新的k8s集群上线,在日志收集组件上有2个选择:

1. Logstash
2. Filebeat

logstash是之前用过的日志收集工具,同时logstash的生态也很丰富,大量的插件可以保证它在大部分的场景下都能游刃有余。但是logstash也有它的问题,典型的问题就是性能比较差以及对资源的使用较多;

filebeat则是组内同事推荐,相比于logstash,filebeat很年轻,所以功能比较单一。但是也因为功能单一,所以它相对很健壮,同时对于资源的使用也比较小。

最后考虑到新的集群硬件资源有限,所以决定选择filebeat作为该集群的日志收集组件。

方案选择

在kube...

Read more