理解和配置 Linux 下的 OOM Killer

2013年10月10日 | 标签: linux kernel, mysql, oom killer

最近有位 VPS 客户抱怨 MySQL 无缘无故挂掉，还有位客户抱怨 VPS 经常死机，登陆到终端看了一下，都是常见的 Out of memory 问题。这通常是因为某时刻应用程序大量请求内存导致系统内存不足造成的，这通常会触发 Linux 内核里的 Out of Memory (OOM) killer，OOM killer 会杀掉某个进程以腾出内存留给系统用，不致于让系统立刻崩溃。如果检查相关的日志文件（/var/log/messages）就会看到下面类似的 Out of memory: Kill process 信息：

...
Out of memory: Kill process 9682 (mysqld) score 9 or sacrifice child
Killed process 9682, UID 27, (mysqld) total-vm:47388kB, anon-rss:3744kB, file-rss:80kB
httpd invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0, oom_score_adj=0
httpd cpuset=/ mems_allowed=0
Pid: 8911, comm: httpd Not tainted 2.6.32-279.1.1.el6.i686 #1
...
21556 total pagecache pages
21049 pages in swap cache
Swap cache stats: add 12819103, delete 12798054, find 3188096/4634617
Free swap  = 0kB
Total swap = 524280kB
131071 pages RAM
0 pages HighMem
3673 pages reserved
67960 pages shared
124940 pages non-shared

Linux 内核根据应用程序的要求分配内存，通常来说应用程序分配了内存但是并没有实际全部使用，为了提高性能，这部分没用的内存可以留作它用，这部分内存是属于每个进程的，内核直接回收利用的话比较麻烦，所以内核采用一种过度分配内存（over-commit memory）的办法来间接利用这部分 “空闲” 的内存，提高整体内存的使用效率。一般来说这样做没有问题，但当大多数应用程序都消耗完自己的内存的时候麻烦就来了，因为这些应用程序的内存需求加起来超出了物理内存（包括 swap）的容量，内核（OOM killer）必须杀掉一些进程才能腾出空间保障系统正常运行。用银行的例子来讲可能更容易懂一些，部分人取钱的时候银行不怕，银行有足够的存款应付，当全国人民（或者绝大多数）都取钱而且每个人都想把自己钱取完的时候银行的麻烦就来了，银行实际上是没有这么多钱给大家取的。

内核检测到系统内存不足、挑选并杀掉某个进程的过程可以参考内核源代码 linux/mm/oom_kill.c，当系统内存不足的时候，out_of_memory() 被触发，然后调用 select_bad_process() 选择一个 “bad” 进程杀掉，如何判断和选择一个 “bad” 进程呢，总不能随机选吧？挑选的过程由 oom_badness() 决定，挑选的算法和想法都很简单很朴实：最 bad 的那个进程就是那个最占用内存的进程。

/**
 * oom_badness - heuristic function to determine which candidate task to kill
 * @p: task struct of which task we should calculate
 * @totalpages: total present RAM allowed for page allocation
 *
 * The heuristic for determining which task to kill is made to be as simple and
 * predictable as possible.  The goal is to return the highest value for the
 * task consuming the most memory to avoid subsequent oom failures.
 */
unsigned long oom_badness(struct task_struct *p, struct mem_cgroup *memcg,
			  const nodemask_t *nodemask, unsigned long totalpages)
{
	long points;
	long adj;

	if (oom_unkillable_task(p, memcg, nodemask))
		return 0;

	p = find_lock_task_mm(p);
	if (!p)
		return 0;

	adj = (long)p->signal->oom_score_adj;
	if (adj == OOM_SCORE_ADJ_MIN) {
		task_unlock(p);
		return 0;
	}

	/*
	 * The baseline for the badness score is the proportion of RAM that each
	 * task's rss, pagetable and swap space use.
	 */
	points = get_mm_rss(p->mm) + p->mm->nr_ptes +
		 get_mm_counter(p->mm, MM_SWAPENTS);
	task_unlock(p);

	/*
	 * Root processes get 3% bonus, just like the __vm_enough_memory()
	 * implementation used by LSMs.
	 */
	if (has_capability_noaudit(p, CAP_SYS_ADMIN))
		adj -= 30;

	/* Normalize to oom_score_adj units */
	adj *= totalpages / 1000;
	points += adj;

	/*
	 * Never return 0 for an eligible task regardless of the root bonus and
	 * oom_score_adj (oom_score_adj can't be OOM_SCORE_ADJ_MIN here).
	 */
	return points > 0 ? points : 1;
}

上面代码里的注释写的很明白，理解了这个算法我们就理解了为啥 MySQL 躺着也能中枪了，因为它的体积总是最大（一般来说它在系统上占用内存最多），所以如果 Out of Memeory (OOM) 的话总是不幸第一个被 kill 掉。解决这个问题最简单的办法就是增加内存，或者想办法优化 MySQL 使其占用更少的内存，除了优化 MySQL 外还可以优化系统（优化 Debian 5，优化 CentOS 5.x），让系统尽可能使用少的内存以便应用程序（如 MySQL) 能使用更多的内存，还有一个临时的办法就是调整内核参数，让 MySQL 进程不容易被 OOM killer 发现。

配置 OOM killer

我们可以通过一些内核参数来调整 OOM killer 的行为，避免系统在那里不停的杀进程。比如我们可以在触发 OOM 后立刻触发 kernel panic，kernel panic 10秒后自动重启系统。

# sysctl -w vm.panic_on_oom=1
vm.panic_on_oom = 1

# sysctl -w kernel.panic=10
kernel.panic = 10

# echo "vm.panic_on_oom=1" >> /etc/sysctl.conf
# echo "kernel.panic=10" >> /etc/sysctl.conf

从上面的 oom_kill.c 代码里可以看到 oom_badness() 给每个进程打分，根据 points 的高低来决定杀哪个进程，这个 points 可以根据 adj 调节，root 权限的进程通常被认为很重要，不应该被轻易杀掉，所以打分的时候可以得到 3% 的优惠（adj -= 30; 分数越低越不容易被杀掉）。我们可以在用户空间通过操作每个进程的 oom_adj 内核参数来决定哪些进程不这么容易被 OOM killer 选中杀掉。比如，如果不想 MySQL 进程被轻易杀掉的话可以找到 MySQL 运行的进程号后，调整 oom_score_adj 为 -15（注意 points 越小越不容易被杀）：

# ps aux | grep mysqld
mysql    2196  1.6  2.1 623800 44876 ?        Ssl  09:42   0:00 /usr/sbin/mysqld

# cat /proc/2196/oom_score_adj
0
# echo -15 > /proc/2196/oom_score_adj

当然，如果需要的话可以完全关闭 OOM killer（不推荐用在生产环境）：

# sysctl -w vm.overcommit_memory=2

# echo "vm.overcommit_memory=2" >> /etc/sysctl.conf

找出最有可能被 OOM Killer 杀掉的进程

我们知道了在用户空间可以通过操作每个进程的 oom_adj 内核参数来调整进程的分数，这个分数也可以通过 oom_score 这个内核参数看到，比如查看进程号为981的 omm_score，这个分数被上面提到的 omm_score_adj 参数调整后（－15），就变成了3：

# cat /proc/981/oom_score
18

# echo -15 > /proc/981/oom_score_adj
# cat /proc/981/oom_score
3

下面这个 bash 脚本可用来打印当前系统上 oom_score 分数最高（最容易被 OOM Killer 杀掉）的进程：

# vi oomscore.sh
#!/bin/bash
for proc in $(find /proc -maxdepth 1 -regex '/proc/[0-9]+'); do
    printf "%2d %5d %s\n" \
        "$(cat $proc/oom_score)" \
        "$(basename $proc)" \
        "$(cat $proc/cmdline | tr '\0' ' ' | head -c 50)"
done 2>/dev/null | sort -nr | head -n 10

# chmod +x oomscore.sh
# ./oomscore.sh
18   981 /usr/sbin/mysqld
 4 31359 -bash
 4 31056 -bash
 1 31358 sshd: root@pts/6
 1 31244 sshd: vpsee [priv]
 1 31159 -bash
 1 31158 sudo -i
 1 31055 sshd: root@pts/3
 1 30912 sshd: vpsee [priv]
 1 29547 /usr/sbin/sshd -D

分类：Linux | BSD | Solaris | 评论(20)

Xen 正式进入 Linux 内核

2011年06月6日 | 标签: linux kernel, xen

最近 Linux 内核方面有些感兴趣的新闻， Linus Torvalds 低调的在 Git 内核源代码管理里面加了 Linux 3.0-rc1，正式拉开了 Linux 3.0 的序幕。就下一代 Linux 版本号的选择，Linus 曾经纠结了一段时间，Linus 也强调 3.0 不是里程碑式版本，没有任何重大更新，选定 3.0 这个版本的主要想标注 Linux 诞生20年（在 Linus 看来20年就是个里程碑），还有个原因就是自己不能忍受 2.6.40 以上的版本号。

I decided to just bite the bullet, and call the next version 3.0. It will get released close enough to the 20-year mark, which is excuse enough for me, although honestly, the real reason is just that I can no longer comfortably count as high as 40.

让我们刚兴趣的内核变化不是版本号，是从内核 2.6.39+ 开始 Linux 内核全面、正式的开始支持 Xen，也就是说大家以后编译 Xen 内核的时候不用打补丁了，不用找对应的 Xen 和 Linux kernel 版本号了，可以直接在配置和编译 Linux 内核的时候用 make menuconfig 来勾选 Xen 模块。这将大大增加 Xen 的方便性，继续扩大 Xen 在数据中心的应用。最近 RedHat 和 Ubuntu 纷纷在他们的产品线中抛弃 Xen 选择 KVM 令 Xen 社区非常不安，随着 Xen 正式加入 Linux 内核，给 Xen 社区带来振奋人心的信心，Xen vs KVM 又值得重新考量了。作为一家 Xen VPS 服务商，我们将继续支持 Xen，把 Xen 进行到底。

感谢 Xen 社区四年来为此所做的努力！

分类：Uncategorized | 评论(13)

利用 Linux 内核的多个安全漏洞获得 root 权限

2010年12月10日 | 标签: linux kernel, security, vulnerability

系统安全高手 Dan Rosenberg 发布了一段 C 程序，这段200多行的程序利用了 Linux Econet 协议的3个安全漏洞，可以导致本地帐号对系统进行拒绝服务或特权提升，也就是说一个普通用户可以通过运行这段程序后轻松获得 root shell，以下在 update 过的 Ubuntu 10.04 Server LTS 上测试通过：

$ uname -r
2.6.32-21-server

$ gcc full-nelson.c -o full-nelson
$ ./full-nelson 
[*] Resolving kernel addresses...
 [+] Resolved econet_ioctl to 0xffffffffa0131510
 [+] Resolved econet_ops to 0xffffffffa0131600
 [+] Resolved commit_creds to 0xffffffff8108b820
 [+] Resolved prepare_kernel_cred to 0xffffffff8108bc00
[*] Calculating target...
[*] Failed to set Econet address.
[*] Triggering payload...
[*] Got root!
#

由于 RHEL/CentOS 默认不支持 Econet 协议，所以测试没有通过：

$ uname -r
2.6.18-194.26.1.el5

$ gcc full-nelson.c -o full-nelson
$ ./full-nelson 
[*] Failed to open file descriptors.

如果在企业环境用 Ubuntu 的话可能会比较杯具了，几百个帐号里总可以找到一两个帐号被内部或外部人员通过上面这段程序拿到 root，这对服务器的危害是毁灭性的。前天还在说 Ubuntu 在内核方面无作为，现在想起来还有点后怕。VPSee 提醒正在使用多个普通帐号登录 Ubuntu VPS 的朋友及时升级或打内核补丁，出售 VPN/SSH 帐号、提供免费 SSH 的商家尤其要小心 “客户” 捣乱，使用其他 Linux 发行版的朋友也最好检查一下自己的 VPS 有没有这些高危漏洞。

分类：Linux | BSD | Solaris | 评论(6)

Linux 是谁写的？

2010年12月8日 | 标签: linux kernel

Linux 实际上仅仅指 Linux kernel，而不是指由 Linux kernel 和 GNU 工具组成的操作系统，更不是指 RHEL/Fedora/Ubuntu/Debian/Arch/Gentoo 这些发行版。The Linux Foundation 去年9月份发布了一份 Who Writes Linux 2009 调查报告，这个月又发布了新版本的 Who Writes Linux 2010. 自从2005年开始已经有6100多个开发人员和600多家公司参与到 Linux 内核开发，这可能是人类史上最大、参与程度最高、最成功的开源项目。从一个大学生的个人业余兴趣到目前几乎所有重量级 IT 公司都参与的全球协作项目，Linux 开启了一个时代，虽然 Linux 并没有带来创新的内核或技术，但是 Linux 开创了全新的软件开发合作模式和全新的开源商业模式（确切的说是 RedHat 开创的这种商业模式），而这两种模式的创新让 Linux 取得了巨大的成功。

今天，开源的 Linux 已经离不开商业公司的贡献和参与，约有70%的代码来自这些商业公司和专职的开发人员。对 Linux kernel 贡献最大的是 RedHat，而同样开发流行版本 Ubuntu 的商业公司 Canonical 却没有看到踪影，可能 Canonical 把精力都放在了应用和整合上了吧。目前在企业级服务器市场 RedHat 还是绝对老大，Linux 内核代码贡献前两名 David Miller, Ingo Molnar 以及 Alan Cox, Dave Jones, Frank Eigler, Jon Masters 等这些顶级内核黑客都在 RedHat 工作（过）。技术公司的竞争其实就是人才的竞争，谁家的黑客级、大师级高手多谁家就能建立高门槛把竞争对手挡在门外，Ubuntu 要想在短时间内在服务器市场赶上 RedHat 还感觉有点吃力。

who writes linux

分类：Uncategorized | 评论(2)