fork()系统调用的“一次调用和两次返回”

在fork之后是父进程先执行还是子进程先执行是不确定的，这取决于内核所使用的调度算法。当进程调用fork后，当控制转移到内核中的fork代码后，内核会做4件事情:

1.分配新的内存块和内核数据结构给子进程

2.将父进程部分数据结构内容(数据空间，堆栈等）拷贝至子进程

3.添加子进程到系统进程列表当中

4.fork返回，开始调度器调度

从fork函数开始以后的代码父子共享，既父进程要执行这段代码，子进程也要执行这段代码，子进程获得父进程数据空间、stack和heap的副本。现代操作系统并不执行一个父进程数据段，heap和stack的完全复制,而是采用写时拷贝技术（不修改内存时，父进程对子进程是只读，两者共用相同内存页，子进程要求修改数据时才进行复制）。

由于子进程共用/复制了父进程的堆栈段，所以两个进程都停留在fork函数中，等待返回。所以fork函数会返回两次,一次是在父进程中返回，另一次是在子进程中返回，两次的返回值不同，

如果不深入内核代码来解释：父进程返回子进程pid，这是由于一个进程可以有多个子进程，如果没有一个函数可以让一个进程来获得这些子进程id，那谈何给别人你创建出来的进程？又谈何实现进一步的进程间交流呢？而子进程返回0，可以认为新子进程无子进程，所以返回值为0。

如果深入内核代码来解释：本质上是切换到内核态时系统内核函数完成了实现两种返回值的操作，在上述fork()系统调用图中的内核copy_process()函数以及其调用的copy_thread()函数中有以下代码：

1
__latent_entropy struct task_struct *copy_process(
2
          struct pid *pid,
3
          int trace,
4
          int node,
5
          struct kernel_clone_args *args)
6
{
7
  int pidfd = -1, retval;
8
  struct task_struct *p;
9
  struct multiprocess_signals delayed;
10
  struct file *pidfile = NULL;
11
  const u64 clone_flags = args->flags;
12
  struct nsproxy *nsp = current->nsproxy;
13
// ......
14
  total_forks++;
15
  hlist_del_init(&delayed.node);
16
  spin_unlock(&current->sighand->siglock);
17
  syscall_tracepoint_update(p);
18
  write_unlock_irq(&tasklist_lock);
19

20
  if (pidfile)
21
    fd_install(pidfd, pidfile);
22

23
  proc_fork_connector(p);
24
  sched_post_fork(p);
25
  cgroup_post_fork(p, args);
26
  perf_event_fork(p);
27

28
  trace_task_newtask(p, clone_flags);
29
  uprobe_copy_process(p, clone_flags);
30
  user_events_fork(p, clone_flags);
31

32
  copy_oom_score_adj(clone_flags, p);
33
//父进程中返回子进程PCB，进而获得其pid作为fork函数返回值
34
  return p;

1
new_ssp = shstk_alloc_thread_stack(p, clone_flags, args->stack_size);
2
  if (IS_ERR_VALUE(new_ssp))
3
    return PTR_ERR((void *)new_ssp);
4

5
  fpu_clone(p, clone_flags, args->fn, new_ssp);
6

7
  /* Kernel thread ? */
8
  if (unlikely(p->flags & PF_KTHREAD)) {
9
    p->thread.pkru = pkru_get_init_value();
10
    memset(childregs, 0, sizeof(struct pt_regs));
11
    kthread_frame_init(frame, args->fn, args->fn_arg);
12
    return 0;
13
  }
14

15
  /*
16
   * Clone current's PKRU value from hardware. tsk->thread.pkru
17
   * is only valid when scheduled out.
18
   */
19
  p->thread.pkru = read_pkru();
20

21
  frame->bx = 0;
22
  *childregs = *current_pt_regs();
23
  //将子进程的fork返回值置为0
24
  childregs->ax = 0;
25
  if (sp)
26
    childregs->sp = sp;
27

28
  if (unlikely(args->fn)) {
29
    /*
30
     * A user space thread, but it doesn't return to
31
     * ret_after_fork().
32
     *
33
     * In order to indicate that to tools like gdb,
34
     * we reset the stack and instruction pointers.
35
     *
36
     * It does the same kernel frame setup to return to a kernel
37
     * function that a kernel thread does.
38
     */
39
    childregs->sp = 0;
40
    childregs->ip = 0;
41
    kthread_frame_init(frame, args->fn, args->fn_arg);
42
    return 0;
43
  }