C言語の記号定数「EOF」を使うときの心構え

「プログラミング言語C」という書籍に書かれていた内容で印象に残ったコトの話です。まずは以下のソースを見てください。


#include <stdio.h>

int main(void)
{
	int c;

	c = getchar();
	while( c != EOF )
	{
		putchar(c);
		c = getchar();
	}
	printf("終了\n");
}

キーボードで打った文字をディスプレイ画面に表示するだけのプログラムです。EOFを検知するとプログラム終了となります。Linux環境だとEOFはキーボードで「ctrl」+「D」(同時に押す)を入力します。実行結果は以下です。

$ ./a.out
a
a
x
x
終了
$

このときは「a」を入力してリターンキー押下、「x」を入力してリターンキー押下、そして「ctrl」+「D」の入力をしました。

さて、最初のプログラムソースですが違和感とかありますでしょうか?

僕は特になかったです(というかまったく気づいていませんでした)。何を気にするかというと、変数「c」の型です。cには文字が格納できればいいわけですから、intと宣言しなくてもcharで事足りるのでは?ということです。キーボードからの1文字を入力して、ディスプレイにその1文字を表示しているだけですから。実際に変数cの宣言をchar型に変更して同じようにやってみたところ、結果は全く同じでした。

でも、intで宣言する理由がちゃんとあったのです。それは記号定数「EOF」が、はたしてどんな値なのか?ということによります。つまり1バイトしかないchar型でEOFを格納できるのか?ということです。もしEOFが1バイトで収まらなかった場合、桁溢れを起こしてしまいますのでwhileの終了条件にはいつまでたっても合致しません。そのためEOFが収まる十分大きなint型として変数cを宣言していたのです。

では、charとintでどれだけ大きさの違いがあるのかを確認するためlimits.hを見てみました。以下はlimits.hからの抜粋です。


/* Minimum and maximum values a `signed char' can hold.  */
#  define SCHAR_MIN     (-128)
#  define SCHAR_MAX     127

/* Maximum value an `unsigned char' can hold.  (Minimum is 0.)  */
#  define UCHAR_MAX     255

/* Minimum and maximum values a `signed int' can hold.  */
#  define INT_MIN       (-INT_MAX - 1)
#  define INT_MAX       2147483647

/* Maximum value an `unsigned int' can hold.  (Minimum is 0.)  */
#  define UINT_MAX      4294967295U

64ビットOSのLinux(ubuntu)を使用しているのですが、charは1バイト、intは4バイト(2の32乗)の領域を確保しています。ただ先にも書いたように変数cはchar型でも問題なく動きました。EOFの値が何なのかを調べることは可能で、実際に計算させるか、stdio.hにEOFが定義されているのでそれを見るか、です。

実際に計算させるには以下のソースをコンパイルして実行します。


#include <stdio.h>

int main(void)
{
	printf("EOF is %d\n", EOF);
}

結果は「EOF is -1」と表示されます。stdio.hを見てみるとEOFの定義があります。以下は抜粋です。


/* End of file character.
   Some things throughout the library rely on this being -1.  */
#ifndef EOF
# define EOF (-1)
#endif

結果を言うと、EOFは「-1」だからcharでも問題ないわけですね。ただ、EOFは「-1」と覚えてしまうのは危険です。というのもLinux環境の場合、OSがEOFを検知した際にプログラムに「-1」を返すだけであって、他の機種やOSの場合は異なる可能性があるからです。ですから、EOFが収まるであろう十分大きな型であるintを使っているということでしょう。なお「-1」というのはASCII文字コード上には表れない値なので、OSがEOFの印として使っているのでしょう。

ちなみに、記号定数「NULL」についても書いておきます。NULLは通常0(数字のゼロ)なのですが、これは数値ではなくポインタアドレスの位置であって、位置がゼロ(すなわちアドレスがない)ということになります。数字と考えるよりアドレスがあるかないかの印と思ったほうが良いです。なので、NULLを数値のゼロと思ってポインタでない変数の条件式(等号、不等号とか)で使うのはやめましょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です