2-10 文字コードの世界を探ろう

2025年8月2日2026年1月2日

🎯 この時間の目標

文字がどのようにデジタル化されるかを理解する
文字コードの発展の歴史を知る
文字化けの仕組みと対策を学ぶ
現代の文字コード技術の応用を知る

1. 文字のデジタル化とは？

前回は数値の16進数表現を学びました。今度は文字や記号も0と1の組み合わせで表現する方法を学びましょう。

なぜ文字をデジタル化する必要があるの？

コンピュータは数値しか理解できません。しかし私たちは：

「Hello」というメッセージを送りたい
「あいうえお」と入力したい
😊や❤️などの絵文字を使いたい

そこで文字コードという「文字と数値の対応表」が生まれました。

文字コードの基本概念

文字コード：文字や記号を、2進数でどのように表すか取り決めたもの

例：

文字「A」→ 65番目 → 2進数01000001 → 16進数41
文字「0」→ 48番目 → 2進数00110000 → 16進数30

流れの説明：

文字「A」を文字コード表の65番目に登録
コンピュータ内部では2進数01000001で保存
人間が見やすいように16進数41で表記

2. 文字コードの発展史

📅 時代順で見る文字コードの進歩

1960年代：ASCII（アスキー）誕生

7ビットで128種類の文字を表現
英数字のみに対応
アメリカで開発、世界標準に

文字	文字コード番号	16進数	2進数
‘0’	48番目	30	0110000
‘A’	65番目	41	1000001
‘a’	97番目	61	1100001

1980年代：各国独自の拡張

8ビットに拡張（256種類）
日本：JISコード、シフトJIS
ヨーロッパ：ISO-8859シリーズ
問題：国同士でデータ交換ができない！

1990年代：Unicode登場

世界中の文字を一つの体系で表現
絵文字、古代文字まで包含
UTF-8、UTF-16など複数の実装方式

3. 🔍 文字コード対応表を見てみよう

ASCII文字コード表（抜粋）

文字	文字コード番号	16進数	説明
（空白）	32番目	20	スペース
‘0’	48番目	30	数字のゼロ
‘9’	57番目	39	数字の9
‘A’	65番目	41	大文字A
‘Z’	90番目	5A	大文字Z
‘a’	97番目	61	小文字a
‘z’	122番目	7A	小文字z

間に入っている文字の例：

58-64番目：「:」「;」「<」「=」「>」「?」「@」
91-96番目：「[」「\」「]」「^」「_」「`」

💡 気づき：規則性がある！

数字（0-9）：30(16)～39(16)
大文字（A-Z）：41(16)～5A(16)
小文字（a-z）：61(16)～7A(16)
大文字Aと小文字aの間隔：32個分（記号などが間に入っている）

注目！ 下1桁が0～9、A～Fと美しく並んでいる！

4. 例題：文字コード変換

例題1：基本的な文字変換

問題：「Hello」を16進数で表現しなさい。

解答：

文字	16進数
H	48
e	65
l	6C
l	6C
o	6F

答え：48 65 6C 6C 6F

例題2：日本語の文字コード

問題：ひらがなの「あ」について、次の文字コードを調べなさい。

JISコード
シフトJIS
UTF-8

解答例：

文字コード	「あ」の表現	特徴
JIS	2422(16)	日本工業規格
シフトJIS	82A0(16)	Windows標準
UTF-8	E38182(16)	Web標準、3バイト

5. 😵 文字化けの謎を解明しよう

文字化けはなぜ起こる？

文字化け：文字列が意図していない文字や記号に置き換わって表示される現象

原因と具体例

1. エンコードとデコードの不一致

「こんにちは」をUTF-8で保存
→ しかしシフトJISで読み込み
→ 「縺薙ｓ縺ｫ縺｡縺ｯ」のような表示

2. 対応していない文字

古いシステムに新しい絵文字を送信
→ 「？」や「□」で表示

🔬 体験実習：文字化けを作ってみよう

手順：

メモ帳で日本語を含むテキストファイルを作成
文字コードを「UTF-8」で保存
別のエディタで「シフトJIS」として開く
文字化けを観察・記録

6. Unicode：世界標準への道

Unicodeが解決した問題

Before Unicode（問題だらけ）：

各国バラバラの文字コード
データ交換で文字化け頻発
多言語対応が困難

After Unicode（解決！）：

世界中の文字を統一規格で
インターネットでの文字化け激減
絵文字も国際標準に

Unicodeの画期的な特徴

1. 圧倒的な文字数

100万文字以上収録可能
現在約15万文字が登録済み

2. 多様な文字種

現代文字：ひらがな、ハングル、アラビア文字
古代文字：ヒエログリフ、楔形文字
記号：数学記号、音楽記号
絵文字：😊🌟🚀

3. UTF方式の柔軟性

方式	特徴	用途
UTF-8	1-4バイト可変長	Web、メール
UTF-16	2-4バイト可変長	Windows、Java
UTF-32	4バイト固定長	データベース

7. 現代での文字コード活用

プログラミングでの文字処理

# Python例：文字コード操作
text = "Hello, 世界! 🌍"

# 文字をバイト列に変換（エンコード）
utf8_bytes = text.encode('utf-8')
print(f"UTF-8バイト数: {len(utf8_bytes)}")

# バイト列を文字に変換（デコード）
decoded_text = utf8_bytes.decode('utf-8')
print(f"復元された文字: {decoded_text}")

このPythonコードは文字コードの基本的な操作を示す例です。

コードの動作説明

text = "Hello, 世界! 🌍"

ASCII文字（Hello）
日本語（世界）
絵文字（🌍）

という異なる種類の文字がこのテキストには混在しています。

utf8_bytes = text.encode('utf-8')

UTF-8エンコーディングでバイト列に変換すると：

‘H’ → 1バイト
‘世’ → 3バイト
‘🌍’ → 4バイト

という具合に、文字によって使用バイト数が変わります。

Webページでの対策

<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">  <!-- 重要！ -->
    <title>文字化け防止</title>
</head>
<body>
    <h1>こんにちは、世界！ 🌍</h1>
</body>
</html>

8. 練習問題

Level 1：基礎確認

次の文字のASCII文字コードを16進数で答えなさい
- (1) ‘B’
- (2) ‘5’
- (3) ‘z’
16進数 4A は、どの文字を表しますか？
「JAPAN」を16進数で表現しなさい

解答

1. ASCII文字コード（16進数）

(1) ‘B’ → 42(16)
(2) ‘5’ → 35(16)
(3) ‘z’ → 7A(16)

2. 16進数4Aが表す文字

4A(16) = 74(10) → ‘J’

3. 「JAPAN」の16進数表現

J: 4A, A: 41, P: 50, A: 41, N: 4E
答え：4A 41 50 41 4E

Level 2：応用思考

なぜ大文字’A’（41(16)）と小文字’a’（61(16)）の差は20(16)なのでしょうか？
日本語1文字を2バイトで表すとして、40字×40行のページの最大データサイズを計算しなさい

解答

1. 大文字と小文字の間隔が32個分の理由

大文字A（65番目）と小文字a（97番目）の差：32個分
間には記号「[」「\」「]」「^」「_」「`」が入っている
32 = 2⁵なので、ビット操作で大文字↔小文字変換が簡単
プログラミングで効率的な文字変換が可能

2. データサイズ計算

40字 × 40行 = 1600文字
1600文字 × 2バイト = 3200バイト
3200バイト ÷ 1024 = 3.125KB

Level 3：探究活動

あなたの名前を様々な文字コード（UTF-8、シフトJIS等）で表現し、バイト数を比較してみましょう
絵文字が生まれた歴史と、Unicodeに採用された経緯を調べてまとめなさい

ヒント

1. 名前の文字コード比較

オンライン文字コード変換ツールを活用
英語名と日本語名でのバイト数違いに注目

2. 絵文字の歴史調査

1999年：NTTドコモが最初の絵文字セット
2010年：Unicode 6.0に正式採用
現在：年々新しい絵文字が追加中

発展学習：未来の文字コード技術

AI時代の文字処理

自然言語処理：ChatGPTなどでの文字トークン化
多言語翻訳：リアルタイム文字変換
音声認識：音声から文字への変換精度向上

新しい課題と展望

新文字の追加：世界中の少数言語サポート
効率化：より少ないバイトでの表現
セキュリティ：文字を使った攻撃への対策

まとめ

文字コードは「文字と数値の対応表」
ASCII → 各国独自 → Unicode の発展史
文字化けはエンコード/デコードの不一致が原因
Unicodeで世界中の文字と絵文字を統一
現代のプログラミング・Web開発で必須の知識