中国人讲汉语,英国人和美国人主要讲英语,日本人主要讲日语。
初中上计算机课的时候,老师讲过——计算机里面本质上存储的是0和1。
在计算机里面记录文字也有这样的特点:
英文 有自己的0和1组成的编码
日文 有自己的0和1组成的编码
汉语 有自己的0和1组成的编码
如下图:

最开始的时候,网络没有那么发达,各个国家使用各自的编码方式。以中国为例:
作为中国人,常用的字符编码有ASCII、 Unicode、UTF-8、GBK(简、繁体字融于一库)、GB2312(简体中文字符集)、BIG5(繁体中文字符集)。
后来,随着网络通信和计算机在应用领域越来越发达,需要将世界上所有的语言和符号统一在一起,于是大家约定了Unicode编码,将中文、英语、日本语、韩语、法语…… 全都包含在里面。于是,就有了Unicode编码。
但是早些年网络带宽和存储成本较高,大家又约定了一个简化一些的Unicode编码,根据不同的字符实现占据不同的存储长度,又定义了一个节约存储空间、可变化长度的UTF-8编码。
所以,大家写代码的时候统一使用 UTF-8编码哟。
为了保证字符集的统一性,有的时候会在写Python代码之前声明一句话:
# -*- coding: utf-8 -*-
或者:
#coding=utf-8
推荐使用下面一种,因为更加简洁。
注:
世界上有各种各样的编码语言,每个字符表示的编码字符都是不一样的,而Unicode码就是将世界上所有编码语言汇在一起,每个字符所表示的编码代号都是独一无二的。
另外:UTF-8 它是属于Unicode码的哟。
本文原创,转载需注明来源:python李文凯