在编程语言中,基本上有三种编码方式

ascii

UTF-8

unicode

还有的就是各国本地的编码方式,比如中国的GBK等

    其中ascii编码是早期的编码方式,其中每个字符或英文字母占一个字节(8bit)留下部分的空间作为扩展使用,

    随着计算机技术的发展,越来越多的国家需要使用本国的语言作为计算机编码,而ascii编码方式使用的局限性越来越严重,在后期的时候发展成各个国家使用各自的编码,如中国采用GBK等编码方式。

    当过编码越来越多的时候,可管理性及重复编码越来越多,国际标准化组织就各编码开发了一种unicode(中文译为万国编码)编码方式,以2个字节作为一个编码,但此种编码方式过于庞大,需要占用大量的空间资源,且以英语为母语的国家来说原先只要采用一个字节就能满足的编码现在需要两个字节是一种其及浪费资源的行为。

    因此在此基础上又发展出了另外一种编码即:UTF-8,它可以简单理解为是unicode的简化版,结合了ascii的内容又结合了unicode的内容,即在ascii编码中还是采用1个字节作为编码,其他扩展内容采用3字节作为编码

    各编码之间的转换:

    各编码之间若需要转换,如gbk转utf-8,或utf-8转gbk,都需要先转成unicode编码

在python2.0里面需要先声名编码方式 ,在3.0中默认的编码格式是unicode,以下内容是声明编码格式

 # _*_ coding:utf-8 _*_

编码之间的转换:

a = '大盗林工'.encode('utf-8')   #默认编码是unicode可直接转utf-8