Python对象类型之索引与切片

发布时间:2021-12-03 公开文章

前言

 

 

 

 

着手开始写的时候就一直有一个画面在脑子中出现:小猪佩奇第N级,猪爸爸拿出来一本《混凝土的故事》,打开书的时候说道:混凝土是由砂子、水、水泥组成的,结果其他人都睡着了。于是,我在想,要是给土木人讲:python万法皆对象,对象类型有:

  • 数字:int,long,float,complex,bool
  • 字符:str,unicod
  • 列表:list
  • 字典:dict
  • 元组:tuple
  • 文件:file
  • 其他类型:集合(set),冻结集合(frozenset),类类型等。

是不是也有人睡着?相反,如果我直接说砂子、水泥、钢筋、混凝土,是不是觉得亲切?所以接下来将会从一砖一瓦的建筑材料说Python。

万法皆对象:在基建领域,你所看到的构筑物就是有以上提到的基础建材组成;在Python领域对象类型就可以看做基础建筑材料,然后由不同的施工工艺产生不同的单体模块或构造物。例如:一个函数(施工工艺)所包含的参数(基础建材),形成一个伪代码

 

伪代码

#围墙条形基础开挖
变量类型:铲子、䦆头、羊角碾、块石、砖头、水泥、混凝土    
#工艺流程:
开挖条形基坑
夯实基础
抛填块片石
混凝土填充找平
砌砖
#以上即为面向过程编程,下面先说说数字类型。

真代码(字符串)

 

 

 

 

 

 

索引和分片

索引

对于一个有序序列,可以通过索引的方法来访问对应位置的值。字符串便是一个有序序列的例子,Python使用 [] 来对有序序列进行索引。

s = "hello world"
s[0]
'h'

Python中索引是从 0 开始的,所以索引 0 对应与序列的第 1 个元素。为了得到第 5 个元素,需要使用索引值 4 。

s[4]
'o'

除了正向索引,Python还引入了负索引值的用法,即从后向前开始计数,例如,索引 -2 表示倒数第 2 个元素:

s[-2]
'l'

单个索引大于等于字符串的长度时,会报错:

s[11]
---------------------------------------------------------------------------

IndexError                                Traceback (most recent call last)

<ipython-input-4-79ffc22473a3> in <module>()
----> 1 s[11]


IndexError: string index out of range

分片

分片用来从序列中提取出想要的子序列,其用法为:

var[lower:upper:step]

其范围包括 lower ,但不包括 upper ,即 [lower, upper), step 表示取值间隔大小,如果没有默认为1

s
s[1:3]

分片中包含的元素的个数为 3-1=2 。

也可以使用负索引来指定分片的范围:

s[1:-2]
'ello wor'

包括索引 1 但是不包括索引 -2 。

lower和upper可以省略,省略lower意味着从开头开始分片,省略upper意味着一直分片到结尾。

s[:3]
'hel'
s[-3:]
'rld'
s[:]
'hello world'

每隔两个取一个值:

s[::2]
'hlowrd'

当step的值为负时,省略lower意味着从结尾开始分片,省略upper意味着一直分片到开头。

s[::-1]
'dlrow olleh'

当给定的upper超出字符串的长度(注意:因为不包含upper,所以可以等于)时,Python并不会报错,不过只会计算到结尾。

s[:100]
'hello world'

使用“0”作为索引开头的原因

使用[low, up)形式的原因

假设需要表示字符串 hello 中的内部子串 el :

|方式|[low, up)|(low, up]|(lower, upper)|[lower, upper] |--|--|--|--|--| |表示|[1,3)|(0,2]|(0,3)|[1,2] |序列长度|up - low|up - low|up - low - 1|up - low + 1

对长度来说,前两种方式比较好,因为不需要烦人的加一减一。

现在只考虑前两种方法,假设要表示字符串hello中的从头开始的子串hel

|方式|[low, up)|(low, up] |--|--| |表示|[0,3)|(-1,2]| |序列长度|up - low|up - low|

第二种表示方法从-1开始,不是很好,所以选择使用第一种[low, up)的形式。

使用0-base的形式

Just to beautiful to ignore.
----Guido van Rossum

两种简单的情况:

  • 从头开始的n个元素;
  • 使用0-base:[0, n)
  • 使用1-base:[1, n+1)

 

  • i+1个元素到第i+n个元素。
  • 使用0-base:[i, n+i)
  • 使用1-base:[i+1, n+i+1)

1-base有个+1部分,所以不推荐。

综合这两种原因,Python使用0-base的方法来进行索引。

土木狗的视角:上一节讲了字符串,我们把一段字符串看做砖头,也说了工地搬砖砌墙的过程中会遇到填空洞或者半截砖,需要用到瓦刀按需截断。事实上,本节的索引和切片也是异曲同工的,比如在爬网络数据的时间中,很多字符串很‘脏’,有空格或者各种非常规的编码字符嵌入其中,最简单的方式就是使用切片功能,至于正则提取,那是后话,到时候会给大家教一招RE正则中的万能法则,本节就不赘述。

 

 

 

 

 

 

 

 

课后作业(可选)

按上一节运行自己的项目,新建一个*.ipynb文件,将上面代码敲入运行。