【零基础学Python爬虫】Python字符串方法

时间:2018-08-02 16:06:29   来源:上海尚学堂   阅读:
大家好,我们又继续《零基础学Python爬虫》系列。上次介绍了《Python变量与字符串加法、乘法、切片和索引》,今天来看看Python字符串方法。

Python作为面向对象的高级编程语言,每个对象都有相应的方法,字符串也一样,拥有多种方法,在这里介绍爬虫技术中常用的几种方法。

1、spit()方法

a =’www.shsxt.com’
print(a.split(‘.’ ))
# result[‘www',‘shsxt’,‘com']

字符串的split()方法就是通过给定的分隔符(在这里为‘.’),将一个字符串分割为一个列表(以后再详细讲解列表)。

请注意:如果没有提供任何分隔符,程序会把所有的空格作为分隔符(空格、制表、换行等)。

2、repalce()方法

a =‘There is apples’
b = a.replace(‘is',‘are')
print(b)
# result There are apples

这种方法类似文本中的“查找和替换”功能。

3、strip()方法

a =‘ python is cool ’
print(a strip())
# result python is cool

strip()方法返回去除两侧(不包括内部)空格的字符串,也可以指定需要去除的字符,将它们列为参数中即可。

a =‘***python *is *good***’
print(a.strip('*!'))
# result python *is *good

这个方法只能去除两侧的字符,在爬虫得到的文本中,文本两侧常会有多余的空格,只需使用字符串的strip()方法即可去除多余的空格部分。

4、format()方法

最后,再讲解下好用的字符串格式化符,首先看以下代码:

a=‘{} is my love’.format('Python')
print(a)
# result Python is my love
 

字符串格式化符就像是做选择题,留了空给做题者选择。在Python爬虫过程中,有些网页链接的部分参数是可变的,这时使用字符串格式化符可以减少代码的使用量。例如,上海尚学堂官网(https://www.shsxt.com/),当查看Python技术文章时,网页链接也会发生变化,如在栏目中输入python,网页跳转为https://www.shsxt.com/it/python/,可以设计如下代码,笔者只需输入搜索内容,便可返回网页链接。

Content = input(‘请输入搜索内容:’)
url_path=‘https://www.shsxt.com/it/{}/’.format(content)
print(url_path)

运行程序并输入it,便可返回网页链接,单击网页链接便可访问上海尚学堂Python技术文章了。
 
Python字符串方法就讲到这,下次我们在给大家讲Python函数和控制语句。
分享:0

电话咨询

客服热线服务时间

周一至周五 9:00-21:00

周六至周日 9:00-18:00

咨询电话

021-67690939
15201841284

微信扫一扫