一個(gè)小故事
三年前,我在一篇博客里不無自豪的記錄了python編寫的小函數(shù),當(dāng)時(shí)感覺python真強(qiáng)大,11行代碼就寫出了一個(gè)配置文件的解析器。
def loadUserInfo(fileName):
userinfo = {}
file = open(fileName, "r")
while file:
line = file.readline()
if len(line) == 0:
break
if line.startswith('#'):
continue
key, value = line.split("=")
userinfo[key.strip()] = value.strip()
return userinfo
最近正在跟同事學(xué)習(xí)python在數(shù)據(jù)挖掘中的應(yīng)用,又專門學(xué)習(xí)了一下python本身,然后用list comprehension簡化了以下上面的代碼:
def loadUserInfo(file):
return dict([line.strip().split("=")
for line in open(file, "r")
if len(line) > 0 and not line.startswith("#")])
這個(gè)函數(shù)和上面的函數(shù)的功能一樣,都是讀取一個(gè)指定的key=value格式的文件,然后構(gòu)建出來一個(gè)映射(當(dāng)然,在Python中叫做字典)對象,該函數(shù)還會跳過空行和#開頭的行。
比如,我想要查看一下.wgetrc配置文件:
if __name__ == "__main__":
print(loadUserInfo("/Users/jtqiu/.wgetrc"))
假設(shè)我的.wgetrc文件配置如下:
http-proxy=10.18.0.254:3128
ftp-proxy=10.18.0.254:3128
#http_proxy=10.1.1.28:3128
use_proxy=yes
則上面的函數(shù)會產(chǎn)生這樣的輸出:
{'use_proxy': 'yes', 'ftp-proxy': '10.18.0.254:3128', 'http-proxy': '10.18.0.254:3128'}
list comprehension(列表推導(dǎo)式)
在python中,list comprehension(或譯為列表推導(dǎo)式)可以很容易的從一個(gè)列表生成另外一個(gè)列表,從而完成諸如map, filter等的動作,比如:
要把一個(gè)字符串?dāng)?shù)組中的每個(gè)字符串都變成大寫:
names = ["john", "jack", "sean"]
result = []
for name in names:
result.append(name.upper())
如果用列表推導(dǎo)式,只需要一行:
[name.upper() for name in names]
結(jié)果都是一樣:
['JOHN', 'JACK', 'SEAN']
另外一個(gè)例子,如果想要過濾出一個(gè)數(shù)字列表中的所有偶數(shù):
numbers = [1, 2, 3, 4, 5, 6]
result = []
for number in numbers:
if number % 2 == 0:
result.append(number)
如果寫成列表推導(dǎo)式
[x for x in numbers if x%2 == 0]
結(jié)果也是一樣:
[2, 4, 6]
顯然,列表推導(dǎo)更加短小,也更加表意。
迭代器
在了解generator之前,我們先來看一個(gè)迭代器的概念。有時(shí)候我們不需要將整個(gè)列表都放在內(nèi)存中,特別是當(dāng)列表的尺寸比較大的時(shí)候。
比如我們定義一個(gè)函數(shù),它會返回一個(gè)連續(xù)的整數(shù)的列表:
def myrange(n):
num, nums = 0, []
while num < n:
nums.append(num)
num += 1
return nums
當(dāng)我們計(jì)算諸如myrange(50)或者myrange(100)時(shí),不會有任何問題,但是當(dāng)獲取諸如myrange(10000000000)的時(shí)候,由于這個(gè)函數(shù)的內(nèi)部會將數(shù)字保存在一個(gè)臨時(shí)的列表中,因此會有很多的內(nèi)存占用。
因此在python有了迭代器的概念:
class myrange(object):
def __init__(self, n):
self.i = 0
self.n = n
def __iter__(self):
return self
# for python 3
def __next__(self):
return self.next()
def next(self):
if self.i < self.n:
i = self.i
self.i += 1
return i
else:
raise StopIteration()
這個(gè)對象其實(shí)實(shí)現(xiàn)了兩個(gè)特殊的方法:__iter__(對于python3來說,是__next__)和next方法。其中next每次只返回一個(gè)值,如果迭代已經(jīng)結(jié)束,就拋出一個(gè)StopIteration的異常。實(shí)現(xiàn)了這兩個(gè)方法的類都可以算作是一個(gè)迭代器,他們可以被用于可迭代的上下文中,比如:
>>> from myrange import myrange
>>> x = myrange(10)
>>> x.next()
>>> x.next()
>>> x.next()
但是可以看到這個(gè)函數(shù)中有很多的樣板代碼,因此我們有了生成器表達(dá)式來簡化這個(gè)過程:
def myrange(n):
num = 0
while num < n:
yield num
num += 1
注意此處的yield關(guān)鍵字,每次使用next來調(diào)用這個(gè)函數(shù)時(shí)都會求值一次num并返回,具體的細(xì)節(jié)可以參考這里。
區(qū)別
簡單來說,兩者都可以在迭代器上下文中使用,看起來幾乎是一樣的。不同的地方是generator可以節(jié)省內(nèi)存空間,從而提高執(zhí)行速度。generator更適合一次性的列表處理,比如只是需要一個(gè)中間列表作為轉(zhuǎn)換。而列表推導(dǎo)則更適合要將列表保存下來,以備后續(xù)使用的場景。
這里也有一些討論,可以一并參看。
更多信息請查看IT技術(shù)專欄