不同的网站采用的编解码不同,在获取连接后的用于看得和用于爬取的URL是连接是不同的。
import urllib2uni_str = u'\u559c\u9152DVD.rmvb'uni_url = u'http://thunder.ffdy.cc/EBDA034628B5E6B16C1E79251BF0B25B06CF2C13/\u559c\u9152DVD.rmvb'#编码, 用于发送请求actual_url = uni_url[0:7] + urllib2.quote( uni_url[7:].encode('gbk') )#actual_url = u'http://thunder.ffdy.cc/EBDA034628B5E6B16C1E79251BF0B25B06CF2C13/%CF%B2%BE%C6DVD.rmvb'#解码,查看URLurllib2.unquote(str(actual_url)).decode("gbk")u'http://thunder.ffdy.cc/EBDA034628B5E6B16C1E79251BF0B25B06CF2C13/\u559c\u9152DVD.rmvb'