`
JackyCheng2007
  • 浏览: 249958 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

用Python 3000 写点有用的东西 - 解析网页

阅读更多
读网页

1. 打印出网页
import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line)
finally:
    f.close()

显示出来的比较乱,尤其是中文没有显示出来。

2. 解决中文问题
引用
hello.txt
中文显示测试
中文!

f = open("c:/hello.txt")
try:
    for line in f:
        print(line)
finally:
    f.close()

看来直接显示中文没有问题。

3. 尝试decode
import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line.decode('cp936'))
finally:
    f.close()

搞定!'cp936'是什么?有人说就是指系统里第936号编码格式,也就是GB2312。也有人说就是GBK。Anyway,正常显示出来了。下一步尝试用html.parser — Simple HTML and XHTML parser

4.用html.parser
顾名思义,html.parser就是用来解析HTML文本文件的。是Python标准库之一。
import urllib.request
from html.parser import HTMLParser

url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
source = f.read().decode("cp936")

parser = HTMLParser()
parser.feed(source)



分享到:
评论

相关推荐

    Python网络爬虫项目实战-网页内容解析

    “爬虫”是一种形象的说法。互联网比喻成一张大网,爬虫是一个程序或脚本在这种大网上爬走。碰到虫子(资源),若是所需的资源就获取或下载...本资源为Python网络爬虫项目实战---网页内容解析,有需要的可以下载学习

    爬有道字典虫python

    初学者,使用python进行爬取网页上简单的东西,使用beautifulsoup工具进行html界面解析。

    python深度解析之深入理解爬虫进阶.pdf

    互联网大型企业都有自己数据展示平台,都会想办法去保护自己的数据,标准的说法...理论上来说,只要你在网页上能看见的东西,都是可以爬下来的,为什么敢这么说,因为就是这么自信,自信的男孩运气往往都不会太好,囧。

    scrapy结合selenium解析动态页面的实现

    1. 问题 虽然scrapy能够完美且快速的抓取静态页面,...然后你得去调ajax的接口,然后解析json啊,转成python字典啊,然后才能拿到你想要的东西 妹的就不能对我们这些小爬爬友好一点吗? 于是大家伙肯定想过,“为啥不

    Python实现多线程抓取网页功能实例详解

    本文实例讲述了Python实现多线程抓取网页功能。分享给大家供大家参考,具体如下: 最近,一直在做网络爬虫相关的东西。 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术的实现。 1、larbin...

    基于Python的scrapy的使用

    下载器的基础是twisted,一个Python网络引擎框架。 爬虫(Spiders): 用于从特定的网页中提取自己需要的信息, 即Scrapy中所谓的实体(Item)。也可以从中提取出链接,让Scrapy继续抓取下一个页面 管道(Pipeline): 负责...

    python爬虫小实例

    打开目标网页用浏览器自带的开发者工具对当前页面进行解析,发现当前所有套图的链接都在这个html文件源码里面 一个套图对应一个div,我们打开其中一个,找到一个为h2的标签,再看它下面的子标签a里面的href属性,...

    Python爬虫进阶之爬取某视频并下载的实现

    这几天在家闲得无聊,意外的挖掘到了一个资源网站...2、使用Selenium对网页进行模拟访问。源代码问题好解决,重要的是我获取的源代码中有没有我需要的东西。我再一次进入网站进行F12检查源代码,点击左上角然后在页面

    XML轻松学习手册--XML肯定是未来的发展趋势,不论是网页设计师还是网络程序员,都应该及时学习和了解

    作者站在普通网页设计人员的角度,用平实生动的语言,向您讲述XML的方方面面,帮助你拨开XML的神秘面纱,快速步入XML的新领域。 • 第一章:XML快速入门 • 一. 什么是XML? • 二. XML是新概念吗? • 三. 使用...

    分析Ajax请求并抓取今日头条街拍美图

    2.踩点,打开审查元素,一顿操作后发现终于找到点蛛丝马迹,没错,下面这个JSON对象的data键正是我们要找的东西 3:分析,data里面有个cell_type:67的都没有图片信息(这个可以作为后面过滤URL的条件),有图片...

    web-scraping:网络抓取的东西

    网页抓取包含各种网页抓取脚本的回购euroleague_webcalendar_to_ics.py 我太懒了,无法手动将今年欧洲联赛赛季的团队所有游戏添加到我的日历中,所以我编写了一个脚本以Web方式为我抓取并创建一个.ics文件,该文件...

    iuhyiuhkjh908u0980

    PrettyFaces优雅的解决了这个问题,包括诸如功能:网页装载行动,无缝的跟faces的导航整合,动态视图的ID分配和管理参数分析,无需配置,兼容其他JSF框架。P ... by zly06 2009-09-09 回复 (0) 相关博客 ant模板 ...

    PHP基础教程 是一个比较有价值的PHP新手教程!

    与Java和Perl不同,你不必把头埋进100多页的文档中努力学习才可以写出一个象样的程序。只要了解一些基本的语法和语言特色,你就可以开始你的PHP编码之旅了。之后你在编码过程中如果遇到了什么麻烦,还可以再去翻阅...

Global site tag (gtag.js) - Google Analytics