用Python 3000 写点有用的东西 - 解析网页 - JackyCheng2007 - ITeye博客

`

JackyCheng2007

浏览: 249958 次
性别:
来自: 上海

最近访客更多访客>>

囧囧有神

平民圣人

dongguangming88

漆佳峰

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

探索者_技术：不错讲解的比较详细
Java 执行过程详解 - JVM 生命周期
besterzhao：学习了
关于 sun.misc.Unsafe
lliiqiang：属性变量被设定为不可更改的，外界传递的对象复制一份再保存到对象 ...
不可变类(immutable class)
xunke515：有启发.感谢
Java System 类详解 - in, out, err
bo_hai：你说没错。问题是：怎么样把ClassA中的事务传播到Class ...
Spring 事务在多线程环境下的传播

用Python 3000 写点有用的东西 - 解析网页

博客分类：

Python

Python F#Google Java HTML

阅读更多

读网页

1. 打印出网页

import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line)
finally:
    f.close()

显示出来的比较乱，尤其是中文没有显示出来。

2. 解决中文问题

引用

hello.txt
中文显示测试
中文！

f = open("c:/hello.txt")
try:
    for line in f:
        print(line)
finally:
    f.close()

看来直接显示中文没有问题。

3. 尝试decode

import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line.decode('cp936'))
finally:
    f.close()

搞定！'cp936'是什么？有人说就是指系统里第936号编码格式，也就是GB2312。也有人说就是GBK。Anyway，正常显示出来了。下一步尝试用html.parser — Simple HTML and XHTML parser

4.用html.parser
顾名思义，html.parser就是用来解析HTML文本文件的。是Python标准库之一。

import urllib.request
from html.parser import HTMLParser

url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
source = f.read().decode("cp936")

parser = HTMLParser()
parser.feed(source)

分享到：

RPM 与 SRPM | 买二手房时的注意事项 - 留意上家户口是否 ...

2008-12-16 22:09
浏览 1786
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python网络爬虫项目实战-网页内容解析: “爬虫”是一种形象的说法。互联网比喻成一张大网，爬虫是一个程序或脚本在这种大网上爬走。碰到虫子（资源），若是所需的资源就获取或下载...本资源为Python网络爬虫项目实战---网页内容解析，有需要的可以下载学习

爬有道字典虫python: 初学者，使用python进行爬取网页上简单的东西，使用beautifulsoup工具进行html界面解析。

python深度解析之深入理解爬虫进阶.pdf: 互联网大型企业都有自己数据展示平台，都会想办法去保护自己的数据，标准的说法...理论上来说，只要你在网页上能看见的东西，都是可以爬下来的，为什么敢这么说，因为就是这么自信，自信的男孩运气往往都不会太好，囧。

scrapy结合selenium解析动态页面的实现: 1. 问题虽然scrapy能够完美且快速的抓取静态页面，...然后你得去调ajax的接口，然后解析json啊，转成python字典啊，然后才能拿到你想要的东西妹的就不能对我们这些小爬爬友好一点吗？于是大家伙肯定想过，“为啥不

Python实现多线程抓取网页功能实例详解: 本文实例讲述了Python实现多线程抓取网页功能。分享给大家供大家参考，具体如下：最近，一直在做网络爬虫相关的东西。看了一下开源C++写的larbin爬虫，仔细阅读了里面的设计思想和一些关键技术的实现。 1、larbin...

基于Python的scrapy的使用: 下载器的基础是twisted，一个Python网络引擎框架。爬虫(Spiders): 用于从特定的网页中提取自己需要的信息, 即Scrapy中所谓的实体(Item)。也可以从中提取出链接，让Scrapy继续抓取下一个页面管道(Pipeline): 负责...

python爬虫小实例: 打开目标网页用浏览器自带的开发者工具对当前页面进行解析，发现当前所有套图的链接都在这个html文件源码里面一个套图对应一个div，我们打开其中一个，找到一个为h2的标签，再看它下面的子标签a里面的href属性，...

Python爬虫进阶之爬取某视频并下载的实现: 这几天在家闲得无聊，意外的挖掘到了一个资源网站...2、使用Selenium对网页进行模拟访问。源代码问题好解决，重要的是我获取的源代码中有没有我需要的东西。我再一次进入网站进行F12检查源代码，点击左上角然后在页面

XML轻松学习手册--XML肯定是未来的发展趋势，不论是网页设计师还是网络程序员，都应该及时学习和了解: 作者站在普通网页设计人员的角度，用平实生动的语言，向您讲述XML的方方面面，帮助你拨开XML的神秘面纱，快速步入XML的新领域。 • 第一章:XML快速入门 • 一. 什么是XML？ • 二. XML是新概念吗？ • 三. 使用...

分析Ajax请求并抓取今日头条街拍美图: 2.踩点，打开审查元素，一顿操作后发现终于找到点蛛丝马迹，没错，下面这个JSON对象的data键正是我们要找的东西 3：分析，data里面有个cell_type：67的都没有图片信息(这个可以作为后面过滤URL的条件)，有图片...

web-scraping:网络抓取的东西: 网页抓取包含各种网页抓取脚本的回购euroleague_webcalendar_to_ics.py 我太懒了，无法手动将今年欧洲联赛赛季的团队所有游戏添加到我的日历中，所以我编写了一个脚本以Web方式为我抓取并创建一个.ics文件，该文件...

iuhyiuhkjh908u0980: PrettyFaces优雅的解决了这个问题，包括诸如功能：网页装载行动，无缝的跟faces的导航整合，动态视图的ID分配和管理参数分析，无需配置，兼容其他JSF框架。P ... by zly06 2009-09-09 回复 (0) 相关博客 ant模板 ...

PHP基础教程是一个比较有价值的PHP新手教程！: 与Java和Perl不同,你不必把头埋进100多页的文档中努力学习才可以写出一个象样的程序。只要了解一些基本的语法和语言特色，你就可以开始你的PHP编码之旅了。之后你在编码过程中如果遇到了什么麻烦，还可以再去翻阅...

Global site tag (gtag.js) - Google Analytics