#!/usr/bin/python # $Id:$ # strip-html.py Thu Nov 14 07:05:20 2002 Rnd """ Простейший конвертор HTML -> TEXT """ import urllib, re, string # рег. выр. для тегов и комментариев tag_re = re.compile("|", re.M|re.S) def html2txt(s): """Простейший конвертор HTML -> TEXT""" # убираем теги и комментарии text_doc = tag_re.sub("", web_doc) # убираем пустые строки и возвращаем результат return string.join( filter(string.strip, string.split(text_doc, "\n") ), "\n") def test(url): # чтение документа из сети и печать сконвертированного print html2txt(urllib.urlopen(url).read()) if __name__ == "__main__": test("http://www.karelia.ru/bin/select?table=__k__&res=welcome") # End of strip-html.py