Как запускать срипт на питоне разобрались. Но для того,чтобы создать полноценный скрипт для обновления простой Rss ленты , необходимо разобраться с использованием регулярных выражений. Это необходимо для того, чтобы наполнять текcтом обновления rss ленты из заголовка между тегами <title> соответсвующих веб страниц.
Регулярные выражения в питоне задаётся посредством модуля re. В общем случае регулярное выражение является шаблоном, созданным с целью сравнения с совокупностью строк, удовлетворяющих конкретной поледовательности. Естественно этот модуль содержит совокупность соответствующих функций. Вообще синтаксис регулярных выражений поддерживается в различных языках программирования. Это в свою очередь облегчает нашу задачу обработки текстовых массивов по заданным правилам. Поэтому для создания своих программ я активно и использую их.
Ну чтож , немного теории…
Нам понадобиться импортировать модуль re посредством
import re
Для того, чтобы использовать регулярные выражения скомпилируем их посредством следующий записи. Компиляция существенно повышает скорость их дальнейшего использования.
expression=re.compile('<title>.*</title>')
Остановимся здесь. Последовательность
<title>.*</title>
означает , что данное регулярное выражение удовлетворяет любой последовательности символов, заключённой между тегами
Что-ж напишем простой скрипт , который позволяет нам отыскать в строке соответствующее регулярное выражение и выведем его. Заодно используем знания запуска из предыдущего урока.
import re import sys STR=sys.argv[1] expression=re.compile('<title>.*</title>') print re.findall(expression,STR)
И сохраним всё выше написанное в файл с именем
python_scr.py
Затем конечно необходимо импортировать модуль python_scr.py с целью создать файл с расширением .pyc.
В дальнейшем, если ввести (указав полный путь к скрипту)
python_scr.pyc "<html> <head><link rel=\"stylescheet\" type=blaabla <title>I want this information</title> end..."
Результат работы скрипта должен быть следующим
['<title>I want this information</title>']
Так чего мы же добились в результате. И где тут rss… Терпение и только терпение… Мы смогли отыскать заголовок страницы. Конечно скрипт незакончен и необходимо доработать считывание из файла и корректную обработку киррилицы… Но зато теперь можно найти текс для обновления нашей rss. Кроме того – это непосредственный пример работы регулярных выражений. Буду писать дальше.