Использование HTML Agility Pack и CSS Selectors

Введение

В следующих примерах используется HTML Agility Pack (НАР), чтобы загрузить HTML в объект модели документа (DOM) и разбить на узлы. Дополнительно есть случаи, когда приходилось анализировать документ об элементах, которые не являются действительно узлами, такие как комментарии.

В дополнение к наблюдениям около HAP в целом будут указаны методы расширения, предоставляемые пакетом HAP.CSSSelectors, что позволяет значительно проще выбирать.

Задний план

Был успешно использован Html Agility Pack для клиента, проанализированы HTML документы, чтобы извлечь необходимую информацию. Расширения CSSSelector будет добавлять новый мощный уровень абстракции, чтобы собрать необходимые данные.

Использование кода

Пакеты для примера нужно будет импортировать с помощью NuGet. Описания пакетов будут загружены в проекте, но нужно будет установить менеджер пакетов NuGet для восстановления библиотек.

В проект был включен очень простой HTML файл с примерами вопросов, которые необходимы для решения своих проектов.

Чтобы проверить без лишних изменений, необходимо скопировать файл HTML в следующем дисководе и каталоге - C: \ TestData.

HtmlAgility имеет ряд классов, доступных для его добавляемых классов и перечисления, которые представляют различные части DOM, эти классы включают HtmlAttribute, HtmlAttributeCollection, HtmlCommentNode и так далее.

Первый класс, который мы будем изучать, это HTMLDocument класс. Этот класс имеет методы для загрузки и анализа документа в его соответствующих частях.

В исходном коде вызывается каждая секция кода, использующая номенклатуру (часть X), где X представляет собой число.

Чтобы использовать, следующая строка должна быть реализована:

HtmlAgilityPack.agpack = new HtmlAgilityPack.HtmlDocument();

Следующий метод вызывает метод для загрузки документа. Вы можете загрузить его из строки:

agpack.LoadHtml(Html string)

//or from a resource –

agpack.Load(@"c:\testdata\testdat.htm");

Файл в себя включает недостающий закрывающийся тег шрифта и неуместный закрывающий тег. Он прекрасно работает в браузере, не выдает ошибку в HAP, но может быть проверенным на это.

var errors = agpack.ParseErrors;

ParseErrors будет возвращать коллекцию и подсчет ошибок. Достаточно интересная вкладка, закрытие шрифта не выдаст ошибку.

После того, как документ был загружен, двумя основными способами для поиска являются:

SelectNodes(string XPath) // from the DocumentNode

GetElementbyId(string Id) // from the HtmlDocument

Поскольку может быть только один ID, getElementById вернет один узел и SelectNodes вернет коллекцию узлов, потому что с помощью XPath он может соответствовать одному или нескольким элементам.

Находим приложение, где будет добавляться несколько файлов вместе, ограничивающее каждый документ с начальным и конечным комментариями. Ниже показано, как обрабатывать разделения этого документа обратно в его составную часть. Файл, который включен, имеет секцию, которая очерчена с комментариями:

HTML Body

Вы можете использовать следующую команду, чтобы получить комментарий:

var comment = agpack.DocumentNode.SelectNodes("//comment()[contains(., 'Start Table:')]");

Это говорит от всего документа ("//") выбор комментариев, что содержат от текущего местоположения (.) слово Начало табл.

Так как это является комментарием, то не имеет дочерних узлов и внутреннего текста, только текст самого комментария. Это полезно, если то, что вы хотите сделать - это разобрать комментарий, чтобы определить значение в комментарии (номер счета в данном случае), но на самом деле не поможет, если вы хотите видеть текст между комментариями. Чтобы достичь этого, возвращаемся обратно в регулярные выражения и группировки.

var html = Regex.Match(agpack.DocumentNode.InnerHtml,@"(?.*)",RegexOptions.Singleline).Groups[1];

Теперь в html.Value имеется текст между двумя тегами.

Переходим к нахождению элементов в DOM, первый пример находит узел, используя getElementById. Есть три таблицы, но только два идентификатора возложены на них. Одним из них является ID = "abc", другой ID = "table3".

Видео курсы по схожей тематике:

C# 5.0 для профессионалов

Олег Кулыгин

Entity Framework 6

Назар Рудь

Подготовка к собеседованию в IT компании. Вопросы и ответы. Хитрости. Трюки.

Александр Шевчук

Начнем с таблицы ID = "abc":

var node = agpack.GetElementbyId("abc");

Это вернет один узел, представляющий таблицу. InnerHtml будет содержать весь текст между тегами.

Он также будет содержать набор узлов, представляющих DOM структуру таблицы.

Один из подходов к получению узла строк заключается в использовании Linq, чтобы обнаружить их:

var rownodes = node.ChildNodes.Where(w => w.OriginalName == "tr");

Если проверить подсчет, вы увидите, что у вас есть три строки. Однако, на самом деле существует четыре ряда, первый записанный не будет найден.

Другой подход заключается в использовании SelectNodes на узле, чтобы обнаружить элементы tr.

rownodes = node.SelectNodes("tr");

Но это также проблема - найти все строки, проще найти элементы управления.

Как насчет node.SelectNodes ("/ tr")? Это ничего не возвращает.

Как насчет node.SelectNodes ("// tr")? Хорошая новость состоит в том, что он нашел недостающую строку вместе со всеми строками (12) в документе.

После небольшого углубления нашлись следующие два рабочих решения:

rownodes = node.SelectNodes(node.XPath + "//tr");

//or

// http://www.w3schools.com/xsl/xpath_axes.as

rownodes = node.SelectNodes("descendant::tr");

это возвращает все четыре. Возможно, HAP делал бы SelectNodes от текущего узла "//tr" и работал бы, увы "//" - говорит искать от корня документа. Но второй вариант работает, как потолок от выбранного узла.

Аналогичным образом мы можем найти все td элементы, используя те же процедуры. Отметим, что для таблицы нужно 3 вернуть двенадцать td элементов, даже если они являются дочерними.

node = null;

node = agpack.GetElementbyId("table3")

nodes = node.SelectNodes("descendant::td");

Переходим к HAP.CssSelectors.

Это находится на вершине HtmlAgility пакета и будет на самом деле обеспечивать установку в качестве части пакета NuGet.

Это позволяет выбрать элементы, используя CssSelectors, нежели XPath. Например:

rownodes = agpack.QuerySelectorAll("#abc tr");

В этом случае не нужно искать в узле, просто, выбрав из всего документа, он вернет ожидаемых 4 ряда.

listTDNodes = agpack.QuerySelectorAll("#table3 td");

Ниже приведен пример получения только s (три) во втором ряду.

listTDNodes = agpack.QuerySelectorAll("#table3 tr:nth-child(2) td");

Это вернуло двенадцать пунктов, четыре ряда из 3 колоноки. Одно замечание. Способ QuerySelectorAll возвращается, как список <узлов>, а не коллекция узлов. Это важно знать, если планировать смешивать и сочетать.

Бесплатные вебинары по схожей тематике:

Инструменты современного фронтенда: Yarn, webpack, React, Angular, Babel, ESLint, TypeScript, Sass, Styled-Components.

Никита Стариченко

Какой язык программирования выбрать в 2022 году?

Виталий Мазяр

Кто есть кто в IT компании. Структуры и роли

Александр Марченко

В дополнение к выбору по идентификатору (#) можно выбрать по классам (.), это гораздо проще, чем искать атрибут с классом, используя XPath.

listTDNodes = agpack.QuerySelectorAll(".table");

Возвращаем первую и третью таблицу с классом table.

Точки интереса

В заключении скажем, что продление CssSelectors - это еще один полезный инструмент для легкого выбора элементов, без необходимости копать вглубь XPath или перебирать коллекции.

Источник: http://www.codeproject.com/Articles/1038320/Using-HtmlAgility-pack-and-CssSelectors