Рубрики
Утилиты

Автоматическая очистка HTML кода от “мусора”

Cleaner – сервис очистки тегов от “мусора”, который остается в документе после сохранения страницы в формате из программы .

html-cleaner

Давным давно я написал подобный плагин, но он был сделан на скорую руку, сейчас механизм полностью переписан.

Очистка кода происходит методом перебора введенной строки из которой формируется новая, содержащая “чистый” . Плагин удаляет абсолютно все из тегов, в том числе и из тегов . В непарных тегах проставляется символ /(слеш). Удаляются пустые теги, например конструкция <p></p> будет удалена, так как она ничего не содержит.

Как работает html cleaner?

Есть два способа:

  1. В программе MS Word выберите данные, которые хотите очистить от мусора, чтобы выбрать все, нажмите Ctrl + A. Вставьте скопированный текст в поле ниже(должна быть выбрана вкладка “Вставить данные MS Office”), нажмите кнопку “Готово”.
  2. Перед тем, как оптимизировать код выберите в Word “Сохранить как…”, далее укажите Тип файла “Веб-страница с фильтром”, затем откройте сохраненный файл в текстовом редакторе, скопируйте код и вставьте в поле ниже(должна быть выбрана вкладка “Вставить HTML”), нажмите кнопку “Готово”.

В результате Вы получите девственно чистый html код.
Не тронутыми остаются следующие атрибуты:

colspan, rowspan, href, src, type, value, lang, tabindex, title, code, alt, target, dir, span, action, method, style

Не забывайте оставлять свои комментарии, которые помогут мне исправить ошибки или сделать доработки.

Alex Isaenko

Автор: Alex Isaenko

Блоггер, разработчик, бизнесмен, коуч.

Добавить комментарий

144 ответа к “Автоматическая очистка HTML кода от “мусора””

Замечательный сервис, помог с очисткой и очень понравился в простоте работы. Сегодня опять хот ел им воспользоваться, но вот только что то не могу найти куда подевалась кнопка (должна быть выбрана вкладка «Вставить данные MS Office»). За раннее спасбио за ответ. Планирую и в дальнейшем использовать данный сервис в своих проектах. Поэтому хотелось бы что бы работа плагина была востановленна.

Вкладка находится слева от вкладки “Вставить HTML”, прям над полем ввода. Если она у вас не отображалась, вероятно это было связано с кэшированием страницы. Сейчас вроде бы все нормально. Сообщите, если проблема возникнет вновь. Спасибо за отзыв.

[id58162929|Елена], в принципе возможна, но цель данного сервиса очистить HTML код от мусора, а не заменять теги. Для замены я рекомендую пользоваться стандартными командами автозамены вашего редактора. Например, если вы пользуетесь редактором Notepad++, то необходимо выделить то, что нужно заменить и нажать сочетание клавиш ctrl + H. В появившемся окне в первом поле будет указано то, что вы выделили(то что нужно заменить), а во втором поле надо указать – на что заменить.

например для замены всех тегов h5 на тег p надо выделить h5> и заменить на p. В этом случае замена произойдет всех тегов сразу – и открывающих и закрывающих.

Николай, у меня нет возможности скачать файл, но в данном случае все тоже самое. Надо проделать все те же действия – сохранить документ как html страницу, а затем этот код прогнать через html cleaner. на выходе получите то, что нужно – чистый html.

Добрый день, Алексей!

А как быть со сложными случаями: с сайта Консультант+ сохранил вордовский файл с законом и большим кол-вом таблиц. Цель – скопировать эту информацию на свой сайт. HTML код в данном случае должен быть чистый от мусора. Пробовал и так и сяк – не получается. Может быть Вы что придумаете?

Видимо, ваша программа на “сложных” html удаляет colspan и rowspan. Прогнав свой код сначала через http://shublog.ru/examples/2010.05.19-clean-html.html, получил более объемный текст, но с сохранением colspan и rowspan. Этот текст, прогнанный через вашу программу, уже дает таблицы без лишних width и т.д., но с сохранением colspan и rowspan. Что и было нужно. Спасибо за html cleaner!

Скажите, пожалуйста, как вы сохраняете страницу, как “Веб-страница с фильтром”?
Если вы пришлете образец кода, который чистится не правильно я попытаюсь разобраться.

Это происходит потому, что в теге img ворд вставляет атрибуты height и width со значениями без кавычек. Пока что на исправление этой ошибки нет времени. Но я обязательно решу эту проблему в дальнейшем.

Михаил, приведите, пожалуйста пример кода, который вы чистите(желательно в личку), так как они не должны удаляться и при проверке я не заметил этого.

Такое происходит, когда Вы сохраняете документ без фильтрации. При сохранении документа в Word нужно выбирать “Веб-страница с фильтром” и все будет правильно. Ранее я этого не указал в описании, прошу прощения, исправил.

Спасибо за замечание. Только сейчас руки дошли до того, что бы сделать изменения.
Переписал механизм, теперь не удаляет того, что удалять не надо.

нужно, чтобы оставлял только colspan-rowspan, а он теперь оставляет всё подряд, включая span и прочее

Исправил.

Пришлось опять полностью переписать все. Теперь программа удаляет весь мусор от Word’a и пустые теги, кроме td, затем все атрибуты, которые не определены, как разрешенные, добавляет слэши у не парных тегов, удаляет лишние пробелы и форматирование текста и затем расставляет переносы строк.

В таблице пустые td удаляет (в пред комменте съелось)

прошу прощения за долгий ответ. исправил. Спасибо, что заметили!

Спасибо, что заметили ошибку. Исправил.