ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация)

Обсуждения по русски

Moderators: Timur_75, nikolay_l

User avatar
nikolay_l
Posts: 511
Joined: Thu Dec 09, 2010 3:29 pm
Location: Россия, Крым, Севастополь
Contact:

Конвертеры в HTML с интеграцией иллюстраций в тело HTML файл

Post by nikolay_l »

Конвертеры в HTML с интеграцией иллюстраций в тело файла.

WordCleaner
позволяет конвертировать разные форматы (в том числе из RTF) в HTML с использованием трех разных режимов. При некоторых настройках позволяет сохранять файлы иллюстраций отдельно либо в тело файла HTML. Возможно придется долго экспериментировать с настройками - пока не получиться. Я лично использовал заготовку конвертации в XHTML с интегрированной картинкой (на выходе формат HTML) которую правил на лету.
  • Из минусов:
  • Иногда картинки в файлах созданных с помощью Word Cleaner открываются не полностью.
  • Не очень удобный режим пакетной обработки. Возможно его со временем переработают но построение списка файлов в версиях 4.ххх-5.ххх с которыми я работал занимало очень много времени.
  • Нужно быть осторожным с сохранением новых пресетов. Иногда программа сходит с ума из-за нестандартных настроек и потом вообще отказывается работать с нужными настройками. Не помогает ни чистка реестра ни полное удаление с компьютера. Так что настройки лучше запоминать, скринить или записывать на видео.
User avatar
nikolay_l
Posts: 511
Joined: Thu Dec 09, 2010 3:29 pm
Location: Россия, Крым, Севастополь
Contact:

Конвертеры HTML>RTF с интеграцией иллюстраций в тело RTF

Post by nikolay_l »

Конвертеры HTML в RTF с интеграцией иллюстраций в тело RTF файла.
В свое время перепробовал несколько десятков разных конвертаций в разных программах. Приходилось оценивать разные параметры. В частности:
  • Возможность внедрения картинок в RTF (подгрузка из интернета или оффлайн каталога)
  • Сохранение редко встречаемых шрифтов (еврейского и греческого в частности)
  • Сохранение оформления (расстояния между абзацами, отступы, таблицы).
  • Читабельность трансляции ссылок в TheWord (всплывающие подсказки) кликабельность естественно не проверял - итак ясно что работать переходы без манипуляций с исходниками не будут, - только ссылки на внешние источники в формате понятном для браузера.
  • Ну и наконец оценивал - скорость работы.
В общем есть программы которые обладают хорошими параметрами НО и крупными недостатками, - например невозможность конвертации иврита и греческого текста ставит на них крест.

Указанные программы имеют разные преимущества друг перед другом при конвертации разных материалов. Для минимализма файлов рекомендуется HTMLtoRTF 3.1 Pro. Если нужно интегрировать картинки разных форматов в одну страницу то лучше использовать TotalHTML Converter.

HTMLtoRTF 3.1 Pro
особенности:
Очень высокая скорость обработки.
Имеет поддержку командной строки (то есть можно конвертировать заданную папку одним кликом с заранее определенными настройками).
Хорошо сохраняет разметку при конвертации wiki сайтов.
Создает небольшие по объему RTF файлы.
Хорошо сохраняет тексты на разных языках в Unicode.
Имена файлов в Unicode не видит.
Файлы RTF иногда бывали не валидными - не все успешно импортировались в TW3. Так что после нее еще нужно было делать дополнительный проход Амбером. (RTF в RTF)

TotalHTML Converter
особенности:
Часто выдает ошибки.
Разные версии конвертера форматирую ттекст по разному. Возможно какая нибудь версия 1,45 даст лучший результат чем одна из последних.
При наличии автокликера можно пользоваться и триальной версией. Время от времени подавляя всплывающее окно с предупреждением.
Имена файлов в Unicode не видит.
Файлы создает небольшого размера.
Скорость конвертации довольно высокая.
Более-менее нормально сохраняет оформление.
Скачивает из интернета и внедряет в RTF все картинки - PNG, JPG, GIF файлы. Последнее меня вообще убило. Потому что не HtmlToRtf ни Convert DOC не внедряли 2 типа файлов. Впрочем у HtmlToRtf есть опция для конвертации файлов в формат WMF перед внедрением, но это сильно увеличивает размер файла.

ConvertDoc
особенности:
За последние годы как замечают программа практически не изменялась внешне и по количеству опций (версии 4-7).
Имеет поддержку запуска заданий из командной строки что в общем то важно для удобства. Учитывая что родной интерфейс не всегда удобен и предсказуемо себя ведет.
Имеет два режима конвертации - родной и с использованием конвертера MS OFFICE.
Иногда автоматически срывается на альтернативный метод конверсии - особенно при больших объемах файла. При этом обратно режим конвертации (после прохождения проблемного участка) автоматически не восстанавливается. Таким образом может образоваться сборная-солянка из файлов которые заметно отличаются друг от друга по качеству.
  • Родной конвертер ConvertDoc позволяет интегрировать изображения в файл, но не любит символы Unicode в тексте.
    Скорость обработки средняя.
    Качество оформления уступает "офисному".
  • Режим конвертации с использованием MS OFFICE (он используется во многих конвертерах такого плана).
    Хорошо сохраняет текст оригинала с использованием Unicode.
    Качество оформления в целом радует. Если он не прибегает к использованию шрифта Cambria Math.
    Этот режим конверсии не способен внедрять изображения в тело файла.
    Этот режим конверсии работает жутко медленно.
    Размер файлов по сравнению с HTMLtoRTF в этом режиме конверсии просто огромный.
User avatar
nikolay_l
Posts: 511
Joined: Thu Dec 09, 2010 3:29 pm
Location: Россия, Крым, Севастополь
Contact:

Re: ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация

Post by nikolay_l »

Утилита которая качественно конвертирует PDF в RTF.
Пробовал довольно старую триальную версию (но советую обратить внимание)
http://www.sautinsoft.com/products/pdf- ... wnload.php
User avatar
nikolay_l
Posts: 511
Joined: Thu Dec 09, 2010 3:29 pm
Location: Россия, Крым, Севастополь
Contact:

Re: ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация

Post by nikolay_l »

Одна из последних версий (v.4.1.86) Total HTML Converter ОЧЕНЬ порадовала меня.
Можно сказать что мое мнение в пользу этой программы сильно изменилось в лучшую сторону.
(Конвертировал HTM с иллюстрациями и элементами Unicode)

А хотя нет - она имеет проблемы с подхватом картинок.
Как будто кэширует и подставляет старые файлы картинок в новые айлы RTF которые с ними не связаны.
Ужас. :mrgreen:
User avatar
nikolay_l
Posts: 511
Joined: Thu Dec 09, 2010 3:29 pm
Location: Россия, Крым, Севастополь
Contact:

Download Master

Post by nikolay_l »

Сегодня сделал для себя небольшое но важное открытие - оказывается известный менеджер закачек Download Master поддерживает функцию скачивания html страниц с загрузкой изображений. Вы ему даете список URL а он вам страницы с картинками. При этом он корректно раскладывает все по полочкам и у вас потом не возникнет проблем например с принадлежностью той или иной иллюстраций к той или иной HTML странице.

В целом использование Download Master может заметно упростить создание копий онлайновых энциклопедий. Несколько лет тому назад я для этой цели использовал Teleport VLX но это было довольно долго и неудобно. После длительного перерыва и с новым опытом я решил снова заняться онлайновыми ресурсами. С тех пор многое поменялось в голове. Освоил новые методы работы. Так что думаю сейчас будет намного проще.

Сейчас процедура выглядит следующим образом.
Находите страницу со списком статей (гиперссылок) как правило это страницы с алфавитными указателями.
Копируете списки в MS WORD, Сохраняете как файл html
Затем обрабатываете страницу фильтром TextPipe извлекающим URL
Открываете полученный список в блокноте.
Копируете все строки с адресами в буфер обмена
если у вас запущен Download Master то он автоматически перехватит ссылки и предложит закачать их.
Желательно перед этим настроить его на минимум вопросов в ходе скачки а то он выдает много информации по пустякам из-за которой сам он может еще и зависнуть даже. В частности можно отключить запросы о докачке картинок к HTML, звуковые оповещения, и некоторые другие опции.

изначально лучше поставить максимальное число одновременных закачек как 1
После того как программа получит от вас подтверждение "не задавать подобные вопросы в дальнейшем" это число можно выставить хоть на 10.
User avatar
nikolay_l
Posts: 511
Joined: Thu Dec 09, 2010 3:29 pm
Location: Россия, Крым, Севастополь
Contact:

Teleport VLX

Post by nikolay_l »

Ошибся - оказывается в Teleport (у меня VLX версия) тоже реализован импорт списка URL адресов и похоже что он даже лучше подходит для работы. Так как есть возможность оперировать локализацией ссылок и докачкой прочих связанных файлов. Например для Total HTML Converter и HtmltoRtf я иногда не скачиваю файлы картинок для страниц - так как они могут скачивать их из интернета. Когда например имена картинок хранятся в базах данных на русском языке то этот вариант позволяет избавиться от необходимости последующей перекодировки имен. Так как после скачивания имена будут нечитаемыми.
Post Reply