theWord https://forum.theword.net/ |
|
ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация) https://forum.theword.net/viewtopic.php?f=29&t=6861 |
Page 2 of 2 |
Author: | nikolay_l [ Fri Feb 05, 2016 2:27 pm ] |
Post subject: | Конвертеры в HTML с интеграцией иллюстраций в тело HTML файл |
Конвертеры в HTML с интеграцией иллюстраций в тело файла. WordCleaner позволяет конвертировать разные форматы (в том числе из RTF) в HTML с использованием трех разных режимов. При некоторых настройках позволяет сохранять файлы иллюстраций отдельно либо в тело файла HTML. Возможно придется долго экспериментировать с настройками - пока не получиться. Я лично использовал заготовку конвертации в XHTML с интегрированной картинкой (на выходе формат HTML) которую правил на лету.
|
Author: | nikolay_l [ Fri Feb 05, 2016 2:33 pm ] |
Post subject: | Конвертеры HTML>RTF с интеграцией иллюстраций в тело RTF |
Конвертеры HTML в RTF с интеграцией иллюстраций в тело RTF файла. В свое время перепробовал несколько десятков разных конвертаций в разных программах. Приходилось оценивать разные параметры. В частности:
В общем есть программы которые обладают хорошими параметрами НО и крупными недостатками, - например невозможность конвертации иврита и греческого текста ставит на них крест. Указанные программы имеют разные преимущества друг перед другом при конвертации разных материалов. Для минимализма файлов рекомендуется HTMLtoRTF 3.1 Pro. Если нужно интегрировать картинки разных форматов в одну страницу то лучше использовать TotalHTML Converter. HTMLtoRTF 3.1 Pro особенности: Очень высокая скорость обработки. Имеет поддержку командной строки (то есть можно конвертировать заданную папку одним кликом с заранее определенными настройками). Хорошо сохраняет разметку при конвертации wiki сайтов. Создает небольшие по объему RTF файлы. Хорошо сохраняет тексты на разных языках в Unicode. Имена файлов в Unicode не видит. Файлы RTF иногда бывали не валидными - не все успешно импортировались в TW3. Так что после нее еще нужно было делать дополнительный проход Амбером. (RTF в RTF) TotalHTML Converter особенности: Часто выдает ошибки. Разные версии конвертера форматирую ттекст по разному. Возможно какая нибудь версия 1,45 даст лучший результат чем одна из последних. При наличии автокликера можно пользоваться и триальной версией. Время от времени подавляя всплывающее окно с предупреждением. Имена файлов в Unicode не видит. Файлы создает небольшого размера. Скорость конвертации довольно высокая. Более-менее нормально сохраняет оформление. Скачивает из интернета и внедряет в RTF все картинки - PNG, JPG, GIF файлы. Последнее меня вообще убило. Потому что не HtmlToRtf ни Convert DOC не внедряли 2 типа файлов. Впрочем у HtmlToRtf есть опция для конвертации файлов в формат WMF перед внедрением, но это сильно увеличивает размер файла. ConvertDoc особенности: За последние годы как замечают программа практически не изменялась внешне и по количеству опций (версии 4-7). Имеет поддержку запуска заданий из командной строки что в общем то важно для удобства. Учитывая что родной интерфейс не всегда удобен и предсказуемо себя ведет. Имеет два режима конвертации - родной и с использованием конвертера MS OFFICE. Иногда автоматически срывается на альтернативный метод конверсии - особенно при больших объемах файла. При этом обратно режим конвертации (после прохождения проблемного участка) автоматически не восстанавливается. Таким образом может образоваться сборная-солянка из файлов которые заметно отличаются друг от друга по качеству.
|
Author: | nikolay_l [ Fri Feb 05, 2016 2:39 pm ] |
Post subject: | Re: ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация |
Утилита которая качественно конвертирует PDF в RTF. Пробовал довольно старую триальную версию (но советую обратить внимание) http://www.sautinsoft.com/products/pdf- ... wnload.php |
Author: | nikolay_l [ Thu Feb 25, 2016 10:45 pm ] |
Post subject: | Re: ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация |
Одна из последних версий (v.4.1.86) Total HTML Converter ОЧЕНЬ порадовала меня. Можно сказать что мое мнение в пользу этой программы сильно изменилось в лучшую сторону. (Конвертировал HTM с иллюстрациями и элементами Unicode) А хотя нет - она имеет проблемы с подхватом картинок. Как будто кэширует и подставляет старые файлы картинок в новые айлы RTF которые с ними не связаны. Ужас. ![]() |
Author: | nikolay_l [ Sat Feb 27, 2016 12:37 am ] |
Post subject: | Download Master |
Сегодня сделал для себя небольшое но важное открытие - оказывается известный менеджер закачек Download Master поддерживает функцию скачивания html страниц с загрузкой изображений. Вы ему даете список URL а он вам страницы с картинками. При этом он корректно раскладывает все по полочкам и у вас потом не возникнет проблем например с принадлежностью той или иной иллюстраций к той или иной HTML странице. В целом использование Download Master может заметно упростить создание копий онлайновых энциклопедий. Несколько лет тому назад я для этой цели использовал Teleport VLX но это было довольно долго и неудобно. После длительного перерыва и с новым опытом я решил снова заняться онлайновыми ресурсами. С тех пор многое поменялось в голове. Освоил новые методы работы. Так что думаю сейчас будет намного проще. Сейчас процедура выглядит следующим образом. Находите страницу со списком статей (гиперссылок) как правило это страницы с алфавитными указателями. Копируете списки в MS WORD, Сохраняете как файл html Затем обрабатываете страницу фильтром TextPipe извлекающим URL Открываете полученный список в блокноте. Копируете все строки с адресами в буфер обмена если у вас запущен Download Master то он автоматически перехватит ссылки и предложит закачать их. Желательно перед этим настроить его на минимум вопросов в ходе скачки а то он выдает много информации по пустякам из-за которой сам он может еще и зависнуть даже. В частности можно отключить запросы о докачке картинок к HTML, звуковые оповещения, и некоторые другие опции. изначально лучше поставить максимальное число одновременных закачек как 1 После того как программа получит от вас подтверждение "не задавать подобные вопросы в дальнейшем" это число можно выставить хоть на 10. |
Author: | nikolay_l [ Mon Mar 28, 2016 8:21 am ] |
Post subject: | Teleport VLX |
Ошибся - оказывается в Teleport (у меня VLX версия) тоже реализован импорт списка URL адресов и похоже что он даже лучше подходит для работы. Так как есть возможность оперировать локализацией ссылок и докачкой прочих связанных файлов. Например для Total HTML Converter и HtmltoRtf я иногда не скачиваю файлы картинок для страниц - так как они могут скачивать их из интернета. Когда например имена картинок хранятся в базах данных на русском языке то этот вариант позволяет избавиться от необходимости последующей перекодировки имен. Так как после скачивания имена будут нечитаемыми. |
Page 2 of 2 | All times are UTC + 2 hours |
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/ |