[www.theword.net]

Twitter live feed  
View unanswered posts | View active topics It is currently Sun Jun 25, 2017 3:52 am



Reply to topic  [ 21 posts ]  Go to page Previous  1, 2
 ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация) 
Author Message
User avatar

Joined: Thu Dec 09, 2010 2:29 pm
Posts: 534
Location: Россия, Крым, Севастополь
Post Конвертеры в HTML с интеграцией иллюстраций в тело HTML файл
Конвертеры в HTML с интеграцией иллюстраций в тело файла.

WordCleaner
позволяет конвертировать разные форматы (в том числе из RTF) в HTML с использованием трех разных режимов. При некоторых настройках позволяет сохранять файлы иллюстраций отдельно либо в тело файла HTML. Возможно придется долго экспериментировать с настройками - пока не получиться. Я лично использовал заготовку конвертации в XHTML с интегрированной картинкой (на выходе формат HTML) которую правил на лету.

    Из минусов:
  • Иногда картинки в файлах созданных с помощью Word Cleaner открываются не полностью.
  • Не очень удобный режим пакетной обработки. Возможно его со временем переработают но построение списка файлов в версиях 4.ххх-5.ххх с которыми я работал занимало очень много времени.
  • Нужно быть осторожным с сохранением новых пресетов. Иногда программа сходит с ума из-за нестандартных настроек и потом вообще отказывается работать с нужными настройками. Не помогает ни чистка реестра ни полное удаление с компьютера. Так что настройки лучше запоминать, скринить или записывать на видео.


Fri Feb 05, 2016 2:27 pm
Profile ICQ WWW
User avatar

Joined: Thu Dec 09, 2010 2:29 pm
Posts: 534
Location: Россия, Крым, Севастополь
Post Конвертеры HTML>RTF с интеграцией иллюстраций в тело RTF
Конвертеры HTML в RTF с интеграцией иллюстраций в тело RTF файла.
В свое время перепробовал несколько десятков разных конвертаций в разных программах. Приходилось оценивать разные параметры. В частности:
  • Возможность внедрения картинок в RTF (подгрузка из интернета или оффлайн каталога)
  • Сохранение редко встречаемых шрифтов (еврейского и греческого в частности)
  • Сохранение оформления (расстояния между абзацами, отступы, таблицы).
  • Читабельность трансляции ссылок в TheWord (всплывающие подсказки) кликабельность естественно не проверял - итак ясно что работать переходы без манипуляций с исходниками не будут, - только ссылки на внешние источники в формате понятном для браузера.
  • Ну и наконец оценивал - скорость работы.

В общем есть программы которые обладают хорошими параметрами НО и крупными недостатками, - например невозможность конвертации иврита и греческого текста ставит на них крест.

Указанные программы имеют разные преимущества друг перед другом при конвертации разных материалов. Для минимализма файлов рекомендуется HTMLtoRTF 3.1 Pro. Если нужно интегрировать картинки разных форматов в одну страницу то лучше использовать TotalHTML Converter.

HTMLtoRTF 3.1 Pro
особенности:
Очень высокая скорость обработки.
Имеет поддержку командной строки (то есть можно конвертировать заданную папку одним кликом с заранее определенными настройками).
Хорошо сохраняет разметку при конвертации wiki сайтов.
Создает небольшие по объему RTF файлы.
Хорошо сохраняет тексты на разных языках в Unicode.
Имена файлов в Unicode не видит.
Файлы RTF иногда бывали не валидными - не все успешно импортировались в TW3. Так что после нее еще нужно было делать дополнительный проход Амбером. (RTF в RTF)

TotalHTML Converter
особенности:
Часто выдает ошибки.
Разные версии конвертера форматирую ттекст по разному. Возможно какая нибудь версия 1,45 даст лучший результат чем одна из последних.
При наличии автокликера можно пользоваться и триальной версией. Время от времени подавляя всплывающее окно с предупреждением.
Имена файлов в Unicode не видит.
Файлы создает небольшого размера.
Скорость конвертации довольно высокая.
Более-менее нормально сохраняет оформление.
Скачивает из интернета и внедряет в RTF все картинки - PNG, JPG, GIF файлы. Последнее меня вообще убило. Потому что не HtmlToRtf ни Convert DOC не внедряли 2 типа файлов. Впрочем у HtmlToRtf есть опция для конвертации файлов в формат WMF перед внедрением, но это сильно увеличивает размер файла.

ConvertDoc
особенности:
За последние годы как замечают программа практически не изменялась внешне и по количеству опций (версии 4-7).
Имеет поддержку запуска заданий из командной строки что в общем то важно для удобства. Учитывая что родной интерфейс не всегда удобен и предсказуемо себя ведет.
Имеет два режима конвертации - родной и с использованием конвертера MS OFFICE.
Иногда автоматически срывается на альтернативный метод конверсии - особенно при больших объемах файла. При этом обратно режим конвертации (после прохождения проблемного участка) автоматически не восстанавливается. Таким образом может образоваться сборная-солянка из файлов которые заметно отличаются друг от друга по качеству.
  • Родной конвертер ConvertDoc позволяет интегрировать изображения в файл, но не любит символы Unicode в тексте.
    Скорость обработки средняя.
    Качество оформления уступает "офисному".
  • Режим конвертации с использованием MS OFFICE (он используется во многих конвертерах такого плана).
    Хорошо сохраняет текст оригинала с использованием Unicode.
    Качество оформления в целом радует. Если он не прибегает к использованию шрифта Cambria Math.
    Этот режим конверсии не способен внедрять изображения в тело файла.
    Этот режим конверсии работает жутко медленно.
    Размер файлов по сравнению с HTMLtoRTF в этом режиме конверсии просто огромный.


Fri Feb 05, 2016 2:33 pm
Profile ICQ WWW
User avatar

Joined: Thu Dec 09, 2010 2:29 pm
Posts: 534
Location: Россия, Крым, Севастополь
Post Re: ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация
Утилита которая качественно конвертирует PDF в RTF.
Пробовал довольно старую триальную версию (но советую обратить внимание)
http://www.sautinsoft.com/products/pdf- ... wnload.php


Fri Feb 05, 2016 2:39 pm
Profile ICQ WWW
User avatar

Joined: Thu Dec 09, 2010 2:29 pm
Posts: 534
Location: Россия, Крым, Севастополь
Post Re: ПРОБЛЕМЫ ОБРАБОТКИ (RegExp; Scripts; Soft; Автоматизация
Одна из последних версий (v.4.1.86) Total HTML Converter ОЧЕНЬ порадовала меня.
Можно сказать что мое мнение в пользу этой программы сильно изменилось в лучшую сторону.
(Конвертировал HTM с иллюстрациями и элементами Unicode)

А хотя нет - она имеет проблемы с подхватом картинок.
Как будто кэширует и подставляет старые файлы картинок в новые айлы RTF которые с ними не связаны.
Ужас. :mrgreen:


Thu Feb 25, 2016 10:45 pm
Profile ICQ WWW
User avatar

Joined: Thu Dec 09, 2010 2:29 pm
Posts: 534
Location: Россия, Крым, Севастополь
Post Download Master
Сегодня сделал для себя небольшое но важное открытие - оказывается известный менеджер закачек Download Master поддерживает функцию скачивания html страниц с загрузкой изображений. Вы ему даете список URL а он вам страницы с картинками. При этом он корректно раскладывает все по полочкам и у вас потом не возникнет проблем например с принадлежностью той или иной иллюстраций к той или иной HTML странице.

В целом использование Download Master может заметно упростить создание копий онлайновых энциклопедий. Несколько лет тому назад я для этой цели использовал Teleport VLX но это было довольно долго и неудобно. После длительного перерыва и с новым опытом я решил снова заняться онлайновыми ресурсами. С тех пор многое поменялось в голове. Освоил новые методы работы. Так что думаю сейчас будет намного проще.

Сейчас процедура выглядит следующим образом.
Находите страницу со списком статей (гиперссылок) как правило это страницы с алфавитными указателями.
Копируете списки в MS WORD, Сохраняете как файл html
Затем обрабатываете страницу фильтром TextPipe извлекающим URL
Открываете полученный список в блокноте.
Копируете все строки с адресами в буфер обмена
если у вас запущен Download Master то он автоматически перехватит ссылки и предложит закачать их.
Желательно перед этим настроить его на минимум вопросов в ходе скачки а то он выдает много информации по пустякам из-за которой сам он может еще и зависнуть даже. В частности можно отключить запросы о докачке картинок к HTML, звуковые оповещения, и некоторые другие опции.

изначально лучше поставить максимальное число одновременных закачек как 1
После того как программа получит от вас подтверждение "не задавать подобные вопросы в дальнейшем" это число можно выставить хоть на 10.


Sat Feb 27, 2016 12:37 am
Profile ICQ WWW
User avatar

Joined: Thu Dec 09, 2010 2:29 pm
Posts: 534
Location: Россия, Крым, Севастополь
Post Teleport VLX
Ошибся - оказывается в Teleport (у меня VLX версия) тоже реализован импорт списка URL адресов и похоже что он даже лучше подходит для работы. Так как есть возможность оперировать локализацией ссылок и докачкой прочих связанных файлов. Например для Total HTML Converter и HtmltoRtf я иногда не скачиваю файлы картинок для страниц - так как они могут скачивать их из интернета. Когда например имена картинок хранятся в базах данных на русском языке то этот вариант позволяет избавиться от необходимости последующей перекодировки имен. Так как после скачивания имена будут нечитаемыми.


Mon Mar 28, 2016 8:21 am
Profile ICQ WWW
Display posts from previous:  Sort by  
Reply to topic   [ 21 posts ]  Go to page Previous  1, 2

Who is online

Users browsing this forum: No registered users and 1 guest


You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot post attachments in this forum

Search for:
Jump to:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group.
Designed by STSoftware for PTF.