Но что произойдет если связь медленная, а файл длиннющий? Вероятнее всего соединение разорвется до момента получения файла, причем неоднократно. В этом случае Wget будет пытаться восстановить передачу до тех пор пока не выгрузит весь файл или не исчерпает все попытки (20 по умолчанию). Очень просто изменить количество попыток на 45 чтобы быть уверенным, что файл дойдет нормально:
Вам необходимо прочитать список URL из файла? Нет проблем:
wget -i file
Если вместо "file" вы укажете "-", то URL-и будут читаться со стандартного ввода.
Создание зеркального образа GNU WWW сайта (с точно такой же структурой каталогов) только с одной попыткой на документ и сохранением отчета в файле "gnulog":
wget -r -t1 http://www.gnu.ai.mit.edu/ -o gnulog
Получение первого уровня ссылок Yahoo:
wget -r -l1 http://www.yahoo.com/
Получение index.html из "www.lycos.com" с выводом серверных заголовков:
wget -S http://www.lycos.com/
Сохранение заголовков сервера в файле
wget -s http://www.lycos.com/ more index.html
Получение первых двух уровней "wuarchive.wustl.edu" с сохранением их в "/tmp".
wget -P/tmp -l2 ftp://wuarchive.wustl.edu/
Вам необходимо выгрузить все GIF файлы из HTTP каталога. "wget http://host/dir/*.gif" не работает поскольку HTTP выгрузка не поддерживает глобирование. В этом случае воспользуйтесь:
wget -r -l1 --no-parent -A.gif http://host/dir/
Это слегка обходной вариант, но он работает. "-r -l1" означает рекурсивную выгрузку (см. "Рекурсивная выгрузка") с глубиной в один уровень. "--no-parent" означает, что ссылки на родительский каталог игнорируются (см. "Ограничения на уровне каталогов") и "-A *.gif" означает выгрузку только GIF файлов. '-A "*.gif"' тоже должно работать.
Предположим вы были в середине выгрузки, когда Wget был прерван. Теперь вы не хотите замещать уже существующие файлы. Тогда:
wget -nc -r http://www.gnu.ai.mit.edu/
Если вам необходимо закодировать ваше имя пользователя и пароль для HTTP или FTP, то используйте соответствующий синтаксис URL (см. "Формат URL").
Если вам не нравится умалчиваемая визуализация выгрузки (1 Кбайт на точку, 10 точек в кластере, 50 точек в строке), то вы можете настроить ее через настройку точек (см. "Команды wgetrc"). Например, многим людям нравится двоичный стиль представления с 8 килобайтовыми точками и 512 килобайтовыми строками:
Чтобы сделать данные установки постоянными, поместите их в ваш ".wgetrc" так, как это было описано ранее.
Если вы хотите, чтобы Wget поддерживал зеркало страницы (или FTP каталога), воспользуйтесь "--mirror" ("-m"), что является сокращением для "-r -N". Вы можете запускать Wget из файла crontab, чтобы выполнять проверку сайта каждое воскресенье:
Возможно вам понадобится проделать тоже самое с чьей-то домашней страницей. Но у вас нет желания выгружать оттуда графику, вас интересует только HTML.
wget --mirror -A.html http://www.w3.org/
Как на счет выгрузки всех хостов близких к вам сетей? Это выглядит жутко медленным из-за DNS разрешения имен. Достаточно воспользоваться "-D" (см. "Доменная избирательность").
wget -rN -Dsrce.hr http://www.srce.hr/
Теперь Wget сможет корректно обнаружить, что "regoc.srce.hr" это тоже самое, что и "www.srce.hr", но даже не будет пытаться разбираться со ссылкой на "www.mit.edu".
У вас есть презентация и вы желаете превратить все эти тупые абсолютные ссылки в относительные? Воспользуйтесь "-k":
wget -k -r URL
Вам необходимо чтобы выгружаемые документы выдавались на стандартный вывод вместо записи их в файлы? OK, но Wget автоматически умолкнет (включить "--quiet"), чтобы избежать смешивания вывода Wget и получаемых документов.