Збірка планувальника завантаження з невеликим навиком програмування
Ми всі любимо завантажувати матеріали з Інтернету, і є величезна кількість великих інструментів менеджера завантажень, які ми можемо використовувати для планування завантажень. Може бути просто простіше використовувати менеджер завантажень, але немає жодної шкоди для вивчення інструментів, які вже поставляються з Ubuntu, і в повній мірі використовувати їх.
У цій статті ми покажемо вам вбудовану програму в Ubuntu, яку ми можемо використовувати для завантаження матеріалів з Інтернету wget. Крім того, ми покажемо, як планувати завантаження за допомогою Cron.
Завантажити за допомогою Wget
Wget - це безкоштовний пакет програм для отримання файлів за допомогою протоколів HTTP, HTTPS і FTP, найбільш широко використовуваних Інтернет-протоколів. Це неінтерактивний інструмент командного рядка, тому його можна легко викликати зі скриптів, завдань cron, терміналів без підтримки X-Windows тощо.
Відкрийте свій термінал і давайте вивчимо, як ми можемо використовувати wget для завантаження матеріалу з мережі. Основним синтаксисом завантаження за допомогою wget є наступне:
wget [варіант]… [URL]…
Ця команда завантажить інструкцію wget у ваш локальний диск
wget http://www.gnu.org/software/wget/manual/wget.pdf
Linux Cron
Ubuntu поставляється з демоном cron, який використовується для виконання завдань планування в певний час. Crontab дозволяє вказувати дії та час, які вони повинні виконувати. Таким чином ви звичайно плануєте завдання, використовуючи інструмент командного рядка.
Відкрийте вікно терміналу і введіть crontab -e.
Кожна з секцій у crontab відокремлена пропуском, причому остання секція має один або більше пробілів у ньому. Запис cron складається з хвилини (0-59), години (0-23, 0 = північ), дня (1-31), місяця (1-12), дня тижня (0-6, 0 = неділя), команди. Третій запис у вищезазначеному crontab завантажує wget.pdf о 2 годині ночі. Перший запис (0) і другий запис (2) означають 2:00. Третій - п'ятий запис (*) означає будь-який час дня, місяця або тижня. Останній запис - це команда wget для завантаження wget.pdf з вказаної URL-адреси.
Це основна на wget і як працює Cron. Давайте зробимо грабунок на прикладі реального життя про те, як запланувати завантаження.
Планування завантаження
Ми збираємося завантажити Firefox 3.6 на 2 AM. Оскільки наш ISP дає лише обмежену кількість даних, нам потрібно зупинити завантаження о 8 ранку. Це те, що виглядає установка.
Ігноруйте перші 2 записи у вищезгаданому кронтабі. Третя і четверта команди - це тільки 2 команди, які вам потрібні. Третя команда налаштує завдання, яке завантажить Firefox о 2 годині ночі:
[код]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/ code]
Параметри -c позначають, що wget має відновити існуюче завантаження, якщо воно не було завершено.
Четверта команда зупинить wget о 8 ранку. "Killall" - це команда unix, яка знищує процеси за назвою.
[код]
0 8 * * * killall wget
[/ code]
Killall wget повідомляє Ubuntu, щоб зупинити wget з завантаження файлу о 8 ранку.
Інші корисні команди wget
1. Вкажіть каталог для завантаження файлу
[код]
wget -output-document = / home / zainul / Завантаження / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/ code]
параметр -output-document дозволяє вказати каталог і ім'я завантаженого файлу
2. Завантаження веб-сайту
wget також здатний завантажити сайт.
[код]
wget -m http://www.google.com/profiles/zainul.franciscus
[/ code]
Наведена вище команда завантажить всю мою веб-сторінку профілю Google. Параметр "-m" говорить wget, щоб завантажити "дзеркальне" зображення вказаної URL-адреси.
Іншим важливим варіантом є розповісти Wget, скільки посилання слід випливати, коли він завантажує веб-сайт.
[код]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/ code]
Наведена вище команда wget використовує два варіанти. Перший параметр '-r' говорить wget, щоб завантажити вказаний сайт рекурсивно. Друга опція '-l1' повідомляє Wget лише отримати перший рівень посилань з вказаного веб-сайту. Ми можемо встановити до трьох рівнів '-l2' і '-l3'.
3. Ігнорування входу робота
Веб-майстер підтримує текстовий файл під назвою Robot.txt. "Robot.txt" підтримує список URL-адрес, які сканер веб-сторінки, такий як wget, не повинен сканувати. Ми можемо наказати Wget ігнорувати 'Robot.txt' з опцією '-erobots = off'. Наступна команда повідомляє wget завантажити першу сторінку мого профілю Google і ігнорувати 'Robot.txt.
[код]
wget -erobots = вимкнено http://www.google.com/profiles/zainul.franciscus
[/ code]
Іншим корисним варіантом є -U. Ця опція маскує wget як браузер. Зверніть увагу, що маскування програми як іншої програми може порушувати термін і послугу постачальника веб-послуг.
[код]
wget -erobots = від -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/ code]
Висновок
Wget - це дуже старий шкільний пакет програмного забезпечення GNU, який ми можемо використовувати для завантаження файлів. Wget - це інтерактивний інструмент командного рядка, який дозволяє нам запускати його на нашому комп'ютері у фоновому режимі без необхідності запускати будь-яку програму. Ознайомтеся з сторінкою wget man
[код]
$ man wget
[/ code]
щоб зрозуміти інші варіанти, які ми можемо використовувати з wget.
Посилання
Керівництво Wget
Як поєднати два завантажені файли Коли Wget не вдається на півдорозі
Linux QuickTip: завантаження та скасування тарифікації в один крок