Пользователям для доступа необходимо пройти процедуру регистрации (п. 4, п. 5).
Дополнительные инструкции по запуску задач, запуску Jupyter Notebook, а также настройке окружений Anaconda вы можете получить по ссылкам ниже:
Программное обеспечение
Запуск задач
Запуск Jupyter Notebook для вычислений
Использование Anaconda
Удаленное подключение к головному узлу осуществляется по протоколу SSH на адрес gpu.hpc.susu.ru, порт 2222.
В операционных системах Linux и Mac OS для подключения используется команда ssh (<имя пользователя> — логин, который указан в письме о регистрации):
ssh -p 2222 <имя пользователя>@gpu.hpc.susu.ru
В операционной системе Microsoft Windows рекомендуется свободно распространяемая программа PuTTY. Запустите программу и поле «Host name (or IP address)» введите «gpu.hpc.susu.ru», в поле «Port» — «2222», «Connection type» выберите «SSH» как показано ниже:

Нажмите кнопку «Open». Вход в систему начинается с системного приглашения login: в ответ на него следует ввести имя пользователя и нажать клавишу ENTER. Затем система запросит пароль пользователя. Введите пароль и нажмите клавишу ENTER. Обратите внимание, при вводе пароля символы на экране не печатаются, тем не менее, сам пароль вводится.
Для смены своего пароля после входа в систему необходимо воспользоваться командой passwd и дважды ввести новый пароль в ответ на приглашение. Вводимые символы отображаться не будут.
При трех неверных попытках ввести пароль доступ к комплексу блокируется. Для разблокировки, необходимо обатиться в тех. поддержку и сообщить IP адрес, который можно получить по ссылке.
Для передачи файлов на вычислительный комплекс воспользуйтесь программами, поддерживающими протоколы SFTP или SCP. Для MS Windows рекомендуется программа WinSCP, для ОС Linux — scp или sftp, для MacOS — программы scp/sftp, Cyberduck или Mountain Duck.
Убедитесь, что в клиентской программе используется SFTP, так как скорость передачи данных данного протокола заметно выше по сравнению с SCP.
В соответствии с правилами, пользователь самостоятельно обеспечивает резервное копирование своих данных. Хранение данных, которые уже не участвуют в вычислениях, на логин сервере не допускается.
Пользовательские директории имеют вид /home/<имя_пользователя> и физически размещены на хранилище с SSD объемом 46 Тб. Максимальный объем данных для пользователя в директории /home обусловлен дисковой квотой, определяемой при регистрации (в дальнейшем квота может быть увеличена при необходимости).
Для управления версиями прикладных программных пакетов и библиотек установлен программный пакет Environmental Modules. Он позволяет гибко настраивать переменные окружения для использования тех или иных версий ПО и отслеживания их зависимостей (в том числе, при запуске в пакетном режиме с помощью sbatch). Также использование Environmental Modules позволяет гибко управлять разными версиями приложения (например, можно быстро переключаться между различными версиям компиляторов и версиями Anaconda).
Основные команды работы с пакетом Environmental Modules:
module avail – вывести список доступных модулей;module list – вывести список загруженных модулей;module load module1/version – загрузить модуль module1 версии version;module unload module1/version – выгрузить модуль module1 версии version;module swap module1 module2 – заменить загруженный модуль module1 на module2;module purge – выгрузить все загруженные модули;module whatis module1 – показать информацию о модуле module1;module save [env_name] – сохранить текущий набор загруженных модулей под именем env_name. Если не указывать имя, то набор будет перезаписан набор по умолчанию;module restore [env_name] – загрузить набор сохранённых модулей;module describe [env_name] – показать состав набора сохранённых модулей;Данных команд достаточно для полноценной работы на комплексе.
Полный перечень команд можно вывести, введя
module --help,man module, либо найти в соответствующем разделе официальной документации.
Просмотр загруженных модулей:
$ module list
Currently Loaded Modules:
1)cuda/10.2 2) anaconda/2020.07
Просмотр доступных модулей:
$ module avail
anaconda/2020.07 gcc/4.8.5
cuda/10.2 cuda/cudnn/8.0.2.39
Выгрузка всех модулей и загрузка модулей cuda/10.2 и anaconda/2020.07:
$ module purge
$ module add cuda/10.2 anaconda/2020.07
$ module list
Currently Loaded Modules:
1) cuda/10.2 2) anaconda/2020.07
Сохранение набора модулей по умолчанию:
$ module save
Saved current collection of modules to: «default»
Для запуска расчётов пользователи обязаны использовать систему управления заданиями Slurm. Данная система (планировщик задач) управляет доступными ресурсами и размещает задачи.
Для запуска задач используются команда sbatch или srun.
Запуск в пакетном режиме осуществляется командой sbatch. В этом режиме напрямую повлиять на ход выполнения задачи не удастся, поэтому необходимо использовать его для долгих и высоконагруженных расчетов. Перед началом работы необходимо подготовить скрипт-файл с нужными ключами и командами:
#!/bin/bash
#SBATCH <ключ sbatch> <значение>
#SBATCH <ключ sbatch> <значение>
<пользовательские команды>
Поставить задачу в очередь в пакетном режиме:
sbatch <путь до sbatch скрипта>
Другим способом запуска задачи в очереди является команда srun, выполняющая задачу интерактивно.
Если для запуска задачи требуется настройка окружения, то необходимо составить скрипт файл по аналогии выше. Постановка задачи будет выглядеть следующим образом:
srun <путь до sbatch скрипта>
Если в дополнительной настройке нет необходимости, то все опции можно указать прямо в командной строке, например:
srun [опции] python my_python_task.py
Подробная информация по запуску задач доступна в отдельной инструкции.
Посмотреть текущее состояние очереди задач можно командой squeue.
Чтобы наблюдать за состоянием задачи в очереди с частотой обновления в 2 секунды, можете воспользоваться командой watch:
watch squeue
Чтобы прекратить работу команды watch, можно нажать комбинацию клавиш Ctrl + C.
Для удаления задачи из очереди используйте команду
scancel [номер задачи]
Номер задачи можно получить из вывода команды squeue.
Для более подробного знакомства с ОС Linux Вы можете пройти бесплатные курсы, например:
https://stepik.org/course/762/promo
https://stepik.org/course/73/promo
Если возникли вопросы по использованию комплекса, то обратитесь к специалистам суперкомпьютерного центра лаборатории суперкомпьютерного моделирования, создав заявку на портале поддержки https://mantis.hpc.susu.ru/, либо по электронной почте: supercomputer@susu.ru. В заявке следует подробно описать возникшую проблему и шаги по её воспроизведению.