29–25
июня   июля
ЛЕТНЯЯ ОНЛАЙН-ШКОЛА ИМиКН
«Интеллектуальный анализ данных»
 

Мнения участников

    Звуковые эффекты являются неотъемлемой частью таких индустрий как кинематограф и игровая индустрия, и на их создание уходит множество ресурсов. Автоматизация данного процесса позволит сэкономить эти ресурсы. Для наложения звуковых эффектов необходимо знать, когда требуется начать и закончить генерировать звуковой эффект, поэтому в первую очередь требуется решить подзадачу обнаружения и классификации спецэффектов. Решением данной задачи занялась команда студентов Тюменского государственного университета в рамках Летней школы интеллектуального анализа данных, которая проходила в дистанционном формате.

    Очевидно, что решение проблемы предполагает работу с видеозаписями, а именно упорядоченной последовательностью кадров. Это значит, что задача относится к научной дисциплине CV (Computer Vision) — теории и технологии создания интеллектуальных систем, которые получают информацию из изображений. Данная область динамично развивается, но ещё не все задачи области хорошо исследованы, в частности задача генерации звука по видеоряду, поэтому задача, решаемая студентами, несёт исследовательский характер и может послужить фундаментом для других исследователей.

    Ярким примером спецэффекта в кино может послужить взрыв, разрушение чего-либо. Понятно, что по-настоящему в кино мало чего взрывается, это задача монтажа, сюда же относится и подбор звуковых эффектов. Тема, связанная со взрывами, понравилась команде студентов, поэтому было принято решение разработать систему, которая умела бы определять и классифицировать фейерверки на видео, затем расставлять временные метки начала и окончания спецэффекта.

    Сценарий решения проблемы невероятно прост (см. рис 1): системе на вход подается видео, которое разбивается на кадры, каждый из которых обрабатывается нейронной сетью, определяющей наличие фейерверка на кадре либо его отсутствие, далее кадры конвертируются обратно в видеоряд, на котором размечены начало и окончание взрыва фейерверка.

    Архитектура сети
    Рисунок 1. Архитектура системы.

    Самыми сложными этапами, отмечают студенты, были формирование датасета и обучение модели нейронной сети, поскольку в сети не было готовых решений поставленной проблемы. Датасет формировался путем разбиения нескольких видеофайлов на кадры и ручной разметки каждого изображения на три класса:

    1. Отсутствие взрыва фейерверка
    2. Начало взрыва фейерверка — необходимо для разметки начала спецэффекта
    3. Взрыв фейерверка — необходимо для разметки конца спецэффекта в совокупности с первым классом

    Для обнаружения и классификации фейерверка на изображении использовалась сверточная нейронная сеть, которая отлично подходит для решения задачи.

    В результате команде студентов удалось в кратчайшие сроки, а конкретно 5 рабочих дней (именно столько времени выделялось для решения кейса по CV в рамках Летней школы), разработать модель сверточной нейронной сети для обнаружения и классификации фейерверков на видео со средней точностью классификации 93.44%.

    Автор статьи – Якубов Рустам

    По данным ГИБДД до трети от всех аварий происходит по причине неисправного дорожного покрытия (рис. 1). Студенты полагают, что автоматизация обнаружения нарушений дорожного покрова могла бы способствовать сокращению числа аварийных ситуаций.

    Авария
    Рисунок 1. Неисправное покрытие.

    В рамках летней онлайн школы интеллектуального анализа данных на базе Тюменского государственного университета студенты института математики и компьютерных наук разработали систему распознавания повреждений дорожного полотна. Студенты третьего курса направления МОАИС: Гасанов Александр, Пупова Анфиса, Фомин Александр и Калиев Марсель – собрали данные и построили модель, определяющую повреждения дорожного покрытия.

    Все взаимодействие участников летней школы происходило полностью удаленно. Обсуждение рабочих вопросов происходило в формате онлайн-конференции, а совместная работа с документами и данными проходила в облачном хранилище.

    Идея проекта заключается в использовании модели классификации кадров. Изображения участков дороги определяются к одному из двух классов: поврежденный участок и целый участок дороги (рис. 2). Реализованный прототип представляет собой модель бинарной классификации на основе сверточных нейронных сетей.

    Примеры
    Рисунок 2. Примеры классов.

    Дальнейшее развитие проекта участники летней школы видят в интеграции разработанного ими прототипа в информационную систему контроля состояния дорог. Такая система может помочь при проведении ремонтных работ дорожными службами города. Для этого понадобиться лишь камера, машина и компьютер с программой. Изображения дорожного полотна записываются на камеру в процессе планового объезда машиной конкретного участка дороги, после чего данные с камеры покадрово с геолокацией передаются нейросетевому классификатору, который определяет проблемные участки дороги. Такие системы можно использовать для составления карты ям города, и, имея полную картину о состоянии дорог в городе, ответственные органы могут корректировать планы ремонта дорожного покрытия, что позволит более рационально использовать ресурсы.

    Автор статьи – Гасанов Александр

    Здоровье – это самое ценное что есть у человека и его необъходимо беречь. Современная мединцина шагнула далеко вперед и кроме самой современной медицинской техники на вооружение докторов может встать и искусственный интеллект. Подобные эксиерименты проводятся уже давно, вот и группа студентов Института математики и компьютерных наук тюменского госудаврственного университета решила провести небольшое исследование в рамках летней онлайн школы интеллектуального анализа данных.

    Студентами была выдвинута гипотеза о том, что при осмотре рентгеновских снимков человеческий глаз может упустить некоторые детали, поэтому ему может помочь технология компьютерного зрения в поисках повреждений конечностей. Эта проблема очень актуальна,особенно зимой в гололед, когда шанс получить травму заметно возрастает.

    Ребята поставили задачу разработать модель, которая по снимкам определяла бы повреждения костей верхних конечностей. Был подобран и проанализирован необходимый набор данных для обучения нейросети, а также сама сверточная нейросеть (рис. 1).

    Архитектура сети
    Рисунок 1. Архитектура модели.

    Было проведено множество экспериментов на разном количестве данных и конфигурации сети, в итоге ребятам удалось получить достаточно неплохой результат за такой короткий срок. Точность предсказаний составила 72%.

    Очевидно, что такие технологии не могут полностью исключить человеческого влияния и контроля, однако могут стать полезным дополнением в работе докторов.

    Автор статьи – Бильдин Сергей

    В рамках летней онлайн-школы ИМиКН «Интеллектуальный анализ данных», проходившей с 29.06.2020 по 25.07.2020, студентами был реализован проект по распознаванию негативных сообщений на английском языке в чате с использованием методов машинного обучения.

    В онлайн-школе студенты получили теоретические знания о методах машинного обучения, которые были закреплены ими на практике благодаря реализации собственного проекта. Стоит отметить, что при выборе решаемой проблемы участники школы старались поставить задачу, которая будет не только интересна для реализации в рамках проекта, но и в будущем может быть использована в более сложной системе.

    Команда разработчиков состояла из трех человек (рис. 1): Бабин Евгений, Буторин Дмитрий, Доброванова Людмила. В качестве решаемой задачи они выбрали распознавание негативных сообщений в чате.

    Идея проекта заключалась в очистке различных чатов на платформах для онлайн-трансляций видео от нежелательных комментариев, содержащих спам, оскорбления, угрозы и прочие негативные высказывания. Подобные сообщения содержат характерные слова и высказывания, которые нетрудно выделить с использованием методов машинного обучения.

    Использование классификатора обусловлено тем, что не все сообщения, содержащие негативные высказывания, направлены против других пользователей чата, то есть требуется более тонкий анализ текста, чем простое исключение всех нецензурных слов.

    Полученная модель с точностью 86% способна отличить негативные сообщения от положительных. Также ее работа была протестирована на сообщениях, не включенных в обучающую выборку, и они были распознаны верно, что говорит о возможности дальнейшего использования данной разработки.

    Проект разрабатывался в формате дистанционного обучения с использованием платформы Microsoft Teams. Для команды это был первый опыт работы, но он оказался удачным, совместная разработка помогла им научиться работать друг с другом и понять, как это делать наиболее эффективно.

    Архитектура сети
    Рисунок 1. Участники команды.

    В перспективе для классификатора можно использовать большее количество сообщений для обучения. Как отметили разработчики, со временем набор негативных слов и высказываний может увеличиться или измениться, так как в употребление приходят новые слова, а также меняется контекст, в котором используются определенные высказывания.

    Результаты проекта могут быть использованы на платформах для онлайн-трансляций, что поможет модераторам чатов быстрее справляться с поступающим потоком сообщений и банить пользователей, нарушающих правила и оскорбляющих других людей.

    Автор статьи – Конева Дарья

    Флюорографическое исследование — диагностическая процедура, которую проходят люди с целью своевременного выявления и лечения заболеваний лёгких (рис. 1). Процедура несёт в себе огромное профилактическое значение, ведь прохождение этого исследования раз в год также может помочь выявить различную патологию легких и сердца на ранней стадии, пока человек не испытывает никаких неприятных ощущений. Своевременное обращение к врачу может в таком случае значительно улучшить прогноз, а иногда и спасти жизнь.

    Архитектура сети
    Рисунок 1. Флюорография легких.

    Тем не менее, флюорография не диагностирует болезни, это лишь инструмент обследования пациента, по результатам которого врач может поставить диагноз или назначить дополнительное обследование. Однако врач - человек, и он может что-то пропустить, не заметить отклонений на снимке. Мировая статистика утверждает, что около 20% исследований в мире делается с ошибками.

    В связи с этим группа студентов бакалавриата Института математики и компьютерных наук Тюменского государственного университета в рамках летней школы интеллектуального анализа данных разработала систему распознавания изменений в легких по флюорографическим снимкам. В течение 5 дней студенты занимались сбором данных, построением предсказывающей модели и оценкой результатов вычислительных экспериментов. Работа участников в условиях самоизоляции была организована дистанционно.

    В основе проекта лежит использование компьютерного зрения для распознавания изменений в легких по флюорографическим снимкам. Реализованный проект представляет собой модель бинарной классификации (рис. 2) на основе сверточных нейронных сетей.

    Архитектура сети
    Рисунок 2. Примеры классов.

    Участники летней школы полагают, что разработанный ими прототип можно использовать при анализе флюорографических снимков врачом. Для этого понадобятся флюорографический аппарат и компьютер с программой. Изображение с флюорографического снимка передается классификатору, который определяет, есть ли какие-либо отклонения в легких. Затем данные о результатах его работы направляются специалисту, чтобы он сравнил их со своим диагнозом. Команда считает, что разработанная программа поможет врачу взглянуть на снимок под другим углом и акцентировать его внимание на мелочах, которые могли быть упущены при первичной постановке диагноза.

    При работе над проектом участники команды старались добиться большей точности распознавания именно снимков больных легких, чем здоровых, чтобы повысить вероятность обнаружения каких-либо отклонений врачом.

    В будущем систему можно будет доработать, если добавить классификацию по болезням (различные виды пневмонии, туберкулез и т.д.). Это поможет упростить постановку диагноза и повысить его точность.

    Автор статьи – Боровик Алена

    29 июня стартовала летняя онлайн-школа ИМиКН «Интеллектуальный анализ данных». В течение первой недели под руководством старшего преподавателя кафедры программного обеспечения Юрия Алексеевича Егорова участники школы изучали основные методы обработки и анализа изображений.

    Вторая же неделя была отведена под реализацию собственных проектов. Так команда фиолетовых в ходе долгих и бурных обсуждений остановилась на теме «Система определения кадров с вооруженными людьми». Участники команды считают, что люди с оружием, находящиеся в общественных местах, несут большую опасность окружающим. Это предположение обосновано тем, что по статистике МВД РФ количество преступлений за последние 5 лет в России выросло на треть, а количество преступлений с использованием огнестрельного оружия за январь-май 2020 года составляет 1655. Для того, чтобы упростить работу правоохранительным органам и как можно быстрее уведомлять их о возможном преступлении команда фиолетовых решила реализовать систему с нейронной сетью, обученной классифицировать изображения, на которых находятся люди с оружием.

    В формулировании проблемы и постановке задачи принимали участие все члены команды. Буторин Дмитрий выступал в роли критика, помогал рассмотреть задачу под разными углами, что позволило детально проработать сценарий взаимодействия с системой. На этапе формирования выборки было необходимо объединить несколько готовых датасетов, отобрать подходящие по содержанию изображения и привести их к единому формату.

    На этапе решения задачи роли были распределены следующим образом: Енин Никита и Блинов Матвей объединили свои усилия в доработке модели и обучении нейронной сети для обнаружения изображений людей с оружием/без оружия, Арсланов Магомет-Данил изучал возможность классификации изображений по возрасту человека на изображении (ребенок/взрослый), Буторин Дмитрий отвечал за формирование тестовой выборки, о которой все забыли накануне.

    В подготовке презентации участвовала вся команда. В режиме общего доступа к документу каждый член команды описывал итоги проделанной им работы, Дмитрий и Матвей собирали эти данные в единую цепь повествования. Также Матвей отвечал за выступление на защите проектов.

    Из положительных моментов не могу не отметить сработанность команды, готовность к обсуждению любых, даже самых странных, идей. Участник, закончивший выполнение своей задачи, всегда с готовностью включался в помощь другому участнику с более трудоемкой задачей. Сложности возникли с освоением материала. Из-за серьезных временных ограничений трудно было погрузится в изучение нейронных сетей так глубоко, как хотелось бы.

    Результатом работы над проектом в рамках кейса «Computer vision» стала нейронная сеть, способная определять наличие или отсутствие вооруженных людей на изображениях, а также классифицировать изображения, на которых есть дети с оружием. Примером работы может служить случайное изображение из датасета (рис. 1).

    Архитектура сети
    Рисунок 1. Изображение с классом, определенным нейросетью.

    Автор статьи – Ряполова Екатерина

    Темой второго образовательного кейса летней онлайн-школы ИМиКН является «Natural Language Processing». Данный кейс посвящен изучению основных методов обработки и анализа текста — использования векторной модели для формализации мер сходства, методам предобработки данных и их отбора, типам задач машинного обучения, принципам работы кластеризации текста и изучению инструментов для анализа. Руководитель образовательного  кейса — аналитик-программист ООО «Геомеханические системы» Боганюк Юлия Викторовна,  которая выполняет научно-исследовательскую работа под руководством научного руководителя Ирина Гелиевны Захаровой, профессора кафедры программного обеспечения..

    Лекционные занятия чередовались с проектной работой в группах, где участники закрепляли изученный материал под наставничеством модераторов — студентов МОАИС (Филицин Андрей, Гасанов Александр, Боровик Алена, Конева Дарья, Бильдин Сергей, Рустам Якубов). Руководство командой модераторов взяла на себя доцент кафедры программного обеспечения — Иваненко Ольга Александровна.

    На третьей неделе школы участниками был определен ряд задач по обработке естественного языка. Каждая команда выбрала по одной задаче для изучения инструментов интеллектуального анализа данных и методов сбора данных, используемых потом для реализации своего проекта.

    В течение четвертой недели группы разрабатывали свои собственные проекты, применяя полученные знания и представляя результаты работы своей системы.

    На итоговой защите проектов образовательного кейса «Natural Language Processing» было представлено 6 проектов от 6 команд школы:

    • Бирюзовая команда — модератор Филицин Андрей.
    • Желтая команда — модератор Бильдин Сергей.
    • Красная команда — модератор Рустам Якубов.
    • Оранжевая команда — модератор Гасанов Александр.
    • Синяя команда — модератор Боровик Алена.
    • Фиолетовая команда — модератор Конева Дарья.

    По итогам защит была проведена оценка ИТ-проектов по критериям оригинальности идеи, качества презентации и различным аспектам технической проработке проекта. В оценивании участвовали как участники школы, так и модераторы и экспертная команда преподавателей кафедры программного обеспечения и ИТ-работодателей.

    Проект красной команды, которую модерировал Якубов Рустам, заключался в определении успешности краудфандинговой компании по краткому описанию. Команда выдвинула гипотезу о том, что по краткому описанию краудфандинговой компании можно предугадать ее исход с некоторой вероятностью, так как целью краткого описания является привлечение внимания инвесторов к проекту.

    Проект оранжевой команды заключался в обнаружении возможного наличия психологических проблем у пользователей по тексту сообщений. Актуальность данной проблемы заключается в том, что люди редко обращаются за психологической помощью, когда в ней нуждаются. Модератором данной команды был Гасанов Александр.

    Желтая команда представила проект по распознаванию SQL-инъекций в тексте. Модераторами данной команды были Беженарь Александр и Бильдин Сергей. SQL-инъекции являются одними из самых распространённых и наиболее опасных уязвимостей в вопросе безопасности.

    Бирюзовая команда разрабатывала модель для распознавания негативных комментариев под руководством модератора Коневой Дарьи. Для этого команде требовалось классифицировать поступившие сообщения, то есть определить к какому классу они относится: к допустимым или к недопустимым сообщениям.

    Синяя команда работала под руководством модератора Боровик Алены и представила программный продукт, подбирающий клиенту список наиболее подходящих для отдыха стран, соответствующих его запросам. Разработка может помочь подобрать страну для отдыха тому, кто хочет поехать в отпуск, но не знает куда. Команда также предположила, что таким средством смогут пользоваться как турагенты, так и обычные люди.

    Под руководством модераторов Ряполовой Екатерины и Филицина Андрея фиолетовая команда реализовала модель для определение схожих стихотворений. С данной проблемой сталкиваются начинающие писатели, которые либо хотят использовать слова подобно известным писателям, либо наоборот сомневаются в оригинальности своего произведения. Также с этой проблемой сталкиваются и любители высокой поэзии, которые хотят найти для себя новые произведения.

    По итогам защиты проектов наивысшую оценку получил проект оранжевой команды, в состав входили участники: Пупова Анфиса Андреевна, Калиев Марсель Искандарович и Фомин Александр Юрьевич.

    За особые достижения в рамках подготовки и защиты ИТ-проектов комиссией были награждены дипломами следующие участники: Пупова Анфиса Андреевна, Синицина Анна Вячеславовна, Крымов Павел Андреевич, Енин Никита Андреевич, Буторин Дмитрий Николаевич, Торгашин Дмитрий Владимирович. Все модераторы также были отмечены дипломами.

    Сертификатами были награждены все участники команд летней онлайн-школы.

    Иваненко Ольга, ведущий программист ООО «Контакт», сертифицированный специалист по разработке сложных информационных систем, в заключении выразила свое мнение: «Я как представитель ИТ-сообщества хочу отметить, что такие мероприятия помогают студентам попробовать свои силы в решении прикладных задач с использованием реальных наборов данных. Надеюсь, что проведение таких школ станет ежегодным».

    Автор статьи – Филицин Андрей