Открытый корпус - проект по созданию лингвистической разметки корпуса текстов на русском языке силами волонтёров. В рамках проекта собраны несколько коллекций данных: грамматический словарь, морфологическая разметка, разметка именованных сущностей. Кроме этого сохранена информация о самом процессе разметки. Мы расскажем о том, как получены эти данные, и покажем, как ими пользоваться. После этого мы расскажем о сложных случаях, с которыми мы столкнулись во время работы над морфологической разметкой. Мы будем рады обсудить их с участниками конференции.
“Цель визуальной аналитики не в картинках, а в понимании”
(Бен Шнайдермен, 1999)
Информационная визуализация открывает новые возможности в сфере корпусной лингвистики. Она не только синтезирует данные, но также позволяет исследователю обнаружить новые лингвистические формы. До недавнего времени, прямое использование визуальной аналитики в контексте корпусного анализа было практически невозможно. Структура веб-корпусов (например, КОКА или БНС) обычно включает определенный состав корпусов и функциональностей, с другой стороны компьютерные программы созданы для определенных целей, например конкордансер AntConc или программа TigerSearch для синтаксического анализа. Недавно разработанное реактивное веб-приложение Shiny позволяет интеграцию визуальной аналитики в корпусное исследование. Платформа Shiny построена на базе языка R и открывает доступ к современным алгоритмам текстовой обработки и визуализации. Семинар ознакомит участников с основами создания и использования Shiny для корпусных исследований.
Тех, кто планирует принять участие в семинаре Visual Analytics, Text Mining or Shiny Visualization for Corpus Linguistics его лектор Ольга Скривнер просит загрузить заранее R и Rstudio. Слайды с инструкцией и кратким ознакомлением с R можно скачать по ссылке.
В рамках данной школы-семинара вниманию слушателей предлагается вводный курс по базовому использованию новой системы автоматической обработки текстов, разрабатываемой при участии кафедры Математической лингвистики Санкт-Петербургского государственного университета. Будут изложены основные архитектурные особенности, принципы работы и конфигурирования системы. Семинар подразумевает активное участие слушателей с возможностью установки системы на персональные компьютеры. Будет рассмотрен базовый API системы, который может быть использован для написания пользовательских скриптов на языке JavaScript, будут продемонстрированы возможности системы для решения часто возникающих пользовательских задач, таких как морфологический и синтаксический анализ, извлечение информации, ввод и вывод в различных форматах.