Цифровой Гербарий МГУ
|
Plantarium online plant identification guide |
|||||||||||||||||||||||||||||||||||||||||||||||||||
Help and manuals Members online |
|
Natalia Gamova | 18.05.
Цифровой гербарий МГУ: картографическая визуализация результатов поиска
ГИС-модуль Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ) - самая активно растущая часть системы. Сегодня она содержит координаты мест сбора 123 983 образцов. До недавнего времени увидеть эти точки на карте можно было только через страничку нашего датасета в GBIF и его поисковые формы ( https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303/activity ).
Недавно мы сообщили о том, что в Цифровом гербарии МГУ заработал геопоиск по координатам. В поисковой форме появилась иконка-ссылка, ведущая на карту (здесь: https://plant.depo.msu.ru/module/plantitemsearchlabelpublic ).
Логичным продолжением внедренного геопоиска является картографическое отображение поисковых результатов (их получает юзер в виде таблицы). Итак, в результатах поиска справа вверху появилась новая заметная кнопка "Показать на карте", которая отправляет на карту помеченные галочками образцы.
Для оптимизации алгоритма отображения точек введена автоматическая кластеризация пунктов сбора. Это кружки с числом реальных образцов, собранных недалеко друг от друга. Shift + даблклик при наведении на такой кружок приведут вас на поисковую табличку именно с этими образцами, которая будет открыта в отдельном окне.
Система внедрена благодаря сотрудничеству программистов НИИ ФХБ им. Белозерского и кафедры картографии геофака МГУ. Мы стали еще на один шаг ближе к полноценному "Атласу флоры России" на платформе Цифрового гербария МГУ.
|
Alexander Fateryga | В общем, посмотрел я орхидеи (Крым, Кавказ). Ниже привожу то, что на мой взгляд не корректно.
Переопределения образцов (я их также отправил через форму «сообщить об ошибке»):
MW0606194 – Orchis provincialis
MW0606428 – Cephalanthera longifolia
MW0606495 – Epipactis krymmontana
MW0606496 – Epipactis krymmontana
MW0606497 – в центре Epipactis persica (остальные два определены правильно)
MW0606508 – думаю, что это Epipactis distans (=Epipactis helleborine subsp. orbicularis)
MW0606516 – думаю, что это Epipactis distans (=Epipactis helleborine subsp. orbicularis)
MW0639867 – Ophrys mammosa subsp. caucasica
MW0639876 – Anacamptis pyramidalis
MW0657774 – Ophrys mammosa subsp. caucasica
MW0657775 – Ophrys oestrifera
MW0657776 – Ophrys apifera
MW0657778 – Ophrys apifera
MW0657779 – Ophrys mammosa subsp. caucasica
MW0657786 – Ophrys apifera
MW0657919 – Anacamptis laxiflora subsp. dielsiana
MW0657920 – я не вижу, что это, но точно не Orchis mascula
MW0657980 – Orchis mascula
MW0657988 – Orchis mascula
MW0657991 – Orchis mascula
MW0658016 – Orchis mascula
MW0658048 – Dactylorhiza romana subsp. georgica (actylorhiza flavescens)
MW0658746 – это должно быть Epipactis condensata
MW0658752 – Epipactis persica
MW0658754 – точно не Epipactis pontica, скорее всего Epipactis condensata
MW0658760 – Epipactis persica
MW0658769 – Epipactis persica
MW0658771 – Epipactis condensata
MW0658782 – Epipactis persica
MW0658792 – справа не Epipactis microphylla, не знаю что именно
Помимо этого, есть некоторые таксономические замечания (которые я не отправил через ту форму):
Типовая серия Epipactis helleborine subsp. transcaucasica (MW0591773–MW0591781) отнесена к Epipactis helleborine, но на самом деле этот таксон относится к Epipactis persica (жду выхода статьи с синонимией). Хотя типовая серия, похоже, что состоит из нескольких видов.
Сборы с номерами MW0658749–MW0658751 очевидно не Epipactis helleborine, но я не знаю, что это (попадается уже не первый раз).
Далее, все Orchis militaris из Крыма и Кавказа относятся к O. militaris subsp. stevenii (rchis stevenii).
Orchis palustris и Orchis laxiflora. Образцы с запада Украины должны относиться к Anacamptis laxiflora subsp. laxiflora, с Кавказа и Средней Азии – к Anacamptis laxiflora subsp. dielsiana, все остальные – к Anacamptis laxiflora subsp. elegans.
Anacamptis laxiflora subsp. palustris растет у нас только в Прибалтике (Куропаткин, Ефимов, 2014).
Все Orchis picta в гербарии относятся к Anacamptis morio subsp. caucasica, Anacamptis morio subsp. picta на восток доходит до лишь Италии и юга Франции.
Все Orchis purpurea с Кавказа относятся к Orchis purpurea subsp. caucasica.
Все Serapias vomeracea в гербарии относятся к Serapias orientalis subsp. feldwegiana.
Вопрос с Cephalanthera floribunda пока не решен, но очевидно, что это не Cephalanthera kurdica (=Cephalanthera floribunda). Скорее всего, это Cephalanthera epipactoides. |
Natalia Gamova | О!
Александр, спасибо огромное за такую работу!
То, что не переопределения отдельных образцов - напишите АП Серёгину, хорошо? |
Alexander Fateryga | Хорошо, написал. |
Natalia Gamova | 21.05.18.
OCR Сибири и Дальнего Востока: что читают роботы?
Почему нужно делать чистовые гербарные этикетки напечатанными? Всё очень просто: в этом случае их могут прочитать не только люди, но и машины.
Сегодня утром мы загрузили в Цифровой гербарий МГУ ( https://plant.depo.msu.ru/ ) результаты оптического распознавания текста отдела Сибири и Дальнего Востока. Из 163 740 образцов только для 83 509 образцов это процедура дала значимый результат (мин. 100 знаков, при этом не менее 5 значимых слов). Это значит, что только 51% этикеток имели элементы, которые можно распознать.
Общее число OCR-расшифровок Цифрового гербария МГУ составило 151 278 штук. В это число не входят образцы, у которых в систему и без того загружен полный текст этикеток (ещё 104 440). |
Natalia Gamova | Коллеги!
все разъезжаются на лето; новостей будет немного.
На всякий случай - страница Гербария вот https://vk.com/mw_herbarium (здесь все записи - копии оттуда).
Она открытая, никаких регистраций не нужно.
Если что-то там посмотреть - то можно в свободном доступе. |
Natalia Gamova | 26.05.
"Атлас флоры России" на платформе Цифрового гербария МГУ
https://www.mskagency.ru/materials/2783795
29.05
/тоже про Атлас/
https://scientificrussia.ru/articles/v-gerbarii-mgu-obuchat-nejronnuyu-set-i-sozdadut-atlas-flory-rossii |
Natalia Gamova | 03.06.
Статистика Цифрового гербария МГУ на 1 июня 2018 г.
|
Natalia Gamova | 05.06.
Облако точек Цифрового гербария МГУ на 4 июня 2018 г. в разных проекциях.
Источник: https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303 |
Vladislav Grigorenko | А из Австралии действительно ни единого листика, или их ещё не оцифровывали? |
Natalia Gamova | Не оцифровывали. Но их негусто.. |
Vladislav Grigorenko | Понятно, спасибо... |
Natalia Gamova | Краткая "сводка новостей" за июнь-июль.
30.06
На пути к "Атласу флоры России": 137 940 vs. 142 733
1.
2.
Найдите между этими двумя картинками хотя бы одно отличие. Получилось? Всё верно: на платформе Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ) почти 5 тыс. новых геопривязок!
Мы начали ковровую бомбардировку Восточной Европы в связи с подготовкой 18-го и 19-го томов "Атласа флоры Европы" (тома посвящены бобовым). Так что черные дыры на нашем облаке точек постепенно будут затягиваться красными и желтыми точками.
Через пару дней будут и новые массивы данных: массовые координаты с этикеток мхов, новые точки по Чукотке/Камчатке, полнотекстовая база данных по злакам Камчатки и, возможно, этикетки сборов Тихомирова по средней полосе. |
Natalia Gamova | 1.07.18.
Небольшой юбилей:
Ровно три года назад мы обзавелись первыми сканами, которые ныне составляют Цифровой гербарий МГУ |
Natalia Gamova | 05.07.18
Гигантский новый массив OCR: Восточная Европа, Кавказ, Крым!
Итак, мы вышли на финишную прямую глобального OCR-прочтения Цифрового гербария МГУ. Мы регулярно об этом сообщаем, но всё же кратко расскажу ещё раз - прежде всего тем, кто с нами недавно.
Гербарный образец штука довольно плоская. Кроме растения, на нем есть еще и этикетка, а иногда и много этикеток. Примерно половина этикеток в Гербарии МГУ содержит печатные элементы. Они очень разные: типографские бланки, отпечатанные на машинке этикетки или современные надписи, сделанные на принтерах. Всё это с помощью процедуры оптического распознавания символов (OCR) машина может прочитать и сохранить результаты в базе данных.
Эти результаты мы научились причёсывать, исключая явный мусор. Впрочем, это очень сложная задача, поэтому алгоритмы чистки OCR-текста постоянно совершенствуются.
Пару дней назад мы загрузили огромный новый массив текста, полученного с помощью OCR: это 138 224 этикетки Восточной Европы (35-40% успеха), 43 231 этикетки Кавказа (40-45% успеха), 15 463 этикетки Крыма (45-50% успеха).
На сегодняшний день, 375 тыс. образцов Цифрового гербария МГУ имеют OCR-транскрипции, в т.ч. 313 576 образцов, для которых в базе данных отсутствует полнотекстовая этикетка. Сейчас мы обеспечиваем текстовый поиск по 423 тыс. образцов!
Наш OCR работает на Tesseract. |
Natalia Gamova | 06.07.18.
Миллиард
В это почти невозможно поверить, но факт остается фактом: GBIF ( https://www.gbif.org/ ) теперь содержит один миллиард записей о распространении живых существ на Земле. Миллиард - это очень много нулей!
Сейчас GBIF агрегирует сведения почти 40 тысяч баз данных о растениях и животных, грибах и бактериях, вирусах и вовсе неопределенных пока существ. Это электронные каталоги коллекций, базы данных отдельных экспедиций и целых университетских ассоциаций.
Россия на карте GBIF всё ещё - белое пятно (точнее, чёрная дыра), но постепенно мы копим сведения о природе нашей страны в едином формате. Гербарий Московского университета остается крупнейшим донором данных о природе России. Наш Цифровой гербарий ( https://plant.depo.msu.ru/ ) - крупнейшая российская база данных о распространении растений, содержащая сведения о 914 тыс. образцов растений.
Датасеты, опубликованные Гербарием МГУ:
A grid-based database on vascular plant distribution in Vladimir Oblast, Russia
123 054 occurrences - 3 citations
A grid-based database on vascular plant distribution in the Meshchera National Park, Vladimir Oblast, Russia
22 625 occurrences - 18 citations
Vascular plants of the Amur River Basin, Russia: specimen based occurrence dataset of 100 selected species
12 371 occurrences
Moscow University Herbarium (MW)
914 426 occurrences - 5 citations |
Natalia Gamova | 07.07.18.
В нашей подборке видеороликов о Гербарии МГУ пополнение!
"Черные дыры. Белые пятна": выпуск от 4.07.2018 (телеканал "Культура")
О чем расскажет гербарий и зачем извлекать ДНК у растений, собранных 300 лет назад?
Спикер выпуска: Алексей Серегин, ведущий научный сотрудник Гербария биологического факультета МГУ имени М.В. Ломоносова.
https://tvkultura.ru/anons/show/episode_id/1828487/brand_id/20863/ |
Natalia Gamova | 08.07.18.
Коллектор и дата указаны!
Цифровой гербарий МГУ ( https://plant.depo.msu.ru ) отныне целиком проиндексирован по полям "Коллектор" и "Дата сбора"! Благодаря сотрудничеству с компанией-партнёром (НПО "Опыт") удалось ввести в базу данных эти два параметра для всех образцов. Это необходимо для индексации записей по алгоритму автоматической геопривязки "ИСТРА".
Итак, на сегодняшний день 717 187 образцов (78,7% коллекции) имеют ненулевые значения в полях "Дата сбора" и "Коллектор". Еще 45 тыс. значений добавим в ближайшие дни (будет почти 85%). Установить их абсолютно для всех образцов оказалось невозможным. Главные ограничения следующие.
1) Поля "Коллектор" и "Дата" не указаны у образцов, у которых дата не указана целиком (ДД ММ ГГГГ).
2) Поля "Коллектор" и "Дата" не указаны у образцов, у которых дата указана в виде интервала.
3) Поля "Коллектор" и "Дата" не указаны у образцов, у которых коллектор указан неясно или не указан совсем.
4) Поле "Коллектор" заполнено только для первого коллектора образца (в случае, если сбор сделан несколькими людьми).
Впереди большая аналитическая работа. Теоретически мы теперь сможем с точностью до дня восстанавливать маршруты всех исследователей, передававших нам свои сборы. Мы можем устанавливать продуктивность и интенсивность сборов. Возможен теперь и автоматический поиск ошибок индексации. |
Natalia Gamova | 11.07.18.
Новый гигантский массив геоданных
Вчера произошло грандиозное событие: число геопривязок в Цифровом гербарии МГУ перевалило за 200 тысяч!
Утром 10 июля 2018 г. их было 142,742 штуки, а вечером уже 217,971. Это значит, что теперь каждый четвертый оцифрованный образец из Гербария МГУ имеет метку на карте.
Хронология прошедшего дня была такой. Перед обедом мы загрузили массив координат с этикеток мхов - 12 тысяч пар, напрямую взятых с этикеток. Еще 3 тыс. координат тут же расставила ИСТРА, основываясь на данных с только что загруженных этикеток. Вечером мы запустили ИСТРУ для автоматической геопривязки образцов, для которых накануне загрузили пару коллектор-дата (свыше 600 тыс. образцов). Итог превзошел все ожидания: +63 тыс. геопривязок!
|
Natalia Gamova | 12.07.18.
А у нас еще один видеосюжет!
От "Цифрового гербария МГУ" к "Атласу флоры России": новости на телеканале "Культура" (10.07.2018)
В сюжете - короткие интервью с Костей Скулачевым, Асем Ахметжановой, Алексеем Серегиным и гербарий Сергея Свирина на экране.
10.07.2018 | 10:36
В МГУ создают одну из самых больших электронных баз растений
Из гербария реального - в гербарий цифровой. В МГУ создают одну из самых больших электронных баз растений. Работа еще не завершена, но уже сейчас доступ к ресурсу может получить любой желающий. О растениях в сети в репортаже Анастасии Егоровой.
Грядка с капустой - научный эксперимент программистов МГУ. Часть семян они замачивают в воде, часть - в искусственно созданном веществе, которое, возможно, поможет в борьбе со старением. Капусту программисты выращивают на досуге. Основная работа - платформа для электронного депозитария живых систем «Ноев ковчег». Оцифрованный гербарий - один из его разделов.
«У этой системы есть 2 интерфейса. Один интерфейс для ученых, которые понимают слово таксономия, а есть интерфейс, для людей, которые могут набрать «ромашка» в строке поиска и получат упрощенную карточку», - рассказал архитектор информационной системы банка-депозитария Константин Скулачев.
За три года учёные и волонтеры оцифровали почти миллион растений из разных уголков земного шара. Это почти 90% всего гербария. Сейчас приступили к сканированию образцов из Западной Европы.
«Очень старые экземпляры XIX века, соответственно они лежат под тем названием, под каким они назывались еще в то время. Cейчас я беру базу в Интернете, забиваю туда это название и смотрю название принято сейчас, или же оно устарело, и заменяю его синонимом», - объяснила старший научный сотрудник кафедры геоботаники биологического факультета МГУ Асем Ахметжанова.
Растения для Гербария Московского университета собирали разные учёные: англичанин Джеймс Кук привез 250 образцов из Полинезии и Новой Зеландии, основатель научной ботаники Карл Линней пополнил гербарий астрагалом - растением из семейства бобовых. А этот образец, звездчатку, добыл под Магаданом Гуго Гроссет - сотрудник кафедры геоботаники МГУ, который 18 лет провёл в сталинских лагерях.
«Обычная котельная в одном из лагерей. Он сушил свой гербарий. Если этот образец перевернуть, то это дешевые обои тех времен», - поделился ведущий научный сотрудник кафедры геоботаники биологического факультета МГУ Алексей Серегин.
Интернет-пользователи узнают о травах столько же, сколько те, кто пользуется гербарием реальным. Но гораздо быстрее. Виртуальный паспорт образца сопровождается высококачественным изображением, информацией о том, в каких публикациях растение упоминалось, кто и где добыл образец.
«У нас количество посетителей гербария, пусть и виртуального, значительно увеличилось. Сейчас количество виртуальных посетителей по уникальным IP адресам в 200 раз превышает число физических посетителей в гербарии», - добавил Серегин.
Ученые и программисты сейчас работают еще над одним проектом - электронным атласом растений. Это виртуальная карта, которая наглядно покажет, какие виды трав растут в разных уголках Земли. Атлас создаётся на базе гербария. А его коллекция постоянно растёт. Стеллажи МГУ уже заполнены доверху. А на виртуальных полках всегда найдется место. Оцифровку крупнейшей коллекции засушенных растений закончат осенью.
https://tvkultura.ru/article/show/article_id/269565 |
Natalia Gamova | 13.07.18.
Топ-10 самых плодотворных коллекторов Гербария МГУ
Ввод кратких метаданных для всех листов Гербария МГУ позволил установить, сколько образцов было собрано каждым ботаником за его карьеру. Учтены только образцы, в которых данный коллектор фигурирует как первый. Гербарий Зарубежной Европы и Австралии в базу пока не внесен, однако на общую картину он почти не окажет влияния.
Итак, самые крупные учтенные в основном фонде коллекции передали в Гербарий МГУ:
Вадим Николаевич Тихомиров (21,6 тыс.)
Наталья Константиновна Шведчикова (21,5 тыс.)
Иван Алексеевич Губанов (21,1 тыс.)
Вадим Николаевич Павлов (19,5 тыс.)
Павел Александрович Смирнов (15,9 тыс.)
Михаил Георгиевич Пименов (14,7 тыс.)
Михаил Иванович Назаров (14,6 тыс.)
Алексей Петрович Серегин (13,4 тыс.)
Владимир Борисович Куваев (13,1 тыс.)
Полина Петровна Жудова (11,9 тыс.)
Не забудем, что Тихомиров, и Губанов, и Назаров активно передавали свои дублеты в БИН и другие гербарии страны и мира. У каждого из коллекторов был свой стиль работы: Тихомиров очень активно пользовался помощью студентов, Губанов и Пименов работали в экспедиционных партиях в группах от 2 до 6 человек, а вот Шведчикова и Назаров, как правило, были один на один с гербарием.
Этот перечень составлен только для сосудистых растений. В коллекции мхов другие герои, о которых мы расскажем как-нибудь в другой раз.
Каждый год мы включаем в фонды 15-20 тыс. новых образцов, поэтому со временем этот своеобразный рейтинг, конечно же, будет меняться.
Полный рейтинг в виде файла https://vk.com/doc10828577_468898134?hash=21b679f597e60afe38&dl=47f8eb48c98201da84 |
Natalia Gamova | 14.07.18.
Облако точек Цифрового гербария МГУ (https/plant.depo.msu.ru/) на 13 июля 2018 г.
К координатам привязано 217,040 образцов (24% от числа оцифрованных).
Источник карты: https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303
|
Natalia Gamova | 15.07.18.
10 тысяч новых геопривязок из разных районов Сибири
13 июля мы загрузили в систему 9 тысяч геопривязок сибирских образцов. Еще тысячу тут же накрыла ИСТРА.
За день число привязок увеличилось с 217 тыс. до 227 тыс. штук. Это еще один замечательный вклад в создание будущего "Атласа флоры России" на платформе Цифрового гербария МГУ.
Большинство новых образцов, передаваемых в Гербарий МГУ, уже имеют координаты, но, как нам удалось установить на примере Сибири, примерно 3% этикеток содержат ошибочные данные.
Самая распространенная ошибка, когда минуты (секунды) > 60. Например, 49°90′ с.ш., 85°60′ в.д. или 42°24′64,8′′ с.ш., 130°39′11,3′′ в.д. В таких случаях сложно быстро на потоке понять то ли это опечатка, то ли авторы перепутали формат записи координат.
Другой пример - опечатки в координатах. Об этом можно долго рассказывать, но в случае указания координат в формате ГГ,ГГГГГГ опечатка в десятках градусов даёт отлёт в 1000 км, в градусах - 100 км, в первом знаке после запятой - 10 км, во втором - 1 км, в третьем - 0,1 км и т.д. Всего одна цифра, а такая разница!
Зато мы научились автоматически фильтровать и ставить на место перепутанные координаты (когда авторы сборов случайно или по необразованности переставили широту и долготу местами), а также находить и пересчитывать долготу от Пулковского меридиана
|
Natalia Gamova | 17.07.18.
GBIF-копия Цифрового гербария МГУ за 9 месяцев набрала 10 цитирований!
Постоянно мы загружаем в Цифровой гербарий МГУ новые массивы текстовых данных и геопривязок. Раз в году он пополняется также новыми сканами.
Еженедельно (обычно в ночь с четверга на пятницу) система автоматически обновляет наши данные, залитые в GBIF. Отсюда, в свою очередь, они отправляются в различные загрузки пространственных и биологических данных для всевозможных научных исследований в области биогеографии, экологии, палеоботаники и биоклиматического моделирования.
16 июля 2018 г. на наш GBIF-датасет накопилось уже 10 цитирований: пожалуй, даже больше, чем число ссылок на образцы из физической коллекции Гербария Московского университета.
https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303
|
Natalia Gamova | 18.07.18.
Пульс Гербария МГУ: 20-й век
Теперь мы точно знаем, как фонды Гербария Московского университета росли от года к году. Пульс двадцатого века с его драматичной историей страны и её столицы хорошо виден на это графике.
Хорошо видны провалы 1918-1919 и 1941-1945, когда стране было не до науки.
Выделяется "Эверест" 1931 года, да и весь период 1926-36 гг. В это время в МГУ существовал отдельный НИИ ботаники, реорганизованный в 1950 г. - первом послевоенном провальном году.
Время больших экспедиций 1977-1979: развертываются обширные полевые исследования И.А. Губанова в Монголии и М.Г. Пименова в Средней Азии.
График основан на 75% введенных данных, и картина при вводе оставшихся 25% уже не изменится
Источник: https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303/metrics
|
Feedback | To the top |