Цифровой Гербарий МГУ
Обсуждение / Ресурсы по ботанике / Форум

Плантариум
определитель растений онлайн

Обсуждение

Вопрос понятен; передала.
Новое за февраль-март 07.02.19. Проект "Флора России | Flora of Russia" и GBIF: тонкости передачи данных Цифровой гербарий МГУ является системой хранения данных о разнообразии флоры мира, основанной на образцах из Гербария Московского университета. Постепенно к этой системе проявляют интерес и другие гербарии. Так в 2019 г. к нам присоединится Гербарий Главного ботанического сада РАН (московский отдел гербария). Все данные Цифрового гербария МГУ предоставляются по лицензии CC-BY-4.0 и доступны также через всемирную базу-агрегатор Global Biodiversity Information Facility (GBIF). Как вы уже знаете, принять участие в сборе данных о флористическом разнообразии России (да и других стран мира) теперь может любой желающий. Это стало возможным благодаря открытию на платформе iNaturalist курируемого нами проекта "Флора России | Flora of Russia" ( https://www.inaturalist.org/projects/flora-of-russia ). Нужно указать место сбора и загрузить фотографию. Наблюдения, загруженные в iNaturalist, также отображаются в GBIF, но не всегда и не все. Почему? Давайте разберемся. В настройках учетной записи каждый пользователь iNaturalist предоставляет информацию о том, по какой лицензии он делится своим контентом: фотографиями и текстовыми метаданными. По умолчанию здесь стоит лицензия CC-BY-NC (она же CC-BY 4.0 NC). Именно эта лицензия является пороговой для того, чтобы данные автоматически передавались в GBIF и становились общедоступными для мирового научного сообщества. Именно из GBIF мы будем выкачивать данные для "Атласа флоры России" на платформе Цифрового гербария МГУ, поскольку работаем в том же формате данных и гарантированно избавлены, таким образом, от вопросов лицензирования (авторского права). Некоторые пользователи умышленно меняют лицензии на более жёсткие: - Cc by sa С указанием авторства-С сохранением условий - Cc by nd С указанием авторства-Без производных - Cc by nc sa С указанием авторства-Некоммерческая-С сохранением условий - Cc by nc nd С указанием авторства-Некоммерческая-Без производных - Нет лицензии (Все права защищены) Такие наблюдения никогда не попадут в GBIF, где наш любимый iNat составляет лишь 0,7% от общего массива информации о живом. Именно поэтому число наблюдений сосудистых растений с территории России на 4 февраля 2019 г. в GBIF равно не 20 000, а 12 538 штук. Но и без этого Россия уже находится на 11 месте в мире по числу наблюдений растений в iNat, а сам iNat является девятым по числу записей источником GBIF-данных по флоре России, уступая следующим базам данных: Moscow University Herbarium (MW) 548 759 A grid-based database on vascular plant distribution in Vladimir Oblast, Russia 123 054 A global database for the distributions of crop wild relatives 69 255 EURISCO, The European Genetic Resources Search Catalogue 51 497 A grid-based database on vascular plant distribution in Udomlya District of Tver Oblast, Russia 31 669 A grid-based database on vascular plant distribution in the Meshchera National Park, Vladimir Oblast, Russia 22 625 Flora of the Volga River basin 20 308 Phenological observations of biota on the territory of Prioksko-Terrasnyi biosphere reserve 20 106 Если вы решите поменять лицензии на пригодные для GBIF-индексирования (СС0, CC-BY, CC-BY-NC), то это делается в настройках учетной записи отдельно для метаданных и отдельно для фотографий. Выбрав другую лицензию, не забудьте поставить галочку в поле "Обновить существующие наблюдения новыми вариантами лицензий" и "Обновить существующие фото новыми вариантами лицензий".
09.02.2019 г. в Москве, в Центральном доме художника Центральный Дом художника / The Central House of Artists , на VI фестивале Первозданная Россия Общероссийский фестиваль "Первозданная Россия" , в 12.30, выступил ведущий научный сотрудник биологического факультета МГУ Алексей Серегин. Алексей Серегин (Alexey Seregin) Рассказ о проекте «Цифровой гербарий МГУ» — крупнейшей в России базе данных по биоразнообразию Цифровой гербарий — портал с изображениями и метаданными почти всех видов флоры России и сопредельных стран. Колоссальная информационная база, интегрированная с аналогичными международными платформами. Результат работы более ста человек, позволивший России стать одним из мировых лидеров в области информатики биоразнообразия. А недавно в фонды гербария включили миллионный образец. И все это богатство — в свободном доступе. Принять участие в создании «Атласа флоры России» на платформе Цифрового гербария МГУ может каждый, загрузив фотографию и поставив точку съемки на карте. Автор видео Юрий Соколков ( https://www.facebook.com/profile.php?id=100000307002114 ) https://www.youtube.com/watch?v=UZ_AsRZnr0A https://www.youtube.com/watch?v=MGjkKNG5ahM https://www.youtube.com/watch?v=zxQzLYhlzIM
Дневник Московского университета 21 февраля 1823 г. Московский университет приобрёл у профессора Г.Ф.Гофмана (отделение физических и математических наук) гербарий, состоящий из 12 тыс. растений за 7000 рублей. Сохранившиеся экземпляры этой коллекции являются одними из наиболее ценных материалов, хранящихся ныне в Гербарии МГУ. Возникновение Гербария Московского университета можно связывать с именем П.Д.Вениаминова, который в 1765/1766 гг. открыл курс «Ботаническая философия с гербаризацией в летнее время». В 1770-1777 г. курс «Ботаническая терминология по Линнею с гербаризацией в весеннее время» в Московском университете читал первый русский профессор натуральной истории М.И.Афонин. Первые коллекции Гербария университета слагались в основном из сборов на экскурсиях по Подмосковью. В начале XIX в. появилась кафедра ботаники, заведовать которую был приглашён Георг Франц Гофман. Он привёз с собой принадлежащий лично ему обширный гербарий, который пополнял и в Москве, хотя сам в России практически не гербаризировал. Пополнение шло в основном за счёт подарков и обмена с ботаниками-современниками. На одном из традиционных торжественных годичных собраниях Московского университета он произнёс речь «О судьбе и развитии гербарного дела, прежде всего в Российской Империи», в которой показал широкое развитие ботанических исследований и гербаризации в России. Именно Гофман «усиленно прививал в московском обществе того времени, и особенно у своих учеников, вкус к собиранию гербариев», а с его именем связывают подлинное начало Гербария Московского университета. Сегодня Гербарий МГУ — второй по величине гербарий России; 62-й по объёму фондов среди всех гербариев мира и 24-й — среди гербариев вузов. Объём основных фондов — более 1 млн образцов. В гербарии сосредоточены важнейшие коллекции по флоре средней полосы России, важные коллекции по флоре других регионов России, Кавказа, Средней Азии, Казахстана, Монголии, а также по мохообразным России; важные именные коллекции (Георга Гофмана, Фридриха Эрхарта, Карла Триниуса, отца и сына Форстеров, а также коллекции, имеющие отношение к Карлу Линнею). В рамках проекта «Ноев ковчег» к концу 2017 г. оцифрованы и размещены в цифровом гербарии изображения и метаданные более 910 тысяч образцов. Цифровой гербарий МГУ: https://plant.depo.msu.ru/
02.03.2019. Большое интервью пресс-службе РГО с видеосюжетами и фотографиями Русское географическое общество ПРЕМИЯ РГО – 2018
08.03.2019. Россия в GBIF Тут возник вопрос: каково участие России в GBIF? Вопрос не праздный, поскольку Цифровой гербарий МГУ ( https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303 ) является крупнейшим поставщиком данных как среди российских организаций, так и среди всех баз данных, охватывающих Россию. По точкам находок всех живых организмов мы на 30-м месте: United States of America 327,168,721 Sweden 80,197,945 Australia 73,760,525 United Kingdom 65,891,108 France 57,886,823 Canada 50,332,130 Netherlands 48,855,075 Germany 37,905,804 Norway 31,589,318 Denmark 29,429,707 Finland 27,735,450 Spain 27,432,165 South Africa 22,443,719 Belgium 19,875,434 Mexico 14,206,197 Brazil 11,812,595 Costa Rica 8,485,704 Japan 6,464,662 Portugal 6,241,867 India 6,163,990 Colombia 5,561,138 New Zealand 5,550,491 Austria 3,617,214 Peru 3,346,368 Argentina 3,282,662 Taiwan 3,161,578 Ecuador 3,137,894 China 2,880,062 Estonia 2,690,940 Russian Federation 2,541,483 По точкам находок сосудистых растений мы на 23-м месте: France 39,667,143 Germany 26,553,003 Netherlands 18,344,760 Australia 17,040,026 United Kingdom 15,548,324 Sweden 12,327,871 United States of America 11,790,811 Spain 10,098,298 Belgium 7,088,858 Brazil 6,784,683 Finland 6,276,795 Norway 5,870,163 Canada 4,745,348 Denmark 4,167,641 Mexico 3,354,201 Japan 2,460,062 New Zealand 2,112,728 South Africa 1,950,848 Colombia 1,948,214 China 1,864,620 Portugal 1,369,078 Peru 1,162,618 Russian Federation 1,080,748 Costa Rica 926,872 Unknown country 904,925 Ecuador 861,085 Luxembourg 788,298 Antarctica 766,669 Taiwan 765,336 Austria 751,960
Наталья Гамова пишет:
в 2019 г. к нам присоединится Гербарий Главного ботанического сада РАН
А в какой фазе там работа? Всё уже оцифровано? А таком же разрешении, как в MW?
09.03.2019. Новые массивы: загрузка данных продолжается! Друзья, Цифровой гербарий МГУ ( https://plant.depo.msu.ru/ ) вышел из гибернации, которая продолжалась январь и февраль, и вот теперь начинаем загрузку накопившихся массивов. Всю неделю мы редактировали имеющиеся массивы и загружали их на портал. Итак, на утро 4 марта была следующая статистика: Образцов: 971732 Изображений: 968031 Видов: 37782 Геопривязок: 323015 Этикеток + OCR: 135811 + 330122 1. Мы загрузили небольшой массив ручных геопривязок из Южного и Среднего Урала, который сделал В.П. Травкин. На 99 ручных геопривязок пришлось еще 363 благодаря алгоритму ИСТРА - 39 по совпадению текста этикетки и 324 по совпадению пары коллектор/дата. Карта Урала постепенно покрывается новыми данными о ботаническом разнообразии территории. 2. Далее мы загрузили массив из 332 ручных геопривязок из Крыма, который сделала Е.С. Каширина (Филиал МГУ в г. Севастополе). Опять же по ИСТРЕ к ним добавилось еще 324 штуки (34 по тексту, 290 по коллектору/дате). Крымские горы - одна из территорий с наивысшей плотностью флористической информации в Цифровом гербарии МГУ. Работа по геопривязке продолжается, осталось привязать из Крыма 8046 образцов. 3. Загружены координаты 769 образцов мхов из новых включений 2018 года. Они взяты напрямую с этикеток. ИСТРА к ним добавила еще 102 единицы. Автор массива - наш оператор А.С. Борцова. Статистика после загрузки этих трех массивов: Образцов: 971734 Изображений: 968031 Видов: 37782 Геопривязок: 324844 Этикеток + OCR: 135811 + 330122
10.03.2019. Гербарий Цингера аннотирован и доступен онлайн! Василий Я́ковлевич Цингер (1836-1907) - российский математик, заслуженный профессор Императорского Московского университета; основатель геометрической школы Московского университета; один из основателей Московского математического общества, позже его президент. Декан физико-математического факультета и проректор Московского университета. Но нам В.Я. Цингер известен, прежде всего, как ботаник, автор "Сборника сведений о флоре Средней России" (1885). "Корреспонденты Цингера" из гимназий Московского учебного округа прислали ему в 1880-е гг. колоссальный гербарий по флоре Средней России. Именно его труд лёг в основу "Определителя" П.Ф. Маевского, которым мы пользуемся до сих пор. К сожалению, на рубеже 19 и 20 вв. за гербарием В.Я. Цингера не уследили (опубликованное свидетельство М.И. Назарова). Фантастическим образом он, судя по всему, был перемешан, а многие сборы утрачены. Когда чуть позже гербарий был смонтирован и вложен в фонды, на один лист пришлось наклеить все сборы какого-либо вида из одной губернии вперемешку. Наш оператор Дарья Бородина, профессиональный историк, провела титаническую работу по аннотации и составлению исчерпывающей базы данных сборов Цингера. Мы залили на днях 8112 записей - полных транскрипций рукописных этикеток с образцов из исторической коллекции. Даше пришлось работать с этикетками на русском, латыни и немецком, написанных десятками сложнейших почерков. Разобранные по полям базы данных этикетки включаются в алгоритм автоматической геопривязки ИСТРА. Эта система после заливки массива нашла в цингеровских этикетках совпадение с уже привязанными к карте образцами и смогла дополнительно дать координаты для 148 образцов по совпадению текста этикетки (например, 69 образцов с идентичным местом "Торжок. Тверск. губ.") и 190 образцов по совпадению пары "коллектор/дата". Через пару месяцев мы зальем на портал Цифрового гербария МГУ (https://plant.depo.msu.ru/) продолжение гербария Цингера.
11.03.2019. 1015 этикеток Назарова загружены в Цифровой гербарий МГУ Этот сумрачный тип - один из легендарных ботаников Московского университета. Его звали Михаил Иванович Назаров, и он стал одним из самых плодотворных коллекторов Гербария МГУ за всю историю, собрав почти 15 тыс. образцов (https://vk.com/wall-134484155_1238). Мы бережно относимся к оцифровке наследия самых трудолюбивых коллекторов нашего Гербария. На днях мы загрузили в систему Цифрового гербария МГУ (https://plant.depo.msu.ru) очередную порцию этикеток Назарова объемом 1015 штук от сборов 1915-1916 гг. Они были сделаны в сопредельных районах современных Владимирской и Рязанской областей. Назаров тогда жил в г. Меленки и с азартом собирал материал. Особое внимание он уделял ивам и их гибридам. Пройдет 20 лет, и его позовут обрабатывать Salix для "Флоры СССР". А пока же Михаил Иванович - учитель уездного городка, вынужденно оставивший университет из-за политических взглядов и поддержки революционных идей. Автор массива: Татьяна Сухова. 368 этикеток М.И. Назарова из этой заливки получили автоматические геопривязки.
12.03.2019. Новые массивы: загрузка продолжается 6. И снова геопривязки. Н.В. Иванова и М.П. Шашков в рамках нашего сотрудничества с GBIF выполнили ручную геопривязку 187 образцов из Восточной Европы и Кавказа. Предварительно были отобраны образцы, собранные отдельными коллекторами в наиболее продуктивные дни своей работы. Таким образом, благодаря алгоритму ИСТРА к ручным геопривязкам добавилось еще 3200 автоматических. 7. Геопривязки района S4 предоставлены сотрудником Гербария К.В. Дудовой. Ксения поставила 93 ручные метки на карте, еще 265 автоматически проставила система ИСТРА. 8. Наш оператор А.С. Салмин работал с коллекциями самых плодотворных коллекторов Сибири и Дальнего Востока. Точнее, это отдельные коллекции с восточного макросклона Урала, Западной Сибири, гор юга Сибири, Якутии. Привязано руками 349 образцов, еще 5145 образцов накрыто ИСТРОЙ. По итогам загрузки восьми массивов прошедшей недели общее число геопривязок превысило 334 тыс. штук! Образцов: 974261 Изображений: 968031 Видов: 37782 Геопривязок: 334160 Этикеток + OCR: 144592 + 324373
13.03.2019. Якутия: терра инкогнита (часть 1) Якутия на картах Цифрового гербария МГУ уже довольно давно выделялась очень низкой плотностью фактического материала. Так, на карте нашего массива в GBIF (см. скриншот) четко видна граница Якутии почти на всем протяжении. Так уж сложилось, что по разным проектам и в результате работы волонтеров из всех сопредельных регионов у нас есть полные массивы геоданных (Красноярский край, бассейн Амура) или репрезентативные выборки (Магаданская обл., Чукотка). Собственно, из 14 752 образцов флоры Якутии только 10% (1 478 ед.) имели геопривязки. А ведь это пятая часть нашей страны! Благодаря нашему сотрудничеству с коллегами из Улан-Удэ по гранту РФФИ 19-54-53014 "Сравнительный анализ закономерностей разнообразия древесных и травянистых видов континентальной Азии" (рук. Санданов Д.В.) мы привязали к карте еще 3 410 образцов, представляющих флору Якутии. Авторы массива: А.П. Серегин (2 781 шт.) и А.С. Салмин (629 шт.). Начали с массовой геопривязки сборов самых активных коллекторов - А.Я. Бронзова ( https://plant.depo.msu.ru/open/public/search?searchBy=any&queryString=%D0%91%D1%80%D0%BE%D0%BD%D0%B7%D0%BE%D0%B2%20S5 ), В.Б. Куваева ( https://plant.depo.msu.ru/open/public/search?searchBy=any&queryString=%D0%9A%D1%83%D0%B2%D0%B0%D0%B5%D0%B2%20S5 ), А.П. Тыртикова ( https://plant.depo.msu.ru/open/public/search?searchBy=any&queryString=%D0%A2%D1%8B%D1%80%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%20S5 ), каждый из которых привёз из Якутии свыше 1 тыс. гербарных образцов. К сожалению, пришлось пока отказаться от привязки крупной коллекции М.Н. Караваева (906 образцов) ( https://plant.depo.msu.ru/open/public/search?searchBy=any&queryString=%D0%9A%D0%B0%D1%80%D0%B0%D0%B2%D0%B0%D0%B5%D0%B2%20S5 ). Караваев, будучи автором "Конспекта флоры Якутии" (М.; Л.: АН СССР, 1958. 192 с.) и куратором Гербария МГУ, как выяснилось, крайне ненадежно этикетировал массовые сборы с Хараулахских гор в низовьях Лены. Сборы 1938 г. имеют вполне ясные указания на пункты сбора (с точностью до реки), а вот даты сборов даны самым невероятным случайным образом. Настолько случайным, что нет ни малейшей возможности установить хотя бы приблизительно маршруты Караваева. Еще предстоит разобраться с более поздними сборами, но уже сейчас ясно, что легкими эти изыскания точно не будут. Общее число геопривязок Цифрового гербария МГУ после загрузки этого массива превысило 337 тыс. штук. Статистика Цифрового гербария МГУ на утро 12 марта 2019 г.: Образцов: 974 262 Изображений: 968 031 Видов: 37 782 Геопривязок: 337 202 Этикеток + OCR: 144 592 + 324 373 Алексей Павлович Тыртиков Владимир Борисович Куваев Михаил Николаевич Караваев
16.03.2019. Новые массивы: Западная Сибирь 13 марта мы залили на портал очередной большой массив геопривязок. На сей раз из Западной Сибири. Автор массива: И.Н. Поспелов. Игорь Николаевич Поспелов - известный российский ботаник, соавтор монументальной "Флоры Таймыра" и наш самый активный волонтёр. В 2017-2018 гг. он выполнил ручную геопривязку 20 тысяч образцов Средней Сибири (Красноярский край без южной горной части), став наиболее плодотворным оператором геопривязок Цифрового гербария МГУ (https://plant.depo.msu.ru/). При этом многие сборы сделаны им лично на Таймыре, Анабаре и Путоране. Сейчас в работе у И.Н. Поспелова - Западная Сибирь, которая включает восточный макросклон Урала и всю Западно-Сибирскую низменность. Мы залили 995 ручных геопривязок + 707 штук встали автоматически в результате работы алгоритма ИСТРА. Сейчас у нас есть уже 8481 образцов с геопривязками из Западной Сибири. Всего из этого района у нас хранится 15484 образца. В общем, 55% уже сделано! Статистика Цифрового гербария МГУ на 13 марта после заливки Западной Сибири: Образцов: 974262 Изображений: 968031 Видов: 37782 Геопривязок: 338485 Этикеток + OCR: 144592 + 324373
17.03.2019. Камчатка, Чукотка, Колыма: новые геоданные Продолжаем загрузку новых массивов в Цифровой гербарий МГУ (http://plant.depo.msu.ru/). Вечером 13 марта мы загрузили координаты мест сбора 3628 образцов с крайнего Северо-Востока нашей страны: Чукотки, Камчатки и Магаданской области. Этот огромный массив пространственных данных был подготовлен нашим неутомимым волонтером А.А. Лапиным. Поскольку Алексей вручную привязывает все коллекции подряд без предварительной агрегации, то ИСТРА работает менее активно - дополнительно автоматическими привязками закрыто всего 112 образцов. Кроме того, Алексей добавляет к каждому образцу краткое содержание этикетки для удобства геопривязки. Присмотритесь к картинкам. На представленных скриншотах показаны те же самые данные. Мы поменяли размер точек и проекцию. Визуально кажется, что на правой карте точек гораздо больше и они гуще покрывают территорию. Так что картографическая визуализация вещь обманчивая. После загрузки массива от А.А. Лапина (вечер 13 марта) статистика Цифрового гербария МГУ выглядит следующим образом: Образцов: 974 273 Изображений: 968 031 Видов: 37 782 Геопривязок: 341 797 Этикеток + OCR: 148 467 + 322 723
18.03.2019. Новые массивы: продолжаем! Мы продолжили 14 и 15 марта 2019 г. загрузку новых геоданных, которые наши операторы добывают в результате геопривязки образцов Цифрового гербария МГУ. В этот раз - три массива от студентов МГУ, которые сотрудничают с нами в качестве операторов геоданных. Массив 12. Наталья Копылова работала с образцами из Европейской России, собранных после 2000 г. Получилось 30 ручных геопривязок, к которым ИСТРА добавила еще 369 автоматических. Массив 13. Иван Кривокорин делал ручные геопривязки Москвы и Московской области за период с 1950 по 1999 гг. К 68 ручным геопривязкам ИСТРА добавила 964 автоматические. Массив 14. Ирина Мельник вручную привязывала этикетки, в которых OCR нашел слово "Москва". Итог - 136 ручных геопривязок, 16 координат напрямую с этикеток и 301 дополнение по ИСТРЕ. Итог трех загрузок (со всеми циклами ИСТРЫ получилось +1879 штук) повлиял на статистику Цифрового гербария МГУ следующим образом (срез к обеду 15 марта 2019 г.): Образцов: 974 273 Изображений: 968 031 Видов: 37 782 Геопривязок: 343 676 Этикеток + OCR: 148 467 + 322 723 До лета у нас должно случиться 400 тыс. геопривязок и 300 тыс. этикеток. Продолжаем работать
18.03.2019. В нашем проекте "Флора России | Flora of Russia" на платформе iNaturalist 40 000 наблюдений! Подробности тут: https://www.inaturalist.org/projects/flora-of-russia/journal Принимаем поздравления и ждём новых участников! Наш адрес: https://www.inaturalist.org/projects/flora-of-russia
19.03.2019. Якутия: терра инкогнита (часть 2) Заливка первой части геопривязок Якутии состояла из 3 410 образцов. Их сделали А.П. Серегин и А.С. Салмин. Она включала в себя сборы трёх выдающихся коллекторов - А.Я. Бронзова, В.Б. Куваева и А.П. Тыртикова, каждый из которых доставил в Гербарий МГУ из Якутии свыше 1 тыс. гербарных образцов. Вторая часть якутского массива включала сборы М.Н. Караваева за 1946-1960 гг. и В. Ивановой за 1956-1958 гг. (910 образцов). Кроме того, были включены сборы А.П. Хохрякова, В.Р. Филина, В.Н. Павлова и некоторых других коллекторов (Трушковский, Сладков, Приземина, Осин, Николаев, Макаров, Куприянов, Колпаков) (680 образцов). Автор массива: А.П. Серегин. О том, что М.Н. Караваев оказался очень неаккуратным в документации своих сборов мы уже писали. Пришлось полностью отказаться от привязки его довоенных и военных сборов из Якутии. Другие сложности были связаны с привязкой массовых сборов В. Ивановой с горных хребтов бассейна Индигирки, Колымы, Алдана и Яны. Основные ориентиры на этикетках - реки, большие и малые. В 1950-е гг. в этих местах были приняты одни их названия, взятые то ли из юкагирского, то ли из ульчского. Сейчас приняты уже другие - то ли эвенские, то ли якутские топонимы. На все это наложена "практическая транскрипция" на русский, которая также не была стабильной. В итоге имеем: 1) на доступных картах генштаба второй половины 20 в. (вплоть до 500-метровок) - одни названия; 2) в государственном водном реестре ( http://textual.ru/gvr/ ) - другие; 3) на этикетках - третьи. Старых подробных карт и планшетов, которыми пользовались геоботанические партии на Колымском тракте в 1950-е гг. не достать. Итог - массовые пропуски недель плодотворных экспедиционных сборов из труднодоступных районов. Вот, например, попробуйте найти на карте (и прислать нам) координаты вот этих мест работы В. Ивановой и Л. Добрецовой. Нам слабо: 20.06.1955 - есть сбор из точки 64.651469, 137.018114 22.06.1955 - р. Сергелькан (лев. приток р. Сынабыл) 23.06.1955 - р. Екетчан (прав. приток р. Икири) 27.06.1955 - р. Нелоти (лев. приток р. Делиньи) 28.06.1955 - р. Нёлини (приток р. Делиньи) 30.06.1955 - р. Турахы (прав. приток р. Делиньи) 1.07.1955 - есть сбор из точки 65.126411, 138.596972 См. скриншоты этих этикеток. Геопривязки Якутии случились благодаря нашему сотрудничеству с коллегами из Улан-Удэ по гранту РФФИ 19-54-53014 "Сравнительный анализ закономерностей разнообразия древесных и травянистых видов континентальной Азии" (рук. Санданов Д.В.). Итог якутской загрузки за две недели: + 4939 геопривязок из самых труднодоступных мест Сибири. Статистика Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ) к обеду 18 марта 2019 г.: Образцов: 974 273 Изображений: 968 031 Видов: 37 782 Геопривязок: 346 156 Этикеток + OCR: 148 467 + 322 723 1. 2. 3. 4. 5.
20.03.2019. Новые массивы: Южный и Средний Урал Район E10 Гербария Московского университета включает Башкирию, Пермский край, Свердловскую, Челябинскую и Оренбургскую области. Территория интересная и очень разнообразная во флористическом отношении - от гольцов и горных тундр до солончаков с пустынными видами. Автор массива: В.П. Травкин. Мы познакомились с Владимиром Петровичем благодаря платформе iNaturalist (и проекту https://www.inaturalist.org/projects/flora-of-russia ), где он является самым активным наблюдателем из Самарской ( https://www.inaturalist.org/projects/samara-oblast-flora?tab=observers ) и Оренбургской ( https://www.inaturalist.org/projects/orenburg-oblast-flora?tab=observers ) областей. Сейчас В.П. сотрудничает с Цифровым гербарием МГУ в качестве оператора геоданных. Постепенно двигаясь от последних по времени коллекций к самым старым, В.П. выясняет координаты сбора образцов. В этой заливке от 16 марта 2019 г. имеется 493 ручные геопривязки, еще 602 штуки помогла добыть система ИСТРА. Общее число геопривязок с Южного и Среднего Урала выросло с 5840 до 6839 штук (всего 22 444 образцов). Так что уже 30,5% образцов из этого района имеют геопривязки.
22.03.2019. Большая чистка: как мы ищем ошибки Когда у вас есть 1 047 000 гербарных образцов, 974 000 записей в базе данных и 361 000 геопривязок, то поиск неизбежных ошибок никак невозможен путем аккуратного просмотра каждой этикетки и проверки каждой введенной на карту точки. Для работы с большими данными нужны принципиально иные решения и алгоритмы. В Цифровом гербарии МГУ есть алгоритм автоматической геопривязки ИСТРА ( http://www.rscf.ru/ru/node/2618 ). Это Интеллектуальная Система Топонимического Распознавания и Атрибутирования. Работает она двумя способами: - геопривязка образцов по идентичному тексту у нескольких этикеток; - геопривязка нескольких образцов, собранных тем же коллектором в тот же день. Второй способ использует только фамилию коллектора, поэтому для исключения однофамильцев мы добавили еще и район гербария. Логика такова: если есть однофамильцы и живут они в одно время, то работают они, скорее всего, в разных районах. Это касалось многочисленных Петровых, Смирновых, Ивановых. В общем получалось, что второй алгоритм ИСТРЫ ищет образцы по совпадению полей "коллектор - дата - район гербария". Очевидно, что среди миллиона образцов попадаются такие, у которых район гербария (а их у нас 60 штук) введен неверно. Такие ошибки возникали в результате: 1) случайных ошибок при включении образцов в фонды (образец из Москвы клали в Черноземье); 2) изменения административных границ (Переславский уезд из Владимирской губ. переехал в Ярославскую обл., а образцы не переложили); 3) разделения районов гербария (из E12 выделили E12a, но не везде аккуратно); 4) наличия идентичных топонимов (Уральской областью в 1930-е гг. называли Пермский край, а после войны - Западно-Казахстанскую область); 5) неверного атрибутирования образцов во время сканирования (образцы Hordeum jubatum из E5 случайно отнесли к E6). В общем, на миллион образцов ошибочек накопилось. Мы придумали как массово их найти и исправить с помощью той же ИСТРЫ. Если привязанные к карте образцы коллектора А.Б. за день 01.01.1930 относятся к одному району, а непривязанные - к другому, то велика вероятность того, что именно район введен с ошибкой. Такие образцы были выгружены и проверены вручную. В итоге, у 1309 образцов (0,1% от коллекции) район гербария был исправлен и все эти образцы, к тому же, получили геопривязки. На это ушло несколько часов работы одного оператора. Статистика до чистки (18.03.2019, 16:30 MSK): Образцов: 974 273 Изображений: 968 031 Видов: 37 782 Геопривязок: 347 915 Этикеток + OCR: 148 467 + 322 723 Статистика после чистки (18.03.2019, 18:00 MSK): Образцов: 974 273 Изображений: 968 031 Видов: 37 782 Геопривязок: 353 261 Этикеток + OCR: 148 467 + 322 723
24.03.2019. Новые массивы: 5359 этикеток Москвы и Московской области Автор массива: И.В. Мельник. В Цифровом гербарии МГУ уже более 153 000 образцов имеют распознанный текст этикеток. Если их заскриншотить, получится 5123 такие картинки. В течение недели мы зальем еще 144 000 этикеток. Статистика до заливки (вечер 19 марта): Образцов: 974 277 Изображений: 968 031 Видов: 37 782 Геопривязок: 353 619 Этикеток + OCR: 148 467 + 322 723 Статистика после заливки (к обеду 20 марта): Образцов: 974 285 Изображений: 968 031 Видов: 37 782 Геопривязок: 353 623 Этикеток + OCR: 153 705 + 320 341
29.03.2019. Большой март продолжается: новые массивы геоданных (ч. 1) В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) статистика залитых геопривязок растет как на дрожжах благодаря дружной работе нашей команды. 20 марта Новый массив: 146 ручных геопривязок (автор И.Г. Кривокорин) Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье ИСТРА добавила +25 по тексту и ещё +1787 геопривязок по паре Коллектор/дата Новый массив: 25 ручных геопривязок Echinops (автор С.Р. Майоров) Южный Урал ИСТРА добавила +64 геопривязки по паре Коллектор/дата 21 марта Новый массив: 87 ручных геопривязок (автор И.Г. Кривокорин) Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье ИСТРА добавила +31 по тексту и еще +634 геопривязки по паре Коллектор/дата.
29.03.2019. Проект "Флора Чувашии" набрал 4000 наблюдений сосудистых растений и уверенно идет на ВТОРОМ месте среди всех регионов России. Все благодаря Сергею Апполонову, - 75% его заслуга! https://www.inaturalist.org/projects/chuvash-republic-flora
30.03.2019. Большой март продолжается: новые массивы геоданных (ч. 2) В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) статистика залитых геопривязок растет как на дрожжах благодаря дружной работе нашей команды. 21 марта 2019 г. Новый массив: 163 ручных геопривязки (автор А.П. Серегин) Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье ИСТРА добавила +20 по тексту и еще +4631 геопривязок по паре Коллектор/дата. 25 марта 2019 г. Новый массив: 1591 ручная геопривязка S1 (автор И.Н. Поспелов) Западная Сибирь (сем. осоковые) ИСТРА добавила +825 геопривязок по паре Коллектор/дата.
31.03.2019. Большой март продолжается: новые массивы геоданных (ч. 3) В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) статистика залитых геопривязок растет как на дрожжах благодаря дружной работе нашей команды. 27 марта Новый массив: 915 ручных геопривязок (актор К.В. Дудова) Европейская часть ИСТРА добавила +2 по тексту и +4856 по паре Коллектор/дата. 28 марта Новый массив: 206 ручных геопривязок (автор И.Г. Кривокорин) Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье ИСТРА добавила +31 по тексту и еще +1448 по паре Коллектор/дата. Статистика Цифрового гербария МГУ на середину 28.03.2019 г.: Образцов: 974289 Изображений: 968033 Видов: 37782 Геопривязок: 370289 Этикеток + OCR: 153706 + 320340
02.04.2019. Гигантская заливка текстовых данных на портал Цифрового гербария МГУ: расшифровка 144 000 этикеток В 2018 году по гранту РНФ № 14-50-00029 наш коммерческий партнер осуществлял ввод колоссального объема этикеток для Цифрового гербария МГУ. В качестве цели ввода этикеточных данных были выбраны образцы из России, собранные 64 самыми плодотворными коллекторами нашего гербария (и их однофамильцами). Это позволило заметно оптимизировать ввод, сосредоточившись на сборах людей, собиравших гербарий массово. Ниже дана статистика введенных этикеток по отдельным коллекторам: Тихомиров 11246 Смирнов 9481 Жудова 9437 Назаров 7620 Куваев 6731 Шведчикова 6679 Вехов 4457 Сырейщиков 3686 Петунников 3564 Красноборов 2955 Иванова 2897 Носков 2848 Каден 2761 Алексеев 2707 Губанов 2315 Трофимов 2300 Щербаков 2268 Жадовский 2245 Майоров 2218 Игнатов 2115 Соколов 1988 Сухоруков 1968 Говорухин 1902 Павлов 1853 Петров 891+665 Кац 1723 Шауло 1715 Абрамова 1699 Наумова 1687 Шретер 1676 Ломоносова 1646 Амирханов 1568 Малютин 1555 Алехин 1552 Филин 1483 Бронзов 1472 Левицкий 1427 Соколова 1341 Вернандер 1316 Петелин 1315 Тыртиков 1310 Гроссет 1289 Полуянов 1145 Липшиц 1136 Пименов 1079 Новиков 1056 Поспелова 1041 Аверкиев 1039 Кожевников 1024 Зернов 996 Космовский 992 Борисова 958 Караваев 950 Кузнецов 948 Силаева 923 Сукачев 905 Павлова 735 Леонтьев 731 Прозоровский 721 Октябрева 687 Новограбленов 420 Курченко 402 Пешкова 384 Крылова 202 Мы отразили в техническом задании жесткие требования по качеству ввода данных. Для того, чтобы выполнить эти нормативы, компания-партнер предпочла значительно превысить план ввода и передала нам 144 000 сделанных этикеток (т.е. на 4 000 больше заявленного плана). В течение нескольких месяцев мы проверяли данные на предмет логических ошибок и опечаток, тестировали различные режимы массовой загрузки данных по отдельным полям, разбирали по правильным полям содержимое поля "Прочая текстовая информация". Вечером 28 марта 2019 г. IT-команда Цифрового гербария МГУ загрузила этот обширный массив на портал https://plant.depo.msu.ru/. Теперь 30% фондов Цифрового гербария МГУ (и 60% образцов сосудистых растений с территории России) можно проискивать по корректно введенным этикеткам, а иностранным коллегам получать автоматический перевод этих данных на родной язык. Система ИСТРА получила незаменимый источник данных для оптимизации циклов автоматической геопривязки. Статистика до заливки (28.03.2019, 16:00): Образцов: 974 289 Изображений: 968 033 Видов: 37 782 Геопривязок: 370 289 Этикеток + OCR: 153 706 + 320 340 Статистика после заливки (28.03.2019 19:00): Образцов: 974 289 Изображений: 968 033 Видов: 37 782 Геопривязок: 370 289 Этикеток + OCR: 297 497 + 261 108 Статистика после заливки и генерального прогона ИСТРЫ (30.03.2019 14:00): Образцов: 974 289 Изображений: 968 033 Видов: 37 782 Геопривязок: 373 163 Этикеток + OCR: 297 497 + 261 108
Поиск
Top.Mail.Ru Обратная связь Наверх
www.plantarium.ru