Наши партнеры

UnixForum





Библиотека сайта rus-linux.net

Пятнадцать больших баз данных, доступных из интернета, о которых следует знать

Оригинал: 15 Massive Online Databases You Should Know About, June 16, 2015
Автор: Gavin Phillips
Дата публикации: June 16, 2015
Перевод: Н.Ромоданов
Дата перевода: июль 2015 г.

Давайте поразмышляем о ваших любимых открытых базах данных, к которым есть доступ из сети интернет.

Я уверен, что на ум мгновенно приходят Wikipedia (Википедия) и IMDb (Интернет-база кинофильмов), но, возможно, вам не нужны все эти глубокие знания или всеобъемлющая базы данных всех развлечений. Иногда вам нужна несколько иная, но также очень большая база данных. Иногда - для анализа ваших собственных данных. Иногда — для того, чтобы добавить к вашим данным что-то очень "большое". Мы вам поможем — читайте нашу статью.

Ниже мы расскажем о пятнадцати больших онлайновых базах данных, к которым вы можете бесплатно получить доступ и проанализировать в них данные, а можете просто покопаться в них на досуге для того, чтобы удовлетворить свое любопытство.

1000 Genomes - Тысяча геномов

Закрытие в 2003 году Проекта генома человека (Human Genome Project - HGP) оказалось всего лишь началом последующих исследований. С тех пор прогресс в технологии исследования генных цепочек позволил значительно сократить расходы, если пересчитывать затраты на одного человека, а сам проект HGP, в котором первоначально участвовало двадцать университетских лабораторий, был значительно расширен и стал глобальной сетью, позволяющей изучать взаимные связи в геноме.

Вы можете скачать часть «Проекта тысяча геномов» (1000 Genomes Project), в которой содержится информация о последовательности цепочек генома для более чем 2600 человек из 26 популяций по всему миру. Это файл размером 200 Tб, так что будьте к этому готовы. Мы хотели бы рекомендовать вам пользоваться им на мощных платформах облачных вычислений.

Смотрите также: База данных генома животных; данные генома относятся к 5635 видам животных.

Airliners - Авиалайнеры

Рай для тех, кто без ума от самолетов. Огромная база данных изображений, предоставляющая 2 532 457 фотографий различных самолетов - от самых маленьких индивидуальных летательных аппаратов и до неповоротливых громадных летающих крепостей.

В базе данных Airliners также есть обширный раздел с данными о самолетах и историческими сведениями, которые постоянно обновляются в сотрудничестве с компанией Aerospace Publications, обеспечивающей точность и актуальность данных. В итоге эта база данных самая подробная среди всех баз данных в интернете, посвященных воздушным судам.

Смотрите также: Поищите фотографии различных размеров на сайте Planespotters.net или изучите конструкции сидений для самолетов на сайте SeatGuru.

The Internet Archive – Интернет архив

Сайт, ранее известный как The Internet Archive (Архив Интернета), подвергся существенному редизайну. Сайт не менялся примерно с 2002 года, но с тех пор многое поменялось. С самых первых дней Архив Интернета постоянно растет в размерах.

На сайте архивируется все, что есть интернете и вам на этом сайте предлагается бесплатный доступ к цифровой информации, в том числе к книгам, музыке, играм, видео и многому другому. Размер коллекция в настоящее время оценивается на уровне около 10 петабайт, а поскольку поисковики сайта все еще продолжают ползать по сети, размер этого сайта продолжает расти.

Freebase - Онлайн-коллекция структурированных данных

Freebase является "курируемой сообществом базой данных, хранящей сведения об известных людях, местах и предметах"; сведения хранятся в структуре данных, называемой графом. Граф состоит из узлов, соединенных ребрами и это позволяет базе данных Freebase быстро расширять свой контент, не нарушая содержимое уже существующих записей.

К сожалению, база Freebase, принадлежащая Google, перед тем, как этот автономный сервис будет передан в фонд Wikimedia Foundation для интеграции с проектом Wikidata (в конце июня 2015 года), перешла в начале этого года в режим только чтения. Разработчики все еще могут в настоящее время получить доступ к Freebase через существующее API, но как только переход произойдет, разработчикам для доступа к данным придется пользоваться API-интерфейсами Wikimedia.

Find a Grave - Найти могилу

Мы переходим от домашней базы знаний от Google и Wikimedia к более печальной теме. Find a Grave является базой данных, в которой хранятся 121 миллион записей о захоронениях по всему миру.

Наиболее полные данные поступают из США, но есть некоторые небольшие страны, данные из которых поступают в большом объеме. Фотографии, интересные монументы, а также ряд интересных эпитафий ... вам необходимо вдохновение?

GameRankings - Рейтинг компьютерных игр

База данных поддерживается вездесущей командой рецензентов из Gamespot. База данных GameRankings предоставляет всестороннюю картину популярности игр благодаря тому, что рассматриваются как онлайновые, так и несетевые обзоры игр из различных авторитетных источников.

The Big Cartoon Database - Большая база данных анимации

Внимание в базе данных Big Cartoon Database сосредоточено исключительно на всем, что касается анимации: мультфильмах, фильмах, телевизионных шоу, рекламе и многом другом, точно также, как сделано в громадной базе данных IMDb. Если есть что-то, что связано с анимацией, то это вы найдете здесь, а если не найдете, то зарегистрируйтесь как поставщик контента и добавьте новые данные в эту постоянно растущую базу данных.

У базы The Big Cartoon Database есть сайт-двойник в большой базе данных комиксов The Big Comic Database, в которой хранятся еще 100 000 или даже больше записей о комиксах, охватывающих около 5000 серии, с более чем 35000 сканами обложек. Здесь также есть полнофункциональный поиск, а также справочник цен на комиксы, учитывающих многие частности.

Смотрите также: База данных комиксов The Grand Comics Database является некоммерческой базой данных о предприятиях, выпускающих комиксы по всему миру.

CiteSeerX - Научные публикации и препринты

Бесценным инструментом для студентов, а также и для преподавателей является общедоступный поисковый движок и цифровая библиотека учебных и научных работ CiteSeerX. Эта база данных часто считается первой автоматизированной системой индексации цитирования, причем она оказала влияние на создание поисковых систем Google Scholar и Microsoft Academic Search. Впрочем, последняя из указанных была интегрирована в поисковик Bing.

В CiteSeerX индексированы документы, предназначенные для общеобразовательных школ. Если научный документ распространяться открыто, то много шансов, что он появится в этой поисковой системе. CiteSeerX является прекрасным примером предоставления общих знаний для очень широкой аудитории.

Смотрите также: Google Scholar — еще один источник различных книг и цитат.

WorldCat - Библиографическая база данных

К сожалению, это не база данных всех картинок с котиками и кошечками, которые есть в интернете (Cat – в переводе с английского «кот»). Но это - вещь! Содержимое WorldCat гораздо полезнее, чем котики и кошечки. На сайте задокументированы коллекции ссылок на более, чем 72 000 библиотек по всему миру, охватывающих 170 стран и территорий. Это полезный ресурс на тот случай, если вы ведете исследования в чужой стране, или на тот случай, если у вас просто есть желание лично читать редкие книги.

Единственным недостатком является то, как в ней происходит обновление. В WorldCat используется модель пакетной обработки, которая не позволяют пользователям получить доступ к данным в режиме реального времени. В WorldCat не указывается юридический статус каталогов книг, а также есть ли в библиотеке нескольких копий одной и той же книги и будет ли книга непосредственно доступна для тех, кто захочет посетить библиотеку. Но это, по-прежнему, очень полезное средство, особенно при использовании его совместно с CiteSeerX.

The Simpsons Archive - Архив Симпсонов

"Интернет-сокровищница руководств, новостей и информации, касающихся Симпсонов", - я не смог бы сам сказать лучше. Давний ресурс, любимый поклонниками сериала еще с 1994 года, и он все еще востребован несмотря на то, что в нем нет мультимедийного контента, что позволяет избежать бдительного ока юридического отдела компании Fox.

WinCustomize - Настройки Windows

Здесь вы найдете одну из крупнейших баз данных инструментальных средств настройки Windows, причем начиная с XP и до Windows, 8.1. Я уверен, что пройдет совсем немного времени и здесь займутся Windows 10. Ее широкая популярность обусловлена следующим: сайт субсидирует владелец компании Stardock, а это означает на сайте почти нет рекламы. Ему выгодно направлять отдельных посетителей на этот сайт с сайта Stardock.

Ultimate Guitar Archive - Архив сообщества гитаристов

Ах, ностальгическое путешествие по этой базе данных напомнило мне о том, что мне никогда не быть Роджером Уотерсом (Roger Waters - один из основателей и лидеров группы Pink Floyd). На самом деле я все еще чуть-чуть играю, но это уже другая история.

На архив Ultimate Guitar Archive, или просто Ultimate-Guitar (UG), подписано по всему миру более 1 500 000 зарегистрированных пользователей и в нем неимоверно много контента, за качеством которого следит сообщество. Почти ошеломительно насколько много данных, касающихся игре на гитаре, распространяется из этого одного источника. Сообщество не просто поддерживает огромную базу данных, его члены также часто сотрудничают друг с другом и создают совместные музыкальные проекты.

Plants for a Future - Растениеводство будущего

На сайте Plants for a Future (Растения будущего) приводится много данных об экологическом растениеводстве. Сайт распространяет знания о разнообразии видов и важности ведения сельского хозяйства на основе взаимосвязей, наблюдаемых в естественных экосистемах. То, что началось, как небольшой проект в графстве Cornwall на юго-западе Англии, сейчас превратилось в мировую базу данных.

Сайт увеличивается в размерах сравнительно медленно и в значительной степени ориентируется на ведении сельского хозяйства в Великобритании и Европейском Союзе, но если у вас необходимые знания, то некоторой информацией с этого сайта вы сможете воспользоваться и в других частях света.

Quandl - Поисковый сервис числовых данных

С помощью этой надстройки для Excel вы сможете обрабатывать и анализировать данные. Главный сайт Quandl действует как поисковик по базам данных, размещенных по всему миру, и выполняет поиск в соответствие с вашими критериями поиска. Воспользуйтесь этой базой данных в случае, если вам срочно нужны дополнительные данные, или вы хотите просто поэкспериментируйте с большими наборами данных (если честно, то кто против?!).

Смотрите также: Поисковый движок базы данных Enigma.

Визуальный словарь Tiny Images

База данных Tiny Images представляет собой визуальный словарь. Щелкните в любом месте на изображения и откроется поисковое окно с дополнительной информацией. Вы также можете воспользоваться специальной терминологией с тем, чтобы найти нужно среди 80 миллионов изображений.

База данных является частью большего по размеру прооекта машинного обучения, используемого для обучения компьютеров уметь "видеть" и "читать" семантику в изображениях.

Бонус: /r/datasets (Архив данных Reddit)

"Главная страница сети интернет" — твердая опора энтузиастов со всего мира, занимающихся анализом данных. Есть подархивы (subreddits), посвященные машинному обучению, интеллектуальному анализу данных, получению данных из текста, а также работе с различными наборами данных. Если вам нужно что-то конкретное, то сделайте запрос. Новые данные появляются каждую неделю.

Следите за интересными публикуемыми данными, например, за степенью иммунизации в детских садах и школах в Калифорнии.

Пользуетесь ли вы всем этим богатством?

Интернет создал уникальную возможность, позволяющую всем собираться вместе и собирать отдельные знания в единую базу данных. Мы отважно пытаемся документировать все и обо всем. Некоторые из этих баз данных можно просто просматривать, другими можно пользоваться для обучения, но мы надеемся, что вам понравятся все эти базы данных.

А какие базы данных нравятся вам? Есть ли большие открытые источники данных, которые мне следует добавить в этот список?