Форум » Основной форум » Проект новой поисковой » Ответить

Проект новой поисковой

raindog: Возможно, не все коллеги следят за обсуждением в соседнем разделе. С 1 февраля планируется закрытие старой поисковой системы. Bete_Noire тестирует новую систему здесь: http://mtsearch.hut2.ru/index.php. Присоединяйтесь к тестированию и обсуждению! Обсуждение в вышеуказанной ветке.

Ответов - 206, стр: 1 2 3 4 5 6 7 8 9 10 11 All

me-laman: MediaWorm пишет: Тоже вроде может пригодиться, но по-моему не обязательное поле, при наличии остальных. пример: Человек, Который Знал Слишком Много; Man Who Knew Too Much, The; Альфред Хичкок /Alfred Hitchcock/; известный факт, фильмов с такими данными два - 1934 и 1956 года. Понятно, что таких примеров не много, но поскольку прецедент создан, то полю ГОД быть, ИМХО. Да и не всегда известен режиссер а фильмов (ремейков) кучи, так что в этом случае поможет только поле ГОД. MediaWorm пишет: Но вот если бы прийти к единому языку написанию режиссеров, то поиск по режиссеру был бы предпочтительней, чем по формату. естественно предпочтительней. Было бы конечно совсем хорошо, если бы было два поля - оригинал и русский вариант, но это, как MediaWorm справедливо заметил не всегда удобно, надо наверное оставить английский вариант. Хотя в своем каталоге у меня на первом месте русский вариант и не всегда имеется оригинальный вариант :)

me-laman: Bete_Noire пишет: обработанные синонимы будут при поиске учитываться, то есть при поиске Burton будут выводится и Бартон и Бертон. кто будет устанавливать синонимичность имен? Тут легко ошибиться, да и количество этих синонимов может быть не малым.

MediaWorm: Bete_Noire пишет: вижу это так: три текстовых поля (два названия и режиссер), галочки для форматов. поиск происходит по всем непустым полям. метод поиска - вхождение всех слов в соответствующее поле. обработанные синонимы будут при поиске учитываться, то есть при поиске Burton будут выводится и Бартон и Бертон. То что нужно. me-laman пишет: Понятно, что таких примеров не много, но поскольку прецедент создан, то полю ГОД быть, ИМХО. Да и не всегда известен режиссер а фильмов (ремейков) кучи, так что в этом случае поможет только поле ГОД. Я не то что бы против дополнительного поля ГОД. Согласен, в некоторых случаях поможет. Просто не хочется все усложнять. Уверен, что у доброй половины это поле будет пустым. Если Bete_Noire сделает все так как он это видит, то проблема будет не в том чтобы найти год фильма, а в том, как привлечь людей вносить свои каталоги ( чтоб было у кого искать) Может щас народ подтянется и предложит еще что-то путное?


Bete_Noire: так что в этом случае поможет только поле ГОД. это при условии, что оно будет заполнено. далеко не у всех оно вообще есть. такое поле не будет целесообразно вводить, если у большинства пользователей оно все равно будет пустовать. впрочем контролировать и фильтровать по такому полю легко, мешать тоже не будет. надо наверное оставить английский вариант. если запретить вводить кириллицу, то пользователей поисковой еще поубавится, кому захочется переводить все имена на инглиш, если в каталоге только на русском. думаю все же обговорить этот момент в требованиях к спискам (предпочтение к английскому), а если возможности вводить английские имена нет, использовать синонимы. кто будет устанавливать синонимичность имен? вопрос конечно интересный, мне этим заниматься совсем не хочется, как думаю и кому-либо другому. вообще речь шла о том, чтобы функционально предусмотреть возможность приравнивания на будущее. теоретически этот должен делать админ/модератор. у кого-нибудь есть идеи для обеспечения адекватного поиска по режиссеру получше?

MediaWorm: Bete_Noire пишет: у кого-нибудь есть идеи для обеспечения адекватного поиска по режиссеру получше? Можно сделать вместо трех текстовых полей четыре. Русское название - Оригинальное название - Режиссер на русском - Режиссер в оригинале. у кого в каталоге режиссеры на русском - 4-ю колонку не заполняют, и наоборот

Bete_Noire: проблема, как я ее вижу, заключается не столько в языке, сколько в возможных вариациях перевода имен и фамилий на русский

me-laman: MediaWorm пишет: у кого в каталоге режиссеры на русском - 4-ю колонку не заполняют, и наоборот ну и например я начинаю искать фильмы режиссера Bergman, Ingmar будут ли в выборку попадать фильмы режиссера Бергман, Ингмар? При условии что в одном списке заполнено только поле №4, а в другом наоборот. Т.е. кто будет устанавливать соответствие Bergman, Ingmar = Бергман, Ингмар? Приходим к той же синонимичности. В общем вопрос не простой и с ходу не решится, думаю будет достаточно, для меня по крайней мере, простое наличие поля Режиссер даже без возможности поиска по этому полю. А на счет года, о я знаю несколько коллекционеров для которых год выхода фильма является определяющим фактором и наличие этого поля, и поиска по нему, а также поиска по некоторому периоду для них просто необходимо.

MediaWorm: Суть того, что я предлагал. Имеем 4 текстовых поля - Русское название - Оригинальное название - Режиссер на русском - Режиссер в оригинале Если нужно найти фильмы Бергмана, забиваем в поле Режиссер в оригинале - Bergman (без имени) и получаем фильмы всех Bergman-ов-режиссеров. Если ничего не нашли или недовольны результатом, забиваем в поле Режиссер на русском - Бергман (без имени) и получаем фильмы всех Бергманов-режиссеров. Имя стоит исключить хотя бы из-за возможных ошибок в написании или опечаток. Вряд ли найдется много однофамильцев. Понятно, что не все фамилии режиссеров так просты в написании. Но если подумать, откуда в каталогах трейдеров берутся эти фамилиии и имена? Из каких-то открытых источников (киносайты, каталоги других трейдеров, интернет-магазины). То есть по сути все друг у друга копируют информацию о фильмах, значит у всех приблизительно одни и те же названия фильмов и имена режиссеров ( просто кто-то пользуется русским вариантом, а кто-то английским ). Вряд ли кто-то переводит сам. Сравнил несколько каталогов с русскоязычным написанием режиссеров - практически один к одному. Значит человек найдет своего IMAMURA Shohei или ИМАМУРА Сёхэй. Идеальный вариант - это конечно с одной графой Режиссер. Но тут уже придется составлять базу "возможных вариаций перевода имен и фамилий на русский" , которую надо время от времени обновлять и редактировать. На вскидку это где-то 2000 популярных режиссеров. В базе TVGuru - это 23911 человек. На IMDB - лучше не знать. Попробовать, конечно, можно, но как по мне, так лучше первый вариант. Если конечно такую базу можно где-нибудь достать, дело другое.

me-laman: Не знаю как у кого, а уменя в каталоге режиссеры с именем. И как отделять одно от другого я не знаю, а точнее говоря просто не хочу. Может Bete_Noire сможет сделать что-либо подобное тому что есть на муз поиске? Поиск по частичному совпадению имен и Ингмар Бергман найдется если искать и просто "Бергман" и "Ингмар Бергман", и "Бергман, Ингмар"? Такой вариант решил бы многие проблемы.

MediaWorm: me-laman пишет: Не знаю как у кого, а уменя в каталоге режиссеры с именем. И как отделять одно от другого я не знаю, а точнее говоря просто не хочу. Так тебе отделять и не надо. Просто скопировать в две колонки одно и тоже.

Bete_Noire: 2me-laman Т.е. кто будет устанавливать соответствие Bergman, Ingmar = Бергман, Ингмар? пока не знаю кто, но если мы примем вариант с синонимами, делать это придется вручную. то есть давать пользователю ввести все, что он хочет, а админу/модеру придется сидеть и приравнивать одно имя другому. перспектива, скажу вам, не очень... думаю будет достаточно, для меня по крайней мере, простое наличие поля Режиссер даже без возможности поиска по этому полю. думаю тут будет много возражений, я и сам обычно если и ищу фильмы, то конкретного режиссера. поиск по режиссеру нужен, осталось понять как обеспечить нормальную выдачу конечному пользователю. А на счет года, с годом решили, году быть! Поиск по частичному совпадению имен в муз поиске реализован алгоритм "вхождение всех искомых слов в поле". в видео планирую сделать то же. то есть "Бергман, Ингмар" и "Ингмар Бергман" будут находится по "Бергман" и/или по "Ингмар". пунктуацию можно будет вырезать (кстати!), так что от перестановки слов местами ничего не изменится, то есть "Бергман, Ингмар" = "Ингмар Бергман" 2MediaWorm Режиссер в оригинале а какие-нибудь немецкие, финские или, еще хуже, японские режиссеры в оригинале как будут выглядеть? если и заводить такое поле, то именно режиссер на английском (латиницей по крайней мере, перевод дело вольное). Идеальный вариант - это конечно с одной графой Режиссер. Но тут уже придется составлять базу "возможных вариаций перевода я тоже склоняюсь к одному полю. прочитал тут небольшую статейку, появиласть одна идея. возможная панацея - полнотекстовый поиск (fulltext search), буду еще разбираться что это и поддерживается ли сервером. если кто пользовался отпишите.

MediaWorm: Bete_Noire пишет: если и заводить такое поле, то именно режиссер на английском (латиницей по крайней мере, перевод дело вольное). Я это и имел в виду.

me-laman: а может не лепить два поля по режиссеру, а раз будет "вхождение всех искомых слов в поле" разрешить писать что-то типа: "Теренс Янг /Terence Young/" или в скобках это кому как удобно и тогда будет возможен поиск и по оригинальному (латиницей) имени и по русскому варианту.

Bete_Noire: http://media-ex.com/video.php вот набросал грубо, пока без превязки к конкретному пользователю, чтобы опробовать сам поиск. залейте свои листы, опробуйте. поиск поисходит, как и планировалось, по любым не пустым полям. ищется вхождение всех слов/обрывков слов (кроме формата, он ищется по ИЛИ). пока никаких ограничений на длину запроса нет, хоть по одной букве. про режиссера ничего путного в голову так и не пришло, сделал одно поле, вводите что хотите ) добавлено: обязательным является только одно из названий, остальные поля опциональные добавлено: если в формате есть вхождение dvd, то формат dvd если в формате есть вхождение hdtv, то формат hdtv иначе mpeg длина полей: режиссер 100 символов, названия по 60, год 4

me-laman: Ну что, мне нравится. Единственно хотелось бы чтобы в базе сохранялось первоначальное значение формата для DVD. А то двд-5 двд9 и пр. радости сливаются в безликое DVD ну а в прочем все ОК. добавлено: обнаружил... ввел в поиск "Man Who Knew Too Much, The" таких фильмов у меня в списке два (проверял, точно два) а впоисковой вышел только один34 года. Вопрос, куда делся второй - 54 года?

MediaWorm: Мне тоже нравится. Вроде как работает. Если не поможет полнотекстовый поиск (fulltext search), вариант с двумя полями режиссера для начала бы точно сгодился.

Bete_Noire: Единственно хотелось бы чтобы в базе сохранялось первоначальное значение формата для DVD для унификации выдачи, хотелось бы все же ввести ограничение на формат. на данный момент предусмотрено: HDTV DVD DVD5 DVD9 MPEG еще думаю надо добавить 2xDVD5 и 2xDVD9. остальные варианты, как я подозреваю, очень редки. из названий фильмов будут удаляться любой текст в скобках, например "[2 DVD]" куда делся второй - 54 года? поправил (пока на оффлайновом сервере). поле год не учавствовало в определении уникальности фильма, поэтому второй удалялся при вносе. Если не поможет полнотекстовый поиск не поможет. режиссер все равно будет один, но в него можно будет вводить русский, английский варианты или оба по желанию. длина поля 80 сиволов. добавлено: временный поиск прикрыл, начинаю внедрять вариант более близкий к реальности

MediaWorm: из названий фильмов будут удаляться любой текст в скобках, например "[2 DVD]" А это еще зачем? В таком названии " Плутовство ( Хвост Виляет Собакой ) " все останется? . Это два варианта перевода режиссер все равно будет один, но в него можно будет вводить русский, английский варианты или оба по желанию. длина поля 80 сиволов. Нормально.

Bete_Noire: А это еще зачем? затем, что у некоторых трейдеров в названиях фильмов находится еще и формат/количество двд. В таком названии " Плутовство ( Хвост Виляет Собакой ) " все останется? в том виде, как это есть на данный момент, нет. но надо будет поправить, чтобы удялялся только текст, похожий на формат.

MediaWorm: Bete_Noire пишет: затем, что у некоторых трейдеров в названиях фильмов находится еще и формат/количество двд. У меня именно так и есть. Это мешает нормальной работе поисковика?



полная версия страницы