Идентификация проблем на форумах и блогах с помощью краулеров

В теме 7 ответов, и 4 участника, последнее обновление сделано пользователем Igor Tkachenko 14 г, 7 мес. назад.

Показано 8 ответов - от 1 до 8 (всего 8)

Автор

Сообщения
25.12.2011 в 13:54 # 4457

Igor Tkachenko
Подписчик

Как-то я поднял тему о том что не могу найти у аналитиков проблемы такие как например у программистов. Т.е. которые не позволяют дальше вообще решить задачу (а не просто делают решение менее оптимальным) http://analyst.by/forum/analitik-kak-professiya/kakie-problemy-u-analitika/2#post-4961.
И на тебе. Наткнулся на проблему в свой хоть и не профессиональной но деятельности.

Хотя я программист. И вообще не уверен что это проблема аналитика (что тоже кстати проблема), решил рассказать про неё на этом форуме.

Вот суть проблемы:
1) задача: написать алгоритм краулера который будет на форумах и блогах выделять топики в которых обсуждаются какие-то проблемы (например отделять их от тем где просто рассказываются про какие-то идеи вольный флуд).
2) идея решения: в первом посте (теме) вычленить слава которые характеризуют обсуждение проблемы. и там по какой либо их концентрации оценить степень соответствия данного топика к классу «обсуждения проблем».
3) проблемы с решением:
3.а) непонятно какие точно это слова (хотя примерный список можно прикинуть)
3.б) непонятно какая вероятность их появления в подобных текстах
4) проблемы и вопросы с решением проблем:
4.а) в гугле находятся всякие темы для сеошников типа в какой форме люди ищут что нибудь (это конечно косвенно может помочь, но не то).
4.б) проблема ли вообще это аналитика ( а мне кажется это именно для него вопрос ) и в каком ключе аналитик должен его решать. ведь посути надо просто конкретизировать требование )?
4.в) специалисты какого типа (я бы предположил что это либо лингивисты либо сеошники) работают с этим вопросом? (пока ни с кем не обсуждал, но думаю поискать сеошника)

Поделиться:

Цитировать

26.12.2011 в 08:35 # 4458

Denis Syropushchinsky
Подписчик

Начну с конца:
4б. Да, это задача аналитика. Решать её можно, к примеру, следующим образом:
1) Понять цель и value проекта (для чего мы всё это затеяли)
2) Исходя из этого определить набор высокоуровневых требований (чего мы хотим достичь)
3) Попробовать преложить решения для проблемы, выбрать одно или несколько лучших
4) Развить дальше выбранные решения в функциональные (что пользователь делает) и системные (как система делает) требования
5) Попытаться сделать прототип

Пока что я вижу сразу постановку одного из возможных решений (краулер-паук) с несколькими потенциальными системными проблемами (вероятность появления/концентрация).

Поделиться:

Цитировать

26.12.2011 в 09:37 # 4459

Надежда Тарасюк
Участник

Доброго дня!

По роду своей деятельности в последнее время я обладаю некоторыми сеошными знаниями и могу сказать следующее.
Что-то мне кажется, что без контекста решить данный вопрос разумно не получится, поэтому я бы все-таки предложила начать как и Mantis с бизнес цели (понять "откуда растут ноги" у проблемы). Меня терзают смутные сомнения, что вы пытаетесь решить не ту проблему. Иначе вы хотите написать свой гугл — боюсь, ресурсов не хватит : )
Запрос вида https://www.google.com/search?q=%D0%B1% … 00&bih=771 — это то, о чем вы говорили или я не так поняла вашу проблему (поиск в discussions-> forums, можно по аналогии сделать поиск для конкретного урла форума) ?
(кстати даже гугл просит на вход некоторые данные, поэтому без ключевых слов вам точно не обойтись, другое дело — если вы сможете их получить без привлечения пользователя возможно).

Поделиться:

Цитировать

26.12.2011 в 13:26 # 4460

Igor Tkachenko
Подписчик

Не правильно поняли.
Надо найти не топики обсуждающие проблему "А". Это легко.
Грубо говоря, если брать пример с поиском по дискуссиям, Надо этому поиску по дискуссиям скормить какие-то слова, по которым можно будет найти топики обсуждающие произвольные проблемы.
Т.е. грубо говоря есть топики обсуждающие идеи, просто информационные — расказывающие какие-то новости, есть где обсуждаются какие-то прошедшие или предстоящие события (например их организацию). А есть топики обсуждающие проблемы. Где у людей есть вопрос, или жалоба. Так вот надо из множества топиков какого-то форума или блога выделить поеследние.
А выделять из них связанные с конкретной темой (например, "бизнес анализ") или нет. Это уже десятый вопрос.
Идеи с кроулером никак не противоречит написание бота который будет юзать гугл или что-нибудь готовое к стати. И это совершено десятый технический вопросы который описанной проблемы никак не касается.

Поделиться:

Цитировать

26.12.2011 в 16:10 # 4461

Надежда Тарасюк
Участник

1) OK, не хотите обсуждать бизнес- цели — не надо, оставим это на вашей совести и примем проблему как есть.

2) Из вашего описания все равно не следует явно, что у вас будет на входе — какие данные.
сами дискуссии есть или их еще надо найти? описание проблем есть, которые вы хотите искать или их надо найти? и т.д. — это все будет влиять на предложенное решение.

3) По описанию пока получается немного "сферический конь в вакууме", поэтому давайте вернемся к примеру (чтобы на более низком уровне абстракций обсудить проблему), а потом поднимемся на уровень выше, если будет нужно.
Я предполагаю, что у вас есть список дискуссий, который вам нужен (например список форумов) и есть ключевые слова (например это "автомобильные покрышки"), по которым вы хотите искать жалобы, а не просто информацию. И вы хотите провести семантический анализ кусков текста (скорее всего с анализом тональности — см. sentiment analysis), из найденных форумов по автомобильным покрышкам, чтобы выяснить является ли данный абзац текста, к примеру, из конкретного форума информационным сообщением или жалобой.
Самый простой способ, который приходит на ум — это словари со словами с эмоциональной окраской и иные спец. в данном случае слова, учитывая языки; и знаки препинания (восклицательные и вопросительные знаки будут с бОльшей долей вероятности свидетельствовать не просто о повествовании).

ЗЫ:
И да, использовать своего краулера или гуглячего для поиска нужных данных — вопрос вторичный, однако продумывание и описание таких вещей — тоже часть работы системного аналитика.
Еще я думаю, что вы не первый с таким вопросом — надо поискать готовые либы и АПИ.

Поделиться:

Цитировать

26.12.2011 в 18:54 # 4462

Igor Tkachenko
Подписчик

Melissa ,

1) Бизнес не мой поэтому детали разглашать не хочу, скажем так. (хотя я бы конечный результат и сам бы с удовольствием бы поюзал как-нить, даже чисто из любопытства)
2) На входе будет список адресов сайтов.
3) На выходе должны быть адреса дискуссий обсуждающих проблемы. Т.е. мы не ищем "автомобильные покрышки". Мы как раз скорее ищем именно где тексты с соответствующими "эмоциями" как вы выразились. А уж потом узнаем что люди в n% случаях обсуждали проблемы с "автомобильные покрышки". Единственное что на мой взгляд проблемы не всегда излагаются с какой либо эмоциональной окраской. Но на сколько я выяснил мне не нужны 100% все темы — т.е. если мы найдем 50%-70% и из них 5% будут не верно выделены (хотя последнего лучше избежать т.е. лучше не выбрать тему чем выбрать не правильно) — все будет ок.
За наводку на sentiment analysis спасибо (я про что-то такое слышал — но из головы вылетело). Похоже это что-то очень близкое к тому что я искал. Просто у меня даже идеи не было чего написать для поиска в гугле по данному вопросу чтобы хотя бы поиск начать.

4) Я понимаю. Но чтобы найти либу надо знать что искать. Хоть какие-то ключевые слова, кроме слов либа и апи )
Правда как программист, скажу. Что мне почему-то кажется что проще найти человека который каким-то образом разбирается в лингивистике, чтобы он рассказал с участием каких слов люди чаще всего излагают проблемы. И написать простой алгоритм основанный на регулярках, который потом "обучить" через ряд параметров на каком-то примере. Чем искать либу которая может не сильно подходить и придумывать как ее подточить под то что надо. Хотя сначала надо на либу посмотреть. И на "лингвиста".
Вообще кто такими вопросами занимается? У меня есть сомнения на тему лингвисты ли это.

Поделиться:

Цитировать

26.12.2011 в 22:34 # 4463

Michaj
Подписчик

Мне кажется, если не прятать голову в песок, то с самого начал понятно, что проблема имеет всего два варианта решения: 1. Семантический автомат (которого пока не существует, и в обозримом будущем вряд ли появится, так как эта задача эквивалентна созданию хорошего искусственного интеллекта, ИМХО), и 2. Использование статистических данных, с выявленными частотными характеристиками присутствия тех или иных элементов речи и их комбинаций в текстах с различной проблематикой (я не утверждаю, что необходимая различимая специфика вообще объективно существует (я не знаю), но мне это представляется вполне правдоподобным). Вопрос, существуют ли готовые подобные данные на нужном языке(ах) и если да, то насколько они доступны? Этого я тоже не знаю . Вряд ли существуют и, если да, то вряд ли доступны. Но если очень нужно, то может быть подойти с другой стороны? Я не программист, лишь аналитик, но что-то мне подсказывает, что программисту не так уж сложно сваять парсер для создания нужной статистики. Вы ему скармливаете некие заранее категоризированные интересующие вас и неинтересующие тексты, а потом сами глазками сравниваете получаемые результаты. Если обнаружатся стабильные закономерности различий, то далее — дело техники … Кстати, для запуска в практическое использование, скорее всего не требуется сразу добиваться совершенства, подобную статистику можно совершенствовать практически бесконечно (лишь бы в самом начале конкурентов не было ;)) …

Поделиться:

Цитировать

07.01.2012 в 15:59 # 4464

Igor Tkachenko
Подписчик

Тему можно закрывать. Всем спасибо за интересную информацию на счет анализа текстов.
Действительно была не верно поставлена задача. Просто очень хотелось красивых навернутых алгоритмов и челенджа в эту строну

P.S> Знаю программисты со своей страстью чего нить завернуть — это наказание.

Поделиться:

Цитировать
Автор

Сообщения

Показано 8 ответов - от 1 до 8 (всего 8)

Вы должны авторизироваться для ответа в этой теме.