the edge of chaos

miércoles, febrero 06, 2008

Monitorizando la popularidad en Internet

A través del blog de Enrique Dans me entero de que se ha presentado lalistaWIP, un servicio que podríamos catalogar de ranking de popularidad de personas, aunque tiene algunas funcionalidades adicionales muy interesantes. Se trata de un servicio de PRISACOM desarrollado por BuzzTrend, una empresa española en el análisis de mercados y de opinión que aún no conocía.

Tiene bastantes similitudes con la idea de "rastreador de memes políticos" en la que he empezado a trabajar junto con algunos de mis alumnos de PFC. Aunque sigo soñando con hacer un análisis exhaustivo de la creciente lista de sitios que están cubriendo las candidaturas norteamericanas (EcoResearch, Wonkosphere, Opinion BuzzTracker, PoliticalTrends, CNN/Umbria, Politweets) y las diferentes ofertas en el ambito relacionado con el análisis de opinión en la red (Buzzmetrics, Attentio, Buzzlogic, OpinMind, Buzzfeed, Andiamo, SentimentMetrics Sentimetrix, Primelabs, SiloBreaker, VisibleTechnologies) lo que si voy a tratar es de recoger algunas impresiones sobre WIP tanto de aciertos como de dificultades.

Hay muchas curiosidades que en cierta manera identifican cada uno de los problemas a los que te enfrentas cuando haces una aplicación de este tipo. Lo más dificil es qué, incluso si los métodos que usas funcionan, siempre hay casos que fallan... a veces estrepitosamente.

Después de curiosear un rato, lo primero me ha llamado la atención es que entre la lista del top 100 había uno que no conocía Francisco Burzi, nº 9, ingeniero informático y sin foto... ¿quien será? uno de los desarrolladores, un rastro de las pruebas, una persospam... Pues no pero casi, descubro con una búsqueda en Google que es uno de los desarrolladores de PHP-Nuke y que tiene 54 millones de hits muy por encima de George Bush, el primero, con 18 millones. Esto de desarrollar CMS de codigo abierto es una granja de links semánticos...

Haciendo algunos clicks más, veo a Franz Ferdinand en el primer puesto, pero debe ser primer puesto de archiduques y no de música. Y es que el problema de la correferencia y la ambigüedad es complicado. Algo parecido creo que pasa con Will Smith, que para cualquiera que haya tenido una adolescencia ochentera, no es otro que el principe de Bel-Air. Se confunde en ocasiones con otro Will Smoth, jugador de fútbol americano y en el apartado de "lo que se dice en la red" las noticia hacen solo referencia al primero... problemas de desambiaguación.

Con la asignación de las profesiones también hay algunos problemas, por ejemplo, Mariano Rajoy sigue siendo vicepresidente (España) pero tal vez sea porque Pizarro es presidente (España). Pero, ¿qué Pizarro? Manuel o Francisco...

Dejando a un lado los temas del procesamiento del lenguaje, que seguro que van desapareciendo con la beta, hay algunas cosas del diseño que no me convencen. La opción de caracterizar a las personas usando una única "profesión" me parece excesivamente restrictiva y nos pasa como con Rajoy y Pizarro. Sería mucho mejor optar por descripciones relacionales como "presidente de Endesa" o tener en cuenta el tiempo "vicepresidente de España (2000-2003)". Incluso sería de utilidad enlazar con alguna fuente revisada como las fichas que tiene ElPais.com o si son más modernikis la Wikipedia o Freebase. Otra cosa que no entiendo son los gráficos de tendencias que no se sabe si están en sentido derecha-izquierda o son circulares. El cálculo del ránking es también opaco, entre otras cosas porque no se sabe si las citas son absolutas, cuanto pesan las menciones en el computo total, etc...

Entre las cosas que, en cambio, más me han gustado están las secciones 'cara a cara' y la posibilidad de usar diferentes facetas para navegar. La primera nos permite comparar hasta cinco personas y con ello podemos formar temibles tribunales de tesis ;-) o de cine. La segunda nos permite aplicar diferentes filtros para enfocar en los temas que nos interesan o en personajes con diferentes características (hombre-mujer, real-ficticio, histórico-actual) etc...

Aún tengo que averiguar que ocurre con los nombres que aparecen nuevos, es decir, si cuenta con listas predefinidas o usa reconocimiento automático, pero por hoy es suficiente que también hay que dormir...

Etiquetas: , ,