martes, 22 de julio de 2008

Spam

Se denomina spam o correo basura a aquellos mensajes no solicitados, habitualmente de tipo publicitario, enviados en grandes cantidades (incluso masivas) que perjudican de alguna o varias maneras al receptor.
Hoy día, contamos con muchos y muy buenos filtros anti-spam. La mayoría de ellos están basados en el texto del email. Se lee de manera automática la cabecera y cuerpo del mensaje y mediante algunas técnicas de clasificación se lleva a cabo de forma automática una clasificación de dicho email (por ejemplo, podría verse el número de veces que aparece la palabra "viagra"). Normalmente, aquel que es considerado como spam viene colocado en una carpeta distinta a la bandeja de entrada, por ejemplo la carpeta spam.

Los spammers han optado por una nueva forma de spam con el objetivo de saltarse los filtros anteriormente comentados. Básicamente consiste en añadir el texto del mensaje a una imagen, y añadir dicha imagen en el email. De esta forma, no habría texto de forma legible según los métodos anteriormente dichos.
Para tratar de solucionar este nuevo problema, existen programas como SpamAssassin (bajo licencia Apache 2.0) que usan otras técnicas para la clasificación. En particular, para el problema anteriormente propuesto, bastaría con usar un OCR y extraer todo el texto de la imagen para posteriormente pasarlo a un clasificador como los anteriormente mencionados.

Pero los spammers han ido más allá. Ahora tratan de ocultar el texto en imágenes y además tratan de ofuscarlo. Es decir, tratan de meter el texto en imágenes y añaden técnicas para que un programa OCR no sea capaz de extraer dicho texto (como puede ser el uso de fondos de colores no uniformes, trazos de lineas por encima del texto, texto cursivo, etc.).
Para ello, en colaboración con el grupo de investigación P.R.A. de la universidad de Cagliari he desarrollado un plugin para el programa SpamAssassin basado en el trabajo que llevan desarrollando bastante tiempo. Básicamente se trata de extraer ciertas características de la imagen (no de extraer el texto) como el número de colores (una imagen de spam normalmente tendrá muchos menos colores que una imagen legítima...) y una vez normalizados los datos y habiendo entrenado previamente un classificador SVM (Support Vector Machine) con kernel RBF (Radial Basis Function) se procede a la clasificación.
Los resultados obtenidos han sido bastante buenos. No solo basta con tener un número alto de aciertos y bajo de fallos, sino que en este caso debemos tratar de minimizar los falsos positivos (clasificar el email como spam siendo legítimo) aunque a costa de ello perdamos eficacia en los falsos negativos (clasificar el email como legítimo siendo SPAM). A ninguno de nosotros nos gustaría que se clasificase como spam un email que no lo es, ¿vedad? Aunque alguno que sí lo sea lo tengamos que borrar de la bandeja de entrada...

Podéis ver más sobre el trabajo realizado aquí.

martes, 1 de julio de 2008

Bug Firefox 3 - Ubuntu

Supongo que a más de uno le habrá pasado o le estará pasando. Cuando intento ver un vídeo en el reproductor flash de Youtube o cualquier otro sitio web, al cargar el vídeo FireFox se cierra automáticamente. Si volvemos a abrir el programa y volvemos a intentar reproducir el vídeo, entonces sí se reproduce sin ningún problema.

En algunos foros he leído que parece ser que hay un paquete, libflashsupport, que está dando problemas. Dicen que basta desinstalarlo y todo volverá a funcionar correctamente. El problema de desinstalar este paquete parece ser que, si tenemos otro programa de audio abierto, no escucharemos el audio del vídeo. Digo parece porque a mí esto no me pasa. Desinstalé el paquete1 y el audio funciona correctamente, aunque sigue el problema del cierre inesperado de FireFox. Mi problema no era ese. Si quieres saber más sobre este bug, puedes ver el siguiente thread.

Según he leído por otros foros, el problema puede solucionarse instalando Flash 10 Beta2. Ésta solución si me ha servido. Por ahora todo perfecto. Se reproduce todo a la primera y no hay cierres inesperados del navegador.

Si tienes este problema y se te soluciona con algunas de las soluciones propuestas, deja un comentario y compartes tu experiencia.

**************************************************
1Para desinstalar dicho paquete solo tienes que irte al gestor de paquetes Synaptic, buscar dicho paquete, marcar para eliminar y aplicar cambios. Si lo que quieres es volver a instalarlo, procede de la misma forma. En el gestor de paquetes Synaptic marca dicho paquete para instalar y aplica cambios.
**************************************************
2Para instalar Flash 10 Beta haremos lo siguiente: eliminaremos el plugin de Flash, si es que está instalado; descargamos y extraemos el Flash Player 10 BETA en tu directorio Home; en caso que no exista, creamos la carpeta de plugins de FireFox; copiamos el plugin Flash hacia la carpeta de FireFox plugins para instalarlo; eliminamos el directorio que que hemos utilizado para descargar el Flash Player Plugin.
Para realizar estos pasos, ejecuta los siguientes comandos en un terminal:

$> sudo apt-get remove flashplugin-nonfree
$> wget -O - http://download.macromedia.com/pub/labs/flashplayer1/flashplayer10_install_linux_051508.tar.gz | tar xz -C ~
$> mkdir ~/.mozilla/plugins/
$> cp ~/install_flash_player_10_linux/libflashplayer.so ~/.mozilla/plugins/libflashplayer.so
$> rm -r ~/install_flash_player_10_linux

Después, reinicia FireFox para habilitar el nuevo plugin.

Si lo que quieres es eliminarlo y volver al plugin anterior:

$> rm ~/.mozilla/plugins/libflashplayer.so
$> sudo apt-get install flashplugin-nonfree

**************************************************