Análise de Sentimento: como funciona?

Monitoramento Redes Sociais

4248 visualizações

Análise de Sentimento: como funciona?

A maioria das ferramentas de Social Media Monitoring possui um módulo de análise de sentimento para tentar extrair o tom de uma ou mais sentenças. O Buzzmonitor também usa um conjunto destes classificadores e, em particular, os com base no Teorema de Bayes. Essencialmente, o teorema (instanciado para este caso) diz que podemos calcular a probabilidade do sentimento de uma sentença se soubermos as probabilidades dos sentimentos de cada termo, levando também em consideração a ordem em que ocorrem.

O exemplo a seguir é uma simplificação para ilustrar de forma mais didática este teorema: suponha que você ache o termo "bem" na sentença e esse termo sozinho tenha uma probabilidade de sentimento positivo de 0.8. No entanto, você acha em seguida, logo junto a bem, o termo "mal".

O algoritmo já possui pré-calculado (na sua fase de aprendizado) para que a probabilidade pPOS(bem|mal) leia-se probabilidade do sentimento ser positivo, dado que na frase ocorra "bem" e dado que achamos em seguida "mal". Esse valor é muito provável em um exemplo real bem baixo: pPOS(bem|mal) = 0.1 digamos. Ou seja, "bem mal" vai empurrar o resultado final para o lado negativo.

Ao contrário, a pPOS(bem|bom), a probabilidade do sentimento de uma dada sentença ser positiva, dado que se achou a palavra bem e em seguida a palavra bom, é possivelmente, em um caso real, bem alta, digamos 0.9.

O sentimento de um post, então, é uma fórmula que concatena todas estas probabilidades e dá um resultado entre 0 e 1, naturalmente probabilístico.  O que o sistema faz é pegar a probabilidade final; se ela for baixa, marcar o post como negativo, e se ela é alta (digamos acima de 0.6), marcar como positivo.

 

Como o algoritmo calcula essas probabilidades?
As probabilidades são calculadas dado um conjunto de treinamento (no jargão, corpus), que é definido como um conjunto de sentenças já pré-classificadas em positivas e negativas.


Por que muitos dos resultados são por vezes errados?
Considere o tweet: "um verdadeiro vírus essa música do xpto, não paro de ouvir, socorro!"

Palavras como “vírus” e “socorro” tem muito provavelmente mais conotações negativas do que positivas em um dado conjunto de treinamento. Se o nosso conjunto de treinamento é finito, nunca vamos capturar a ambiguidade dos infinitos casos da linguagem natural. Portanto, por maior que seja o conjunto, nosso classificador vai ser sempre capenga em relação ao mecanismo ainda misterioso do cérebro humano. É por isso que a análise de sentimento em todas as ferramentas sempre é um indicador, mas nunca deve ser tomada como um valor absoluto.


Resumo dos pontos mais importantes
Análise de sentimento, em geral, é feita usando classificadores estatísticos. Isso significa que na prática os sistemas somente são capazes de aferir a probabilidade de um post ser negativo ou positivo.

Estas probabilidades são calculadas por cada termo e em geral por cada par de termo usando um conjunto de treinamento que foi classificado por um analista humano. Por ser estatístico, todo classificador entrega resultados probabilísticos por definição com um erro associado. Os resultados devem ser tratados como indicadores, nunca como verdade absoluta.

 

Gostou? Inscreva-se para receber nossos conteúdos

USE GRÁTIS O BUZZMONITOR

Comentários

Deixe um comentário