COLUNISTA CONVIDADO
False Positive Rate (FPR) - Taxa de Falso Positivo- Uma rápida Lembrança
por James R. Hunter, Retrovirology Laboratory, UNIFESP
 
Matérias Anteriores

Dra Tania Vergara
Artigo sobre a Febre Amarela

André De Lorenzi
Estamos intervindo demais na Natureza?

Alda Maria Cruz
Comentário de caso de neuropatia

Maria Paula G. Mourão
Febre por Oropouche

Jacson Fressatto
Projeto robô laura

Ricardo Diaz
Tânia Vergara entrevista

Alberto dos Santos de Lemos
O pacote de intervenções proposto pela OMS para pessoas que vivem com HIV

James R. Hunter
False Positive Rate (FPR) - Taxa de Falso Positivo - Uma rápida Lembrança

A taxa de falso positivo (FPR) ocupa um lugar proeminente no mundo da modelagem estatística, aprendizagem informatizada e exploração de dados. Tornou-se uma medida de escolha na avaliação da validade dos modelos estatísticos e no teste dos valores previstos desses modelos. Os programas de software, como geno2pheno [correceptor],1 usam FPR como uma medida da classe em que um caso ou variável pode cair.

Podemos definir o FPR como a frequência com a qual acreditamos que um resultado seja positivo, quando é, de fato, negativo.

O FPR deriva do esquema de testes aos quais todos os modelos de aprendizagem informatizada estão sujeitos. O pesquisador ou analista divide o conjunto de dados geral em treinar e testar subconjuntos. Ele então constrói um modelo de classificação (um modelo que coloca casos em uma ou duas classes) usando esse conjunto de treinamento. Os parâmetros do modelo baseiam-se, portanto, nos casos apenas no conjunto de treinamento. O próprio modelo ainda não "viu" os casos atribuídos ao conjunto de dados de teste. O analista então usa o modelo para prever a classe dos casos no conjunto de testes.

O sucesso de um modelo deriva da sua capacidade de prever resultados precisos de casos que ainda não "foram vistos". O analista então conta os casos em que o valor previsto corresponde ao valor verdadeiro e os casos em que não coincidem. Confusamente, a tabela que resulta deste teste é chamada de "matriz de confusão". Tem a seguinte forma:

MATRIZ DE CONFUSÃO 
ResultadosObservados
Valores preditivos 
Positivo 
Negativo 
Positivo 
VerdadeiroPositivo (VP)
FalsoPositivo (FP)
Negativo 
FalsoNegativo (FN)
VerdadeiroNegativo (VN)


O FPR é uma probabilidade condicional. Baseia-se na premissa de que o resultado verdadeiro (observado) é negativo. Dado que o resultado é negativo, o modelo prediz o resultado corretamente (ou seja, um Negativo Verdadeiro) ou incorretamente (ou seja, um Positivo Falso). Os resultados positivos não entram no cálculo do FPR. Dada esta definição, o FPR é calculado da seguinte maneira:


Esta fórmula inclui apenas os casos em que o resultado observado é negativo e a equação simplesmente avaliou quantos desses negativos o modelo predizerá incorretamente.

A tese se baseia no software geno2pheno [correceptor]. Isso é baseado na técnica de aprendizagem informatizada Support Vector Machine (SVM), um modelo de classificação2. Como procedimento de classificação, julgamos os resultados do modelo por sua precisão, especialmente sua capacidade de apenas chamar esses resultados positivos que são realmente positivos. Uma pessoa que recebe resultados positivos em um exame médico de diagnóstico, por exemplo, pode não ter a doença. O FPR descreve a porcentagem de casos em que o diagnóstico positivo é incorreto.

Também vemos FPR no contexto das curvas de Característica Operacional do Receptor (ROC)3. Uma curva ROC traça a Taxa Verdadeira Positiva no eixo vertical de um gráfico de linha contra o FPR no eixo horizontal. Calcula esses valores em todos os limites possíveis para discriminar os estados do fenômeno que está sendo classificado. Uma maneira comum de avaliar a curva ROC é calculando a área sob a curva (AUC). Quanto mais perto a AUC é para 1,0, melhor o modelo em predizer os resultados em casos que não viu anteriormente. Um modelo preditivo não é melhor do que o acaso, se sua curva ROC segue uma linha direta de (0,0) a (1,1). A Figura 1 mostra um exemplo de curva ROC4.

ROC Curve Example



1Thielen, Alexander, and Thomas Lengauer. “Geno2pheno[454]: A Web Server for the Prediction of HIV-1 Coreceptor Usage from next-Generation Sequencing Data.” Intervirology 55, no. 2 (2012): 113–17. doi:10.1159/000332002.

2Hsu C-W, Chang C-C, Lin C-J. A Practical Guide to Support Vector Classification. Department of Computer Science, National Taiwan University; 2010.

3Wikipedia contributors. Receiver operating characteristic. Wikipedia, The Free Encyclopedia. April 14, 2016, 18:32 UTC. Availableat: https://en.wikipedia.org/w/index.php?title=Receiver_operating_characteristic&oldid=715266020. Accessed May 12, 2016.

4James G, Witten D, et. al. An introduction to statistical learning: with applications in R. Corr. at 6. printing. New York, NY: Springer; 2015. (Springer texts in statistics). p. 148.



James R. Hunter é Bioinformático e pesquisador associado do Laboratório de Retrovirologia da UNIFESP/EPM faz pesquisa em virologia, especialmente as mutações e resistência aos antirretrovirais entre os portadores do HIV-1.