ARTIGO ORIGINAL
|
|
|
|
Autho(rs): Paulo Mazzoncini de Azevedo-Marques, Marcelo Hossamu Honda, José Antônio H. Rodrigues, Rildo Ribeiro dos Santos, Agma Juci Machado Traina, Caetano Traina Júnior, Josiane Maria Bueno |
|
Descritores: Recuperação de imagem baseada em conteúdo, Reconhecimento de padrões, Atributos de textura |
|
Resumo:
INTRODUÇÃO
O câncer de mama é uma das doenças que lideram o número de mortes entre mulheres em grande parte do mundo, apresentando a maior taxa de mortalidade entre todos os tipos de câncer na Europa Ocidental e na América do Norte(1). No Canadá e nos Estados Unidos as estatísticas indicam que uma entre dez mulheres desenvolverá câncer de mama durante o seu período de vida(2). De acordo com dados do Instituto Nacional do Câncer (INCA), o número estimado de novos casos de câncer de mama no Brasil, em 2001, é de 31.590, existindo uma indicação estatística de aumento de sua freqüência, tanto nos países desenvolvidos quanto nos países em desenvolvimento(3). Dos métodos de diagnóstico atualmente disponíveis, a mamografia é ainda o mais eficaz para a detecção do câncer, sendo a detecção precoce e a remoção do tumor na fase inicial a estratégia mais eficiente na redução da taxa de mortalidade das pacientes(4). No entanto, a detecção precoce realizada por especialista, através da análise visual, é muito difícil, sendo que de 10% a 30% dos cânceres de mama, incluindo os tumores palpáveis, não são detectados com a rotina mamográfica(5). Muitos dos casos iniciais de câncer de mama são descobertos pela detecção de microcalcificações, sendo que cerca de 30% a 50% dos carcinomas possuem microcalcificações associadas visíveis no mamograma(6,7), e 50% a 80% dos carcinomas de mama revelam microcalcificações sob exame histológico(8,9). Entretanto, a dificuldade na visualização das microcalcificações causa um aumento significativo no número de biópsias realizadas, chegando a taxas de falso-positivos de 88% (número de falso-positivos dividido pela soma do número de falso-positivos e falso-negativos)(2). Por isso, muitos grupos de pesquisa têm desenvolvido sistemas de diagnóstico auxiliado por computador ("computer-aided diagnosis" ¾ CAD) voltados para a detecção e classificação automatizada de lesões de mama, visando à diminuição das taxas de falso-positivos e falso-negativos(1,2). Nós também temos trabalhado no desenvolvimento de sistemas de diagnóstico auxiliado por computador(10¾13), sendo o propósito deste estudo a implementação de um sistema de recuperação de imagens baseada em conteúdo(14) ("content-based image retrieval" ¾ CBIR), voltado para o auxílio ao diagnóstico de lesões de mama por comparação visual. Sistema de recuperação de imagens baseada em conteúdo Um ambiente médico se caracteriza pela diversidade e quantidade de informações que são produzidas ao longo do tratamento e acompanhamento de um paciente. Diversos tipos de sistemas de gerenciamento de informação podem ser encontrados dentro desse ambiente, para controle dos dados administrativos e clínicos. Estes dados podem estar na forma de atributos textuais, representando informações gerais sobre o paciente e dados do prontuário, bem como na forma de imagens, resultantes da realização de exames. Nesse contexto, a busca por informações pode ser feita mediante consultas por elementos textuais ou por imagens. Um sistema que possibilite a busca de exames a partir de informações sobre o seu conteúdo pictórico é denominado de sistema de consulta de imagem baseada em conteúdo. Pode-se definir tipos diferentes de consultas, de acordo com o tipo de informação a ser utilizada na caracterização do conteúdo da imagem. Os métodos mais comuns de formulação de consulta são(15): a) Baseadas em atributos textuais: consistem na utilização de atributos textuais que descrevem o que se encontra no exame. Estas informações normalmente são obtidas a partir da análise de um especialista no domínio de conhecimento em que esteja inserido o exame. No entanto, o texto pode apresentar um alto índice de ambigüidade, além de ser dependente do conhecimento do especialista. b) Baseadas em características pictóricas: consistem na extração de uma série de elementos gráficos que possam caracterizar o conteúdo da imagem, como, por exemplo, o histograma de cores, textura, descritores da forma, e outros. Neste caso, o aspecto importante consiste na definição de uma semântica apropriada ao conjunto de informações obtidas, para que estas possam ser significativas para o domínio da aplicação(16). c) Baseadas em imagem-exemplo: consistem em fornecer uma imagem a ser utilizada como um exemplo das demais a serem recuperadas a partir do banco de dados. A imagem-exemplo pode apresentar a mesma resolução das que deverão ser recuperadas, uma resolução menor, ou ser montada ou desenhada pelo usuário. Neste último caso, pode-se utilizar de ícones que representem elementos presentes nas imagens e, assim, o problema pode consistir em definir ícones apropriados aos vários domínios de aplicações. Uso de textura para caracterização de imagens radiológicas Uma definição genérica de textura poderia ser "a disposição ou característica dos elementos constituintes de alguma coisa, especialmente no que se refere à aparência superficial ou à qualidade táctil"(17). Porém, no caso de imagens, uma definição mais adequada poderia ser "uma característica representativa da distribuição espacial dos níveis de cinza dos elementos de imagem ("pixels") de uma região"(18). Ou seja, um atributo de textura é um valor, calculado a partir da imagem de um objeto, que quantifica algumas características da variação dos níveis de cinza desse objeto. Normalmente, um atributo de textura é independente da posição, orientação, tamanho, forma e brilho do objeto(19). Uma das abordagens mais simples para a descrição de textura é por intermédio dos momentos do histograma de primeira ordem dos níveis de cinza de uma imagem ou de uma região. Porém, medidas de textura calculadas apenas a partir do histograma de primeira ordem sofrem a limitação de não carregarem informações sobre a distribuição espacial dos "pixels" da imagem. Uma maneira de trazer essa informação ao processo de análise de textura é considerar não apenas a distribuição de intensidade, mas também as posições espaciais relativas dos "pixels" com valores de intensidade iguais ou similares. O histograma de segunda ordem, p(i,j), também chamado de matriz de dependência espacial de nível de cinza ou matriz de co-ocorrência, é uma representação da distribuição de probabilidade de ocorrência de um par de valores semelhantes de nível de cinza, separados por uma distância "d", na orientação "q". Em outras palavras, p(i,j) indica a freqüência de ocorrência de um particular par de nível de cinza i e j, medido a partir de uma distância "d" e de um ângulo "q". As estatísticas do histograma de segunda ordem, como, por exemplo, entropia, inércia e energia, correlacionam-se muito bem com as estruturas da imagem e têm sido largamente utilizadas na literatura para a análise de característica, tais como homogeneidade, contraste, presença de estruturas organizadas, transição de nível de cinza e complexidade da imagem(20¾23). A Figura 1 apresenta um exemplo do cálculo da matriz de co-ocorrência para uma imagem com três níveis de cinza, considerando-se uma distância igual a 1 e um ângulo igual a 135°.
MATERIAL E MÉTODOS Este trabalho utiliza-se de uma abordagem mista, com extração de características das imagens para a definição de seu conteúdo e o uso de uma imagem-exemplo como forma de reforçar o significado da informação a ser procurada no banco. Nessa abordagem(24¾27), o conceito que possibilita a definição de operadores envolvendo imagens na base de dados é a constante imagem. A constante imagem é uma imagem qualquer, indicada como padrão para as operações a serem formuladas sobre outras imagens do banco. Por exemplo, o médico pode utilizar uma mamografia que contenha um agrupamento de microcalcificações, associado a um tumor benigno ou maligno, como parâmetro para futuras buscas por exames que possuam uma afecção com características visuais semelhantes. Ou seja, esta imagem pode ser indicada ao sistema como um padrão de comparação com outras, obtidas a partir do mesmo tipo de exame. Para que isso seja possível, os elementos gráficos extraídos das imagens são tratados pelos sumarizadores. Os sumarizadores representam o conjunto de operações válidas para o grupo de imagens, cujo resultado é utilizado como elemento para realizar comparações entre estas. Cada operação representada pelo sumarizador pode retornar diversos valores. Os parâmetros ou variáveis representam este conjunto de valores. Estes elementos descrevem o sumarizador em seu aspecto estrutural, através do conjunto de informações que este extrai das imagens. Pode-se então definir um intervalo de valores indicado como significativo para a caracterização da imagem, o qual é denominado de limite de aceitação. Ou seja, o grau de similaridade entre os parâmetros obtidos para as imagens envolvidas na operação de busca. O sistema desenvolvido trabalha em plataforma Windows (Microsoft) e utiliza o programa Delphi (Borland) para a construção da interface com o usuário. As imagens, juntamente com as demais informações não textuais, foram armazenadas no banco de dados relacional Oracle 8i (Oracle Corp.). O banco de imagens utilizado para os testes foi composto por 100 casos de lesões de mama contendo agrupamentos de microcalcificações associados (50 lesões benignas e 50 malignas), todas confirmadas por biópsia. As mamografias (uma por caso) foram digitalizadas em um digitalizador Umax-MirageIIÔ (Umax Technologies Inc.), com resolução espacial de 600 pontos por polegada (tamanho de "pixel" igual a 0,042 mm) e 256 níveis de cinza (8 "bits"). As regiões de interesse ("regions of interest" ¾ ROI) (uma por mamografia) contendo os agrupamentos foram identificadas por médicos especialistas do Hospital das Clínicas da Faculdade de Medicina de Ribeirão (HCFMRP) e segmentadas. As imagens contendo as ROI foram utilizadas para a caracterização das mamografias. As imagens foram agrupadas segundo valores de atributos de textura sugeridos por Haralick et al.(20) e Haralick(21), obtidos das matrizes de co-ocorrência de níveis de cinza em orientações iguais a 0°, 45°, 90° e 135° e distância entre a vizinhança igual a 1 "pixel", calculadas para cada uma das ROI(10,13). A extração de atributos de textura das ROI consiste, então, no tipo de sumarizador definido para essa aplicação e os valores resultantes de sua aplicação sobre as imagens são definidos como variáveis descritoras. Assim, quando da inserção de um novo exame no banco de dados, as características que descrevem o conteúdo da imagem são obtidas a partir da aplicação do sumarizador de textura sobre a ROI e armazenadas juntamente com a imagem. Essas informações são a chave de acesso às imagens, sendo utilizadas na formulação de consultas baseadas na descrição do conteúdo. Para a avaliação da acurácia do sistema implementado foi utilizado o método de avaliação conhecido como "leave-one-out" (ou método "round-robin"), no qual uma amostra por vez é retirada do banco e utilizada como referência para a consulta, sendo este processo repetido até que todas as amostras tenham sido utilizadas como referência. Para cada consulta realizada, a similaridade entre a imagem de referência e as imagens recuperadas foi avaliada através de inspeção visual por um radiologista experiente do Serviço de Radiodiagnóstico do HCFMRP, o qual atribuiu uma nota entre 1 (completamente diferente), 2 (parcialmente diferente), 3 (semelhante), 4 (parcialmente idêntico) e 5 (completamente idêntico) para cada par de imagens avaliado. A precisão(28) do sistema foi calculada como sendo a fração de imagens recuperadas consideradas relevantes para a consulta, isto é, o número de imagens recuperadas consideradas relevantes dividido pelo número total de imagens recuperadas por consulta. Foram consideradas relevantes as imagens que tiveram nota de similaridade igual ou maior do que 3, em relação à imagem de referência.
RESULTADOS Com o esquema da aplicação construído e o banco de imagens montado, pode-se fazer consultas para recuperar informações a partir da indicação de seu conteúdo. A consulta é definida indicando-se basicamente as seguintes informações (Figura 2): O tipo de exame a ser recuperado (exame de mamografia), representado internamente pelos seus atributos e associado ao paciente; a imagem-exemplo (constante imagem), com a representação visual do tipo de padrão que se espera localizar (tipo de agrupamento); o tipo de operação para a caracterização deste padrão (sumarizador); as características mais adequadas para descrever o padrão (variável descritora); o limite de aceitação para a formação do conjunto resposta.
Deve-se notar que na definição da consulta não é obrigatória a indicação de todas as informações, sendo que a omissão de alguma(s) implica a realização de uma consulta mais genérica. Considerando-se a indicação de todas estas informações, o usuário estará delimitando uma região no espaço de busca, onde se encontram as imagens que irão formar o conjunto resposta. Uma vez que a operação de extração de características resulta em uma série de informações sobre o conteúdo da imagem, pode-se considerar que estes elementos constituem as coordenadas de um ponto em um espaço multidimensional. Ao selecionar a variável descritora e o seu limite de aceitação, o usuário estará indicando a dimensão do espaço a ser considerada na busca e a região que deverá conter os pontos com as imagens resultantes. Todas as imagens indexadas por estes pontos formam a resposta para a consulta formulada. Particularmente, neste trabalho, foi utilizada uma combinação de atributos de textura (medida de correlação, momento da diferença inversa, entropia, entropia da diferença e entropia da soma), considerada a mais precisa em estudo realizado por Ferrari et al.(10,12), com o mesmo banco de imagens aqui empregado e um limite de aceitação igual a 15% de variação nos valores dos atributos (obtido de forma empírica). A precisão medida para as consultas apresentou valor médio igual a 0,64 e desvio padrão de 0,15. O desvio padrão elevado representa a grande variação encontrada na medida da precisão, abrangendo desde valores muito baixos, da ordem de 0,22, até valores altos, da ordem de 0,86, e inclusive consultas com valores de precisão iguais a 1,00 (ou seja, casos em que todas as imagens recuperadas foram consideradas relevantes pelo médico radiologista que fez a avaliação de similaridade). As Figuras 3 e 4 mostram resultados de consultas ao banco de imagens considerando-se o parâmetro entropia para a caracterização da textura de agrupamentos associados a lesões maligna e benigna, respectivamente.
DISCUSSÃO A recuperação de imagens baseada em conteúdo tem ganhado espaço como uma importante área de pesquisa em visão computacional e sistemas multimídia. A busca por informação em formato digital, especialmente por imagens, tem-se tornado de extrema importância para a radiologia. Muitos hospitais e centros de saúde possuem grandes coleções de imagens em formato digital, e a organização e indexação desse material é fundamental para propiciar a busca e recuperação de informação em tempo real e de forma significativa. Nesse contexto, sistemas de recuperação de imagens baseada em conteúdo são uma alternativa e um complemento importante para os sistemas convencionais de busca baseada em palavras-chave. Porém, uma tarefa bastante difícil no projeto de sistemas de recuperação de imagens baseada em conteúdo é a escolha de uma representação adequada para as imagens, especialmente na área da radiologia, em que estes sistemas devem estar voltados para a interpretação visual e o auxílio ao diagnóstico. Atributos de textura têm sido considerados uma boa aproximação para a percepção visual humana e utilizados em muitos sistemas de auxílio ao diagnóstico(1,2). Apesar do valor médio encontrado para a precisão ter sido relativamente baixo (0,64), a existência de consultas com um grande número de imagens recuperadas consideradas relevantes parece indicar a possibilidade do uso de atributos de textura como um índice para a recuperação de imagens mamográficas a partir de conteúdo. É importante salientar que todas as consultas retornaram pelo menos uma imagem considerada relevante, o que reforça a hipótese de utilização do sistema no auxílio ao diagnóstico. Deve-se ressaltar, também, que a decisão de utilizar ou não o diagnóstico associado a uma imagem recuperada como fonte de informação para o auxílio ao diagnóstico dependerá da avaliação de similaridade feita pelo radiologista no momento da consulta, o qual poderá ou não solicitar a visualização do laudo associado. Provavelmente, a grande variação dos valores de precisão e o resultado de baixa relevância de algumas consultas estejam associados com o número limitado de amostras utilizado neste estudo. Certamente, alguns tipos de lesões não foram bem representados em nossa base de dados e um estudo com número maior de imagens se faz necessário. Além disso, como o valor da precisão está diretamente relacionado com a inspeção visual por parte do radiologista, uma avaliação das consultas por parte de um número maior de especialistas é fundamental para o estabelecimento de valores de variação intra e interpessoal. Outros aspectos importantes que deverão ser abordados em trabalhos futuros são a investigação da possibilidade do uso de atributos de textura (entre outros) para a separação de imagens mamográficas segundo as categorias do BI-RADSTM(29) e a associação do sistema de recuperação de imagens baseada em conteúdo com o sistema de informação em radiologia do hospital(30). Estudos voltados para esses objetivos já foram iniciados pelo nosso grupo.
CONCLUSÕES Este trabalho apresenta a implementação inicial de um sistema de recuperação de imagens baseada em conteúdo voltado para o auxílio ao diagnóstico de lesões de mama. Para as informações utilizadas na caracterização da textura das imagens, o sistema apresentou-se satisfatoriamente preciso, com base na comparação visual entre as imagens de referência e as imagens recuperadas. A partir dos resultados iniciais, pode-se considerar que o sistema possui potencial como ferramenta de auxílio ao trabalho do radiologista, especialmente por permitir a formulação de consultas baseadas na descrição do conteúdo gráfico da imagem. Além disso, a estrutura implementada é flexível à incorporação e definição de novas técnicas para a descrição das imagens, permitindo a inclusão de novos sumarizadores, o que pode otimizar o processo de consulta ao banco.
REFERÊNCIAS 1.Giger ML, Huo Z, Kupinski MA, Vyborny CJ. Computer-aided diagnosis in mammography. In: Sonka M, Fitzpatrick JM, eds. Handbook of medical imaging. Vol. II. Bellingham, Wash.: The International Society for Optical Engineering (SPIE), 2000:915¾1004. [ ] 2.Giger ML. Computer-aided diagnosis. In: RSNA Categorical Course in Breast Imaging 1999:249¾72. [ ] 3.Instituto Nacional do Câncer, Ministério da Saúde, Coordenação de Programas de Câncer. Estimativa da incidência e mortalidade por câncer no Brasil. Rio de Janeiro, 2000 (http://www.inca.org.br/2000). [ ] 4.Swanson GM. Breast cancer in the 1990's. J Am Med Women Assoc 1992;47:140¾8. [ ] 5.Pollei SR, Mettler FA Jr, Bartow SA, Moradian G, Moskowitz M. Occult breast cancer: prevalence and radiographic detectability. Radiology 1987;163:459¾62. [ ] 6.Sickles EA. Mammographic detectability of breast microcalcifications. AJR 1982;139:913¾8. [ ] 7.Wolfe JN. Analysis of 462 breast carcinomas. Am J Roentgenol Radium Ther Nucl Med 1974;121: 846¾53. [ ] 8.Murphy WA, DeSchryver-Kecskemeti K. Isolated clustered microcalcifications in the breast: radiologic-pathologic correlation. Radiology 1978; 127:335¾41. [ ] 9.Millis RR, Davis R, Stacey AJ. The detection and significance of calcifications in the breast: a radiological and pathological study. Br J Radiol 1976;49:12¾26. [ ] 10.Ferrari RJ, Frère AF, Marques PMA, Kinoshita SK, Spina LAR. Comparative evaluation of statistical pattern recognition techniques for the classification of breast lesions. In: Karssemeijer N, Thijssen M, Hendriks J, van Erning L, eds. Digital mammography. Dordrecht: Kluwer Academic Publishers, 1998:249¾52. [ ] 11.Kinoshita SK, Marques PMA, Slaets AFF, Marana HRC, Ferrari RJ, Villela RL. Detection and characterization of mammographic masses by artificial neural network. In: Karssemeijer N, Thijssen M, Hendriks J, van Erning L, eds. Digital mammography. Dordrecht: Kluwer Academic Publishers, 1998:489¾90. [ ] 12.Ferrari RJ, Azevedo-Marques PM, Frère AF, Kinoshita SK, Spina LAR. Characterization of breast cancer using statistical approaches. In: Doi K, MacMahon H, Giger ML, Hoffmann KR, eds. Computer-aided diagnosis in medical imaging. Amsterdam: Elsevier Science B.V., 1999:281¾6. [ ] 13.Kinoshita SK, Azevedo-Marques PM, Slaets AFF, Marana HRC, Ferrari RJ, Villela RL. Characterization of breast masses using texture and shape features. In: Doi K, MacMahon H, Giger ML, Hoffmann KR, eds. Computer-aided diagnosis in medical imaging. Amsterdam: Elsevier Science B.V., 1999:265¾70. [ ] 14.Qi H, Snyder WE. Content-based image retrieval in picture archiving and communications systems. J Digit Imaging 1999;12(2 Suppl 1):81¾3. [ ] 15.Zachary JM, Iyengar SS. Content-based image retrieval systems. Proceedings of the IEEE Symposium on Application-Specific Systems and Software Engineering & Technology 1999:136¾43. [ ] 16.Colombo C, Del Bimbo A, Pala P. Semantics in visual information retrieval. IEEE Multimedia 1999;6:38¾53. [ ] 17.Landau SI, editor-in-chief. Webster Illustrated contemporary dictionary. Garden City, NY: Doubleday, 1986. [ ] 18.IEEE Standard 610.4-1990. IEEE standard glossary of image processing and pattern recognition terminology. New York: IEEE Press, 1990. [ ] 19.Castleman KN. Digital image processing. New Jersey: Prentice Hall, 1996. [ ] 20.Haralick RM, Shanmugan K, Dinstein I. Textural features of images classification. IEEE Trans Systems Man Cybernetics 1973;SMC-3:610¾21. [ ] 21.Haralick RM. Statistical and structural approaches to texture. Proc IEEE 1979;67:786¾804. [ ] 22.Reed TR, Du Buf MH. A review of recent texture segmentation and feature extraction techniques. CVGIP: Image Understanding 1993;57: 359¾72. [ ] 23.Gonzalez RC, Woods RE. Digital image processing. New York: Addison-Wesley, 1993. [ ] 24.Traina Jr C, Traina AJM, Santos RR, Senzako EY. A support system for content-based medical image retrieval in object oriented databases. J Med Syst 1997;21:339¾52. [ ] 25.Traina Jr C, Traina AJM, Santos RR, Senzako EY. Content-based medical image retrieval in object oriented databases. Proceedings of the 10th IEEE Symposium on Computer Based Medical Systems. Maribor, Eslovênia, June 1997:67¾72. [ ] 26.Traina Jr C, Traina AJM, Santos RR, Senzako EY. Support to content-based image query in object-oriented databases. Proceedings of the ACM Symposium on Applied Computing ¾ SAC'98. Atlanta, USA, Feb/Mar 1998:241¾7. [ ] 27.Traina Jr C, Traina AJM, Santos RR, Senzako EY. A tool for content-based image retrieval in object-oriented databases. Proceedings of the International Workshop on Issues and Applications of Database Technology ¾ IADT'98. Berlin, Germany, July 1998:344¾51. [ ] 28.Smeulders AWM, Worring M, Santini S, Gupta A, Jain R. Content-based image retrieval at the end of the early years. IEEE Transactions on Pattern Analysis and Machine Intelligence 2000;22: 1349¾80. [ ] 29.The American College of Radiology (ACR). Breast imaging reporting and data system (BI-RADSTM). 3rd ed. Reston, VA: ACR, 1998. [ ] 30.Azevedo-Marques PM, Santos A, Elias Jr J, Goes W, Castro C, Trad CS. Implementação de um sistema de informação em radiologia em hospital universitário. Radiol Bras 2000;33:155¾60. [ ]
* Trabalho realizado junto ao Serviço de Radiodiagnóstico do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (HCFMRP-USP), Ribeirão Preto, SP. Apoio financeiro da Fapesp e da Pró-Reitoria de Pesquisa da USP (Projeto Ciupe). |