Radiologia Brasileira - Publicação Científica Oficial do Colégio Brasileiro de Radiologia

AMB - Associação Médica Brasileira CNA - Comissão Nacional de Acreditação
Idioma/Language: Português Inglês

Vol. 46 nº 5 - Set. / Out.  of 2013

ARTIGO ORIGINAL
Print 

Page(s) 290 to 298



Construção de um índex de informação da prática clínica em Radiologia e Diagnóstico por Imagem baseada em mineração de texto e tesauro

Autho(rs): Paulo Roberto Barbosa Serapião1; Rogério Honório Junior2; Marcelo Alexandre Santos3; Luiz Ricardo Albano dos Santos3; José Carlos Bueno de Moraes3; Paulo Mazzoncini de Azevedo Marques4

PDF Português      

PDF English

Texto em Português English Text

Descritores: Laudos radiológicos; RadLex; Educação médica; Tecnologia da informação; Informática em saúde.

Keywords: Radiology reports; RadLex; Medical education; Information technology; Health informatics.

Resumo:
OBJETIVO: Construir um índex de informação da prática diagnóstica radiológica em língua portuguesa, com o intuito de auxiliar a uniformizar o uso da linguagem médica e sua terminologia.
MATERIAIS E MÉTODOS: Foi extraído um total de 61.461 laudos definitivos do Banco de Dados do Sistema de Informação em Radiologia do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto (RIS/HCFMRP), sendo 30.000 laudos de radiografia de tórax, 27.000 laudos de mamografia e 4.461 laudos de ultrassonografia de nódulos de tireoide. Após, foi aplicada a técnica de mineração de texto para seleção dos termos. Foi utilizada a norma ANSI/NISO Z39.19-2005, para a construção do índex baseado em uma estrutura de tesauro. O sistema foi gerado em *html.
RESULTADOS: A mineração de texto resultou em 358.236 (n = 100%) palavras. Deste total, 76.347 (n = 21%) termos foram selecionados para formar o índex. Esses termos estão distribuídos em descritivos anatômicos de patologia, de técnica de obtenção de imagem, de equipamento, de tipo do exame e de alguns termos compostos. O sistema índex foi desenvolvido com 78.538 páginas web plenamente navegáveis.
CONCLUSÃO: Mineração de texto em base de laudos radiológicos permite a construção de sistemas lexicais, em língua portuguesa, condizentes com a prática clínica em Radiologia.

Abstract:
OBJECTIVE: To construct a Portuguese language index of information on the practice of diagnostic radiology in order to improve the standardization of the medical language and terminology.
MATERIALS AND METHODS: A total of 61,461 definitive reports were collected from the database of the Radiology Information System at Hospital das Clínicas - Faculdade de Medicina de Ribeirão Preto (RIS/HCFMRP) as follows: 30,000 chest x-ray reports; 27,000 mammography reports; and 4,461 thyroid ultrasonography reports. The text mining technique was applied for the selection of terms, and the ANSI/NISO Z39.19-2005 standard was utilized to construct the index based on a thesaurus structure. The system was created in *html.
RESULTS: The text mining resulted in a set of 358,236 (n = 100%) words. Out of this total, 76,347 (n = 21%) terms were selected to form the index. Such terms refer to anatomical pathology description, imaging techniques, equipment, type of study and some other composite terms. The index system was developed with 78,538 *html web pages.
CONCLUSION: The utilization of text mining on a radiological reports database has allowed the construction of a lexical system in Portuguese language consistent with the clinical practice in Radiology.

INTRODUÇÃO

A preocupação da área médica e, notadamente, da especialidade da Radiologia e Diagnóstico por Imagem, por sistemas unificados de terminologia para a prática clínica, vem se transformando, pelo menos ao longo das últimas décadas, em um problema de estudo para pesquisa básica e aplicada multidisciplinar(1-3). A busca e a posterior conquista da harmonização das informações médicas representam grande avanço para a área da saúde. Isso ocorre por favorecerem registros clínicos mais bem elaborados (registro executado com maior agilidade, facilidade e com menor custo de manutenção), controle administrativo mais apurado sobre a informação arquivada, recuperação mais precisa de informações de histórico do paciente e melhor controle da informação para os segmentos públicos de saúde e planos privados(1-4).

Linguagem médica é o tipo de vocabulário de especialidade utilizada nas comunicações oral e escrita ligadas à prática da profissão(5). Já sua terminologia é o con-junto de termos classificados e relacionados de expressões utilizadas, sobretudo, em documentos clínicos como laudos e exames(1,2,4). As razões que levam aos problemas de padronização são múltiplas e variadas(2). Entre as mais importantes, podemos citar: a escala e multiplicidade de tarefas que envolvem o uso da terminologia médica, os relacionamentos terminológicos interclínicas médicas, os relacionamentos terminológicos interáreas (ex.: Medicina versus Enfermagem, Nutrição, Fonoaudiologia, etc.), os problemas linguísticos (pragmatismo, neologismo, ortografia, redundância, coesão, polissemia, sinônimo, etc.), os problemas lógicos (geralmente falhas de estrutura e densidade narrativa) e os ontológicos (como os termos estão relacionados entre si em dado domínio do conhecimento), além da perspectiva de uso da linguagem médica baseada no nível de excelência de cada profissional, dentro de uma instituição de saúde(1-3,5).

A área de Radiologia e Diagnóstico por Imagem utiliza, em sua prática, dois tipos distintos de informação: a imagem médica e a informação textual, ou seja, os laudos. No que diz respeito às imagens médicas, a área possui os mais avançados sistemas de geração, processamento, transmissão e armazenamento de dados. Todos esses sistemas seguem rigorosos protocolos e padrões de comunicação, com destaque para os ambientes PACS (do inglês, Picture Archiving Communication System) e para o padrão DICOM (do inglês, Digital Imaging and Communications in Medicine). A informação textual, de outra forma, pode ser considerada, ainda, de baixa implementação de tecnologia(2,6), uma vez que pouco avançou apesar dos esforços empreendidos com o desenho de sistemas lexicais como o American College of Radiology's Index for Radiological Diagnoses (ACR Index)(6), o Breast Imaging Reporting and Data System (BI-RADS Atlas©)(7), o Radlex©(8) e também os vocabulários integrantes dos padrões de comunicação DICOM e PACS(9). Esses sistemas lexicais e vocabulários modelados para a comunicação, em grande parte, se encontram apenas disponíveis em língua inglesa. Estudos(10-13) demonstram que a aplicação de tais sistemas, diretamente na prática médica, possibilita mudanças positivas na qualidade da assistência médica, contudo, em certas circunstâncias a aplicação de um modelo fechado de conhecimento pode causar dificuldade de uso para o especialista e mesmo problemas de programação de soluções tecnológicas para o desenvolvedor. A dificuldade da transposição de uma terminologia fechada para a prática decorre, fundamentalmente, do distanciamento entre a perspectiva teórica do uso da terminologia desenvolvida (como usar, para que usar e quem deve/pode usar) e as condições reais de uso local onde será utilizada (o que envolve a cultura institucional e os formalismos próprios de cada indivíduo médico)(14). Dessa forma, os benefícios almejados com a utilização de um sistema terminológico acabam não sendo alcançados totalmente, já que existe uma lacuna entre o modelo proposto e a prática da medicina cotidiana.

O trabalho aqui descrito tem por objetivo apresentar e discutir o método e os resultados da construção de um índex(a) de informação extraído diretamente da prática clínica, como possibilidade, simultaneamente, de propor uma alternativa local ao uso de um padrão informacional internacional como o ACR Index, Radlex de complemento ao BI-RADS Atlas. E também como tentativa de minimizar a problemática da padronização da linguagem médica e sua terminologia, especialmente na língua portuguesa, para a especialidade de Radiologia e Diagnóstico por Imagem.


MATERIAIS E MÉTODOS

Para a construção do índex, foram estabelecidas três fases sucessivas de desenvolvimento. No primeiro segmento foram extraídas as informações dos laudos para estruturação do índex. Para prova de conceito e considerando-se a impossibilidade prática inicial de se trabalhar com todos os tipos de exame da área de Radiologia e Diagnóstico por Imagem, foram incluídos os laudos que satisfizessem os seguintes critérios: melhor representação da distribuição anatômica, complexidade informacional e possibilidade de comparação com outros estudos similares ao presente trabalho.

Seleção e extração dos laudos radiológicos

Foi extraído um total de 61.461 laudos definitivos do Banco de Dados do Sistema de Informação em Radiologia do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto (RIS/HCFMRP)(1,17-20), sendo: 30.000 laudos de radiografia de tórax, 27.000 laudos de mamografia e 4.461 laudos de ultrassonografia (US) de nódulos de tireoide. A diferença entre os números de laudos dos tipos de exame decorre da demanda, maior ou menor, do fluxo de trabalho do Serviço de Radiodiagnóstico da instituição-sede da pesquisa. O período dos exames selecionados foi de janeiro/2000 até janeiro/2009. Este estudo recebeu aprovação do Comitê de Ética em Pesquisa da instituição-sede (CEP/HCFMRP), previamente ao início das atividades de pesquisa (Processo CEP-HCFMRP 10791/2007)(b).

O arquivo de banco de dados do RIS/HCFMRP de origem, Oracle*dmp, precisou ser modulado para uma extensão amigável para atender às necessidades da pesquisa e facilitar o trabalho dos pesquisadores. Esse processo foi feito utilizando-se, para tanto, engenharia reversa, transformando o arquivo Oracle em extensão Microsoft Data Base*mdb. Apesar de o banco de dados Oracle ser, da mesma forma, amigável, o arquivo proveniente do RIS/HCFMRP continha marcações e estruturação de banco de dados proprietário do Centro de Informações e Análises da instituição (CIA-HCFMRP). Assim sendo, optou-se pela modulação do arquivo para um formato diferente, utilizando um programa gerenciador de banco de dados gratuito(21), de fácil implantação e que apenas recuperasse as informações contidas no arquivo original. Isso para facilitar a execução do estudo, diminuindo o tempo e eventualmente o custo de implantação de um banco de dados Oracle espelho ao utilizado e dedicado profissionalmente à instituição-sede da pesquisa.

Cada laudo do RIS/HCFMRP suporta informações administrativas e hospitalares, perfazendo um total de 12 campos possíveis de serem preenchidos. As informações administrativas contidas nos campos: "realizado em", "número do disco", "nome do paciente", "código da clínica", "situação do exame", "equipamento" e "emissor" foram anonimizadas e desconsideradas para a formação do índex. Os campos "região do exame", "suspeita clínica", "nome da clínica", "conclusão do laudo" e "descrição do laudo" foram considerados como a fonte dos termos integrantes do índex. Encerrada a fase de extração e de coleta dos laudos, teve início a etapa seguinte, que tratou da seleção dos termos individuais do índex.

Mineração de texto (análise de conteúdo e processo de categorização)

A técnica de mineração de texto (análise de conteúdo)(22) foi utilizada no estudo com o emprego de uma suíte de software especialista denominada Provalis Research (SimStat2.5, WordStat6.1 e QDA Miner4)(23), de âmbito comercial, mas com licença acadêmica para o estudo. O trabalho de mineração consistiu em importar as tabelas organizadas (similares quanto à origem dos termos) do banco de dados de laudos para o software especialista, levando-se em conta cada tipologia de exame individualizado. O desenho do agrupamento terminológico do estudo foi realizado em dois momentos distintos, porém complementares de aplicação da técnica em si: processo de categorização e análise de conteúdo. O processo de categorização usou a rotina de remoção de palavras negativas (stopwords). As palavras negativas excluídas do corpus linguístico do estudo foram: conjunções, números, caracteres especiais, palavras desconhecidas (grande parte dos erros de digitação), artigos (definidos e indefinidos) e preposições.

A análise de conteúdo(22) visou à extração de termos singulares. Também buscou a identificação dos termos médicos mais utilizados em cada tipo de exame, através da correlação de seis medidas de frequência de palavras para se alcançar uma lista íntegra de termos-chave (keywords). As medidas utilizadas foram: frequência (número de ocorrências da palavra), porcentagem apresentada (porcentagem baseada no número total de palavras recuperadas pela mineração do texto), porcentagem total de palavras (porcentagem baseada no número total de palavras, exceto aquelas removidas pelo processo de stopwords), número de casos (número de sujeitos-laudo nos quais a palavra aparece) e TF*IDF - frequência do termo ponderada pela frequência inversa de documentos (do inglês, term frequency weighted by inverse document frequency).

Com a aplicação da técnica anteriormente descrita, os experimentos realizados no corpus linguístico do estudo resultaram em uma lista de termos utilizados nos sujeitos-laudo pelos especialistas para cada tipo de exame (radiografia de tórax, mamografia e US de nódulos de tireoide). Tais palavras foram agrupadas em palavras de cunho médico únicas (o vocabulário utilizado, de fato, pelos especialistas), não únicas (conjunto de palavras únicas multiplicadas pelo número de repetição no corpus linguístico do estudo) e o total de palavras que representa a soma das palavras únicas e não únicas. A lista de palavras únicas foi então reprocessada em outra modalidade de mineração de texto, ainda voltada para a análise de conteúdo(22), denominada palavras-chave no contexto (do inglês keyword in context). Essa técnica, palavras-chave no contexto, delimita o termo e o contexto em que tal termo aparece em meio ao documento, recortando e separando de uma até sete palavras anteriores e posteriores ao termo demarcado, formalizando, então, uma frase semicomplexa. Tal procedimento metodológico foi utilizado para recuperar as estruturas frasais ou estruturas de informação mais comuns, relacionadas e baseadas nos termos integrantes do índex.

Ao final da etapa de aplicação de mineração de texto, foi realizado um teste estatístico ao agrupamento de palavras únicas encontradas pela análise de conteúdo. Esse teste estatístico visou a verificar a porcentagem de palavras únicas em relação ao número total de laudos e a hipótese de que a proporção de palavras únicas encontradas nos três tipos de exame (mamografia, radiografia de tórax e US de nódulos de tireoide) são, de fato, diferentes. Para a porcentagem, foi feito cálculo de razão centesimal entre os valores "palavras únicas" por "total de sujeitos-laudo" para cada tipo de exame. E para atingir validação da hipótese de proporção, foi realizado o teste não paramétrico qui-quadrado(21). Foi considerado o nível de significância de 5% (p < 0,05).

Construção do índex

A arquitetura do índex foi desenvolvida e baseada em um vocabulário controlado, focado em um sistema de representação do conhecimento denominado tesauro. Para tanto, foi escolhida uma padronização de cobertura internacional que tivesse uma abordagem interdisciplinar atualizada e condizente com a realidade operacional de sistemas de informação em saúde. E também, como complemento, que apresentasse fundamentação nas teorias da Unificação Facetada, do Conceito e da Terminologia. A norma que atendeu à abordagem planejada e, portanto, utilizada pelo estudo foi a American National Standard/National Information Standards Organization - Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies Z39.19-2005 (ANSI/NISO Z39.19-2005)(19). Os relacionamentos comportados na estrutura do índex são os elencados na Tabela 1.




Em razão do volume dos termos e das palavras do estudo, foi utilizado um software de construção semiautomático para construção do índex, MultiTes Pro, licença acadêmica, versão (autorização de uso) 2008/2009 e 2010/2011. Este programa não só realiza o encadeamento dos termos, como também gera uma estrutura inicial em linguagem web como formalização do trabalho realizado. A opção nativa no MultiTes Pro utilizada para a extensão de estrutura foi a HyperText Markup Language, *html. Essa linguagem foi escolhida, dentre outras disponíveis, em virtude de ser o formatoraiz de geração emitido pelo programa MultiTes Pro. Após a alimentação do índex com os termos e as palavras e sua geração em um formato de sistema navegável web, as telas geradas passaram por um último processo de modelagem para a usabilidade em um hospital-escola. Para caracterização da ferramenta desenvolvida, foi feita uma análise comparativa de requisitos, funcionalidade e escopo entre o índex desenvolvido localmente e as terminologias mais importantes da área, a saber: ACR Index, BI-RADS Atlas e Radlex.


RESULTADOS

A mineração de texto, como primeira aplicação de extração terminológica, resultou em 11.210.832 (n = 100%) palavras, formando o complexo semântico utilizado nos 61.461 laudos operacionalizados pelo estudo. Após a seleção e execução da rotina de remoção de palavras negativas, chegouse a 358.236 (n = 3,19%) palavras. Com a aplicação das técnicas de mineração de texto, para delimitar a especificidade das palavras encontradas, foi possível selecionar 24.488 palavras únicas (n = 0,21%). As palavras únicas, com a aplicação da rotina de palavras no contexto, oportunizaram 51.859 (n = 0,46%) estruturas de informações (frases semicomplexas). O índex desenvolvido foi finalizado com 76.347 (n = 0,68%) palavras e frases semicomplexas (termos do vocabulário). Esses termos estão distribuídos em descritivos anatômicos de patologia, de técnica, de equipamento, de tipo do exame e de termos compostos (e, portanto, repetidos no índex), considerando a junção de outro termo de especialidade e/ou palavra gramaticalmente necessária para a compreensão (conectivo, por exemplo: de, com, para, etc.). O sistema índex foi desenvolvido com 78.538 páginas web *html plenamente navegáveis e com possibilidade de vinculação dos termos com o sistema operacional de laudos ou para qualquer sistema eventualmente criado e que suporte linguagem compatível, sendo 2.191 páginas para entradas de termos e estrutura de navegação (telas iniciais e de feedback) e 76.347 páginas dedicadas a cada termo individualizado.

O teste qui-quadrado revelou que a proporção de distribuição de palavras de cada tipo de exame diferente (Tabela 2) e a porcentagem de palavras únicas por tipo de laudo apresentaram assimetria para os exames estudados (Tabela 3). A análise comparativa de requisitos, funcionalidade e escopo, entre as terminologias da área com o índex aqui apresentado, revelou expressivo grau de adequação às características de tais instrumentos internacionais, conforme demonstra a Tabela 4.








DISCUSSÃO

Aplicação de mineração de texto


O processo de análise de conteúdo(22) pode ser descrito como um sistemático, objetivo e quantitativo método de análise das características de uma mensagem. As vantagens mais importantes da aplicação de análise de conteúdo são a observação direta dos seguintes aspectos: a validade, a interpretação e a explicação de como tais informações são formalizadas em dado estoque de dados em um arco temporal de longa duração(22). E, ainda, há a análise de informações produzidas por uma comunidade heterogênea de sujeitos-especialistas (que pode ser, também, de outras profissões não restritas somente à área médica). No caso do presente trabalho, as informações do RIS são produzidas por médicos residentes, especialistas contratados e, também, docentes médicos. Diferentemente de estudos mais focados em questões computacionais ou metodológicas e conceituais da mineração de texto, a visão fundamental, apresentada no presente trabalho sobre a aplicação da técnica, é que ela permite, conforme apontado pelos resultados (Tabelas 2 e 3), estabelecer possíveis categorias terminológicas para o uso clínico, pedagógico, e que, eventualmente, podem também facilitar processos de desenvolvimento de softwares em português, condizentes com a prática radiológica do País.

Do ponto de vista da formação de um corpus semântico com possibilidade de servir de base para a criação de um padrão de vocabulários médicos, os resultados listados nas Tabelas 2 e 3 mostram diferentes distribuições terminológicas para cada tipo de laudo. Essa heterogeneidade dificulta a elaboração de um modelo único de extração e montagem de formações de dicionários médicos ou padrões descritivos diagnósticos automáticos e abrangentes, exigindo a observação individualizada de cada tipo de exame e técnica para a criação de um desenho de extração terminológica. É importante destacar que os resultados apresentados, em conjunto nas Tabelas 2 e 3, confirmam que o uso de um padrão diagnóstico, como o BI-RADS, proporciona claramente a diminuição no uso de termos diferentes para um mesmo tipo de laudo.

A problemática do uso da informação

Os resultados obtidos, primeiramente, demonstram que uma base de dados, de um RIS em geral, longitudinal e representativo de um serviço de Radiologia e Diagnóstico por Imagem, pode servir como uma ferramenta de suporte à construção de sistemas de conhecimento intensivo. Apesar de a última afirmação ser explícita, para os especialistas em Ciências da Computação e nas Engenharias em geral, tal detalhe acerca do achado sobre o banco de dados de um RIS se faz oportuno e necessário para o presente trabalho, em razão de alertar a comunidade de radiologistas sobre o potencial científico, e até mesmo empresarial-financeiro, existente nos bancos de dados de informações, instalados em cada clínica e hospital nacional. Podem servir, até mesmo, como um substituto à adoção de sistemas lexicais convencionais, os quais, em sua quase totalidade, estão em língua estrangeira. Esse aspecto pode favorecer o processo de ensino de uso correto da terminologia de especialidade, o que repercute diretamente na qualidade do produto do radiologista, que é o laudo radiológico, e na comunicação entre especialistas médicos. Além disso, permite uma transposição de sistemas lexicais e sua utilização na assistência, de forma menos mecânica e mais flexível, uma vez que as informações provenientes de bases de dados de um RIS em uso clínico representam uma prática profissional cotidiana (garantia de uso). Do ponto de vista da harmonização do uso de terminologia médica, a garantia de uso proporciona o enfrentamento de dois problemas: a escala e a multiplicidade de tarefas que envolvem o uso da terminologia médica. A escala de uso é o volume de informações "X" produzido por um número "Y" de pessoas. Já a multiplicidade de tarefas é o volume "X" de informação produzido para um número "Y" de objetivos e tarefas distintas. Essas duas condições, nas quais muita informação é produzida por um grande número de pessoas para vários objetivos, complementares ou não, favorecem o aparecimento dos problemas de inconsistência de informação, citados na introdução deste artigo. O método de mineração de texto, utilizado nesta pesquisa, permite estabelecer limites quanto à variabilidade de termos utilizados nos laudos, diminuindo a ocorrência de disparidades quanto à acurácia narrativa do texto e aos desdobramentos ligados à escala de uso e multiplicidade de tarefas. Com isso, é possível diminuir ao máximo o conjunto terminológico disponível no índex. Dessa forma, as reduções realizadas, decorrentes do método aqui empregado, permitem uma escala de uso e multiplicidade de tarefas de informação radiológica baseadas em um ambiente controlado e estável com relação à terminologia empregada, favorecendo a diminuição da ocorrência de problemas linguísticos(1).

Comparação do índex com o ACR Index, BI-RADS Atlas e Radlex

O ACR Index (Tabela 2) é um sistema organizado entre termos provenientes da anatomia e da patologia, potencialmente utilizado pelos radiologistas na descrição dos achados radiológicos. Nesse sistema, os termos recebem uma codificação (2 a 4 dígitos para os termos de anatomia e 2 a 5 dígitos para os termos de patologia) que é separada por um ponto, delimitando a origem de cada um, indicando primeiro a localização (anatomia) do termo e depois a lesão ou condição (patologia)(6,20,24). Essa codificação permite a formação de até 10 dígitos para a formalização de uma consulta informacional. Essa padronização, baseada em um sistema de classificação decimal, serve, sobretudo, para a recuperação da informação. Diferentemente de uma terminologia propriamente dita que oferece relacionamentos semânticos complexos e que pode servir para a modelagem de sistemas eletrônicos de informação, com árvores de inferência e dicionários descritivos. Tanto o ACR Index como o BI-RADS Atlas são duas classificações que apresentam um con-junto limitado de termos, sem relações complexas e organizadas, de maneira a facilitar a utilização do usuário por termo singular e não através de um conjunto de termos. Um exemplo desse aspecto é o uso do ACR Index. Para a realização de uma consulta ao termo "tendinite cálcica do músculo supraespinhoso" (Figura 2), é necessário consul-tar o sistema esquelético (shoulder girdle and arm), escolher a área anatômica mais próxima, que no caso é a articulação do ombro (shoulder joint), cujo código é 414. e, depois, combinar a patologia, que na Figura 2 é tendinite cálcica, que está descrita no grupo de inflamação do tecido leve articular e periarticular (periarticular and articular soft tissue inflammation) código .253 do ACR Index. Esse grupo só traz a opção tendinite e sua tipificação em calcificada e síndrome de Pelegrini-Stieda (tendinites include calcified, Pelegrini-Stieda). Desse modo, segundo a lógica do ACR Index, tendinite cálcica do músculo supraespinhoso (Figura 2) receberia o código diagnóstico 414.253. Em comparação com esse modelo, o índex desenvolvido e demonstrado no presente estudo possibilita uma abordagem diferente, com características diferenciadas para o uso clínico. São elas: a busca pelo termo é simplificada, tendo em vista que o usuário só precisa acessar o índice alfabético (Figura 1) e escolher a letra "t" para acessar o termo tendinite. Dentro da letra "t", o usuário encontra o termo tendinite em sua forma única e todas as formações frasais (estruturas) utilizadas pelos especialistas. Em dois cliques com o ponteiro do mouse, é possível recuperar qualquer informação relacionada com o termo tendinite que esteja classificado no índex desenvolvido. Outra melhoria é em relação ao uso da classificação decimal. A codificação utilizada pelo ACR Index, além de difícil assimilação para os usuários, ainda promove uma redução terminológica da descrição.


Figura 1. Tela inicial do índex, constando o próprio índice de entrada de termos e informações gerais sobre o sistema.


Figura 2. Tela de navegação de termos compostos, aqui demonstrando a entrada na letra "t".



O BI-RADS Atlas (Tabela 2), por sua vez, é um sistema específico para a padronização da descrição e conclusão dos laudos de mamografia(7,25). É amplamente utilizado na prática da Radiologia e Diagnóstico por Imagem, bem como pelas áreas próximas e de interesse ao aspecto de investigação. Seu modelo de funcionamento, com foco em padronizar os achados, a forma de descrição e as possíveis conclusões servem como base para outras iniciativas similares, do ponto de vista do ganho quanto à qualidade da informação e, consequentemente, do diagnóstico(7). Dos sistemas lexicais tratados neste estudo, é o único que permite o uso simultâneo com o índex aqui desenvolvido, uma vez que ele é utilizado nos laudos de mamografia e está contemplado no conjunto de termos integrantes do índex.

Já o Radlex (Tabela 2), dos três sistemas apresentados aqui, é o mais recente. Começou a ser desenvolvido em meados dos anos 2000 e surgiu como resposta às limitações impostas pela classificação com o uso codificado do ACR Index(8,27). A Radiological Society of North America (RSNA) propôs a expansão e a revisão terminológica da árvore contida, inicialmente, no ACR Index. Para esse propósito, foi utilizado o Systematized Nomenclature of Medicine - Clinical Terms (SNOMED-CT®)(8). Com a revisão, expansão e redesenho terminológico em uma nova estrutura, o Radlex per-mite o uso de informações relacionadas aos dispositivos, procedimentos e técnicas usados para geração de imagens na Radiologia e Diagnóstico por Imagem; termos descritivos sobre a dificuldade de percepção e análise da interpretação e a qualidade diagnóstica das imagens(8,27). Do ponto de vista tecnológico, o Radlex permite que as informações contidas no sistema possam ser manipuladas de diversas formas, sendo uma delas a possibilidade de exportação de sua estrutura para o Open Document Format (*odf) através de extensible markup language (*xml) e de resource description framework (*rdf), já que ambas integram a sintaxe da linguagem *owl. A extensão *odf é um formato de arquivo legível por vários programas computacionais, sendo alguns deles: o Google Docs, o IBM® Lotus® SimphonyTM e o OpenOffice.org. Sendo projetado em formato de ontologia, permite ainda a interoperabilidade de sistemas de informação em saúde de maneira automática e escalonável, dentro do domínio de cobertura terminológica. É o sistema lexical mais próximo ao uso do índex construído no trabalho aqui apresentado. Em relação ao índex elaborado, a diferença no aspecto de uso é que os termos contidos no Radlex são unidades, sem a composição de estruturas frasais, o que tende a limitar o seu emprego em consultas de maior complexidade terminológica. A árvore de consulta desse sistema também pode trazer al-guns obstáculos para o acesso, já que utiliza a separação de termos descritivos de anatomia e patologia em seus determinados nichos terminológicos, diferentemente do índex construído. Por ser desenvolvido em um modelo de ontologia, que é um sistema de representação do conhecimento mais adaptável que o tesauro, é possível, no uso do Radlex, importar apenas partes de interesse de sua estrutura terminológica, por exemplo, uma área anatômica ou um con-junto de patologias de um mesmo tipo, o que não ocorre no índex, uma vez que não é possível exportar informações de sua estrutura, apenas importar termos, aumentando sua base com novos termos. Por outro lado, o índex desenvolvido possui a grande vantagem de possibilitar o relacionamento direto entre termos e a prática clínica, na elaboração de laudos radiológicos em língua portuguesa.

Limitações do estudo e desafios futuros

A escolha de um tesauro para organizar as informações coletadas dos laudos se mostrou parcialmente efetiva para combater os problemas lógicos ligados ao uso de informação. As frases semicomplexas (de até sete palavras), articuladas em torno de termos contidos na base e construídas a partir das técnicas de mineração de texto em análise de conteúdo (keyword e keyword in contexto), são, na verdade, estruturas de informação. Contudo, não é possível a construção de laudos totalmente estruturados, utilizando puramente o índex e tais frases, sem implementações tecnológicas de automação adicionais, o que envolve recursos de programação e estudos sobre protocolos atuais de comunicação em saúde. Além disso, a validação de um laudo radiológico estruturado demanda também a construção de um instrumento específico e com abrangente grupo de avaliadores especialistas disponíveis para completar tal tarefa(30). Portanto, não é possível afirmar com certeza que o método e o índex do presente estudo servem para resolver e/ou atenuar problemas de falhas de estrutura e densidade narrativa. Porém, pode-se considerar que o estudo desenvolvido aponta para métodos viáveis de serem utilizados, para se alcançar tal finalidade.

Com relação aos problemas ontológicos, a formalização de relacionamentos como os utilizados no presente estudo (Tabela 1) estabelece uma versátil forma de consulta/uso do conjunto semântico disposto no índex. Isso porque considera três tipos distintos de relacionamentos e seus desdobramentos lógicos de forma abrangente (Tabela 1). A relação de equivalência permite a opção de uso/consulta do radiologista pelo melhor termo, dentro de um conjunto de sinônimos. A relação hierárquica permite a escolha de um termo dentro de uma categoria ou grupo fechado de termos (conjunto de termos pertencentes à determinada região anatômica, patologia ou outras formalizações de grupos e/ou subgrupos de termos). A relação associativa permite que termos de áreas diferentes e/ou distantes quanto à hierarquia e equivalência (antônimos) possam ser organizados, em virtude de associações diagnósticas (relação de causa/efeito) (Tabela 1), por exemplo. Porém, mesmo possuindo versatilidade na construção de relacionamentos, um tesauro não favorece o estabelecimento de relacionamentos processáveis automaticamente por máquinas(1,9). Um sistema de representação do conhecimento adequado e que permite processamento computacional(18) e ainda estabelece regras de inferência robustas para a prática médica é a ontologia(31-34), modelo no qual o Radlex foi desenvolvido, por exemplo.

Uma ontologia(27) também é o sistema de representação do conhecimento mais indicado para se obter a interoperabilidade semântica entre sistemas de informação em saúde(35,36). Oferece possibilidade de solução para os problemas ligados à comunicação interclínica da medicina e as interáreas da saúde, permitindo que sistemas heterogêneos possam se comunicar de forma múltipla e com formalizações de informações complexas. O que não ocorre com o índex desenvolvido, uma vez que sua estrutura atual não suporta um protocolo de comunicação entre sistemas eletrônicos em saúde. Já a organização informacional(37-40) estabelecida deve facilitar a construção de um modelo de ontologia em língua portuguesa compatível com a prática clínica.

Apesar das limitações tecnológicas associadas ao modelo de índex utilizado no presente estudo, a perspectiva de desenvolvimento de ferramentas de informação que possam auxiliar, de forma amigável e transparente, os radiologistas na sua prática clínica diária, especialmente a comunidade brasileira de radiologistas, parece promissora. A evidência que sustenta tal afirmação é a de que uma ontologia é um instrumento computacional avançado que pode ser desenvolvido a partir de um tesauro (que é a estrutura do índex). Além disso, os aparatos tecnológicos de informação representam a segunda maior categoria de pesquisa e desenvolvimento na área de Radiologia e Diagnóstico por Imagem, promotora de inovação tecnológica no âmbito nacional e internacional(41). O índex desenvolvido pelo estudo é um instrumento intermediário que pode servir de base para uma série de aplicações com repercussão no ensino, na pesquisa e na assistência e com potencial de utilização na modelagem de insumos tecnológicos inovadores, sobretudo, para a realidade brasileira(1,9,12,36,42-44).


CONCLUSÃO

O estudo apresentou um método de extração de informação em laudos radiológicos que permitiu a construção de um sistema terminológico em língua portuguesa, baseado na prática da área de Radiologia e Diagnóstico por Imagem.

Agradecimentos

À Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), à Fundação de Apoio ao Ensino, Pesquisa e Assistência do Hospital das Clínicas de Ribeirão Preto (Faepa-HCFMRP) e ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pelo financiamento do estudo. Ao professor doutor Jorge Elias Júnior, pela colaboração na compreensão das peculiaridades e diferenças descritivas diagnósticas entre laudos de radiografia de tórax e ultrassonografia de nódulos de tireoide, ao doutor Normand Péladeau, da Provalis Research, pela ajuda com o entendimento do uso da ferramenta de mineração de texto e, também, pela valiosa indicação bibliográfica. A CKE Applications, pelo trabalho de web design.


REFERÊNCIAS

1. Serapião PRB, Suzuki KMF, Azevedo-Marques PM. Uso de mineração de texto como ferramenta de avaliação da qualidade informacional em laudos eletrônicos de mamografia. Radiol Bras. 2010;43:103-7.

2. Rector AL. Clinical terminology: why is it so hard? Methods Inf Med. 1999;38:239-52.

3. Torlai FG, Meirelles GSP, Miranda Jr F, et al. Proposta para padronização do relatório de tomografia computadorizada nos aneurismas da aorta abdominal. Radiol Bras. 2006;39:259-62.

4. Shortliffe EH, Perreault LE, Wiederhold G, et al. Medical informatics: computer applications in health care and biomedicine. 2nd ed. New York: Springer; 2003.

5. Rezende JM. Linguagem médica. 3ª ed. Goiânia: AB Editora; 2004.

6. American College of Radiology. Index for radiological diagnoses. 4th ed. Reston: American College of Radiology; 1992.

7. American College of Radiology. Breast Imaging Reporting and Data System (BI-RADS©). 4th ed. Reston: American College of Radiology; 2003.

8. RSNA Informatics. What is Radlex? [acessado em 13 de junho de 2011]. Disponível em: http://www.rsna.org/Informatics/radlex.cfm.

9. Salomão SC, Azevedo-Marques PM. Integrando ferramentas de auxílio ao diagnóstico no sistema de arquivamento e comunicação de imagens. Radiol Bras. 2011;44:374-80.

10. Koch H, Castro MVK. Qualidade da interpretação do diagnóstico mamográfico. Radiol Bras. 2010;43:97-101.

11. Geraldeli FE, Carvalho ACP, Koch HA, et al. Produção de material instrucional para o ensino da radiologia por meio da digitalização de imagens. Radiol Bras. 2002;35:27-30.

12. Angelo MF, Schiabel H. Uma ferramenta para treinamento na avaliação de imagens mamográficas via Internet. Radiol Bras. 2002;35:259-65.

13. Oliveira MC, Azevedo-Marques PM, Cirne Filho WC. Grades computacionais na otimização da recuperação de imagens médicas baseada em conteúdo. Radiol Bras. 2007;40:255-61.

14. Elias Jr J, Semelka RC, Altun E, et al. Graduating 4th year radiology residents' perception of optimal imaging modalities for neoplasm and trauma: a pilot study from four U.S. universities. Radiol Bras. 2011;44:283-8.

15. Houaiss A. Novo dicionário Houaiss da língua portuguesa. 1ª ed. São Paulo: Objetiva; 2009.

16. Oxford University Publisher. New Oxford American dictionary. 3rd ed. Oxford: Oxford University Publisher; 2010.

17. Fapesp. Código de boas práticas científicas. [acessado em 22 de junho de 2012]. Disponível em: www.fapesp.br/FAPESP-Codigo_de_Boas_Praticas_Cientificas_jun2012.pdf.

18. Azevedo-Marques PM, Trad CS, Elias Jr E, et al. Implantação de um mini-pacs (sistema de arquivamento e distribuição de imagens) em hospital universitário. Radiol Bras. 2001;34:221-4.

19. ANSI/NISO Z39.19-2005. Guidelines for the construction, format, and management of monolingual controlled vocabularies. Bethesda: NISO Press; 2005.

20. Azevedo-Marques PM, Caritá EC, Benedicto AA, et al. Integração RIS/PACS no Hospital das Clínicas de Ribeirão Preto: uma solução baseada em "web". Radiol Bras. 2005;38:37-43.

21. Chen YT, Chen MC. Using chi-square statistics to measure similarities for text categorization. Expert Systems with Applications. 2011;38:3085-90.

22. Weber RP. Basic content analysis. 2nd ed. London: Sage University Paper; 1990.

23. Provalis Research. [acessado em 2 de novembro de 2012]. Disponível em: http://provalisresearch.com/solutions/applications/open-ended-questionanalysis/.

24. Yam CS, Kruskal J, Sitek A, et al. A web-based ACR index for radiological diagnoses. AJR Am J Roentgenol. 2004;183:1517-21.

25. Godinho ER, Koch HA. Breast imaging reporting and data system (BI-RADS AtlasTM): como tem sido utilizado? Radiol Bras. 2004;37:413-7.

26. Mongkolwat P, Bhalodia P, Makori A, et al. Informatics in Radiology (infoRAD): integrating MIRC-compliant semiautomated teaching files into PACS work flow. Radiographics. 2005;25:543-8.

27. Rubin DL. Creating and curating a terminology for radiology: ontology modeling and analysis. J Digit Imaging. 2008;21:355-62.

28. Baneyx A, Charlet J, Jaulent MC. Building an ontology of pulmonary diseases with natural language processing tools using textual corpora. Int J Med Inform. 2007;76:208-15.

29. Antoniou G, van Harmelen F. Web ontology language: OWL. In: Staab S, Studer R, editors. Handbooks on ontologies. 2nd ed. New York: Springer; 2009. p. 91-101.

30. Plumb AA, Grieve FM, Khan SH. Survey of hospital clinicians' preferences regarding the format of radiology reports. Clin Radiol. 2009;64:386-94.

31. Serapião PRB, Azevedo-Marques PM. A elaboração de um Tesauro para a estruturação de informações médicas. In: Ulbricht VR, Pereira ATC, editores. Hipermídia: um desafio da atualidade. 1ª ed. Florianópolis: Editora Pandion; 2009. p. 205-18.

32. Bosmans JM, Peremans L, Menni M, et al. Structured reporting: if, why, when, how-and at what expense? Results of a focus group meeting of radiology professionals from eight countries. Insights Imaging. 2012;3:295-302.

33. Khorasani R, Bates DW, Teeger S, et al. Is terminology used effectively to convey diagnostic certainty in radiology reports? Acad Radiol. 2003;10:685-8.

34. Gibaud B. The quest for standards in medical imaging. Eur J Radiol. 2011;78:190-8.

35. Azevedo-Marques PM. Diagnóstico auxiliado por computador na radiologia. Radiol Bras. 2001;34:285-93.

36. Azevedo-Marques PM, Santos AC, Elias Jr J, et al. Implantação de um sistema de informação em radiologia em hospital universitário. Radiol Bras. 2000;33:155-60.

37. Sampaio Netto O, Coutinho LOL, Souza DC. Análise da nova classificação de laudos de densitometria óssea. Radiol Bras. 2007;40:23-5.

38. Souza Jr AS, Araújo Neto C, Jasinovodolinsky D, et al. Terminologia para a descrição de tomografia computadorizada do tórax: sugestões iniciais para um consenso brasileiro. Radiol Bras. 2002;35:125-8.

39. Torlai FG, Meirelles GSP, Miranda Jr F, et al. Proposta para padronização do relatório de tomografia computadorizada nos aneurismas da aorta abdominal. Radiol Bras. 2006;39:259-62.

40. Müller MR, Rodrigues LN, Silva MA. Elaboração e implementação de um programa para verificação dos cálculos das unidades monitoras em radioterapia. Radiol Bras. 2005;38:415-20.

41. Serapião PRB, Ribeiro EA, Porto GS, et al. O perfil brasileiro de propriedade intelectual em radiologia e diagnóstico por imagem em um contexto internacional, nos anos 2000-2009. Radiol Bras. 2011;44:238-43.

42. Scatigno Neto A. A radiologia, o radiologista e as demais especialidades. Radiol Bras. 2005;38(2):iii.

43. Camargo Junior HSA. BI-RADS®-ultra-som: vantagens e desvantagens dessa nova ferramenta de trabalho. Radiol Bras. 2005;38:301-3.

44. Ney-Oliveira F, Silvany Neto AM, Santos MB, et al. Relação entre a qualidade do exame clínico e o acerto na requisição da radiografia de tórax. Radiol Bras. 2005;38:187-93.










1. Doutorando em Clínica Médica da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (FMRP-USP), Ribeirão Preto, SP, Brasil
2. Graduando em Informática Biomédica (Bolsista TT-1/Fapesp) da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (FMRP-USP), Ribeirão Preto, SP, Brasil
3. Graduandos em Informática Biomédica (Iniciação Científica USP) da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (FMRP-USP), Ribeirão Preto, SP, Brasil
4. Doutor, Professor Associado do Centro de Ciências das Imagens e Física Médica (CCIFM) do Departamento de Clínica Médica da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (FMRP-USP), Ribeirão Preto, SP, Brasil

Endereço para correspondência:
Dr. Paulo Mazzoncini de Azevedo Marques
FMRP-USP - Departamento de Clínica Médica
Avenida dos Bandeirantes, 3900, Monte Alegre
Ribeirão Preto, SP, Brasil, 14049-900
E-mail: pmarques@fmrp.usp.br

Recebido para publicação em 7/5/2012.
Aceito, após revisão, em 12/5/2013.

Trabalho realizado na Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (FMRP-USP), Ribeirão Preto, SP, Brasil.
(a) Índex (Index no inglês) é um termo abrangente, tanto para o português quanto para o inglês, que significa(15,16) "índice de informações selecionadas que servem, essencialmente, ao propósito de tornar possível e/ou facilitar a recuperação de algum tipo de registro de conhecimento em suporte físico e eletrônico".
(b) O presente estudo foi planejado e conduzido em conformidade com as diretrizes de integridade em pesquisa, elencadas no "Código de boas práticas científicas"(17) para beneficiários e bolsistas de auxílios e bolsas da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp).
 
RB RB RB
GN1© Copyright 2024 - All rights reserved to Colégio Brasileiro de Radiologia e Diagnóstico por Imagem
Av. Paulista, 37 - 7° andar - Conj. 71 - CEP 01311-902 - São Paulo - SP - Brazil - Phone: (11) 3372-4544 - Fax: (11) 3372-4554