Ciência de Dados e a prospecção de futuro

Big data, machine learning, deep learning, wearables. O desenvolvimento tecnológico traz, para o dia a dia de pessoas e instituições, novidades capazes de alterar profundamente rotinas e processos. No setor Saúde não é diferente. O Instituto de Comunicação e Informação Científica e Tecnológica em Saúde (Icict/Fiocruz) inova nesta direção ao lançar a plataforma Ciência de Dados Aplicada à Saúde. Nesta entrevista, o idealizador da iniciativa, o pesquisador Marcel Pedroso, do Laboratório de Informação em Saúde do Icict, comenta as suas contribuições para os estudos de prospecção estratégica do futuro. “Implementamos o conceito de Plataforma como Serviço (PaaS — Platform as a Service), ou seja, nossa plataforma oferece um serviço de Ciência de Dados, área do conhecimento construída a partir da convergência de três grandes expertises: a estatística e matemática; a ciência da computação; e o domínio científico do objeto em estudo – neste caso, a Saúde”, explica Marcel. Para o pesquisador, este é um caminho sem volta. “Para pesquisas prospectivas, essa tecnologia será fundamental, pois vai gerar dados de alta qualidade, padronizados e em uma escala nunca antes vista”, aposta.

Como funciona a plataforma Ciência de Dados Aplicada à Saúde?

Implementamos o conceito de Plataforma como Serviço (PaaS — Platform as a Service), ou seja, nossa plataforma oferece serviço de Ciência de Dados, área do conhecimento construída a partir da convergência de três grandes expertises: a estatística e matemática; a ciência da computação; e o domínio científico do objeto em estudo – neste caso, a Saúde. E a ferramenta não serve apenas ao Icict ou à Fiocruz, mas a pesquisadores, docentes e discentes de outras instituições de ensino e pesquisa, bem como a gestores governamentais. A plataforma vem sendo continuamente alimentada com dados não estruturados (originados nas redes sociais on-line e em outras mídias) e estruturados (provenientes de bancos de dados). Realizamos a extração dos dados; a transformação e carga desses registros; sua indexação e enriquecimento, etapa que consiste em criar novas variáveis para os dados; a computação distribuída, que promove o alto desempenho em computação científica; e a governança dos dados, ou seja, a sua constante atualização, provendo acesso seguro e qualificado.

Já estão disponíveis para visualização e análise 47 milhões de registros de nascimentos e 17 milhões de declarações de óbito no Brasil, desde o ano 2000. Nosso planejamento prevê, ainda, a inclusão de 180 milhões de dados referentes a autorizações de internações hospitalares, 24 bilhões de registros de procedimentos ambulatoriais, 2,5 bilhões de registros de doses de vacinas, todos presentes no Datasus, além de 120 milhões de questionários domiciliares dos Censos 2000 e 2010, do Instituto Brasileiro de Geografia e Estatística (IBGE), milhões de previsões diárias realizadas pelo Instituto Nacional de Pesquisas Espaciais (Inpe) e pelo Centro Nacional de Monitoramento e Alertas de Desastres Naturais (Cemaden) e bilhões de interações nas redes sociais on-line e em sistemas de busca de todo o mundo. Serão incluídos, em breve, os dados da Pesquisa Nacional de Saúde (PNS), que foi coordenada pelo Icict em parceria com o IBGE e gerou informações inéditas sobre a saúde da população brasileira. Todas estarão disponíveis em acesso aberto para que pesquisadores possam acessá-las.

Como a Ciência de Dados pode contribuir para o desenvolvimento de estudos prospectivos de futuro na Saúde?

A Ciência de Dados é composta por dois momentos: o da análise descritiva e o da análise preditiva. O primeiro começa com a mineração de dados, que consiste na tentativa de encontrar padrões na combinação de variáveis conhecidas, usando algoritmos específicos. Uma vez que esses padrões sejam encontrados, ou seja, que determinado evento possa ser explicado por meio de uma fórmula matemática, passamos para a segunda etapa. Nela, somos capazes de predizer situações de saúde e doença o futuro, considerando que dados novos mantenham um comportamento estável.

O machine learning, ou aprendizado de máquina, baseia-se nesta fase de predição, contemplando a realização de testes nos dados já conhecidos, para chegar ao algoritmo com mais acurácia e precisão. Essa metodologia para prever ciclos seguintes pode ser muito funcional para o desenvolvimento de estudos prospectivos de futuro. Podemos desenhar cenários de longo prazo usando o aprendizado de máquina para geração de informação útil em Saúde. Esse tipo de análise serve mais a pesquisadores que tenham uma abordagem quantitativa, pois alcança resultados melhores com grandes quantidades de registros.

Quais os principais desafios enfrentados hoje no setor Saúde para que esse conjunto de ferramentas, técnicas e estratégias possa ser aproveitado em todo o seu potencial?

O principal desafio é a escassez de cientistas de dados no Brasil – não só no setor público, mas também no privado. Por isso, o Icict criou um núcleo de capacitação nesta área, uma das escassas iniciativas na Fiocruz e na Saúde. Outra questão importante é a qualidade da informação disponível: 80% de nosso tempo de trabalho é gasto com as fases de extração, transformação, carga, indexação e enriquecimento dos dados. Primeiro, precisamos ter acesso aos registros, limpar os dados, colocá-lo à disposição e enriquecê-lo. O banco costuma vir com muitos erros e variáveis faltantes. Estamos usando técnicas para melhorar os dados, mesmo quando o banco vem com lacunas.

Há, ainda, as questões éticas. Na plataforma Ciência de Dados aplicada à Saúde trabalhamos com dados anônimos, mas se pudéssemos identificá-los seria viável estabelecer relações melhores entre os bancos de dados e as informações. Fizemos a escolha de trabalhar com os registros que já estão disponíveis nos sistemas de informação do setor Saúde e de interesse para Saúde. Operar com as informações não estruturadas é outro desafio que enfrentaremos em uma segunda etapa do projeto. Já temos um pequeno ensaio para esta nova fase, realizado por meio de uma parceria da Fiocruz com a IBM. Estamos trabalhando em postagens do Twitter, tentando capturar o sentimento das mensagens. A técnica faz a mineração desses textos e busca encontrar padrões, de modo a transformá-los em dados. O objetivo é conseguir dizer, de forma automatizada, se determinada mensagem é positiva ou negativa sobre determinado assunto, Fiocruz ou SUS por exemplo, de acordo com um conjunto de termos ou palavras que, por meio do machine learning, o computador aprende a identificar.

Em médio e longo prazo, quais os caminhos para aprimorar o acesso de gestores da Saúde a dados estruturados, de forma a subsidar políticas públicas?

Existe uma iniciativa do Governo Federal chamada Dados Abertos, uma legislação que obriga os institutos de pesquisa a disponibilizarem seus dados. É preciso, inicialmente, criar essa cultura. Não basta produzir os registros, se eles não forem abertos, acessíveis para toda a sociedade. Ainda assim, embora a plataforma Dados Abertos seja um avanço, ainda não é o ideal. O método de disseminação é um entrave à expansão dessa área da ciência. Deveríamos contar com APIs (Application Programming Interface) de entrada e saída de dados, como é oferecido no caso do Twitter, por exemplo. Quando queremos registros do microblog, temos uma API – um software – criada pela própria rede social que permite que qualquer pessoa se conecte diretamente ao seu banco de dados.

É o que propomos com a plataforma Ciência de Dados aplicada à Saúde. Oferecemos uma ferramenta – o RStudio Server – já conectada ao nosso servidor e com acesso ao nosso banco de dados. O usuário não precisa baixar os dados para o seu computador, pois pode trabalhar com os registros on-line. Dentro da plataforma, cada usuário tem acesso a um ambiente próprio para mineração de dados e análise preditiva, que está conectado ao banco de dados, ou seja, os registros estão disponíveis e prontos para uso. Há, ainda, o entrave da qualidade dos dados, devido ao registro ruim. Estamos buscando formas de melhorar os dois componentes, enriquecendo a base com registros faltantes e disponibilizando o acesso qualificado, pronto para uso por máquinas.

Quais os horizontes futuros para a aplicação da Ciência de Dados na Saúde?

Os projetos de genética foram pioneiros na busca por padrões em grandes quantidades de dados. O sucesso dessas iniciativas se deve, em grande parte, ao fato de os dados genéticos serem bem comportados, ou seja, estruturados. As combinações são muitas, mas as letras (nucleotídeos especiais) de entrada de dados não mudam (A, T, C, G). Minerar, neste contexto, é mais fácil, porque os registros já saem dos equipamentos de identificação consolidados. De todo modo, muitos pesquisadores já realizam a mineração de dados na Saúde. A análise preditiva, por sua vez, que reúne os esforços em testar os algoritmos e utilizar o aprendizado de máquina, é mais recente. Ainda mais novo é o deep learning, ou aprendizado profundo, que trabalha a partir do reconhecimento de padrões em imagens, pixels. Por ser a mais inovadora, é a abordagem menos comum. O Facebook utiliza essa tecnologia quando sugere marcação de usuários nas fotos publicadas, por exemplo. Em São Paulo, onde há rodízio de carros, essa expertise também já é aplicada para identificar as placas que não podem circular em um determinado dia, gerando multa para o proprietário do automóvel. A imagem é capturada e transformada em um banco de dados.

A chamada “internet das coisas” – a conexão de dispositivos eletrônicos utilizados no dia a dia, como eletrodomésticos e máquinas industriais, à rede mundial de computadores – também é uma fronteira tecnológica para a Saúde. Em breve, teremos aplicativos que serão levados junto ao corpo, vão gerar dados para um sistema e subsidiar a tomada decisões. Serão os wearables, os softwares vestíveis. Por exemplo: um sensor será capaz de enviar, em tempo real, informações sobre o sangue de um paciente com diabetes para um software que acionará um dispensador com microdoses de insulina diretamente em sua corrente sanguínea. Para pesquisas prospectivas, essa tecnologia será fundamental, pois vai gerar dados de alta qualidade, padronizados e em uma escala nunca antes vista.

Renata Leite
Saúde Amanhã
28/11/2016