Ciência de Dados: nova ferramenta para estudos prospectivos

A Saúde sempre utilizou dados de seus sistemas de informação para planejar, corrigir e redirecionar políticas públicas. Nas últimas décadas, com o advento da internet e das tecnologias da informação, esse corpus se multiplicou, trazendo uma nova complexidade para as pesquisas na área. O conhecimento dos estatísticos passou a ser combinado com a expertise da computação, para que o big data – o imenso volume de dados que produzimos hoje – pudesse ser decodificado. Para isso, é imprescindível o uso de ferramentas tecnológicas que mensurem e interpretem as informações disponíveis. Neste sentido, um importante passo foi dado pela Fundação Oswaldo Cruz (Fiocruz), na última terça-feira, 18 de outubro, com o lançamento da plataforma Ciência de Dados aplicada à Saúde, fruto de parceria do Laboratório de Informação em Saúde do Instituto de Comunicação e Informação Científica e Tecnológica em Saúde (Icict/Fiocruz) com o Laboratório Nacional de Computação Científica (LNCC) e a Dell EMC.

Situada entre a Ciência da Computação, a Matemática e outras áreas do conhecimento, a Ciência de Dados oferece ferramentas e metodologias avançadas para extração, modelagem e análise de informações e dados. No âmbito da Saúde – e sobretudo para a prospecção de cenários futuros – são muitas as possíveis abordagens de big data para a análise, o monitoramento e a predição de eventos e situações de saúde e doença na população, bem como a associação destes com seus determinantes sociais. O setor já produz uma quantidade enorme de dados sobre as pessoas que acessam o Sistema Único de Saúde (SUS), porém, também é preciso considerar as informações sobre quem ainda não o acessou. E isso só é possível com a integração de bases externas, com o processamento em tempo real de dados provenientes de fontes como as redes sociais on-line.

“O que queremos é construir informação para a tomada de decisões, ao extrair e interpretar dados de diferentes bases. O projeto começou a partir da necessidade de criar uma área de pesquisa em mineração de dados e, hoje, traz uma nova perspectiva sobre a base de dados com a qual já trabalhávamos e sobre outra que nem imaginávamos. Avançamos na área de Informação em Saúde, hoje concentrada em dados estruturados do Ministério da Saúde, e expandimos nosso olhar em relação aos dados não estruturados, como os das redes sociais on-line”, ressaltou Marcel Pedroso, coordenador da plataforma e pesquisador do Laboratório de Informação em Saúde do Icict, durante o seminário Ciência de Dados aplicada à Saúde.

A nova plataforma do Icict/Fiocruz é um serviço on-line, baseado no princípio do acesso aberto à informação, que está disponível a pesquisadores, gestores governamentais, estudantes, professores e demais interessados, que poderão manusear diversos e grandes volumes de dados. A ferramenta nasce com 54 milhões de dados oriundos do Data SUS, referentes ao período de 2000 a 2016. Em uma segunda fase, a plataforma passará a integrar também dados não estruturados, provenientes das redes sociais on-line.

Contribuições para a prospecção estratégica do futuro

A Ciência de Dados combina métodos tradicionais de análise com algoritmos sofisticados para processar grandes volumes de dados em formatos diversos: estruturados, semi-estruturados e não-estruturados. A abordagem big data tem múltiplas possibilidades de análise e monitoramento. Algumas miram na predição de eventos e situações de saúde e doença na população, bem como na associação destes com seus determinantes sociais. Portanto, a metodologia deve favorecer, e muito, os exercícios de prospecção estratégica de futuro.

No seminário Ciência de Dados aplicada à Saúde,  os palestrantes apresentaram estudos e potenciais usos dos algoritmos para prever comportamentos de pacientes e adaptar o tratamento. “Diante da combinação de variáveis, é possível, por exemplo, analisar a propensão de uma mãe seguir ou não com a realização dos exames pré-natais. Assim, a equipe de saúde pode empenhar mais esforços em casos críticos”, exemplificou Mario Filho, consultor em machine learning. Ele mostrou, também, como a Ciência de Dados ajudou a prever os locais que apresentariam maior risco de proliferação do mosquito transmissor do vírus do Oeste do Nilo (West Nile Virus), nos Estados Unidos, de modo que as ações de prevenção pudessem ter pontos focais.

Nesse tipo de predição, o pesquisador dispõe de um conjunto de variáveis e tem o interesse de elaborar um modelo acurado – uma função com uso de algoritmos – que possa apontar para uma resposta ou um desfecho. O modelo foi explicado pela pesquisadora Hellen Geremias dos Santos, que representou o Laboratório de Big Data e Análise Preditiva da Faculdade de Medicina da Universidade de São Paulo (USP). A especialista apresentou estudos preditivos em Saúde, que utilizaram a metodologia machine learning a partir de artigos publicados em periódicos. Um deles apontava o risco de morte entre pacientes de pneumonia e a possibilidade de retorno ao ambiente hospitalar.

Paulo Cavallin, PhD e pesquisador do grupo Social Data Analytics da IBM Research – Brasil, mostrou, no seminário, como as redes sociais on-line podem ser fontes de dados emocionais dos usuários em relação à saúde. O especialista participou do levantamento, realizado por meio de parceria da Fiocruz com a IBM, sobre o que foi falado de zika, dengue e chikungunya nessas mídias, de junho de 2015 a setembro de 2016. “Há desafios ao separar o que é dado relevante e o que não é, para trabalhar de modo escalável essa grande quantidade de dados e para obter insights efetivos. Temos ferramentas de análise que serão customizadas às necessidades da Fiocruz como parte da parceria com a plataforma Ciência de Dados aplicada à Saúde”, adiantou.