ARTIGO
PIPELINE ETL ESCALÁVEL PARA INGESTÃO DE DADOS EM SAÚDE
aplicação ao Sistema Único de Saúde (SUS)
Resumo
A crescente disponibilidade de bases em saúde no Sistema Único de Saúde (SUS) amplia o potencial para análises
baseadas em dados, mas também impõe desafios relacionados ao volume, à estrutura e à integração das
informações. Nesse contexto, este estudo teve como objetivo desenvolver e avaliar um pipeline automatizado de
Extração, Transformação e Carga (ETL) para ingestão e preparação da base de produção ambulatorial do Sistema
de Informações Ambulatoriais do SUS (SIA-SUS), utilizando arquitetura de computação em nuvem. A pesquisa
adotou a abordagem de Design Science Research, voltada à construção e avaliação de artefatos tecnológicos. Um
experimento piloto foi conduzido com dados de janeiro de 2024 para três Unidades Federativas (Santa Catarina,
Espírito Santo e Rio Grande do Norte), totalizando aproximadamente 3,2 milhões de registros ambulatoriais
processados. Cada execução foi repetida cinco vezes para estimar a variabilidade operacional. Os resultados
indicaram estabilidade do pipeline e predominância da etapa de extração no tempo total de processamento. O
throughput manteve-se relativamente constante entre os cenários analisados, e a regressão linear entre volume de
registros e tempo de execução apresentou coeficiente de determinação R² = 0.996, indicando comportamento
aproximadamente linear do sistema. Conclui-se que o pipeline proposto apresenta viabilidade operacional e
potencial de escalabilidade, contribuindo para automatizar a preparação de grandes bases do SUS e apoiar o
desenvolvimento de ambientes analíticos em saúde pública.
Palavras-chave: ETL; sistemas de informação em saúde; ingestão de dados; integração de dados em saúde; saúde
pública.
PIPELINE ETL ESCALABLE PARA LA INGESTIÓN DE DATOS DE SALUD
aplicación al Sistema Único de Salud (SUS)
2
Resumen
La creciente disponibilidad de bases de datos en salud en el Sistema Único de Salud (SUS) amplía el potencial
para análisis basados en datos, pero también introduce desafíos relacionados con el volumen, la estructura y la
integración de la información. En este contexto, este estudio tuvo como objetivo desarrollar y evaluar un pipeline
automatizado de Extracción, Transformación y Carga (ETL) para la ingestión y preparación de la base de
producción ambulatoria del Sistema de Información Ambulatoria del SUS (SIA-SUS), utilizando una arquitectura
de computación en la nube. La investigación adoptó el enfoque de Design Science Research, orientado a la
construcción y evaluación de artefactos tecnológicos. Se realizó un experimento piloto con datos de enero de 2024
para tres Unidades Federativas (Santa Catarina, Espírito Santo y Rio Grande do Norte), con un total aproximado
de 3,2 millones de registros ambulatorios procesados. Cada ejecución se repitió cinco veces para estimar la
variabilidad operativa. Los resultados indicaron estabilidad del pipeline y predominio de la etapa de extracción en
el tiempo total de procesamiento. El throughput se mantuvo relativamente constante entre los escenarios
analizados, y la regresión lineal entre el volumen de registros y el tiempo de ejecución presentó un coeficiente de
determinación R² = 0.996, lo que indica un comportamiento aproximadamente lineal del sistema. Se concluye que
el pipeline propuesto presenta viabilidad operativa y potencial de escalabilidad, contribuyendo a automatizar la
preparación de grandes bases del SUS y a apoyar el desarrollo de entornos analíticos en salud pública.
Palabras clave: ETL; sistemas de información en salud; ingestión de datos; integración de datos en salud; salud
pública.
ASKLEPION: Informação em Saúde, Rio de Janeiro, v. 5, n. 1, p. 1-13, e-132, jan./jun. 2026.