#ExpertiseZenta: Pipelines de datos on-premise

2 min readJan 20, 2022

Por Angélica Muñoz, ingeniero de datos

Pipelines de datos con las siguientes tecnologías on-premise:

Python
Docker
YAML
Bitbucket
Argo workflow
Jenkis
PostgreSQL
Kubernates

Para el desarrollo de un pipeline de datos utilizamos como lenguaje de programación base Python, esto utilizando el esquema de YAML en el cual podemos programar los pasos que debe realizar cada pipeline de datos, además del manejo de clases para conexiones a distintas base de datos y para la programación de tareas. Al tener este código programado realizamos la configuración de nuestro archivo docker que contiene el sistema operativo y todos los requerimientos declarados para el proceso Python.

CI/CD — Deploy:

En este paso versionamos nuestro código con Bitbucket para posteriormente desplegarlo en ambiente de desarrollo de Anthos mediante un pipeline de Jenkins, el que se encarga de crear la versión del docker y subirlo a GCR, finalizando así el despliegue del pipeline de datos.

Ejecución:

Finalmente ya realizado el despliegue de la imagen GCR mediante un manifiesto, que se despliega mediante Jenkins obteniendo desde Bitbucket la última versión, realizamos la ejecución del pipeline en el Kubernates de Anthos que se puede programar para su ejecución de forma cronológica o por template que se ejecutaría de forma manual. Las contraseñas y datos de conexión son almacenados en secretos de Kubernetes que se actualizan mediante Jenkins.

Ejemplo de pipeline de datos en argo-workflow:

Si te interesa profundizar en este o cualquier otro proceso ETL con Pentaho, DataStage, Talend o alguna herramienta similar, dale like y comparte este artículo. Y, claro, se aceptan sugerencias para las próximas.

¡Saludos!

#ExpertiseZenta: Pipelines de datos on-premise

Por Angélica Muñoz, ingeniero de datos

Written by Zenta Group

No responses yet