ETL (Extract, Transform, Load) es el proceso de mover datos desde sistemas fuente (bases operativas, APIs, ficheros, eventos) hacia un almacén donde se consolidan para análisis. El modelo clásico hace las tres fases en orden: extrae los datos, los transforma en una etapa intermedia (limpieza, joins, agregaciones, formato), y los carga ya modelados en el almacén. Esto era necesario cuando el almacén era caro y no podía con cargas pesadas de transformación.
El modelo moderno —ELT (Extract, Load, Transform)— invierte el orden: extrae, carga los datos crudos directamente al almacén (BigQuery, Snowflake, Redshift, Databricks, ClickHouse) y transforma allí mismo con SQL. Esto es posible porque los almacenes cloud actuales tienen compute elástico y son baratos por TB. La transformación se hace con herramientas como dbt o SQLMesh que versionan, testean y documentan las consultas como código.
Las herramientas de ingesta especializadas (Fivetran, Airbyte, Stitch, Hevo, Estuary) cubren cientos de conectores comerciales con captura incremental (CDC, log-based replication, polling) y schema evolution automática. Para casos custom se usa Python con pandas/Polars, Apache Airflow o Dagster como orquestador, o servicios serverless (Lambda, Cloud Functions) para pipelines event-driven sobre Kafka, Pub/Sub o Kinesis.
En 10Code diseñamos pipelines de datos para clientes con muchas fuentes (CRM, ERP, web, productos digitales, integraciones externas) que necesitan reporting consolidado o entrenamiento de modelos. Preferimos ELT moderno con dbt sobre BigQuery o Snowflake, ingesta gestionada cuando los conectores existen, pipelines custom en Python para casos especiales. La regla operativa: tests de calidad de datos automatizados, observabilidad de cada pipeline y owners claros para cada dataset.
En 10Code llevamos más de una década aplicando estas tecnologías a productos reales. Si quieres comentarnos tu caso, escríbenos y te respondemos personalmente.
Hablar con un ingeniero