disponível para conversas técnicas

Gustavo Gomesengenheiro de dados

Engenheiro de dados. Construo e mantenho pipelines que movem dados da fonte bruta até a camada analítica: ingestão, transformação e tudo que fica no meio.

01Sobre

Dados como infraestrutura, não como destino.

Atuo há dois anos como Engenheiro de Dados na ONR. Mantenho a plataforma que move dados de mais de 20 fontes (SQL Server, MySQL, PostgreSQL, APIs externas como CNJ, MAPA, ServiceNow e Google Workspace) para um data lake em GCS e BigQuery, servindo mais de 30 domínios de negócio sobre o padrão Bronze → Silver → Gold.

O trabalho se divide em três frentes: um microserviço de ingestão em Go com WorkerPool, circuit breaker e locks distribuídos via Redis; pipelines Apache Beam no Dataflow para transformações em escala; e orquestração de tudo via Airflow 3 com CI/CD no Azure Pipelines. Observabilidade com OpenTelemetry, Datadog APM e Prometheus fecha o ciclo.

Acredito que pipelines bons são discretos: fazem seu trabalho sem chamar atenção. É nesse silêncio operacional que tento construir.

02Stack

Ferramentas do ofício.

Linguagens: Go
Python
SQL
Pipelines & Orquestração: Apache Airflow 3
Apache Beam
Google Dataflow
RabbitMQ
Azure Pipelines
Cloud (GCP): BigQuery
Cloud Storage
Cloud Run
Dataflow
Dataplex
Datastore
Dados & Formatos: Polars
Trino
Parquet / Arrow
PyArrow
Pydantic
Power BI
Observabilidade: Datadog APM
OpenTelemetry
Prometheus
OpenLineage
Mensageria & Infra: RabbitMQ
Kubernetes
Redis
Docker
Terraform
Bancos de Dados: SQL Server
MySQL
PostgreSQL

03Experiência

Onde os dados se movem.

2024 · Presente
Engenheiro de Dados · ONR
Responsável pela plataforma de dados que conecta mais de 20 fontes ao data lake em GCS e BigQuery, servindo mais de 30 domínios de negócio. Atuo em três frentes que se complementam: ingestão em Go, pipelines Apache Beam e orquestração com Airflow 3.
- Desenvolvimento e manutenção de pipelines de ingestão em larga escala com Apache Airflow 3 e Google Cloud Dataflow (Apache Beam), orquestrados em Cloud Run com CI/CD via Azure Pipelines, garantindo disponibilidade contínua de dados para mais de 30 domínios de negócio.
- Implementação de plataforma centralizada de ingestão em Go com suporte a múltiplas fontes (SQL Server, MySQL, PostgreSQL, BigQuery, Datastore e APIs externas), transformação para Parquet via Apache Arrow, armazenamento em GCS com processamento distribuído via RabbitMQ e Kubernetes, locks distribuídos com Redis e padrões avançados como circuit breaker e worker pool dinâmico.
- Arquitetura e implementação de Data Lake em camadas (Bronze/Silver/Gold) com processamento via BigQuery, Trino (SQL distribuído sobre Parquet) e Polars para análises de alta performance, integrado ao Google Dataplex para rastreabilidade de linhagem de dados.
- Integração com mais de 20 fontes distintas (APIs do CNJ, MAPA, ServiceNow, Monday.com, Google Workspace, sistemas judiciais e registrais), com tratamento de paginação, retry com backoff exponencial e processamento assíncrono.
- Construção de sistema próprio de observabilidade e auditoria de pipelines com captura automática de métricas (contagem de linhas, bytes processados, duração) via decorators, OpenTelemetry, Datadog APM e Prometheus, garantindo rastreabilidade end-to-end.

04Projetos

O que costumo construir.

Ver todos os repositórios

Currículo

Uma versão para imprimir.

Mesmo trabalho, em um único papel, com formação, certificações e os detalhes que não cabem nesta página.

Ver currículo baixar pdf

Gustavo Gomes

Gustavo Gomesengenheiro de dados

Dados como infraestrutura, não como destino.

Ferramentas do ofício.

Onde os dados se movem.

Engenheiro de Dados · ONR

O que costumo construir.

Plataforma de Orquestração: Airflow 3

Ingestão Paralela em Go

Pipelines Apache Beam: Dataflow

Governança & Lineage: Dataplex