Engenheiro de Dados · ONR
Responsável pela plataforma de dados que conecta mais de 20 fontes ao data lake em GCS e BigQuery, servindo mais de 30 domínios de negócio. Atuo em três frentes que se complementam: ingestão em Go, pipelines Apache Beam e orquestração com Airflow 3.
- Desenvolvimento e manutenção de pipelines de ingestão em larga escala com Apache Airflow 3 e Google Cloud Dataflow (Apache Beam), orquestrados em Cloud Run com CI/CD via Azure Pipelines, garantindo disponibilidade contínua de dados para mais de 30 domínios de negócio.
- Implementação de plataforma centralizada de ingestão em Go com suporte a múltiplas fontes (SQL Server, MySQL, PostgreSQL, BigQuery, Datastore e APIs externas), transformação para Parquet via Apache Arrow, armazenamento em GCS com processamento distribuído via RabbitMQ e Kubernetes, locks distribuídos com Redis e padrões avançados como circuit breaker e worker pool dinâmico.
- Arquitetura e implementação de Data Lake em camadas (Bronze/Silver/Gold) com processamento via BigQuery, Trino (SQL distribuído sobre Parquet) e Polars para análises de alta performance, integrado ao Google Dataplex para rastreabilidade de linhagem de dados.
- Integração com mais de 20 fontes distintas (APIs do CNJ, MAPA, ServiceNow, Monday.com, Google Workspace, sistemas judiciais e registrais), com tratamento de paginação, retry com backoff exponencial e processamento assíncrono.
- Construção de sistema próprio de observabilidade e auditoria de pipelines com captura automática de métricas (contagem de linhas, bytes processados, duração) via decorators, OpenTelemetry, Datadog APM e Prometheus, garantindo rastreabilidade end-to-end.