
Analista de Dados e Machine Learning
- Brasília - DF
- Permanente
- Período integral
- Buscamos pessoas apaixonadas por tecnologia. Alguém que se motive por desafios e atue com autonomia. Precisa gostar de trabalhar em equipe e possuir espírito colaborativo. Para essa vaga a pessoa será responsável por desenhar, implementar e manter soluções avançadas de dados e Machine Learning, garantindo escalabilidade, segurança, alta disponibilidade e observabilidade.
- Desenvolver e otimizar pipelines de dados e de machine learning, desde ingestão, pré-processamento, treinamento, deploy até monitoramento e re-treino automático.
- Especificar e implementar estratégia de arquitetura de dados (Data Lakes, Data Warehouses, feature stores), com foco em padronização, governança e compliance (LGPD).
- Projetar pipelines distribuídos e paralelos utilizando PySpark, Dask ou frameworks equivalentes.
- Gerenciar soluções de observabilidade e monitoramento (logging estruturado, métricas e dashboards no Prometheus, Grafana, ELK e OpenTelemetry).
- Estruturar pipelines de CI/CD para dados e modelos (integração e entrega contínua), garantindo versionamento, rastreabilidade e monitoramento de drift.
- Colaborar na seleção e padronização de ferramentas de orquestração, versionamento e observabilidade.
- Apoiar equipes de ciência de dados e analytics na produção de modelos de ML, integrando frameworks distribuídos (Horovod, DDP, Spark MLlib).
- Graduação em Ciência da Computação, Engenharia de Software ou áreas correlatas.
- Python avançado e experiência com múltiplas linguagens (Java/Scala/Go opcional).
- Testes unitários e de integração (pytest ou unittest) Documentação técnica clara.
- SQL avançado, experiência com NoSQL.
- Conhecimento de bom de processamento distribuido/paralelo (PySpark, Dask e etc).
- Padronização de logging, métricas, monitoramento (Prometheus, Grafana).
- Arquitetura e Estratégia de Dados: Projetar Data Lakes, Data Warehouses e feature stores.
- Seleção e padronização de ferramentas de orquestração, versionamento e observabilidade.
- Arquitetura híbrida (on-premises + cloud) com foco em segurança, compliance (LGPD) e custos.
- Design de pipelines tolerantes a falhas e com alta disponibilidade.
- ML / MLOps: Experiência em produção de modelos (deploy, monitoramento, re-treino).
- Conhecimento em frameworks distribuídos (Horovod, DDP, Spark MLlib).
- Estruturar pipelines CI/CD para dados e modelos. Criação de pipelines completos de ML (pré-processamento → treinamento → deploy → monitoramento → re-treino).
- Conhecimento de ferramentas de CI/CD. Definição de métricas e monitoramento de drift de dados e modelos.
- Infraestrutura: Arquitetura escalável em cloud e/ou on-premises.
- Kubernetes avançado, configuração de GPU. Kubernetes avançado (autoscaling, GPU scheduling, tolerations, affinity).
- Segurança de dados (criptografia em trânsito/reposo, mascaramento).
- Observabilidade completa (Prometheus, Grafana, ELK, OpenTelemetry).
- Infraestrutura como código (Terraform, Ansible, Pulumi). Cloud / On-premise: S3 (Data Lake), Glue (ETL), Athena (serverless analytics), EMR (big data), SageMaker (ML).
- Configuração avançada de IAM (roles, policies, cross-account).
- Etapa 2: Entrevista com área demandante2Entrevista com área demandante
- Etapa 3: Entrevista de RH3Entrevista de RH
- Etapa 4: Proposta4Proposta
- Etapa 5: Contratação5Contratação
- Somos mais de 1.600 profissionais e reconhecidos como um dos Lugares Incríveis para se Trabalhar pelo prêmio FIA/UOL.
- Estamos em grandes polos tecnológicos do país, com unidades em Brasília, Campinas, Manaus e Porto Alegre.
- Temos infraestrutura completa de laboratórios, especialmente o de microeletrônica, que é referência em todo o país.
- Somos o único membro da América Latina da associação europeia EARTO.
- Temos expertise em tecnologias como inteligência artificial, visão computacional, computação gráfica, realidade virtual e aumentada, assistentes virtuais e interface por voz, big data e analytics, openRAN, sistemas embarcados, IoT e blockchain.