Engenheiro de dados
- Porto Alegre - RS
- Permanente
- Período integral
- Responsabilidades: Criar e manter pipelines de dados para atender perguntas de negócio, alimentar dashboards em Power BI e modelos de Machine Learning.
- Desenvolver e orquestrar processos ETL/ELT a partir de diferentes fontes de dados utilizando ferramentas como Apache Airflow, Azure Data Factory, AWS Glue ou Google Cloud Composer .
- Criar e processar dados com Spark , em plataformas como Azure Databricks, Azure Synapse Analytics, AWS Glue, AWS EMR ou Google Cloud Dataproc .
- Manipular e administrar bases de dados relacionais e não relacionais , incluindo arquivos estruturados e não estruturados.
- Realizar modelagem dimensional de dados .
- Auxiliar na definição de boas práticas de código, governança e gestão de dados .
- Apoiar na definição de arquiteturas de dados .
- Executar tuning de consultas, queries e bases de dados para otimização de performance.
- Criar pipelines de dados em tempo real com ferramentas como Apache Kafka, Azure Event Hub, AWS Kinesis ou Google Cloud Pub/Sub .
- Construir e manter modelos de dados em Modern Data Warehouses (Snowflake, Google Big Query, Azure Synapse Analytics ou AWS Redshift).
- Estruturar, organizar e manter Data Lakes .
- Desenvolver soluções de ingestão de dados via APIs REST com tecnologias serverless como Azure Functions, AWS Lambda ou Google Cloud Functions .
- Colaborar ativamente com os times de desenvolvimento de Machine Learning e dashboards .
- Requisitos e qualificações Vivência prática em projetos de engenharia de dados de médio e grande porte.
- Experiência no desenvolvimento de pipelines em ambientes de nuvem (Azure, AWS ou GCP).
- Atuação prévia em tratamento de dados estruturados e não estruturados .
- Experiência em modelagem dimensional e Data Warehousing .
- Desejável experiência com dashboards em Power BI .
- Experiência em contextos que exigem colaboração multidisciplinar (engenharia de dados, ciência de dados e BI).
- Formação acadêmica: graduação completa (áreas de TI, Engenharia, Ciência da Computação, Sistemas de Informação ou correlatas).
- Ferramentas e Tecnologias: ETL/ELT e orquestração: Apache Airflow, Azure Data Factory, AWS Glue, Google Cloud Composer .
- Processamento de dados: Spark, Databricks, Synapse Analytics, EMR, DataProc .
- Bancos de dados: relacionais (SQL) e não relacionais (NoSQL) .
- Streaming: Kafka, Event Hub, Kinesis, Pub/Sub .
- Modern Data Warehouses: Snowflake, BigQuery, Synapse, Redshift .
- Serverless/Integrações: Azure Functions, AWS Lambda, Google Cloud Functions .
- Habilidades: Modelagem de dados dimensional.
- Melhoria de performance de queries e bases de dados.
- Organização e manutenção de Data Lakes.
- Comunicação eficaz com equipes multidisciplinares.
- Idiomas: inglês e espanhol (desejável).
Caderno Nacional