Cientista de Dados Sênior
InHire Ver todas as vagas
- Brasil
- Permanente
- Período integral
- Liderar projetos complexos de ciência de dados, desde o discovery inicial até a entrega e acompanhamento em produção.
- Explorar, analisar e modelar grandes volumes de dados estruturados e não estruturados, identificando padrões, riscos e oportunidades de negócio.
- Desbravar novas fontes de dados internas e externas, especialmente dados de score e big data, qualificando e potencializando o uso da informação.
- Construir e evoluir pipelines avançados de dados, desde data lakes até data warehouses, garantindo padronização, qualidade, escalabilidade e performance.
- Desenvolver e automatizar fluxos de dados utilizando PySpark, Apache Airflow, DVC e boas práticas de versionamento.
- Criar, validar, implantar e monitorar modelos supervisionados e não supervisionados com foco direto em geração de valor para o negócio.
- Atuar de forma próxima às áreas de negócio, lideranças e C-Level, traduzindo análises técnicas em decisões estratégicas claras e objetivas.
- Implementar soluções escaláveis em ambientes cloud (Azure, AWS ou GCP).
- Acompanhar a performance de modelos em produção, propondo melhorias contínuas e ajustes de estratégia.
- Orientar e apoiar equipes técnicas, contribuindo para padrões de qualidade, documentação e eficiência do ecossistema de dados.
- Participar ativamente da evolução da arquitetura e da estratégia de dados da empresa.
- Formação em Estatística, Ciência de Dados, Engenharia, Matemática ou áreas correlatas.
- Mestrado ou Doutorado em Ciência de Dados, Estatística ou Machine Learning são considerados fortes diferenciais.
- Experiência sólida de 5 anos ou mais atuando com ciência de dados em contextos complexos.
- Conhecimento avançado em Python e análise avançada de dados.
- Domínio em PySpark e processamento distribuído.
- Experiência prática com Apache Airflow para orquestração de pipelines de dados.
- Conhecimento sólido em SQL e PostgreSQL.
- Forte experiência com Data Lake, Data Warehouse e modelagem de dados.
- Domínio em limpeza, manipulação e distribuição de grandes datasets.
- Vivência em desenvolvimento, validação e deploy de modelos em produção utilizando ferramentas como:
- Scikit-learn, XGBoost, PyTorch, CatBoost, PyCaret, LightGBM, Statsmodels e Prophet.
- Conhecimento de métricas de avaliação de modelos de scorecard, como Gini, KS (Kolmogorov-Smirnov), AUC-ROC e Curvas de Lorenz.
- Vivência com ambientes cloud (Azure, AWS ou GCP).
- Excelente capacidade de comunicação, com habilidade para explicar análises e resultados de forma clara e estratégica para públicos técnicos e não técnicos.
- Vale Refeição/Alimentação
- Plano de Saúde (Sulamerica)
- Plano Odontológico
- Seguro de Vida
- Day Off no mês do aniversário
- Auxílio Creche
- Home-office