Linguagens de Programação e Banco de Dados
- Python com foco em análise de dados
- R para modelagem estatística
Sou cientista de dados e consultora estatística freelancer. Também ministro cursos de estatística e eciência de dados, usando R e Python.
Tenho experiência atuando no setor de varejo, desenvolvendo modelos de Machine Learning para resolver problemas de negócios
tais como sistema de recomendação, regressão, classificação, churn, entre outros.
Quanto à stack de ciência de dados, tenho experiência com AWS, Athena, SageMaker, Snowflake, Git e GitHub, Streamlit, RShiny, entre outros.
Quanto à minha formação acadêmica, sou doutora em Biometria e Estatística Aplicada pela UFRPE.
Tendo mestrado na mesma área e graduação em física, todos na mesma instituição.
Durante o doutorado, fiz parte da pesquisa na Universitat Politècnica da Catalunya - BarcelonaTech.
Desenvolvimento de ETLs para execução de projetos de Ciências de Dados na AWS, com destaque para os projetos de Sistema de Recomendação para clientes novos e antigos. Também trabalhei com Engenharia de Dados construindo ETLs para as bases de dados da empresa usando o Glue PySpark (AWS).
Construção de soluções de dados aplicadas a problemas comumente encontrados nas empresas.
Integrei a equipe multidiciplinar do time de resposta de emergência da COVID-19 junto ao Instituto para Redução de Riscos e Desastres de Pernambuco. Desenvolvemose mantemos uma plataforma epidemiológica multicamada para acompanhamento da pandemia no estado de Pernambuco, Brasil e mundo (IRRD COVID-19).
Ministrei aulas de Bioestatística para o curso de Medicina Veterinária.
Crio e ministro cursos online de Estatística usando o software estatístico R, sempre focados na prática e na resolução de problemas.
Auxilio estudantes e pesquisadores nas análises estatísticas de seus experimentos ou pesquisas com a finalidade de publicação de artigos e trabalhos de conclusão de curso, dissertações e teses.
Este é um projeto de insights no qual usei uma base de dados de vendas de casas no Condado de King (EUA) para responder à perguntas de um CEO acerca das melhores propriedades a serem adquiridas pela empresa. Dez hipóteses foram testadas e o produto final foi um dashboard no Heroku onde o CEO pode filtrar casas por diversas características e vê-las no mapa.
Este é um projeto de classificação no qual estamos interessados em saber a probabilidade de um cliente de uma seguradora de saúde aderir a um novo produto da empresa: o seguro de automóvel. Daí o nome do projeto, cross sell (venda cruzada). Com base nas características dos clientes, treinamos algoritmos de machine learning para nos fornecer uma lista ordenada de clientes para os quais iremos oferecer o serviço. A ordenação se dá com base na sua probabilidade de interesse em adquirir o seguro de automóvel (Learning to Rank).