A quarentena da ciência de dados

Empresas começam a recriar seus modelos de machine learning e analytics, “disruptadas” pela pandemia global

Jeffrey D. Camm e Thomas H. Davenport

15 de Setembro

Sem precedentes, o impacto econômico da Covid-19 tem mudado de forma drástica mercados e expectativas de crescimento. Cadeias de suprimentos, transporte, processamento de alimentos, varejo, comércio eletrônico e muitos outros setores se transformaram da noite para o dia.

O desemprego nos Estados Unidos atingiu níveis desconhecidos nos tempos recentes e o PIB deve cair em todo o mundo. Como um jornalista econômico resumiu: “Quase tudo no mundo está superestranho e perturbado agora.”

Os dados que usamos para tomar boas decisões de gestão foram virados de cabeça para baixo nesse mercado imprevisível – e isso não é um problema pequeno: na última década, acompanhamos um movimento brusco em direção à tomada de decisão baseada em dados, alinhado a uma explosão de fontes de dados disponíveis.

IoT, dados de pontos de venda, dados de celulares, de redes sociais, voz e vídeo – todos são coletados e relatados automaticamente. Unidos aos avanços em machine learning e inteligência artificial, esses recursos permitem que líderes e organizações usem análises e ciência de dados para tomar decisões melhores e mais bem informadas.

Contudo, o que acontece com essa abordagem acelerada baseada em dados quando uma disrupção em grande escala (como a pandemia da Covid-19) resulta em uma mudança sísmica nos dados? Os modelos de machine learning fazem previsões com base em dados anteriores, mas não existe um passado recente como o presente de hoje.

Para entender melhor o impacto desse momento atual na ciência de dados e como será feita a gestão da disrupção daqui para frente, conversamos com diretores de ciência de dados e analytics e questionamos suas experiências nos últimos meses, a fim de entender como planejam ajustar e implantar seus modelos de machine learning conforme as organizações se adaptam a um novo ambiente econômico.

Pivotar para análises descritivas de ciclos rápidos

Todos os gestores de analytics com quem falamos descreveram a mesma reação básica quando a pandemia começou a modificar suas operações: independentemente de ter causado uma queda acentuada na demanda por produtos e serviços de suas empresas (como aconteceu, por exemplo, com roupas) ou um aumento drástico (como com o papel higiênico), houve uma mudança quase que instantânea nas análises mais avançadas focadas em previsão e otimização para análises descritivas, como relatórios e visualização de dados. As análises descritivas ajudaram as organizações a compreender melhor o que estava acontecendo.

Devido à volatilidade da situação, os períodos dos ciclos para criação de relatórios foram reduzidos, enquanto a demanda por dashboards em tempo real aumentou. Como o gestor de uma empresa global de bens de consumo descreveu: ”não estávamos preocupados com previsões detalhadas, estávamos apenas tentando ter uma noção certa da distribuição”.

Dan Rogers, diretor de ciência de dados e pesquisa operacional da 84.51°, empresa de análise de marketing dos supermercados Kroger, concorda. “Definitivamente, havia muitos recursos aplicados ao relatório descritivo no início, enquanto tentávamos entender o que estava acontecendo e como a pandemia estava afetando nossa empresa”, disse. “Times inteiros foram direcionados para esse esforço, fazendo basicamente as mesmas análises de sempre, mas em um ritmo acelerado. Um relatório mensal ou trimestral podia ser solicitado semanalmente ou mesmo diariamente.” Segundo ele, suas equipes também fizeram alguns modelos descritivos para ajudar a isolar o impacto da pandemia: “esse trabalho pode se transformar em um modelo preditivo para antever o impacto contínuo da pandemia e entender melhor o ‘novo normal’ que temos”.

Em algumas empresas, as equipes de dados focaram em questões problemáticas específicas. Na montadora Ford, os executivos têm se mostrado menos interessados em relatórios e análises de dashboards comumente coletados durante a pandemia, disse Craig Brabec, diretor de análises e percepções de dados globais da empresa. Em vez disso, é mais provável que queiram análises customizadas envolvendo situações específicas (por exemplo, a dimensão dos atrasos ferroviários no porto mexicano de Veracruz) e novas fontes de dados.

Analytics preditivos e machine learning são jogados para escanteio

Mesmo em épocas normais, prever demanda é um dos desafios mais difíceis para os cientistas de dados. Mudanças no comportamento do consumidor, condições voláteis do mercado e movimentações competitivas fazem com que essa tarefa se transforme em uma grande provação. Com a pandemia, mudanças estruturais na demanda impactaram os modelos de machine learning, que demoraram para se adaptar aos dados incomuns. Conforme dito por um gestor: “nossos modelos de machine learning para previsão de demanda não souberam muito bem o que fazer com oito semanas de zeros”.

Ao migrarem o foco para análises descritivas com o objetivo de entender as mudanças nas tendências, as organizações deixaram seus modelos de previsão baseados em machine learning de lado. Voltaram-se às abordagens simples de previsão, apostando em perguntas como “o que enviamos ontem?”, ou em modelos de suavização para séries temporais, como calcular médias móveis enquanto monitoravam de perto os dados de demanda para ver se padrões novos surgiam.

No caso de machine learning automatizado, muitas empresas permitem que seus modelos continuem funcionando, utilizando a pandemia como oportunidade única de aprendizado. Ao monitorar como os modelos estavam se adaptando aos dados incomuns, os cientistas de dados puderam entender melhor a robustez dos modelos – ou a falta dela.

Lydia Hassell, da marca de roupas Hanesbrands, supervisiona mais de 100 mil modelos de machine learning para previsão de demanda de produtos e diz que utilizou os relatórios de exceção com mais frequência. “Esses relatórios fornecem detalhes sobre outliers dos modelos de machine learning”, explicou. “Embora costumemos executar esses relatórios mensalmente, passamos a executá-los toda semana, ou até com mais frequência, para monitorar melhor o que estava acontecendo com os modelos de machine learning.” Hassel começou a utilizar imediatamente os relatórios, visando atualizar e testar novos modelos para previsões em 2021.

Algumas empresas tentaram usar novas fontes externas de dados para realização dessa previsão. Na Ford, Brabec conta que, para entender e prever a demanda do consumidor, os analistas utilizaram dados de viagens de veículos conectados, em busca de indicações sobre possível aumento ou redução na atividade automotiva no âmbito nacional, bem como informações sobre níveis de poluição do ar e pesquisas na internet relacionadas a carros. “Alguns desses dados podem não ser indicadores das vendas de carros”, disse Brabec, “mas parecem, pelo menos, se mover em paralelo e sugerem uma abertura do mercado”.

Outras companhias, diante da falta de dados válidos para seus modelos, simplesmente adotaram políticas mais conservadoras, escolha que tem se provado especialmente verdadeira em modelos de risco de crédito. Bancos, por exemplo, aumentaram os requisitos de pontuação de crédito no caso de hipotecas residenciais e grandes quantias, caso do JPMorgan Chase, cuja pontuação de crédito necessária para novas e refinanciadas hipotecas cresceu para 700, enquanto a entrada mínima subiu para 20%. Quanto aos modelos de crédito de sua empresa, um gestor de analytics afirmou que “aqueles com pontuação de 800 ou mais estão bem; todos os outros estão sofrendo. Fizemos modelos para nossos clientes como fazíamos antes da Covid-19 e adicionamos um fator de risco extra”.

Próximas etapas para recriação

Como avançamos com a análise preditiva e o machine learning considerando a disrupção dos dados? Quais serão os novos dados “normais” e quanto tempo levaremos para chegar nesse ponto? Com base em nossas conversas com diretores de ciência e análise de dados, propomos que os próximos quatro pontos devem ser considerados como parte da estratégia no futuro próximo e de longo prazo:

1. Avalie a relevância dos dados: o que excluir, o que manter, o que imputar

Os dados incomuns durante a pandemia devem ser excluídos? Devem ser substituídos por valores imputados com base em dados anteriores à Covid-19? Os dados pré-Covid-19 são relevantes no futuro? A resposta para cada uma dessas perguntas certamente será diferente de acordo com cada setor. Médias móveis – em que você calcula a média de um subconjunto de dados para equilibrar as flutuações aleatórias – e outras técnicas de previsão de suavização foram mencionadas por diversos gestores de analytics como formas para nos guiarmos em relação a até que ponto podemos confiar nos dados pré e pós-pandemia.

2. Aceite o uso crescente de dados externos

Tentar modelar eventos de baixa probabilidade, mas muito disruptivos, exigirá um aumento no uso de dados externos para explicar como o mundo está mudando. Os dados externos corretos podem indicar pontos de atenção antes dos dados internos. De acordo com um diretor cuja empresa dependia do site da Covid-19 criado pela Johns Hopkins University para obter dados, uma nova métrica de eficácia poderia ser considerar a rapidez com que os dados externos podem ser integrados aos sistemas existentes para uso em modelos analíticos.

3. Acelere a auditoria de modelos e o teste de estresse

Gestores de analytics mencionaram a necessidade de acompanhar de perto seus modelos de machine learning e prescritivos, planejando auditar a entrada de dados, as hipóteses do modelo e seus resultados com mais frequência. Como os modelos responderão a nenhuma demanda, a uma demanda dez vezes maior ou a anomalias como o preço negativo do petróleo? Técnicas desenvolvidas para o controle de qualidade em engenharia industrial, como limites de controle e amostragem de aceitação, precisam ser aplicadas a machine learning para garantir que os modelos estejam “sob controle”.

4. Faça um portfólio de modelos especializados

Um gestor de bens de consumo contou que assim que a equipe de dados de sua empresa entendeu o que estava acontecendo com a pandemia, começou a utilizar novos modelos. Portanto, pense na criação de planejamentos e simulações para desenvolver modelos específicos que podem ser “tirados da gaveta” quando necessário. O que você aprendeu desde o surto de Covid-19 que poderia ser implementado caso haja uma segunda onda de infecção, talvez até pior que a primeira, no próximo inverno?

Todos com quem falamos relataram os tempos de ciclo reduzidos para desenvolvimento e implantação de modelos – um entrevistado afirmou que o novo normal para a ciência de dados será “sobre agilidade e rapidez”. A capacidade de gerar modelos customizados e adaptáveis rapidamente será fator determinante para o sucesso: o mundo de hoje, de dados e análises relativamente estáveis, é diferente do passado. Como um diretor de análise comentou: “É melhor nos acostumarmos a operar com dados ruins por um tempo”.

Autoria

Jeffrey D. Camm e Thomas H. Davenport

Jeffrey D. Camm é o presidential chair em business analytics do Inmar, reitor associado de análise de negócios e diretor executivo do center for analytics impact na Wake Forest University School of Business (@wakeforestbiz). Thomas H. Davenport (@tdav) é professor benemérito de tecnologia da informação e gestão no Babson College, bolsista da iniciativa MIT sobre economia digital, e consultor sênior da prática analytics & cognitive da Deloitte.