MODELAGEM DE ATRIBUTOS AGRONÔMICOS POR RANDOM FOREST EM ÁREA DE CANA-DE-AÇÚCAR
Avaliação do desempenho do algoritmo Random Forest na predição de atributos agronômicos da cultura da cana-de-açúcar
Capítulo 1
Introdução
A modelagem estatística e computacional de atributos agronômicos da cultura da cana-de-açúcar tem crescido diante da necessidade de compreender padrões espaciais, identificar variáveis determinantes e prever indicadores produtivos e de qualidade. Entre as variáveis mais frequentemente analisadas estão:
CTC
Capacidade de Troca Catiônica
Mg
Teor de magnésio no solo
ATR
Açúcares Totais Recuperáveis
TCH
Toneladas de Cana por Hectare
Cada uma dessas variáveis possui natureza e determinantes distintos, influenciando diretamente a qualidade do ajuste dos modelos preditivos.
Neste estudo, buscou-se avaliar o desempenho do algoritmo Random Forest na predição desses atributos, interpretar graficamente os resultados, diagnosticar os erros, discutir as causas agronômicas das diferenças de desempenho e identificar lacunas no banco de dados que limitam o poder explicativo dos modelos.
Capítulo 2
Materiais e Métodos
2.1. Banco de Dados
O conjunto de dados inclui:
  • Coordenadas espaciais (x, y)
  • Atributos químicos do solo (S, Ca, Mg, H+Al, SB, CTC, V%)
  • Variáveis produtivas e de qualidade (TCH e ATR)
  • Variedades de cana codificadas como dummies
  • Ano da coleta

Importante: o banco não contém dados de clima, manejo, relevo, textura detalhada, mineralogia, profundidade do solo ou resistência mecânica — variáveis fundamentais para explicar TCH, Mg e CTC.
2.2. Análises Estatísticas
Para cada variável foram realizadas:
01
Gráficos Real vs. Previsto
  • Linha de tendência linear
  • Avaliação de dispersão dos pontos
02
Diagnóstico de resíduos
Histogramas e heterocedasticidade
03
Importância das variáveis
IncMSE
04
Modelagem por Random Forest
Avaliação por métricas: R², MAE, RMSE
Capítulo 3
Resultados
3.1. Comportamento geral dos gráficos Real vs. Previsto
Os gráficos de dispersão apresentaram:
  • Linha vermelha indicando a tendência linear entre real e previsto
  • Pontos azuis, cuja intensidade (mais forte ou mais clara) indica a densidade de observações
Azuis escuros → alta concentração de dados
Azuis claros → valores raros ou extremos
Essa característica visual permitiu identificar regiões com maior número de amostras e áreas em que o modelo possui menos informação para aprendizado.
3.2. Resultados para CTC
O modelo apresentou:
R² ≈ 0.11
Baixo poder explicativo
Previsões concentradas
Valores médios (45–60)
Incapacidade de prever extremos
Valores >100
Resíduos dispersos
Entre –40 e +120
Heterocedasticidade evidente
Variância não constante

Interpretação agronômica:
A CTC é um atributo intrínseco do solo, determinado principalmente por mineralogia, tipo de argila (1:1 ou 2:1) e material de origem — variáveis ausentes no dataset. Assim, modelos estatísticos não conseguem reproduzir adequadamente sua variação espacial apenas com atributos químicos superficiais.
3.3. Resultados para Mg
O comportamento foi semelhante ao da CTC:
  • Baixo R²
  • Alta dispersão dos dados
  • Previsões centrais, sem acompanhamento dos extremos
  • Dificuldade em capturar padrões
Justificativa agronômica:
O magnésio tem forte ligação com a mineralogia e com o material de origem do solo, apresentando baixa variabilidade no manejo. Sem variáveis geológicas ou estruturais, o modelo não identifica padrões consistentes.
3.4. Resultados para ATR
Aqui o Random Forest teve bom desempenho:
R² ≈ 0.44
Melhor resultado obtido
Padrão alinhado
Pontos seguem a tendência
Baixa variabilidade
Resíduos controlados
Melhores previsões
Ao longo de toda a faixa

Justificativa agronômica:
ATR é diretamente influenciado pela fertilidade, disponibilidade de água, maturação e condições químicas do solo — variáveis que estão representadas no dataset. Por isso o modelo conseguiu capturar padrões fisiológicos e ambientais relevantes.
3.5. Resultados para TCH
A produtividade apresentou:
Tendência linear fraca
Grande dispersão
Resíduos heterocedásticos
Dificuldade em prever valores extremos
Previsões levemente centradas em valores médios
R² baixo a moderado

Justificativa agronômica:
A produtividade da cana é multifatorial, dependente de clima, manejo, idade da cana, operações mecanizadas, pragas, compactação, precipitação e distribuição hídrica — variáveis ausentes no banco. Assim, o modelo só consegue capturar uma pequena parcela da variabilidade real.
3.6. Avaliação dos resíduos
CTC e Mg
  • Resíduos muito espalhados
  • Outliers frequentes
  • Baixa correlação com o modelo
ATR
  • Resíduos concentrados
  • Distribuição próxima da normal
  • Modelo robusto
TCH
  • Resíduos moderados
  • Caudas longas
  • Forte influência de variáveis não incluídas
3.7. Importância das variáveis
A análise de importância mostrou:
Alta relevância
  • ATR
  • Coordenadas x e y
  • Mg_2
Importância moderada
  • Variáveis de acidez (H+Al)
  • Ca e V%
  • Variedades com efeito intermediário
Baixa importância
  • Variáveis com pouca variabilidade ou redundantes

Interpretação:
O modelo utiliza as variáveis disponíveis, mas sua capacidade explicativa é limitada pela falta de variáveis-chave que realmente determinam CTC, Mg e TCH.
Capítulo 4
Discussão
Os resultados revelam que o desempenho dos modelos é diretamente influenciado pela natureza das variáveis:
Variáveis intrínsecas
CTC, Mg → baixa preditividade
Variáveis ambientais/fisiológicas
ATR → preditividade moderada
Variáveis multifatoriais
TCH → preditividade baixa devido à ausência de variáveis determinantes

Agronomicamente, os resultados são coerentes com a literatura, que aponta:
  • CTC depende de mineralogia → manejo não altera
  • Mg depende de material de origem → varia pouco
  • ATR responde à fertilidade e água → previsível
  • TCH depende de clima, idade, manejo → impossível prever sem essas variáveis
Capítulo 5
Recomendações para melhoria dos modelos
Para aumentar significativamente o R², recomenda-se incluir no banco de dados:
5.1. Variáveis climáticas
  • chuva total e por fases
  • déficit hídrico
  • temperatura
  • radiação solar
5.2. Variáveis de manejo
  • doses de N, P, K
  • idade da cana
  • corte
  • espaçamento
  • práticas culturais
5.3. Variáveis estruturais do solo
  • textura detalhada
  • densidade
  • resistência à penetração
  • profundidade efetiva
5.4. Variáveis de relevo
  • altitude
  • declividade
  • curvatura
  • índice topográfico (TWI)
Capítulo 6
Conclusões
O Random Forest apresentou desempenho coerente com a natureza das variáveis.
Variáveis estruturais do solo (CTC, Mg) não puderam ser previstas devido à ausência de variáveis determinantes.
ATR apresentou o melhor desempenho, pois está diretamente relacionado à fertilidade e à disponibilidade hídrica.
A produtividade (TCH) foi parcialmente explicada pelo modelo, mas carece de variáveis de clima e manejo.
A análise confirma que a qualidade do banco de dados é o principal limitador do R², e não o algoritmo.
Melhorias substanciais na modelagem dependem da inclusão de variáveis essenciais, especialmente clima, manejo e atributos estruturais do solo.
Capítulo 7
Aplicações Práticas
Planejamento agrícola mais eficiente
Priorização de coletas de solo
Identificação de variáveis-chave para monitoramento
Otimização de modelos preditivos em usinas e fazendas
Suporte à agricultura de precisão