The Underlying Structure Of Data

Há coisa de vinte anos, a propósito de uma tonelada de dados sobre cobertura de pulverização em papel sensível, o Prof. Silva Fernandes, orientador do meu trabalho final, levou-me a conhecer o Doutor Bravo Lima, investigador da Estação Agronómica Nacional que trabalhava em “taxonomia numérica” e “ordenação”.

Depois de uns anos de Agronomia, de ANOVA e blocos e delineamento, foi uma conversa refrescante e marcante. Aprendi nesse dia o que era uma variável quantitativa e uma qualitativa. E percebi, vindo do empirismo inglês, que podíamos, muitas vezes dar menos importância ao “a priori”, ao delineamento, e aproveitar dados que andavam por aí, talvez não tão bem estruturados como isso (tentando encontrar o título deste texto).

A ideia perseguiu-me e após anos de dados agronómicos difíceis de delinear e analisar, uma segunda conversa trouxe-me aqui. O Cláudio Silva, meu colega na Impactwave, perante o meu interesse na linguagem R aconselhou-me a experimentar o Python, mais flexível e com uma sintaxe mais simples.

É difícil de dizer se este é um blog sobre o meu percurso no Python, mas acho que é mais sobre o meu percurso no data science. É verdade que tenho aprendido que o problema e a solução são mais importantes do que a linguagem em que se trabalha. Mas neste momento para mim é impossível separar uma coisa da outra.

Acima de tudo quero tornar este blogue num espaço de partilha de experiências e de trabalhos meus. Não é um blogue “de especialista”, mas um blogue de um autodidacta que acredita que a partilha de casos práticos poderá sempre ser útil a alguém.

Written on October 6, 2018