O que distingue um vinho generoso
Vamos continuar a olhar os dados das edições que vão de Junho de 2017 a Maio de 2018, da “Vinho Grandes Escolhas”. Continuámos no post anterior a utilizar o Pandas e hoje vamos olhar um pouco para o seu potencial de visualização de dados.
import pandas as pd
vinhos = pd.read_excel('output_analise/vinhos.xlsx')
O Pandas tem também incluídos métodos muito práticos para visualização de dados. Na realidade tratam-se de wrappers de métodos de Matplotlib, a biblioteca fundamental de visualização de dados em Python, e que é a base de muitas outras.
Podemos começar pelo boxplot, cuja caixa representa a mediana e os dois quartis da variável - neste caso o grau.
vinhos.boxplot(['grau'])
Ao que parece há um vinho com 0 graus. Trata-se, com certeza, de um erro, que poderemos corrigir facilmente:
vinhos = vinhos[vinhos['grau'] != 0]
vinhos.boxplot(['grau'])
Podemos também eliminar graduações acima de 25 graus para poder fazer outro tipo de análise:
vinhos = vinhos[vinhos['grau'] < 25]
vinhos.hist(['grau'])
Um histograma, ao qual podemos alterar o número de divisões…
vinhos.hist(['grau'], bins=25)
… para encontrar uma distribuição ligeiramente bimodal, com os vinhos de mesa perto dos 14 graus e os generosos perto dos 20 graus.
vinhos_perto_de_20 = vinhos[(19 < vinhos['grau']) & (vinhos['grau']< 21)]
vinhos_perto_de_20['regiao'].value_counts()
Porto 98
Setúbal 2
Madeira 1
Alentejo 1
Palmela 1
Name: regiao, dtype: int64
Estes são Vinhos do Porto, na sua maioria, com seria de esperar.