hugo-pires.github.io

The most exciting phrase to hear in science is not 'Eureka!' but 'That's funny...'

View My GitHub Profile

O que distingue um vinho generoso

Vamos continuar a olhar os dados das edições que vão de Junho de 2017 a Maio de 2018, da “Vinho Grandes Escolhas”. Continuámos no post anterior a utilizar o Pandas e hoje vamos olhar um pouco para o seu potencial de visualização de dados.

import pandas as pd

vinhos = pd.read_excel('output_analise/vinhos.xlsx')

O Pandas tem também incluídos métodos muito práticos para visualização de dados. Na realidade tratam-se de wrappers de métodos de Matplotlib, a biblioteca fundamental de visualização de dados em Python, e que é a base de muitas outras.

Podemos começar pelo boxplot, cuja caixa representa a mediana e os dois quartis da variável - neste caso o grau.

vinhos.boxplot(['grau'])

png

Ao que parece há um vinho com 0 graus. Trata-se, com certeza, de um erro, que poderemos corrigir facilmente:

vinhos = vinhos[vinhos['grau'] != 0]
vinhos.boxplot(['grau'])

png

Podemos também eliminar graduações acima de 25 graus para poder fazer outro tipo de análise:

vinhos = vinhos[vinhos['grau'] < 25]
vinhos.hist(['grau'])

png

Um histograma, ao qual podemos alterar o número de divisões…

vinhos.hist(['grau'], bins=25)

png

… para encontrar uma distribuição ligeiramente bimodal, com os vinhos de mesa perto dos 14 graus e os generosos perto dos 20 graus.

vinhos_perto_de_20 = vinhos[(19 < vinhos['grau']) & (vinhos['grau']< 21)]
vinhos_perto_de_20['regiao'].value_counts()
Porto       98
Setúbal      2
Madeira      1
Alentejo     1
Palmela      1
Name: regiao, dtype: int64

Estes são Vinhos do Porto, na sua maioria, com seria de esperar.

Written on December 7, 2018