Das as áreas da Bioinformática que já trabalhei, todas aplicavam análise de agrupamento de alguma maneira. Geralmente cada área tem seu próprio software. Exemplo, filogenética tem Paup, Phylip, Mega; análise de microarrays tem o MeV... e assim vai. Entretanto, algumas vezes temos dificuldade em analisar o suporte dos agrupamentos. Fazer uma análise de agrupamentos no R é simples, basta usar o hclust. Essa semana descobri o
pvclust, uma biblioteca do R, de uso super simples, que calcula o suporte dos grupos gerados pelo hclust. Além do conhecido bootstrap, ainda calcula o suporte por um valor "
Approximately
Unbiased".
O uso é simples. Imagine que você tenha uma matriz de microarray no seguinte formato (clássico):
Sonda, Amostra 1, Amostra N
xxxxxxx_at, 2.4, 6.8
Fazer uma análise de agrupamentos - usando distância euclidiana, 1000 pseudo-replicação para o bootstrap - bastam 4 comandos:
>library("pvclust")
>data <- read.table("data.txt", header=TRUE)
>result <- pvclust(data, method.dist="euclidian", method.hclust="average", nboot=10000)
>plot(result)
Abs,