quarta-feira, 9 de dezembro de 2009

Uma seqüência interessante

Lendo um trabalho que utiliza algumas técnicas de "feature selection" para bioinformática, como não formado em estatística, decidi entender melhor o signifcado de "cross-validation". O de sempre, "cross-validation" no google e cheguei no verbete da Wikipedia. Além de achar interessante, as maravilhas do hypertexto me levaram a uma seqüência interessante, inesperada, mas pertinete de verbetes:
  1. Cross-validation (statistics)
  2. Uncomfortable science
  3. Magical thinking
Abs,

terça-feira, 8 de dezembro de 2009

Análise de agrupamentos com suporte usando o R

Das as áreas da Bioinformática que já trabalhei, todas aplicavam análise de agrupamento de alguma maneira. Geralmente cada área tem seu próprio software. Exemplo, filogenética tem Paup, Phylip, Mega; análise de microarrays tem o MeV... e assim vai. Entretanto, algumas vezes temos dificuldade em analisar o suporte dos agrupamentos. Fazer uma análise de agrupamentos no R é simples, basta usar o hclust. Essa semana descobri o pvclust, uma biblioteca do R, de uso super simples, que calcula o suporte dos grupos gerados pelo hclust. Além do conhecido bootstrap, ainda calcula o suporte por um valor "Approximately Unbiased".

O uso é simples. Imagine que você tenha uma matriz de microarray no seguinte formato (clássico):

Sonda, Amostra 1, Amostra N
xxxxxxx_at, 2.4, 6.8

Fazer uma análise de agrupamentos - usando distância euclidiana, 1000 pseudo-replicação para o bootstrap - bastam 4 comandos:

>library("pvclust")
>data <- read.table("data.txt", header=TRUE)
>result <- pvclust(data, method.dist="euclidian", method.hclust="average", nboot=10000)
>plot(result)

Abs,

quarta-feira, 2 de dezembro de 2009

Leitura updated!

Que a informática e os hypertextos revolucionaran a maneira como lidamos com a informação não é novidade.

Recentemente (Agosto de 2009) saiu um trabalho na "Science" sobre como a internet mudou a ciência, principalmente sobe como lidamos com os trabalhos científicos, os "papers". Além de mostrar - com base nos resultados de trabalho citado - como a interner "bombou" o número de artigos lidos por pesquisador (gostaria muito que número estivesse correto: 300 artigos/ano/pesquisador em média), faz uma análise do comportamento atual e do provavel no futuro com relação ao mesmo assunto.

Ai vai a referência:

Renear AH, Palmer CL.Strategic reading, ontologies, and the future of scientific publishing. Science. 2009 Aug 14;325(5942):828-32.

Abs,

Fred

sexta-feira, 20 de novembro de 2009

Tudo o que você sempre teve vontade de saber sobre aprendizado de máquinas em bioinformática, mas teve preguiça/dificuldade de estudar!

Quem nunca ouviu falar dos milagres que a Inteligência Artificial faz com dados biológicos? Os milagres da Bioinformática! Porém, que complicação entender hein?!? Aprendizado supervisionado e não supervisionado... semi-supervisionado, discriminantes linear e quadrático, "K-nearest neighbor", árvores de decisão, redes neurais, SVMs ("support vector machines"), entre outros.

Você pode ir até livro "Inteligência Artificial" do Russel e Norvig, ler 150 páginas dos últimos capítulos e ver o que se passa. Só coisa simples! Leitura na cama para domingo à noite! O resultado, em geral, é ficar sem saber o que se passa e acreditar em mágica e mágicos.

Recentemente achei um artigo interessante que explica de forma "relativamente simples" e resumida esses conceitos. Estou postando aqui a recomendação para quem tem curiosidade ou pretende iniciar nessa loucura. Obviamente precisa sentar e rachar o côco, mas, provavelmente, uma tarde de inspiração lendo esse artigo vai esclarecer muita coisa.

Ai vai a referência (open access):

Machine Learning and Its Applications to Biology

Espero que seja útil!
Grande abraço

sexta-feira, 25 de setembro de 2009

Pyscience Brasil

Aproveitando o embalo da postagem sobre Bioinformática, aproveito para divulgar aqui um Wiki na Wikidot sobre python para a ciência. Foi uma idéia de um grupo de pythonistas que estavam presentes na PythonBrasil 3 em Joinville, que implementamos logo em seguida.

Eu costumo contribuir com a parte de códigos e programas em python para bioinformática (embora ultimamente esteja devendo um pouco), principalmente na análise de seqüências de DNA e proteína usando principalmente Biopython, como o uso remoto e/ou massivo de diversas ferramentas do NCBI assim como geração de logos de seqüências. Também contribuo na parte de estrutura tridimensional de proteínas e estatística. Entretanto, o pyscience-brasil contém textos para as mais diversas áreas do python com aplicação científica, como gráficos (Pylab), matrizes, (Numpy) , probabilidade e estatística (RPy e Scipy), e outras diversas "calculeiras" (Scipy).

Fica ai o link e o chamado para contribuição!

Pyscience Brasil



Abs,

Biologia e Computação

Recentemente escrevi um artigo de divulgação científica sobre Biologia e Computação, tentando discutir as inspirações recíprocas de ambas as áreas. Isto é, tentei fazer um cronograma histórico (em linguagem simples, sem o peso da estatística e da programação envolvidas) sobre a bioinformática e os algorítimos de inteligência artificial utilizados pela Biologia, principalmente pela Biologia Molecular e Bioquímica. Pelo outro lado, tentei escrever sobre as mais famosas inspirações "biológicas" da computação, como redes neurais artificiais e algorítimos genéticos.

Deixo aqui então o link para o texto publicado na revista In silico.

Biologia e Computação: trevas e luz