Estatísticas da web: o que podemos concluir analisando 6.000 posts do Rec6?

Você sabia que a maioria das entradas que chegam a ser destaque no Rec6 completa em até 7 horas o percurso entre a sua postagem por um usuário e a primeira aparição na capa do site, e apenas 8% delas chegam à capa em menos de 60 minutos?

A demografia dos sites de comunidades é um campo de estudo que permite chegar a uma série de conclusões sobre o público que lá se reúne, seus interesses, comportamentos e preferências. Ao longo dos últimos 3 meses venho coletando diariamente dados estatísticos sobre as notícias publicadas na área de Tecnologia do Rec6, um dos mais populares agregadores de notícias nacionais no estilo Digg.

Minha intenção é usar esta informações para outras finalidades, não relacionadas diretamente ao Rec6. Ocorre que o Rec6 é um ponto de reunião de indivíduos com vários perfis que interessam a outras atividades minhas, e estudar este tipo de informação ajuda a agregar valor a estas atividades, com informações, conclusões e insights que são difíceis de obter através de pesquisas estruturadas comuns, porque o que as pessoas publicam (e, especialmente, o que votam) em sites de comunidade tem um grau de espontaneidade que nenhuma pesquisa consegue reproduzir. Ao mesmo tempo, analisar estes dados tem que levar em conta que as margens de erro são imponderáveis, e que as conclusões acabam sendo muito mais subjetivas do que as oriundas de pesquisas tradicionais.

As análises que farei para meu próprio uso não são de interesse geral, e provavelmente não chegarão a ser publicadas aqui. Mas enquanto eu populava o banco de dados com mais de 6000 posts coletados no Rec6 ao longo destes 3 meses, percebi que há uma série de dados ali que podem ser do interesse geral, porque são indicadores de sucesso ou destaque de posts.

É bom lembrar que o sucesso de um post no Rec6 não é um indicativo de qualidade, mas apenas de popularidade. E que ele também não é condicionado apenas pelo conteúdo ou tema dos posts, ou mesmo pela sorte: durante o horário comercial, observa-se sistematicamente que há períodos em que bastam 5 votos (em média) para um post chegar à capa, enquanto há outros em que um post com menos de 9 votos não chegará a obter destaque.

Não sou fominha, e nem acredito que guardar este tipo de conclusão só para mim me daria alguma vantagem - até porque mais gente deve intuir ou mesmo ter apurado os mesmos dados. Os dados agregados não mencionam individualmente nenhum post ou usuário, assim não há preocupações com privacidade ou outras questões individuais. Assim, resolvi compartilhar com vocês estes dados de interesse geral, e imagino até que a divulgação deles não irá alterar em muito o perfil das estatísticas mencionadas, porque tenho certeza absoluta que o número de pessoas que tem o interesse e mesmo a habilidade de usar estes dados para alavancar a divulgação de seu material é relativamente pequeno - e provavelmente são pessoas que têm material de qualidade para divulgar, portanto todo mundo sai ganhando.

Por falar em relativamente pequeno mas com qualidade, vale lembrar que o potencial de geração de tráfego do Rec6 ainda não é muito grande. Mas ele faz algo muito bem: dar projeção e notoriedade a blogs, dentro de um pequeno universo composto por uma série de formadores de opinião em seus próprios nichos, no melhor estilo long tail. A lista dos sites, temas e até palavras-chave que mais aparecem nos posts publicados e destacados por lá contém informações bastante interessantes sobre quem e o que faz sucesso entre este público bastante específico, e selecionado.

Usando as estatísticas do Rec6 para escolher o horário certo de postar

Observações preliminares: As informações abaixo correspondem a uma amostra composta por pouco mais de 6000 artigos, publicados no Rec6 entre o final de fevereiro e o final de maio de 2007. Os dados foram processados de forma automatizada, e todas as análises apresentadas consideram a amostra completa, sem quebras por dias da semana, assuntos, site de origem ou outras. O grau em que estes dados podem ser usados para analisar outros fenômenos on-line não é determinado.

Como já adiantei na conclusão do artigo, a maioria das notícias que chega à capa do Rec6 faz o seu caminho (entre a inserção por um usuário e a chegada à capa) em 7h ou menos.

Algumas são bem mais velozes que as outras, entretanto. Entre as pouco mais de 1000 notícias que chegaram à capa entre as da amostra pesquisada, 8% das notícias chegaram à capa com 60 minutos (ou menos) de idade. Os sites campeões em notícias com estas características são o TNow e o IDG Now, e as palavras mais freqüentes nos títulos destas notícias são: blogs, Google, Internet, Linux, mundo, online, Rec6, sites, vídeos, Web, Windows, Yahoo e Youtube.

Aparentemente há 2 períodos privilegiados no dia, totalizando apenas 5h, para quem quer se aproveitar da demografia do Rec6 e aumentar suas chances de obter algum destaque adicional. Entre aquelas notícias que chegaram de forma acelerada ao destaque, 32% foram inseridas no sistemas entre 13 e 16h, e outras 18% entraram entre as 22h e a meia-noite. A outra metade das notícias se espalhou entre os demais períodos do dia.

Mas quem é menos impetuoso sabe que não há necessidade de apostar na velocidade, e que vale mais a pena procurar os horários em que há mais freqüência de as postagens chegarem a alcançar a capa, mesmo que demore um pouco mais. O período das 13 às 16h também é a aposta mais segura neste caso, pois 22% do total das notícias que chegam até a capa foram inseridas nesta faixa de 3h no início da tarde. Logo em seguida vem a curta faixa entre as 11h e o meio-dia (mas cuidado: posts entre as 12 e as 13h não têm grande sucesso, historicamente), e depois dela segue o período entre 16 e 19h.

Comparando os 2 parágrafos acima, uma conclusão interessante (e óbvia, uma vez exposta) é que os posts inseridos no período noturno tendem a tomar um de 2 caminhos: ou chegam à capa rapidamente (em menos de 1h), ou não chegarão nunca mais - porque a virada da noite faz com que eles sejam rapidamente ultrapassados pelas levas de posts matinais.

Outra curiosidade relacionada aos horarios é que no período matinal uma notícia precisa de 8,6 votos (em média) para chegar à capa, enquanto à tarde bastam 6,5 votos (também em média), possivelmente devido ao desequilíbrio numérico entre as pessoas que votam de manhã e as que votam de tarde, e entre os posts inseridos em cada um destes períodos.

Como curiosidade, a notícia que levou mais tempo para chegar à capa completou o seu percurso em um total de 40h, e falava sobre o Mac OS X Tiger. Ela está entre as 50 (cerca de 4,8% do total geral de notícias que chegaram à capa) que conseguiram chegar à página inicial mesmo levando mais do que 24h para isto.

E as conclusões?

As análises acima são básicas e genéricas por natureza, e eu ainda tenho milhares de registros para interpretar, correlacionar, extrapolar e interpolar de maneiras variadas.

Assim, deixo a cada um a possibilidade de interpretar estes dados como desejarem e puderem, e mesmo para compartilhar suas conclusões aqui nos comentários da notícia, ou em seus próprios sites e blogs.

Vale o comentário de que no caso de o perfil de uso do Rec6 mudar e se aproximar mais da popularidade do Digg, onde o número de usuários que vota excede de forma gigantesca o número daqueles que publicam material, é provável que as estatísticas a partir dos dados coletados no período atual tornem-se rapidamente ultrapassadas - e certamente os novos dados que poderão ser coletados identificarão um público bastante diferente do atual.

Ao Rec6 fica a sugestão de no futuro contribuir estatísticas (no estilo Zeitgeist) ao público que lhe oferece o conteúdo que ajuda a manter o site girando ;-) Seria uma adição bem-vinda e que certamente agregaria valor e diferenciação ao site, que justamente por se destacar dos demais Digg-like brasileiros pode se beneficiar bastante deste tipo de inovação.

Comentar

Comentários arquivados

Artigos recentes: