O Futuro é a Liberdade

Discussões sobre Software Livre e Sociedade

Qual o problema com as estatísticas do Linux?

Posted by Paulo em 19/10/2011

Recebi de @faconti um link para um post sobre as estatísticas do Windows 7, informando que em Outubro de 2011, este tornou-se “o Sistema Operacional mais utilizado no mundo.”

Dizem que a matemática é uma ciência exata, e que a estatística é a matemática do que não pode ser exato. Em outras palavras, se com a matemática os resultados são sempre contundentes, na estatística, eles podem ter a aparência que o freguês quiser. Pode até ser verdade que o Windows 7 tenha se tornado o S.O. mais utilizado no mundo mas, por trás dos gráficos coloridos e chamativos do post, há vários problemas que apenas uma pessoa que tenha algum conhecimento de estatística pode perceber. Vamos dar uma passada de olhos sobre eles:

Metodologia

O primeiro deles é a metodologia. A metodologia é a descrição detalhada de como os dados utilizados foram coletados e como foram feitos os cálculos para chegar ao resultado mostrado. A única menção a isso no sítio onde essas estatísticas foram geradas é:

Stats are based on aggregate data collected by StatCounter on a sample exceeding 15 billion pageviews per month collected from across the StatCounter network of more than 3 million websites. Stats are updated and made available every 4 hours, however are subject to quality assurance testing and revision for 7 days from publication.

Tradução:

As estatísticas são baseadas em dados agregados coletados pelo StatCounter de uma amostra de mais de 15 bilhões de páginas exibidas por mês, coletadas da rede StatCounter composta de mais de 3 milhões de sítios da Internet. A estatísticas são atualizadas e disponibilizadas a cada 4 horas, entretanto, são submetidas a testes de garantia da qualidade e revisão 7 dias após a publicação.

Tradução do idioma técnico estatístico:

Temos uma enorme quantidade de dados, coletados de uma enorme quantidade de sítios da Internet. Temos um “bando de dados”, mas não um banco de dados com informações filtradas e analisadas. Os dados são brutos e não passam por análise qualitativa. Uma análise qualitativa classificaria as origens dos dados por critérios específicos (por exemplo, público alvo de cada sítio) e aplicaria um peso a cada um deles, que influenciaria na qualidade dos resultados.

As “estatísticas”, ou seja, o “bando de dados”, é disponibilizado a cada 4 horas (o que, absolutamente, descarta qualquer tipo de análise criteriosa) e são submetidos a um teste pra saber se chegaram bem, estão bem de saúde, se os links não caíram, etc. Mas nada além disso.

Nas FAQ, eles descrevem a “metodologia”: eles contam as páginas exibidas pela rede de sítios associada a eles, e coletam as informações de sistema operacional, navegador e tipo de dispositivo. Eles “analisam” os dados de acordo com esses “critérios”, ou seja, programam os critérios num programa de computador que separa os dados por sistema operacional, navegador utilizado e tipo de dispositivo. Só isso. Isso é uma “analise” quantitativa, não qualitativa. Não há como atribuir pesos aos dispositivos, nem às páginas que eles visitaram. Por exemplo: Uma página que ofereça produtos e serviços da Microsoft, ou da Apple, com certeza terá quase a totalidade de visitantes desses sistemas operacionais. Alguém já viu alguma página que ofereça produtos relacionados ao Linux, que não sejam fórums de discussão, blogs, sites de notícias especializadas em TI e vendas de “badulaques para nerds”? Por outro lado, sítios de compras genéricas e redes sociais podem ter um peso maior do que os sítios citados acima. Mas isso não é mencionado na “metodologia”.

Não há, portanto, uma descrição detalhada do método (porque o método é a exibição dos dados brutos), nem de como chegou-se ao resultado (porque o resultado é a simples exibição dos dados brutos). Resumindo: não se trata de estatística. Trata-se de coleta e exibição de dados, apenas, sem nenhum caráter científico.

Incerteza associada

O segundo, é que os gráficos não mostram o que, em estatística, chamamos de “incerteza associada”. Vamos esclarecer: em épocas de eleições, quando são mostradas as estatísticas dos candidatos, a justiça eleitoral obriga as empresas de pesquisas a registrarem suas pesquisas, informando uma série de dados, como a metodologia utilizada para se chegar e a incerteza associada a essa metodologia. Por isso, quando você vê o apresentador do jornal dizer que a pesquisa tem uma “margem de erro de 2% para cima ou para baixo”, essa é a incerteza associada ao método utilizado para se fazer a pesquisa.

Cada método possui uma incerteza associada que deve ser calculada, para que se possa validar ou, em outras palavras, acreditar na exatidão dos resultados obtidos pelo método. Por isso, qualquer pesquisa, seja de onde ela vier, precisa mostrar esse dado, para que possa ser estatisticamente válida.

Não há nenhuma menção a esse dado em lugar algum. Resumindo: Não há metodologia  e, portanto, não há como demonstrar a incerteza associada, porque ninguém a calculou, nem tem a menor ideia do que isso seja.

Universo da amostra

Outro ponto é a representatividade de cada região. Eles alegam que seus “associados” estão espalhados pelo mundo, o que dá uma “amostra global”. No entanto, entre os 10 mais, constam: em primeiro, os EUA com cerca e 4 bilhões de páginas e, em segundo, o Brasil com cerca de 1,2 bilhões de páginas. Em nono e décimo estão a Índia e China, respectivamente com 426 milhões e 395 milhões de páginas. Quer dizer então que mais da metade da população mundial está representada por 821 milhões de páginas, enquanto que os 5% de representatividade da população norte americana é traduzida por cerca de 30% das páginas amostradas. Além disso, as pessoas acessam muito mais sítios em seu próprio idioma do que os de língua estrangeira.

Não quero entrar no mérito da inclusão digital nesses países, mas que tem algo muito esquisito com esses dados, isso tem!

Curiosidades

Coisas curiosas, e inexplicadas, acontecem nas “estatísticas” do StatCounter. Por exemplo, se selecionarmos a estatística por sistema operacional e fizermos uma varredura por região, encontraremos coisas como:

Nas ilhas Falkland (Malvinas), o Mac OS X saltou de 3, 38% em Outubro de 2010, para 10,66% em Novembro e “misteriosamente”, retornou para 4,08% em Dezembro. Ao mesmo tempo, o Windows Vista caiu de 25,19%, para 20,42%, retornando a 26,09%, no mesmo período. O que teria acontecido? Muitos que usavam Windows Vista, subitamente resolveram testar o Mac OS X, mas o acharam muito inferior e retornaram ao Vista? Pouco provável…

Nos EUA, o Linux sequer aparece nas estatísticas. Será que quase ninguém lá o usa? Se é assim, porque as maiores empresas que o promovem estão baseadas lá, ou possuem escritórios lá? Porque a Dell vendia máquinas com Ubuntu pre-instalado lá, e não em mercados que, supostamente possuem uma receptividade melhor ao Linux? Desconfio que a Dell tenha dados bem mais confiáveis do que os da StatCounter.

No Brasil, o Linux aparece com menos de 1% durante qualquer período, a despeito de que cada vez mais órgãos públicos o tem implantado, como milhares estações de trabalho da Caixa Econômica Federal, Banco do Brasil, Dataprev, Petrobras. E também a despeito do fato de que o acesso a este blog subiu de 300 para 1200  visualizações por dia, de Janeiro de 2010 para Outubro de 2011. Dos quatro posts mais visitados, dois tem relação direta com a instalação do Ubuntu, sendo que um deles está no primeiro lugar, com cerca de 400 visualizações diárias há várias semanas.

No meu círculo de amizades, mais de 50% utiliza Linux. E não estou falando de pessoas com ligações com as comunidades de software livre, nem de especialistas. Estou falando de familiares, colegas de trabalho, vizinhos.

Conclusão

Os dados apresentados pela “estatística” do StatCounter, não possuem os requisitos mínimos necessários para serem considerados confiáveis. O perfil dos usuários, bem como seus hábitos, tanto regionais, quanto relativos aos sistemas, navegadores e dispositivos que utilizam para a cessar à Internet influencia muito na qualidade dos dados, e não foi levado em conta.

Os “dados” apresentados não passam de gráficos bonitos e especulativos. Não dá pra levar a sério.

Deixe um comentário