Inovar a investigação em Ciência Política através da computação

Investigadores portugueses criaram uma ferramenta que permite aceder online e fazer pesquisas em documentos ao longo de 40 anos de democracia portuguesa. A comunidade científica – e até a jornalística – já lhe tem vindo a reconhecer os benefícios.

A utilização de métodos computacionais em estudos relativos à política nacional é cada vez mais frequente, mas muito está ainda por fazer. Joana Gonçalves de Sá e Paulo Almeida, do grupo Social Physics and Complexity (SPAC) do LIP, em colaboração com alguns colegas, propuseram-se a tornar a democracia portuguesa pesquisável na Internet. Na prática, foi como se tivessem encontrado uma biblioteca de textos políticos — debates parlamentares e programas eleitorais — desarrumada e a tivessem organizado para que qualquer pessoa pudesse encontrar facilmente a informação que procurava.

“Não havia forma de fazer uma pesquisa simples no site do parlamento, não se conseguia perceber que temas eram discutidos em que debates. Por isso pensámos numa ferramenta com utilidade para a comunidade científica em geral”, explica a investigadora, sublinhando que, para tal, utilizaram recursos da Infraestrutura Nacional de Computação Distribuída (INCD).

O primeiro passo foi criar uma base de dados (o corpus) de documentos. “No fundo, é uma coleção de textos que está estruturada de forma pesquisável”, explica Paulo Almeida. Precisaram de recolher toda a informação do site do parlamento relativa aos debates parlamentares. É por lá que estes se encontram transcritos, na integra, desde 1821: “Tivemos de usar um programa que visita as páginas do site e que recolhe e guarda informação relevante de forma a não prejudicar qualquer serviço” diz Joana Gonçalves de Sá. Ainda que estivessem disponíveis documentos desde tempos em que Portugal ainda era uma monarquia, os investigadores do LIP quiseram concentrar-se nos debates que decorreram a partir 1976, altura em que o país já vivia numa jovem democracia.

Reunidos os ficheiros, tiveram de os processar com linguagens de programação: “vinham em HTML e tivemos de processar cada um deles até chegar ao XML, que é um formato semi-estruturado de texto, que usa tags”, acrescenta. Através delas, foi possível dividir os vários momentos das sessões, identificar os diferentes oradores e os partidos a que pertenciam. Pelo caminho, os desafios foram-se acumulando, principalmente quando a tarefa consistia em corrigir o máximo de erros ortográficos possível e ensinar o computador a detectar os oradores.

Os desafios

“Para termos um corpus final, com todos os debates, com o mínimo de falhas na ortografia e com todos os intervenientes e respectivas forças políticas identificadas foram precisos dois anos”, admite Joana Gonçalves de Sá, reforçando que o trabalho nunca foi feito a tempo inteiro e que não houve qualquer financiamento associado, tendo sido possível concretizá-lo com “bocadinhos de dinheiro de outros projectos e muita boa-vontade dos investigadores envolvidos”.

Sem os recursos disponibilizados pela INCD, ambos os investigadores reconhecem que este projecto teria sido extremamente difícil de levar a cabo. A infraestrutura disponibilizou todo o apoio de forma gratuita – e ainda hoje o faz. “O corpus do parlamento está alojado numa máquina virtual na infraestrutura da INCD, o que permite que esteja acessível na Internet, sem custos de manutenção para o grupo de investigação e isso é importante para nós”, realça Paulo Almeida. “Facilitou-nos mesmo muito o trabalho”, acrescenta, por seu lado, Joana Gonçalves de Sá.

Quatro décadas de democracia portuguesa transcritas para uma máquina culminaram num website que tornou mais fácil a pesquisa e que pode servir investigadores e a população em geral. “Ao corpus, adicionámos um motor de busca que permite extrair a informação que o utilizador procura”, explica Paulo Almeida. “Se alguém quiser saber quantas vezes uma palavra foi dita, consegue obter não só o gráfico da variação das vezes que foi mencionada, quando e quem a disse, bem como a frequência com que foi utilizada”, exemplifica Joana Gonçalves de Sá, notando que também é possível “extrair um texto completo e perceber em que contexto essa mesma palavra foi usada”.

O primeiro estudo usando o corpus

Em 2018, os investigadores decidiram testar a base de dados em que tinham vindo a trabalhar desde 2016 e arregaçaram mangas para a aplicar num estudo sobre a democracia portuguesa. A análise, intitulada “Spot the differences, a computacional approach to inferring party positions from electoral manifestos, parliamentary discourses, and voting patterns”, compreende o período de 1999 – altura em que o Bloco de Esquerda (BE) elege o primeiro deputado – até 2019 e abrange outros quatro partidos, além do já mencionado: PS, PSD, PCP e CDS-PP. “Com Lília Perfeito, também do SPAC do LIP, Manuel Marques Pita da Universidade Lusófona e Sofia Serra da Silva, do ICS/UL, comparámos debates, votações dos partidos e medidas enunciadas nos programas eleitorais”, explica a investigadora. “No fundo, usámos três corpus distintos – o dos debates parlamentares, o dos programas eleitorais e o do sentido de voto – para tentar perceber como é que os partidos se alinham nestas vertentes”, acrescenta.

As conclusões revelaram que, quanto ao posicionamento relativo dos partidos, há dois blocos partidários muito bem estabelecidos – o da esquerda, que inclui o BE e o PCP, e o da direita, com o PSD e o CDS-PP. Nos dias de hoje, estes blocos estão muito mais polarizados. Por outro lado, no PS verifica-se uma variação de posição, movendo-se entre estes dois extremos.

Os discursos, as votações e os conteúdos programáticos dos respectivos programas eleitorais fazem sobressair ainda mais a existência destes dois blocos que separam muito claramente a direita da esquerda. “Dentro de cada bloco, os partidos são quase indistinguíveis”, nota a investigadora. “O PCP e o BE votam de forma igual mais de 90% das vezes, tal como acontece entre o PSD e o CDS-PP. E mesmo em termos de discurso, nós temos muita dificuldade em separá-los”, sublinha.

Estes resultados chamaram a atenção de jornalistas da revista Visão, que decidiram publicar uma reportagem com base neste estudo desenvolvido pelos investigadores do LIP e colegas. Esta foi, aliás, uma boa alavanca para que mais interessados viessem pedir para aceder ao corpus para realizarem trabalhos jornalísticos. O próximo passo será dá-lo a conhecer à população, para que qualquer pessoa saiba que esta ferramenta existe e está mais que apta a contribuir para a inovação na forma como se faz ciência política em Portugal.