teses

28
ago

Uspopulares: analisando a quantidade de downloads de teses e dissertações da USP

A USP tem o portal que possibilita o acesso a dissertações de mestrado, teses de doutorado e teses de livre docência publicados pela Universidade. Em uma página de uma tese temos meta-dados interessantes, como a unidade, área de conhecimento, orientador e quantidade de downloads do documento.

No entanto, os meta-dados não estão disponíveis como dados abertos (deviam!), o que dificulta análises automatizadas. Por isso eu criei um web crawler, que é um robô que acessa cada página do portal e baixa os meta-dados para um arquivo em formato aberto (json). Para construir o crawler utilizei o framework Scrapy (linguagem Python), que se mostrou uma excelente escolha.

Esse código já é a base para a futura construção de uma aplicação, na qual o usuário possa estabelecer critérios de comparação para explorar essa base de dados. Além disso, espero construir algumas visualizações gráficas desses dados também. Por ora, fiz uma análise preliminar efetuando comandos diretamente na base de dados. 

Português, Brasil
Inscreva-se em RSS - teses