Código para automatizar la obtención de datos usando R

por Isaura Espinosa de los Monteros

Esta entrada busca mostrar una manera de sistematizar la obtención de datos de internet, a través de un proceso mucho menos cansado y falible que el fastidioso proceso de copiar y pegar, celda por celda en Excel. La herramienta que se utilizará es R, no sólo porque dentro de sus ventajas está el hecho de que es gratis (lenguaje que puedes obtener ), sino porque es completamente programable, lo que brinda flexibilidad para realizar funciones especializadas. Los principales comandos que usaré para crear el código son gregexpr y gsub. Éstos serán útiles para identificar patrones dentro del texto que conforma el código fuente de la página de internet que contiene la información deseada, hacerles modificaciones pertinentes y extraerlos.

La aplicación que le daré a este proceso será la creación de una base de datos con la totalidad de proposiciones hechas por los diputados de la 59a legislatura (2003-06). Sigue leyendo

Anuncios