Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Introducción al web scraping usando R #493

Closed
JoshuaGOB opened this issue Aug 11, 2022 · 20 comments
Closed

Introducción al web scraping usando R #493

JoshuaGOB opened this issue Aug 11, 2022 · 20 comments

Comments

@JoshuaGOB
Copy link
Collaborator

The Programming Historian en español ha recibido la siguiente propuesta de lección Introducción al web scraping usando R por parte de @rivaquiroga. En adelante, intervendré como editor durante el proceso de revisión. Tras haber leído la lección y haber enviado mis comentarios a @rivaquiroga, mi rol consistirá en solicitar revisores y gestionar las conversaciones que se produzcan en este foro.

Esta lección se encuentra en estos momentos en fase de revisión y puede leerse en:

Vista previa

http://programminghistorian.github.io/ph-submissions/es/borradores/originales/introduccion-al-web-scraping-usando-r

Archivo

https://github.com/programminghistorian/ph-submissions/blob/gh-pages/es/borradores/originales/introduccion-al-web-scraping-usando-r.md

Imágenes

https://github.com/programminghistorian/ph-submissions/tree/gh-pages/images/introduccion-al-web-scraping-usando-r

Otros miembros de nuestra comunidad también están invitados a ofrecer sus comentarios de una manera constructiva; los comentarios deberán publicarse en este hilo de conversación, por lo que se recomienda haber leído nuestra guía para revisores (http://programminghistorian.org/es/guia-para-revisores) y tener en cuenta nuestra política contra el acoso (ver más abajo). No se aceptarán más comentarios por parte de la comunidad tras la publicación de la segunda revisión formal a fin de que el traductor pueda empezar a trabajar en los cambios solicitados. Cuando esto ocurra, publicaré un anuncio aquí.

Asimismo, me comprometo a mantener la conversación abierta a todo el mundo en GitHub. Pero si alguno de los participantes quiere ponerse en contacto en privado conmigo, puede escribirme un correo electrónico. También es posible contactar con nuestros 'ombudpersons'.

Política contra el acoso

Esta es una declaración de los principios de Programming Historian en español y establece las expectativas para el tono y el estilo de toda la correspondencia entre los revisores, autores, editores y colaboradores de nuestros foros públicos.

El objetivo de The Programming Historian en español es ofrecer un entorno abierto en el que la comunidad de participantes sean libres para analizar ideas, realizar preguntas, sugerir cambios, y pedir aclaraciones; también queremos que sea un espacio libre de acoso y hostigamento para todo el mundo con independencia de su género, identidad, orientación sexual, diversidad funcional, apariencia física, tamaño corporal, raza, edad, religión o conocimientos informáticos. No se tolerará ningún tipo de acoso o ataque ad hominem. Los participantes que violen esta regla podrán ser expulsados del proceso editorial a discreción del equipo editorial. Si presencias o sientes que has sido víctima de algún tipo de acoso, por favor, contacta con nuestra 'ombudsperson' (Silvia Gutiérrez de la Torre - http://programminghistorian.org/es/equipo-de-proyecto).

@JoshuaGOB
Copy link
Collaborator Author

JoshuaGOB commented Sep 23, 2022

¡Hola @rivaquiroga!

Gracias por enviar esta lección. He trabajado poco con R, pero fue ameno completar la lección porque describes todo con mucha claridad. Estoy emocionado por ver el resto de la serie.

Tengo muy pocas sugerencias fuera de erratas como verás más abajo. Ya tenemos a la primera revisora, la fantástica @NicoLarrondo. Les dejaré saber tan pronto tengamos a la segunda persona y podamos proceder a la segunda revisión. @rivaquiroga, estoy disponible para clarificar cualquier duda que pueda surgir sobre las sugerencias. @NicoLarrondo, por favor espera a que @rivaquiroga termine de hacer sus revisiones antes de trabajar en la lección.

¡Muchas gracias!


  • 12 - en ella introduciremos algunos conceptos que son relevantes para poder aplicar mejor

  • 73 - N.B. En la primera oración falta encerrar un h1 y un h2 con los caracteres especiales para código.

  • 74 - N.B. Hay un h1 y tres h2 que deben encerrarse con los caracteres especiales.

  • 101 - tendremos seguridad de que obtendremos exactamente el elemento específico

  • 122 - Por ejemplo, un sitio web que es muy

  • 177 - N.B. En esta línea puedes incluir el enlace para que se pueden seguir las capturas más fácilmente. Lamentablemente, me parece que no es un enlace estable pero se puede hacer una pequeña clarificación al respecto: https://prensa.presidencia.cl/discurso.aspx?id=188237

  • 192 - N.B. Sería útil añadir que "También puedes llegar a las herramientas de desarrollo utilizando el botón derecho del ratón u oprimir "ctrl" y hacer clic si estás en una Mac. Entonces seleccionas "Inspect" o "Inspeccionar" en el menú que acabas de abrir y verás el panel."

  • 210 - Cuando pasamos el cursor ... Al pasar el cursor

  • 217 - revisar si existe algún otro elemento

  • 219 - se destaca solo el texto del discurso

  • 228 - etiquetado el contenido de la página que nos interesa

@rivaquiroga
Copy link
Member

¡Hola, @JoshuaGOB! Muchas gracias por las sugerencias. Ya las incorporé todas, así que la lección está lista para que ✨ @NicoLarrondo ✨ haga su revisión.

@JoshuaGOB
Copy link
Collaborator Author

¡Hola equipo! Disculpen la demora. No he tenido mucha suerte consiguiendo la segunda persona para revisar la lección. Seguiré buscando y les dejaré saber de inmediato.

@rivaquiroga
Copy link
Member

¡Hola! Yo podría consultar en el Slack de la comunidad latinoamericana de R. Pero pienso que sería mejor hacerlo una vez que terminemos la primera ronda de revisión, para poder dar una estimación de las fechas. ¿Qué te parece, @JoshuaGOB?

@NicoLarrondo
Copy link

NicoLarrondo commented Oct 19, 2022 via email

@NicoLarrondo
Copy link

NicoLarrondo commented Oct 24, 2022

Hola de nuevo!
@rivaquiroga , fue un placer leer tu lección. Muy aclaradora.
Mis comentarios son pocos. Los iré explicando por párrafos:

  • 19 - Creo que la explicación de los Id podría ser más expecífica. Podría haber un enlace externo explicándo el término.
  • 31 - Añadir: Necesitamos la autorización de Amazon por escrito para extraer o reutilizar el contenido de su sitio web.
  • 35 - La aclaración "Es importante tener en cuenta que no todos los sitios web tienen un archivo robots.txt" que aparece al final del párrafo 35 debiese explicitarse en el párrafo 33. Hasta allí el lector puede inferir que robots.txt es un elemento que se puede encontrar en todos los sitios web. Es necesario hacer la aclaración en el párrafo 33 y reforzar posteriormente en el párrafo 35.

Muchos saludos

@JoshuaGOB
Copy link
Collaborator Author

Hola @rivaquiroga. Tengo excelentes noticias. @laviles2 se ha ofrecido para ser el segundo revisor. Bienvenido Luis y muchísimas gracias por tu disponibilidad. Como verás en los comentarios anteriores, ya @NicoLarrondo completó su revisión. Tan pronto envíes tus sugerencias, @rivaquiroga o yo haremos preguntas para aclarar cualquier duda y terminará su versión final. Estoy disponible para cualquier duda o pregunta durante el proceso así que no dudes de ponerte en contacto tanto aquí en los comentarios como por correo. ¡Muchas gracias y éxito!

@rivaquiroga
Copy link
Member

¡Muchas gracias por los comentarios, @NicoLarrondo! Y qué buena noticia que ya tenemos segundo revisor.
@JoshuaGOB, voy a esperar a que Luis haga su revisión para incorporar todos los cambios juntos.

@JoshuaGOB
Copy link
Collaborator Author

¡Hola equipo! Quería tocar base con las revisiones. ¿@laviles2 hay algo en lo que podamos ayudarte para pasar a la revisión final de @rivaquiroga?

@laviles2
Copy link

laviles2 commented Nov 15, 2022

Hola @rivaquiroga,

Me encanta el detalle con el que explicas los diferentes elementos en tu tutorial. Aquí dejo algunas sugerencias mientras lo completaba:

  • P. 8, "Los paquetes {rvest}, {stringr} y {readr}." recomiendo marcar el nombre de los paquetes en markdown.
  • P.57 recomiendo marcar el nombre de los paquetes en markdown
  • P. 57 para los paquetes especificados, puede ser que el sistema del lector no los tenga pre instalados. Recomiendo agregar instrucciones breves sobre la instalación de paquetes en caso de que no estén instalados. Puede ser como línea de código o nota de pie.
  • P.71 Para poder guardar los .txt, el usuario va tener que crear el archivo discursos para poder guardarlos. Recomiendo especificar esto al principio del tutorial en vez de P.71. Probablemente en el mismo lugar donde especifiques la instalación de los paquetes.

Muchas gracias por tomarte el tiempo en esta nota, me emocionará ver los próximos tutoriales.
Saludos,
-Luis

@rivaquiroga
Copy link
Member

¡Muchas gracias por las sugerencias, @laviles2!
@JoshuaGOB durante la semana actualizaré la lección.

@rivaquiroga
Copy link
Member

rivaquiroga commented Nov 29, 2022

@JoshuaGOB, ya incorporé los cambios, excepto lo relativo a poner los nombres de los paquetes en fomato código. La verdad es que hemos sido bastante inconsistentes en el tiempo. En algunas lecciones se han puesto entre comillas, en otras en formato código y en otras en negrita. Yo lo puse entre llaves porque es la forma en que los archivos de ayuda dentro de R se refieren a los paquetes, pero lo cierto es que la forma oficial, es decir, aquella que se usa en la documentación de R y en muchos de los libros publicados sobre este lenguaje de programación, es ponerlo en negrita. Así que opté por esa forma.

@rivaquiroga
Copy link
Member

¡Hola, @JoshuaGOB! Solo pasaba a preguntar cómo seguíamos con el proceso de edición. Sería bueno poder estimar cuándo podríamos empezar la revisión de estilo para avisar a José Antonio y que se pueda planificar.

@JoshuaGOB
Copy link
Collaborator Author

JoshuaGOB commented Dec 12, 2022

Hola @rivaquiroga. Creo que está lista para pasar a la revisión de estilo y lo de los paquetes me parece acertado. Mil gracias por tu paciencia y la ayuda de José Antonio. Solamente falta corregir lo que incluyo al final de este mensaje. También, no sé si ya tenías la imagen pensada pero encontré las siguientes por si te parecen bien:

https://tinyurl.com/5aeam7bp
https://tinyurl.com/mr3zsn57

74 - una determinado elemento
95 - pagina (falta el acento)
122 - una sitio web
174 - realizar al extracción.
219 - algun otro elemento (falta el acento)
221 - explorar lo que que está
241 - conicidas en inglés
375 - paǵinas al mismo tiempo

@rivaquiroga
Copy link
Member

@JoshuaGOB, listos los cambios.
La segunda imagen me parece bien :)

@jamotilla, esta lección está lista para el proceso de revisión de estilo.

@jamotilla
Copy link
Collaborator

Hola a todos y todas, he terminado la primer revisión de estilo de la lección. @rivaquiroga puedes revisar los cambios sugeridos en https://github.com/programminghistorian/ph-submissions/compare/copyedit-introduccion-al-web-scraping-usando-r
Quedo al pendiente
Saludos, J A

@rivaquiroga
Copy link
Member

¡Muchas gracias, @jamotilla! La única sugerencia que no incorporaremos es la relativa al formato de los nombres de paquetes de R, que discutimos más arriba durante la edición. Nuestra guía señala que el uso de negritas algo excepcional y este pareciera ser uno de esos casos.

@JoshuaGOB, durante la tarde incorporaré los cambios propuestos por José Antonio. Luego de eso la lección estaría lista para publicarse.

@rivaquiroga
Copy link
Member

@JoshuaGOB, el PR con la lección está listo para que lo revises aquí: programminghistorian/jekyll#2805

@rivaquiroga
Copy link
Member

La lección ya está publicada y el DOI activo: https://doi.org/10.46430/phes0061
@JoshuaGOB, solo faltaría anunciarla por Twitter.
¡Muchas gracias a todas las personas que participaron en el proceso: @NicoLarrondo, @laviles2, @jamotilla! ✨️

@rivaquiroga
Copy link
Member

Dejo acá como respaldo las versiones archivadas de los dos enlaces escrapeados por si alguna vez en el futuro los necesitamos (no sirve archivarlos con perma.cc)

https://web.archive.org/web/20230109204625/https://prensa.presidencia.cl/discurso.aspx?id=188237
https://web.archive.org/web/20230109204710/https://prensa.presidencia.cl/discurso.aspx?id=71722

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants