Skip to content

Latest commit

 

History

History
191 lines (106 loc) · 23.6 KB

examen.md

File metadata and controls

191 lines (106 loc) · 23.6 KB

EXAMEN TEÓRICO PERIODISMO DE DATOS

1. ¿Qué es el periodismo de datos? Aporta tus impresiones sobre el debate.

El periodismo de datos moderno nace en torno a 2006-2008 con la abundancia de software de código abierto, HTML 5 y Open Data. En EEUU el precedente de este periodismo es el denominado de precisión. 
 El periodismo de datos consiste en recabar y analizar grandes cantidades de datos mediante software especializado para hacerlo comprensible a la audiencia a través de diferentes técnicas para su visualización.

El debate viene por el nombre que se le ha otorgado a esta rama del periodismo a lo largo de la historia. Cuando empezó en Europa y EE.UU en 2008 se denominó “periodismo guiado por datos”.
La irrupción de los portales de datos abiertos hizo que se denominara “Data Driven journalism”, aunque luego se acortó a “Data Journalism”, pero ambos términos conviven. 
En EE.UU, el precedente del periodismo de datos es el de “precisión journalism” o “periodismo de precisión”. Lo cierto es que se denominó así en EE.UU para oponerse aun periodismo del estilo de Truman Capote. Este y otros usos de los ordenadores dieron en llamar a este periodismo como “Computer Assisted Reporting” o periodismo asistido por ordenador. Esta denominación pervive en la actualidad. Hay otras denominaciones en EE.UU como la que la comunidad de computer asiste repórters ha creado: News Nerdery. En Inglaterra, por ejemplo, la comunidad de periodistas de datos se ha denominado “Journocoders”, o perioprogramadores. Y en EE.UU, también una comunidad pionera fue la denominada “Hacks and Hackers”.

3. Cuando hablamos de periodismo o visualización de datos, ¿a qué datos nos referimos? Razona la respuesta.

El periodismo de datos usa la visualización de datos tanto en la etapa de análisis como en la de presentación de resultados. El periodismo de datos alude al uso de datos (de todo tipo) , pero no hay que olvidar que estos datos son registros electrónicos, que son aquellos datos que puede leer el ordenador. Para nuestras audiencias es fundamental porque será la etapa en la que esos datos se conviertan en algo comprensible para ellos.

5. Qué lenguajes informáticos conoces. Razona la respuesta.

Los lenguajes informáticos son todos los que entiende o puede entender el ordenador a través de software. Dentro de los lenguajes informáticos están los lenguajes estructurados, como pueden ser HTML o Markdown, que sirve para estructurar documentos. Y también están los lenguajes de programación que sirven para programar acciones que haga el ordenador. Entre estos se encuentran Java, C, C#, Python o R.

10. Qué tipos de interfaces de datos hay

Hay tres tipos de interfaces:

  • CLI de Command Line Interfaces o interfaces de línea de comandos GUI de Graphical User Interfaces o interfaces gráficas de usuario Las de los móviles, capacitivas

14 ¿Qué relación tiene el formato CSV con Excel?

Excel es un programa para visualizar y trabajar con datos tabulados y en formato XLSX. El formato CSV o Comma Separated Values es el heredero del TSV o Tab Separated Values, es decir, valores separados por tabuladores. Por lo tanto, la relación entre el formato CSV y Excel es que uno de los formatos de datos que se pueden visualizar y trabajos en Excel son los CSV, al ser una variante de los datos tabulados. 


16. ¿Qué tipos de formatos de datos hay? ¿Que similitudes y diferencias tienen?

Los tipos de formatos que hemos visto en clase son los siguientes: *SV o Valores Separados por cualquier valor: Normalmente serán llamados con terminaciones CSV, incluso aunque no utilicen comas para separar los valores. Son los más sencillos y los menos estandarizados. Los valores separados por comas se suelen ordenar en una tabla con filas y columnas. La mayoría de los recursos disponibles en los catálogos de Datos Abiertos se encuentran en formato CSV. JSON o Javascript Objetct Notation: Son los ficheros que mejor funcionan con la aplicación web, utilizan la sintaxis de JS. Permiten más complejidad que los *SV, por eso, son más complejos de leer. XML o extensible Markup Language: lenguaje de marcas extensibles, son los formatos más complicados de leer y trabajar con ellos.

18. ¿Qué programas se pueden utilizar para usar la terminal en Windows?

Para Windows tenemos Cygwin, Ofrece un conjunto de herramientas y programas que emulan una distribución Linux en Windows. Cada vez que queramos actualizar Cygwin o abrir un programa utilizaremos Apt-cyg que es un gestor de paquetes de Cygwin que funciona en línea de comandos. El nombre proviene de ser como un apto para Cygwin. Un APT (Advanced Package Tool) es un conjunto de herramientas para manejar los paquetes, programas, de los sistemas Debian GNU/Linux. Se ha hecho muy popular su funcionamiento y otros sistemas. Permite; instalar programs, desinstalar programs, actualizarlos, resolver dependencias de los programas de forma automática.

19. ¿Qué programa sirve para gestionar programas en la terminal de OSX?

MacOSX utiliza la terminal, que es una aplicación que encontramos disponible en “Utilidades”, para poder utilizar todos los comandos se requiere instalarse XCODE. Una vez que tenemos instalado Xcode. Instalamos Brew que es un gestor de programas para la terminal de Mac. Brew sirve para instalar programas que usan en la Terminal.

23. ¿Qué son git y Github?

Github es la suma de “git”, el software de control de versiones diseñado por Linus Torvalds, pensando en la eficiencia, la confiabilidad y compatibilidad del mantenimiento de versiones de aplicaciones cuando estas tienen un gran número de archivos de código fuente. Y “hub”, el espacio montado por GitHub. Github es un software de control de versiones que permite la colaboración y además ofrecealgunas posibilidades. Es un espacio donde podemos alojar los repositorios o proyectos git. Es como un Wordpress donde vamos a poner nuestros contenidos web. Se pueden crear repositorios, algo así como una carpeta de nuestro sistema de ficheros del ordenador. En Github, todo lo que escribamos va a ser en sintaxis simple Markdown.

34. ¿Qué tipo de dato de fecha elegirías para tus archivos? Razona tu respuesta.

Elegiría el tipo de dato numérico “date or datetime”: YYYY-MM-DD porque suele ser la forma más estándar. Dependiendo del país se utiliza un orden distinto, sin embargo, de esta manera se empieza por el año. Se va de lo general a lo particular. Además se utilizan “-” mejor que “/” que en ocasiones ha derivado en algún problema. 


6. ¿Cuál es la diferencia entre Internet y la Web? . Razona la respuesta.

A nivel técnico, la web es otro servicio de los que corren o se prestan en la red de redes que es internet. También es un sistema que comunica información que se comparte globalmente, es un espacio virtual de compartimentos que se relacionan entre sí y, a su vez, es una base de servidores. Internet, en cambio se denomina como “una red de redes” que funciona gracias a los protocolos de TCP/ IP. TCP es protocolo de control de la transmisión. IP es Internet Protocol, que es una dirección de la red local. Actualmente funcionamos con la versión original del protocolo, la denominada IPv4.

43. Qué son las entidades HTML y cómo se representan. Por un ejemplo

Las entidades HTML son un conjunto de caracteres o strings que empiezan por un ampersand & y terminan con un ; punto y coma. Por ejemplo, el carácter á se escribe &aacute. Las entidades HTML también nos sirven para conocer que en todos los lenguajes informáticos existen los caracteres reservados, es decir, caracteres que no podemos usar tal cual porque el lenguaje los entiende de una manera especial. HTML el carácter de < menor que, es el inicio de una etiqueta, si queremos poner una expresión matemática del tipo 4<6, cuatro es menor que seis, habrá que poner la entidad de ese carácter: 4<6, donde < corresponde al carácter < y donde lt viene de lower than. Si queremos usar el caracter en HTML, hemos de poner la entidad.

45. Pon un ejemplo de uso de “wildcards”

A la hora de listar, copiar, mover y otras operaciones se pueden usar las wildcards o comodines. Ejemplo: se tiene una carpeta en el escritorio de nombre data y dentro de ella hay archivos cdv, json y xls, todos en la misma carpeta. Y queremos organizar eso un poco por tipo de archivo. Entonces, creamos unas carpetas que se llamarán cdv, json y xls dentro de data. Nos situamos en el directorio data con el comando cd: cd-/Escritorio/data. Creamos las carpetas con mkdir: mkdir cdv json xls. Movemos los archivos con mv* json json/, y luego con los otros dos tipos de archivos.

46. ¿Qué función tiene la almohadilla en Markdown y en un programa de la shell? Razona tu respuesta.

En Markdown, la almohadilla funciona como un carácter que indica un encabezamiento de primer nivel h1. Sin embargo, en los archivos de configuración de la shell, la almohadilla, cuando aparece al principio de una línea, indica que esa línea está comentada, es decir, que contiene indicaciones para el lector de la plantilla pero el programa no la va a leer y ejecutar.

12. Elige una URL de una noticia de un medio de comunicación y explícala tal como hicimos en clase.

La URL o Unified Resource Locator o localizador de recursos uniformes es la dirección web. La URL junto con el hipertexto (expresado en HTML) y HTTP son conceptos clave para la web. Sobre esta web lo que encontramos son recursos, y a estornude la URL. Cada URL valida un recurso único. Los recursos que normalmente conocemos son páginas web, pero también pueden ser documentos CSS, imágenes, JS, archivos de datos, cualquier archivo disponible del servidor web. En una URL se pueden identificar 3 partes: https://, que indica el protocolo usado, https en el dominio que sea. La separación entre protocolo y dominio se realiza con : //. El dominio www.theguardian.com, es decir, lo que va entre :// y la primera /. El dominio se lee de derecha a izquierda en orden de importancia .com es el TLD, Top Level Domain o dominio de primer nivel. La última es un subdominio. World Wide Web es ua gran telaraña mundial que se denomina como una forma de organizar contenidos a través de sus dominios. La estructura de carpetas del servidor web, todo laque hay a la derecha de la barra inclinada después de .com.

2. ¿Qué es la visualización de datos? Aporta tus impresiones sobre el debate.

La visualización va más allá de la visualización como producto final. En la etapa de visualizar también realizamos análisis, aplicamos técnicas estadísticas, programas informáticos que hagan que de un gran volumen de datos seamos capaces de sacar hipótesis o conclusiones.

4. ¿Qué medio de comunicación inglés es fundamental en el periodismo y la visualización de datos?

The Guardian, puesto que fue uno de los primeros medios en aplicar el periodismo de datos moderno. 


7. ¿Qué fue determinante para el nacimiento del periodismo de datos moderno?

La abundancia de datos abiertos. HTML5 Open Data

Si nos remontamos al pasado hay que resaltar la década de los 50 con el surgimiento del periodismo asistido por ordenador (CAR) y el caso de la CBS.

8. Qué saberes están implicados en periodismo de datos. Razona la respuesta.

  1. El periodismo, y solo puede haber este si hay investigación
2. Los datos, es decir, registros electrónicos que han de ser tratados por ordenador 
3. La visualización de datos: desde la Web hasta el papel pasando por la estadística, las distintas visualizaciones o la infografía. 


20. ¿Qué es nano?

GNU nano es un editor de texto minimalista y amigable, para sistemas Unix basado en curses. El cual permite opciones como Operaciones de búsqueda y reemplazo interactivas, Permite las hacer y deshacer acciones, Coloreado de sintaxis, Auto sangrado, Desplazado suave por líneas en lugar de por pantalla, Permite ir directamente a un número de línea, Bloqueo de archivos y Autoguardado de archivos.

21. ¿Qué es Bootstrap?

Bootstrap es un framework CSS utilizado en aplicaciones front-end (en la pantalla de interfaz con el usuario) para desarrollar aplicaciones que se adaptan a cualquier dispositivo. El objetivo es ofrecer al usuario una experiencia más agradable cuando navega en un sitio web, por lo que tiene recursos para configurar los estilos de los elementos de la página de manera simple y eficiente, además de facilitar la construcción de las páginas. Fue desarrollado por Twitter en 2010 para estandarizar las herramientas de la compañía y un año más tarde se transformó en un código abierto. Combina CSS y JavaScript para estilizar los elementos de la página HTML.

53. Pon un par de ejemplos de Google Dorks u "operadores de búsqueda”

Un Google Dork es solo una búsqueda que utiliza una o más de estas técnicas avanzadas para revelar algo interesante. Es importante tener en cuenta que cualquiera puede rastrear la Web. Google indexa automáticamente un sitio web y, a menos que se bloquee de manera explícita la información confidencial (nofollow, robots.txt), se puede buscar todo el contenido a través de dorks o de operadores de búsqueda avanzada. Algunos ejemplos serían los siguientes:

OR ; Te muestra resultados que contengan cualquiera de las palabras que hayas incluido. AND Xataka and Basics; Busca páginas que incluya los dos términos especificados. FILETYPE: Busca resultados que contengan archivos con el formato que hayas especificado

13. ¿Qué significa el funcionamiento “cliente-servidor”?

La arquitectura cliente-servidor es un modelo de aplicación distribuida en el que las tareas se reparten entre los proveedores de recursos o servicios, llamados servidores, y los demandantes, llamados clientes. Un cliente realiza peticiones a otro programa, el servidor, quien le da respuesta. Esta idea también se puede aplicar a programas que se ejecutan sobre una sola computadora, aunque es más ventajosa en un sistema operativo multiusuario distribuido a través de una red de computadoras. 
La red cliente-servidor es una red de comunicaciones en la cual los clientes están conectados a un servidor, en el que se centralizan los diversos recursos y aplicaciones con que se cuenta; y que los pone a disposición de los clientes cada vez que estos son solicitados. Esto significa que todas las gestiones que se realizan se concentran en el servidor, de manera que en él se disponen los requerimientos provenientes de los clientes que tienen prioridad, los archivos que son de uso público y los que son de uso restringido, los archivos que son de sólo lectura y los que, por el contrario, pueden ser modificados, etc. Este tipo de red puede utilizarse conjuntamente en caso de que se este utilizando en una red mixta.

42. ¿En qué se diferencian las rutas absolutas de las relativas? Pon ejemplos de ambas.

Una ruta es una lista de nombres de directorio separados por barras, seguida por un nombre de directorio o por el nombre de un archivo. Una ruta absoluta o completa comienza con la letra de unidad seguida de dos puntos, por ejemplo, D:. Por otro lado, una ruta relativa hace referencia a una ubicación que es relativa a un directorio actual. Usan dos símbolos especiales: un punto (.) y dos puntos seguidos (..), lo que significa el directorio actual y el directorio padre. Los dos puntos seguidos se utilizan para subir en la jerarquía, mientras que el punto único representa el directorio actual. La ruta absoluta representa la ruta completa del recurso, parte del directorio raíz hasta llegar al archivo concreto que se está buscando. Por su parte, la ruta relativa representa solo una parte de la ruta, ya que en ella se tiene en cuenta el directorio actual desde el que se está trabajando.

La diferencia entre las rutas relativas y absolutas es que cuando se usan rutas relativas, se toma como referencia el directorio de trabajo actual, mientras que con las rutas absolutas se hace referencia al directorio desde su raíz, bien conocido.

38. ¿Qué hay que hacer para ver el valor de la variable de entorno de shell "PATH" con el comando “echo"?

echo $PATH, donde el símbolo del dólar indica que se trata de una variable

31. Si quisieras clonar un repositorio git, ¿qué pasos tendrías que dar? ¿Cómo comprobarías que ha funcionado?

Cd para ir a la carpeta que queramos y git clone. Nos crea una carpeta con el repositorio en localhost, que tiene el mismo contenido que el de la dirección desde donde me lo he clonado. Si hubiera hecho esto alguna vez tendría que ponerme dentro de la carpeta y actualizar con git pull.

25. Si quisieras ver la web theguardian.com, ¿cómo lo harías desde la línea de comandos?

lynx https://theguardian.com/
lynx -source https://theguardian.com/ (para que salga de manera textual y comprobar 
si está bien hecha) 


80. ¿Qué es Markdown?

Markdown, es dos cosas a la vez: es una sintaxis simple y un “paseador” o conversar de esa sintaxis de HTML. Vemso como laWeb funciona con lenguaje HTML, actualmente con la versión 5, HTML 5, pero es difícil la lectura de un texto de un código HTML. Por eso, Markdown es mucho más simple para la lectura, tan simple que a muchos sitios no llega, por eso desde el inicio se permite en Markdown usar también lenguaje HTML, si lo necesitamos. Así en Github, escribimos MarkDown y Github lo muestra como HTML, pero si vemos el archivo fiuente sigue siendo MarkDown. Tiene truco porque si se le da a “ver en código fuente” se ve en HTML, pero ese HTML no es el que se modifica para que se vea un HTML u otro, sino que lo que se modifica es MarkDown y luego se hace la conversión de nuevo. Markdown es un tipo de lenguaje informático de fácil manejo. Utiliza herramientas como los #, que permiten crear títulos o subtítulos. Tambien los números y las - sirven para ordenar la información. Además, los asteriscos podrán modificar las palabras a negrita o cursiva. Para guardar un archivo en este formato se deberá hacer de la siguiente manera: nombredelarchivo.md y no se podrán utilizar caracteres como ñ o tildes.

En cambio, el lenguaje HTML es más sofisticado y complejo, y se suele utilizar para la creación de páginas web. Sus principales caracteres son <>, además de p que indica el párrafo o h1, h2 (que sería el header) El lenguaje HTML es un lenguaje marcado por hipertenso, es uno de los lenguajes, básico y principal, que se utiliza en la web. Está estructurado de marcadas expresado en los signos <>. Dentro de las marcas se sitúan los elementos HTML, como por ejemplo, p de párrafo, o h1 de header, que es una especie de encabezado. HTML es un lenguaje informático, pero no es un lenguaje de programación.

47. ¿Dónde se guarda la configuración de tu shell? ¿Cuál es tu versión?

cat /etc/shells
Yo (Mac) uso zsh

51. ¿Qué comandos o expresiones le pasarías a =lolcat=? Pon un ejemplo.

ps | lolcat 
# date | lolcat
# cal | lolcat


24. ¿Cuál es la estructura de las sentencias/instrucciones en la línea de comandos?

- Poner el comando solo, como por ejemplo: pwd.
-  Argumentos, como por ejemplo listar un directorio: ls uc3m-periodismo-datos 


17. ¿Qué tipos de archivos de documentos de texto conoces?

La información de un ordenador está almacenada en lo que se llaman archivos. Normalmente los archivos están formados por un nombre, un punto y una extensión. El nombre nos sirve para diferenciar unos archivos de otros y la extensión para atribuirle unas propiedades concretas. Estas propiedades asociadas o "tipo de archivo" vienen dadas por las letras que conforman la extensión. Normalmente su máximo son tres letras aunque existen algunas excepciones (.jpeg, .html, .java, etc.). Cada uno de estos pequeños grupos de caracteres está asociado a un tipo de archivo. Podemos dividir los archivos en dos grandes grupos. Éstos son los ejecutables y los no ejecutables o archivos de datos. La diferencia fundamental entre ellos es que los primeros están creados para funcionar por sí mismos y los segundos almacenan información que tendrá que ser utilizada con ayuda de algún programa. Los tipos de archivo de texto más comunes son txt, doc, docx.

79. ¿Qué es una API?. Pon algún ejemplo

API significa interfaz de programación de acceso y serían los códigos para comunicarse en la web. Una API muy conocida en la web es la de HTTP.

100. ¿Quién es Philip Meyer?

El considerado como precursor del periodismo de datos es Philip Meyer. Comenzó en el Miami Herald (1958-1962), donde denunció el alto coste de los seguros escolares contra incendios y huracanes. Ese coste lo establecía un consejo de funcionarios, y él cruzó los nombres del consejo con personas de empresas y descubrió que el 65% de la financiación de las campañas electorales procedía de empresas asegurados. Percibió que, en esa época, en las ciencias electorales se estaban empleando herramientas informáticas, pero en el periodismo no. Buscó predecir los resultados electorales de Ohio sin éxito, por lo que estudió los métodos de investigación de las ciencias sociales para aplicarlos con éxito al periodismo. Aprendió estas técnicas trabajando con datos tabulados sobre Harvard Data-Text. Se dio a conocer en el campo del periodismo de datos con su trabajo sobre las Detroit Riots en el verano de 1967 en las que, tras una semana de incidentes, murieron 46 personas. Además de las historias periodísticas claras, se propuso realizar una encuesta que buscase las causas de la revuelta. En Watts, en 1965, hubo otra revuelta sobre la que se realizó un informe que llevó dos años de elaboración por la Universidad de California. Con la metodología que se había empleado en esa situación, intentó reproducir el estudio en Detroit pero para que le llevase dos/tres semanas hacerlo, puesto que le acuciaba la actualidad periodística. De esta manera, surgió el conocido como periodismo de precisión: el uso de métodos de análisis de las ciencias sociales unido a software estadístico y ordenadores para construir una historia periodística. Su trabajo se tradujo en el libro Precisión Journalism: A Reporter’s Introduction to Social Science Methods, fundamental dentro del periodismo. En su libro, Meyer sostiene que un periodista debe hacer uso de bases de datos y encuestas, ambas asistidas por computadora. En la edición de 2002, va aún más lejos y afirma que "un periodista tiene que ser gerente de bases de datos". En 2001, las computadoras habían alcanzado una masa crítica en las redacciones estadounidenses en términos de uso general de computadoras, investigación en línea, búsqueda de contenido no especializado y frecuencia diaria de uso en línea, lo que demuestra que la CAR se ha vuelto omnipresente en los Estados Unidos.

101. ¿Quién fue Florence Nightingale?

Florence Nightingale fue una enfermera, escritora y estadística y es considerada pionera de la enfermería moderna, al crear el primer modelo conceptual de enfermería. Al ser destinada en la Guerra de Crimea, creó visualizaciones de datos de los fallecidos en el conflicto. A su regreso a Londres, se dedicó a ordenar sus pruebas sobre la mala administración de los hospitales y a reunir estadísticas de mortalidad, con un claro objetivo: demostrar que los soldados fallecían a causa de las deplorables condiciones sanitarias en el hospital. Eran, por tanto, muertes que se podían evitar. Quería convencer al Gobierno británico de la necesidad de realizar reformas higiénicas en los hospitales. Y para ello pensó que la mejor forma era hacerlo gráficamente, porque las tablas de números no son útiles para convencer. Como ella decía, tenía que “lograr a través de los ojos lo que no somos capaces de transmitir a las mentes de los ciudadanos a través de sus oídos insensibles a las palabras”.