# Data Literacy

Las organizaciones se alimentan de datos, y los científicos y analistas de datos están a la vanguardia del trabajo con ellos. Pero no trabajan solos, e incluso el científico de datos más sofisticado técnicamente necesitará comunicarse y trabajar con los datos.

Veremos como construir la base conceptual que necesita tanto para trabajar con datos usted mismo como para presentar sus conocimientos a los equipos adyacentes.

Todavía no hay programación, pero llegaremos allí. Por ahora, únase a nosotros en un viaje para explorar los componentes básicos de los datos y establecer vocabulario e ideas comunes.

### ¿Qué cubrirá la alfabetización de datos?
* Estudios de casos sobre lo que puede salir mal, y lo correcto en los proyectos de datos.
* Supuestos básicos de trabajar con diferentes tipos de datos.
* Cómo afectan los tipos de datos al análisis.
* Ideas estadísticas fundamentales.
* Ideas clave detrás de buenas (y engañosas) visualizaciones.

Al finalizar, usted será capaz de:

* Detecte datos desordenados y haga un plan para limpiarlos.
* Evaluar críticamente si una técnica estadística es una buena idea.
* Aplicar métodos apropiados de manipulación de datos.
* Encuentra la diferencia entre visualizaciones buenas y malas.
* Haga un plan sobre cómo transformar una mala visualización en una buena.
* Haga referencia a estudios de casos clásicos que involucran un análisis de datos perfecto y deficiente.

Lo primero es lo primero, respondamos a una pregunta crucial: ¿Por qué es importante la alfabetización de datos? En otras palabras, ¿por qué alguien debería aspirar a ser alfabetizado en datos?

¡Hay muchas buenas respuestas! En esta lección, veremos cómo la alfabetización de datos ayudó a los médicos del siglo 19 a poner fin a las epidemias de cólera y descubrir la causa raíz de la enfermedad. Exploraremos cómo ha ayudado a revelar la discriminación en entornos difíciles de medir, como las prácticas de contratación y avanzar en el conocimiento médico al mejorar la calidad de los datos de los ensayos clínicos.

La alfabetización de datos también nos ayuda a producir un trabajo legible para otras personas. Como veremos, incluso cuando hay buenos datos, la incapacidad de contar una historia clara puede tener consecuencias nefastas.

No es ningún secreto que los datos son una herramienta increíblemente poderosa. Con todo lo que está en juego, tampoco es una sorpresa que comprender una conclusión basada en datos pueda parecer abrumador a veces, tanto como miembro de la audiencia como analista. No importa de qué lado nos encontremos, la alfabetización de datos se trata de qué tan bien leemos, interpretamos y nos comunicamos con los datos.

Profundicemos en algunos estudios de caso sobre triunfos y fracasos de la alfabetización de datos.

## Lagunas de datos
Basura dentro, basura fuera es una frase del mundo de los datos que significa "nuestras conclusiones basadas en datos son tan sólidas, sólidas y bien respaldadas como los datos detrás de ellas".

<img src="imagenes/1.png">

Por ejemplo: tenemos muchos datos sobre ataques cardíacos, pero hay margen de mejora cuando se trata de la calidad de los datos. La enfermedad cardíaca es la principal causa de muerte en las mujeres, pero a partir de 2021, las mujeres representan solo el 38% de los participantes en estudios de investigación relevantes.

Existen diferencias clave entre los ataques cardíacos de hombres y mujeres que afectan la forma en que se tratan, pero nuestros datos aún no describen adecuadamente esas diferencias. En última instancia, esto conduce a peores resultados en el tratamiento y una mayor tasa de mortalidad posterior al ataque cardíaco para las mujeres.

¿Cómo influye la alfabetización de datos? Parte de la comprensión y la comunicación con los medios de datos Hacer las preguntas correctas para que terminemos con datos útiles y relevantes. Ya podemos responder muchas preguntas sobre ataques cardíacos, pero no aprenderemos los entresijos de los ataques cardíacos de las mujeres estudiando principalmente a los hombres.

Parte de practicar una buena alfabetización de datos significa preguntar ...

¿Tenemos datos suficientes para responder a la pregunta en cuestión?

¿Pueden mis datos responder a mi pregunta exacta?

## Abordar el sesgo

Una pregunta que los datos sobre ataques cardíacos podrían provocar es "¿por qué los ensayos tuvieron solo un 38% de participación femenina?"

<img src="imagenes/2.png">

En parte, por razones históricas: en la década de 1950, a las mujeres embarazadas en Europa y Canadá se les recetó un medicamento llamado talidomida para las náuseas matutinas. Este medicamento resultó en defectos congénitos graves y fue retirado del mercado. Como resultado, en 1977 la Administración de Alimentos y Medicamentos de los Estados Unidos (FDA) recomendó excluir de los ensayos clínicos en etapa temprana a todas las mujeres que podrían quedar embarazadas. Si bien la intención es proteger a las mujeres, la recomendación las puso en riesgo de una manera diferente, limitando nuestro conocimiento de los efectos de las drogas en los cuerpos de las mujeres.

La FDA revirtió estas recomendaciones en la década de 1990, y hoy los ensayos clínicos financiados por el gobierno deben incluir a mujeres y otras minorías. Sin embargo, los ensayos no necesitan incluir grupos minoritarios a niveles representativos, y la mayoría de los ensayos de medicamentos en los Estados Unidos no están financiados por el gobierno de todos modos.

En este caso, la participación también podría verse afectada por las representaciones de los medios de comunicación. En los típicos ataques cardíacos de televisión o películas, casi siempre vemos a un hombre agarrándose el brazo o el pecho. Las mujeres no solo tienen ataques cardíacos (no lo sabríamos viendo la televisión), sino que rara vez experimentan dolor en el pecho como síntoma.

(De hecho, en las 20 mejores películas de "ataque al corazón" * en IMDB, solo dos ataques cardíacos le suceden a las mujeres: uno es falso y el otro es un asesinato disfrazado. Así que... ¡Cero ataques cardíacos reales en mujeres en una lista de las 20 mejores películas de "ataque cardíaco"!)

Puede parecer un tramo desde la alfabetización de datos hasta los ataques cardíacos en la televisión, pero la ciencia sólida significa examinar el sesgo y controlar las variables siempre que sea posible.

Parte de practicar una buena alfabetización de datos significa preguntar ...

¿Quién participó en los datos?
¿Quién queda fuera?
¿Quién hizo los datos?

* Las mejores películas con la palabra clave "ataque al corazón" donde en realidad hay un ataque cardíaco mencionado o mostrado en la película, no El Exorcista, que está en esa lista porque las personas han tenido ataques cardíacos mientras la veían...

## ¿Qué es la estadística?
Ahora echemos un vistazo a un estudio de caso que muestra el valor de la alfabetización de datos en el sistema legal.

<img src="imagenes/3.png">

Las grandes injusticias amorfas, como la discriminación en la contratación, son difíciles de probar en los tribunales. La discriminación en la contratación es un patrón de comportamiento sesgado hacia los candidatos. Este sesgo hace que los candidatos calificados no sean contratados debido a sus rasgos.

A lo largo de la década de 1900, las empresas en los Estados Unidos pudieron justificar la contratación caso por caso. Después de todo, es legal contratar o no contratar candidatos basándose en parte en cualidades blandas como "ajuste" y "cultura de oficina". Pero si estas cualidades son una máscara para factores como la raza, el género o la capacidad de un candidato, la compañía ha violado las leyes contra la discriminación.

Por lo general, un abogado tendría que mostrar los muchos casos individuales que demostraron que una empresa era discriminatoria. En cambio, la abogada Elaine W. Shoben trasladó la carga de la prueba a las empresas. ¿Cómo pudo hacer esto con la alfabetización de datos? ¡Ella usó el poder de las estadísticas! Las estadísticas nos ayudan a probar la probabilidad de que ocurra un evento por casualidad versus sistemáticamente.

¿Qué significa eso realmente? Por ejemplo, es más probable que vea más autos en la carretera a las 8 a.m. del miércoles que a las 8 a.m. del domingo. Esto no es una ocurrencia aleatoria: el aumento de automóviles se explica sistemáticamente por la existencia de horas pico debido al horario comercial estándar. Estadísticamente es más probable ver muchos autos durante la hora pico que en otros momentos.

Veremos en el próximo ejercicio exactamente cómo Elaine Shoben usó las estadísticas para cambiar la forma en que evaluamos el sesgo en la contratación.

## Estadísticas en el trabajo
Entonces, ¿cómo demostró Elaine Shoben que la discriminación estaba en juego en las decisiones de contratación? Es un poco pesado en la jerga legal, pero podemos desglosarlo para ver cómo funciona.

1. Primero, dijo que podemos usar estadísticas para ver si los resultados de contratación de entrevistas subjetivas son tan improbables que no podrían haber sucedido por casualidad. En otras palabras, ¿es posible (en términos estadísticos) que el patrón de quién consiguió el trabajo pueda basarse en el azar?
2. Si los resultados no pueden suceder por casualidad, entonces la alternativa es que deben ocurrir por "exclusión intencional". En otras palabras, significaría que las personas son excluidas del trabajo por prácticas de contratación discriminatorias.
3. Si los empleadores son conscientes del "efecto excluyente" y continúan utilizando ese mismo proceso de contratación, entonces están mostrando un "desprecio imprudente" por los derechos de los candidatos individuales a no ser discriminados en el proceso de contratación.
4. Una vez que reconocemos eso, la carga se traslada a los empleadores para demostrar por qué sus requisitos de contratación son válidos y necesarios. Ya no asumimos que las prácticas de contratación son legítimas y hacemos que los candidatos demuestren lo contrario.

¡Estadísticas en acción! Eso es definitivamente un poco de jerga legal, pero qué genial es usar estadísticas para revelar un patrón sistemático de discriminación, en lugar de tratar de reconstruir un caso a partir de experiencias individuales. De eso se trata realmente las estadísticas.

El transbordador espacial Challenger transportaba a siete astronautas estadounidenses que se suponía que desplegarían un satélite y estudiarían el cometa Halley mientras estaban en órbita. Sin embargo, menos de dos minutos después del despegue, el transbordador explotó, matando a los siete miembros de la tripulación.

La explosión fue causada por una falla de dos juntas tóricas: pequeños anillos de goma que ayudaron a crear un sello hermético entre el transbordador espacial y su suministro de combustible de lanzamiento. Antes del lanzamiento, los ingenieros estaban preocupados por cómo el pronóstico de baja temperatura afectaría la capacidad de las juntas tóricas para hacer un sello adecuado.

Los ingenieros presentaron sus argumentos a favor de posponer el lanzamiento utilizando, en parte, una serie de visualizaciones de datos que mostraron tasas de éxito de lanzamiento a varias temperaturas. Trágicamente, sus argumentos no impidieron que el lanzamiento continuara.

## Aritmética
La pregunta clave del análisis es: "¿Cuál es la conclusión?"

<img src="imagenes/4.png">

Comencemos con un humilde recordatorio de que los humanos tienen algunas limitaciones cuando se trata de números.

En general, somos muy buenos cuando se trata de números que podemos contar, o números que usamos en contexto. Por ejemplo, el dinero tiene mucho sentido en cantidades cotidianas como café, facturas o alquiler. Podemos visualizar lo que significan esos números y entender las consecuencias de que aumenten o disminuyan en, digamos, un 20%.

Pero los números sin contexto cotidiano son otra historia. Piense en el PIB de un país, o la riqueza personal de un multimillonario malvado. ¿Cómo cambiaría ese número si le agregamos un 20%? Probablemente podamos hacer el cálculo sin demasiado desafío, pero ¿qué significa realmente el cambio en ese número en términos de la vida real?

Con números realmente grandes (o realmente pequeños), se necesita especial cuidado y atención para comprender qué tan grande o pequeña es la cantidad.

En ese sentido, los poderes de diez hacen una gran diferencia, ¡especialmente a gran escala! ¿Un millón vs. mil millones? ¡Realmente diferente! (1 millón de segundos es igual a unos 11 días. 1.32 millones de segundos equivalen a unos <> años)

Parte del trabajo de un analista es proporcionar contexto y aclaraciones para asegurarse de que las audiencias no solo lean los números correctos, sino que entiendan lo que significan.

## Recoleccion de datos
Aprenda sobre dónde obtenemos datos y qué debemos considerar éticamente.

<img src="imagenes/5.png">

La mayoría de las personas son conscientes de que las visualizaciones de datos, los algoritmos de aprendizaje automático y los análisis requieren datos. Pero, ¿de dónde provienen esos datos? ¿Todos tienen acceso a los datos para el análisis?

En esta seccion, cubriremos:

* La importancia de la ética en la recolección de datos.
* Cómo se pueden recopilar los datos.
* Fuentes comunes de conjuntos de datos disponibles gratuitamente.

### Ética y privacidad de los datos
Siempre que hablamos de recopilación de datos, necesitamos discutir la ética de los datos. Gran parte de los datos disponibles para nosotros provienen de individuos y se considerarían personalmente identificables, lo que significa que podríamos usarlos para identificar a alguien. Muchas personas usan el acrónimo PII (pronunciado "pie" – ¡mmm!) para el término "información de identificación personal". Ejemplos de PII son dirección, correo electrónico, número de teléfono, números de seguro social, números de tarjetas de crédito y registros médicos. Todos tenemos la obligación de proteger la información de identificación personal.

Las cuestiones éticas relacionadas con la recopilación de datos se pueden dividir en las siguientes categorías:

1. Consentimiento: Las personas deben ser informadas y dar su consentimiento para que se recopile información.
2. Propiedad: Cualquier persona que recopile datos debe ser consciente de que las personas tienen la propiedad de su información.
3. Intención: Las personas deben ser informadas sobre qué información se tomará, cómo se almacenará y cómo se utilizará.
4. Privacidad: La información sobre las personas debe mantenerse segura. Esto es especialmente importante para cualquier y toda la información de identificación personal.

### Recogida de datos
Recopilamos, procesamos y analizamos datos para comprender mejor nuestro mundo y tomar decisiones más informadas. El primer paso en cualquier trabajo de datos es recopilar los datos en sí. Los datos pueden provenir de muchos lugares, incluyendo investigación, gobiernos, tecnología, observación o directamente de individuos: ¡la lista es interminable!

Recopilamos estos datos de muchas maneras diferentes. Una forma es buscar información que aún no existe y medirla directamente. Esto puede incluir actividades como encuestas, estudios observacionales o registrar los resultados de un experimento. Este tipo de datos pueden considerarse estáticos, lo que significa que la información se recopila una vez y no cambia. Piense en realizar una encuesta por correo: los resultados de la encuesta se recopilan y registran solo una vez.

<img src="imagenes/6.png">

Los datos también pueden estar activos y en constante cambio en función de la información más actualizada. Por ejemplo, las aplicaciones y los sitios web pueden rastrear los clics y el tiempo dedicado a las páginas de varios usuarios al mismo tiempo sin que un humano registre activamente todos los puntos de datos. A diferencia de los datos estáticos de los métodos más tradicionales, los sensores y rastreadores también pueden actualizar continuamente los datos para incluir nueva información en una transmisión en vivo. Piense en las predicciones meteorológicas: los datos que entran en las predicciones meteorológicas se actualizan continuamente para obtener las predicciones más precisas.

Finalmente, en lugar de recopilar mediciones directamente, también podemos usar datos existentes que fueron recopilados por otros o para algún otro propósito. Hay muchas bases de datos que están disponibles gratuitamente para uso público. Incluso podemos recopilar datos de una variedad de fuentes y unirlos antes de un análisis.

### Fuentes de datos
Muchas organizaciones albergan todo tipo de datos. Los conjuntos de datos a menudo se mantienen privados o solo se puede acceder a ellos por una tarifa. Esto se puede hacer por razones como proteger la identidad de las personas, mantener información valiosa de los competidores o obtener ganancias de la recopilación de datos.

La siguiente lista tiene enlaces y descripciones de sitios web que proporcionan acceso gratuito a algunos conjuntos de datos interesantes. Las empresas y organizaciones en esta lista proporcionan acceso público a los datos, lo que permite a cualquier persona con acceso a Internet ver esta información. Los sitios web varían en la forma en que proporcionan acceso a los datos: algunos pueden tener un archivo de datos CSV o Excel que se puede descargar fácilmente a una computadora, mientras que otros permiten el acceso a una base de datos a través de una API.

1. [Organización Mundial de la Salud (OMS)](https://www.who.int/data/gho/): Los datos disponibles en el sitio de la OMS cubren una variedad de temas relacionados con la salud, como COVID-19, contaminación del aire e incluso salud cerebral. Hay hojas informativas y acceso directo a varios conjuntos de datos, que incluyen:
 * [Salud mental](https://www.who.int/health-topics/mental-health#tab=tab_1)
 * [Mortalidad por accidentes de tráfico](https://www.who.int/health-topics/mental-health#tab=tab_1)
2. [FiveThirtyEight](https://data.fivethirtyeight.com/): Este es un sitio web de análisis muy popular que proporciona acceso directo a algunos de sus conjuntos de datos. Los temas incluyen deportes, política, ciencia y salud, cultura y economía. Echa un vistazo a algunos de estos hallazgos interesantes:
  * [Encuestas políticas](https://projects.fivethirtyeight.com/polls/)
  * [Los mejores jugadores de la NBA](https://projects.fivethirtyeight.com/nba-player-ratings/)
3. [Data.gov](https://www.data.gov/): El gobierno de EE.UU. tiene su propia recopilación de datos abiertos. El sitio incluye información sobre agricultura, clima, energía y muchos otros temas. Estos son algunos conjuntos de datos únicos:
  * [Límites marítimos y límites](https://catalog.data.gov/dataset/maritime-limits-and-boundaries-of-united-states-of-america#topic=ocean_navigation)
  * [Puntos de aterrizaje de tornado](https://catalog.data.gov/dataset/tornados-mid-atlantic-states-1950-to-2004)
  * [Datos del censo de los Estados Unidos de América](https://www.census.gov/data.html)
  * [Datos censales de los países de la UE](https://ec.europa.eu/eurostat/web/population-demography/population-housing-censuses)
4. [Datos de Unicef](https://data.unicef.org/): El equipo de datos y análisis de UNICEF proporciona acceso mundial a los datos sobre la infancia. Esta organización cree que los datos correctos en las manos correctas pueden ayudarnos a tomar decisiones informadas y equitativas. Puede ver una variedad de temas y datos de varios países.

<img src="imagenes/7.png">

¿Buscas algo específico? [Búsqueda de conjuntos de datos de Google](https://datasetsearch.research.google.com/) Funciona como una barra de búsqueda de Google para conjuntos de datos. ¡Creemos que los siguientes conjuntos de datos parecen realmente interesantes!

* [Orquídeas](https://datasetsearch.research.google.com/search?query=Value%20of%20the%20import%20and%20export%20of%20orchids%20in%20the%20Netherlands%202008-2020&docid=L2cvMTFweDF5bnRzOQ%3D%3D) ¿Sabías que el valor total de los árboles, plantas y flores exportados desde los Países Bajos en 2020 fue de casi 9.8 millones de euros?
* [Biodiversidad en los parques nacionales de Estados Unidos](https://datasetsearch.research.google.com/search?query=national%20parks&docid=L2cvMTFqbl82ZmdmeQ%3D%3D) ¿Sabías que Haliaeetus leucocephalus (también conocido como águila calva) se puede encontrar en casi todos los parques nacionales de los Estados Unidos? Consulte este archivo de datos para explorar especies animales y vegetales que han sido identificadas y verificadas por evidencia en parques nacionales.
* [Ingresos de la industria cosmética y de belleza en los EE.UU.](https://datasetsearch.research.google.com/search?query=cosmetics&docid=L2cvMTFuZmJqOWtsXw%3D%3D) Hablando de mucho dinero: se estimó que los ingresos de la industria cosmética de los Estados Unidos ascendieron a unos 49.2 millones de dólares estadounidenses en 2019

## Introducción a los tipos de datos y su calidad
Los fundadores de Google estaban jugando con el término matemático, "googol", que es un 1 con 100 ceros después de él (un número tan grande que es bastante incomprensible para la gente). Y Google sabía que estaban trabajando con una cantidad incomprensible de datos.

Pero, ¿cómo se ven todos esos datos? ¿Y qué significa trabajar con un conjunto de datos?

Los datos pueden significar muchas cosas, pero dentro de la ciencia de datos, generalmente significa una colección de observaciones organizadas.

Hay dos tipos de organización: metodología y forma.

La metodología es cómo se recopilaron los datos. Profundizaremos en eso más adelante en esta lección.

La forma más común para los datos es una hoja de cálculo o tabla. Donde las cosas que estamos midiendo (variables) están en las columnas, y las instancias individuales (observaciones) están en las filas.

Esta no es la única forma de organizar los datos, pero es la más común.

### La forma de los datos
Para su nuevo rol como censista de árboles, comenzará con la altura y las especies. 'Altura' y 'Especie' son nuestras variables. La altura de cada árbol puede "variar" de un árbol a otro (de ahí el nombre).

Cada árbol individual se llama entidad, observación o instancia (hay muchos nombres para esto). Nos quedaremos con las observaciones, pero sabemos que estos tres términos se usan indistintamente.

En un conjunto de datos bien organizado, las variables describen una característica de nuestras entidades. Sin embargo, puede ser sorprendentemente difícil definir buenas variables. Las buenas variables miden solo una característica y no deben ser una característica en sí mismas. Veamos un ejemplo.

Por ejemplo, en nuestro conjunto de datos de árbol, estamos interesados en el tipo de entorno en el que se encuentra el árbol. Por ejemplo, estamos viendo árboles a lo largo de las calles de la ciudad, carreteras y en áreas subdesarrolladas. También queremos saber si los árboles están solos o con otros.

Hay muchas maneras de organizar esto. Podríamos:

Haga 3 nuevas variables: 'Ciudad', 'Carretera', 'No desarrollado' e ingrese 'solo' o 'grupo' en los valores.
Cree 2 nuevas variables: 'Ubicación' y 'Único' e ingrese el tipo de ubicación en la variable 'Ubicación' y 0 o 1 en la variable 'Único'.
La opción 1 puede parecer correcta durante la fase de recopilación, pero será difícil cuando comencemos a intentar analizar los datos. Por ejemplo, encontrar todos los árboles de "Ciudad" o "Carretera" y luego segmentarlos solo sería un desafío.

Es posible que ya haya notado que 'Ciudad', 'Carretera' y 'Sin desarrollar' se pueden agrupar como una característica (y hay categorías como 'Parque' o 'Patio' que faltan). En lugar de nombrar nuestras variables para las categorías en sí, es mejor tener una variable llamada 'Tipo de ubicación' e ingresar todos los valores posibles. Esto facilitará el análisis más adelante, y podemos agregar nuevas categorías si lo necesitamos (como 'Parque').

Parece que la opción (2) es la mejor organización para nosotros.

Pero, ¿qué pasa con 'Solo' y 'Grupo'? Bueno, hablaremos más sobre esto más adelante, pero por ahora, solo sepa que el nombre de la variable será 'Single', y lo completaremos con 1 para True / Yes y 0 para False / No.
<img src="imagenes/8.png">
Compare la organización de los conjuntos de datos a la derecha. Tenga en cuenta que con el conjunto de datos ordenado, cada variable tiene un valor para cada observación. Esto no siempre es posible, pero es ideal.

### Tipos de variables
En nuestro censo de árboles, estamos recopilando datos sobre dos tipos de variables: una que medimos (altura) y otra que categorizamos (especies).

La diferencia entre medir y categorizar es tan importante que los datos en sí se denominan de manera diferente:

* Las variables que se miden son variables numéricas
* Las variables que se clasifican son variables categóricas.

#### Variables numéricas
Las variables numéricas son una combinación de la medida y la unidad. Sin la unidad, una variable numérica es sólo un número.

Imagina que entro en un café y le pido al barista 3. ¿Tres qué? ☕? 🍩? 💵? O mi amigo me pregunta qué tan lejos está Toledo y yo digo 300. ¿300 millas? ¿Kilómetros? ¿Acta? Sin unidades, los números no significan nada.

Hay dos formas de obtener un número: contando y midiendo. Contar nos da números enteros y variables discretas. La medición nos da valores potencialmente parciales y variables continuas.

En nuestro censo de árboles, estamos midiendo la altura de nuestros árboles en pies (indicado en el nombre de la variable, 'Altura (pies)'), una variable continua.

#### Variables categóricas
Las variables categóricas describen características con palabras o valores relativos.

En el censo de árboles, las especies de árboles se describen con palabras como London Plane, Honeylocust o Pin Oak. Esta es la mejor descripción y codifica toda la información que necesitamos sobre la especie. Este tipo de variable categórica es una **variable nominal** que literalmente significa un valor con nombre.

También capturamos si nuestros árboles crecían solos o no. En nuestra variable 'Single', solo había dos opciones: Sí y No. Esto se llama **variable dicotómica**. Las variables dicotómicas tienen solo 2 posibilidades lógicas, "encendido / apagado", "sí / no", "verdadero / falso", "0/1", no hay término medio y no hay 3ª opción. Si hay una tercera opción lógica, no es una variable dicotómica.

Finalmente, digamos que queríamos capturar lo "bonito" que pensábamos que era cada árbol. Esto no es realmente algo que podamos medir, pero podemos decir subjetivamente en una escala del 1 al 5, lo bonito que creemos que es cada árbol. Los árboles más bonitos son un 5, los árboles menos bonitos son un 1.

Esa clasificación está inherentemente ordenada y, por lo tanto, se llama variable ordinal.

Las variables ordinales son muy populares en el diseño de encuestas "en una escala de 1 a 5, ¿cuánto está de acuerdo con esta afirmación?" Esto se llama escala likert. También aparecen en los Juegos Olímpicos y otras competiciones donde alguien gana el 1er, 2do o 3er lugar.

Las variables ordinales pueden ser un poco confusas porque a menudo se representan como números. Pero no representan medidas o recuentos, representan categorías. Por ejemplo, digamos que un atleta olímpico gana medallas de oro y bronce, no tiene sentido decir que promedió plata. Lo mismo ocurre con las escalas likert: no hay promedio entre "Muy bonita" y "Bonita".

### Manejo de datos desordenados

Los conjuntos de datos limpios son todos iguales, pero cada conjunto de datos desordenado es desordenado a su manera única. Es por eso que limpiar datos implica considerar críticamente los matices del conjunto de datos con el que está trabajando.

Afortunadamente, hay algunos patrones en lo que puede salir mal, y el primer paso para limpiar los datos es saber qué buscar.

### ¿Qué es un conjunto de datos desordenado?
Imagina que estamos afuera recopilando los datos sobre nuestros árboles. Tenemos nuestro iPad y nuestra cinta métrica. Nuestros dedos están fríos, estamos distraídos por un hermoso pájaro 🦜, y estamos listos para el almuerzo 🍕, pero solo tenemos que medir y categorizar estos últimos 3 árboles. Las últimas 3 entradas se ven así:

<img src="imagenes/9.png">

¡Sí! Qué lío. Pero tenemos hambre, así que decidimos solucionar los problemas después del almuerzo. Nunca se arreglan. Seis semanas después, estamos de vuelta en nuestro escritorio listos para analizar nuestros datos. ¡No! Tenemos más de 10.000 observaciones y bastantes problemas.

Problemas de datos desordenados
Los diferentes problemas deben manejarse de manera diferente, así que vamos a categorizarlos:

Errores tipográficos como Tuuullip para Tulip
Faltan datos como el Pin Oak (ID de árbol 11222) que no tiene una altura
Codificación inconsistente como el valor de Belleza del Pin Oak (árbol 18564) es 'tres' en lugar de '3' y el valor Single para todos nuestros árboles es 'no' en lugar de '0'.
Si no solucionamos estos problemas, es probable que terminemos con problemas en nuestro análisis. Por ejemplo:

* Los tulipanes se pueden dividir en 2 categorías
* Podríamos obtener una altura promedio inexacta para Pin Oaks porque nos falta un punto de datos
* Nuestro equipo puede devolver un mensaje de error cuando intentamos agrupar árboles en su valor de belleza o encontrar todos los árboles que crecen solos.

Encontrar y resolver estos problemas requiere trabajo de detective. Por ahora, solucionaremos estos problemas manualmente, pero sepa que si trabaja con datos, volverá a ver estos problemas.

#### Intrucciones

Corrija los datos.

Tenga en cuenta que tendrá que usar algunas habilidades de detective para dos de los puntos de datos. Para el error tipográfico, ¿cuál es el error tipográfico más probable que resultaría en una altura de .90? Para los datos que faltan, en realidad no podemos saber cuál debería ser el valor. Una mejor suposición es tomar la media de los otros Pin Oaks.

|ID|Height (ft)|Species|Location|Type|Single|Prettiness|
|--|--|--|--|--|--|--|
|21246|6.0|Pin Oak|Highway|0|three|
|11239|10.0|Pin Oak|High way|0|5|
|11555|12.3|Honeylocust|Highway|no|2|
|21149|.90|Honeylocust|Highway|0|1|
|11222|nan|Pin Oak|Highway|0|1|