### All days of the challange:

* [Day 1: Handling missing values](https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values)
* [Day 2: Scaling and normalization](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data)
* [Day 3: Parsing dates](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/)
* [Day 4: Character encodings](https://www.kaggle.com/rtatman/data-cleaning-challenge-character-encodings/)
* [Day 5: Inconsistent Data Entry](https://www.kaggle.com/rtatman/data-cleaning-challenge-inconsistent-data-entry/)
___
¡Bienvenido al día 1 del Desafío de datos de 5 días! Hoy, veremos cómo lidiar con los valores perdidos. Para comenzar, haga clic en el botón azul "Fork Notebook" en la esquina superior derecha. Esto creará una copia privada de este cuaderno que puede editar y jugar. Una vez que haya terminado con los ejercicios, puede optar por hacer público su cuaderno para compartirlo con otros. :)

> **¡Tu turno!** Mientras trabajamos en este cuaderno, verá algunas celdas del cuaderno (un bloque de código o texto) que tiene "¡Tu turno!" escrito en él. Estos son ejercicios que puede realizar para ayudar a consolidar su comprensión de los conceptos de los que estamos hablando. Una vez que haya escrito el código para responder una pregunta específica, puede ejecutar el código haciendo clic dentro de la celda (cuadro con el código) con el código que desea ejecutar y luego presione CTRL + ENTER (CMD + ENTER en una Mac ). También puede hacer clic en una celda y luego hacer clic en la flecha derecha "reproducir" a la izquierda del código. Si desea ejecutar todo el código en su cuaderno, puede usar las flechas dobles de "avance rápido" en la parte inferior del editor del cuaderno.

Esto es lo que haremos hoy:

* [Take a first look at the data](#Take-a-first-look-at-the-data)
* [See how many missing data points we have](#See-how-many-missing-data-points-we-have)
* [Figure out why the data is missing](#Figure-out-why-the-data-is-missing)
* [Drop missing values](#Drop-missing-values)
* [Filling in missing values](#Filling-in-missing-values)

¡Empecemos!

# Eche un primer vistazo a los datos
________

Lo primero que tendremos que hacer es cargar las bibliotecas y los conjuntos de datos que usaremos. Por hoy, usaré un conjunto de datos de eventos que ocurrieron en los juegos de fútbol americano para la demostración, y usted usará un conjunto de datos de permisos de construcción emitidos en San Francisco.

> **¡Importante!** ¡Asegúrese de ejecutar esta celda usted mismo o el resto de su código no funcionará!

In [None]:
# modules we'll use
import pandas as pd
import numpy as np

# read in all our data
nfl_data = pd.read_csv("../input/nflplaybyplay2009to2016/NFL Play by Play 2009-2017 (v4).csv")
sf_permits = pd.read_csv("../input/building-permit-applications-data/Building_Permits.csv")

# set seed for reproducibility
np.random.seed(0) 

Lo primero que hago cuando obtengo un nuevo conjunto de datos es echarle un vistazo. Esto me permite ver que todo se lee correctamente y tener una idea de lo que está sucediendo con los datos. En este caso, estoy buscando para ver si veo algún valor faltante, que se representará con `NaN` o `None`.

In [None]:
# look at a few rows of the nfl_data file. I can see a handful of missing data already!
nfl_data.sample(5)

Sí, parece que faltan algunos valores. ¿Qué pasa con el conjunto de datos sf_permits?

In [None]:
# your turn! Look at a couple of rows from the sf_permits dataset. Do you notice any missing data?

# your code goes here :)

# Vea cuántos puntos de datos faltantes tenemos
___

Bien, ahora sabemos que tenemos algunos valores perdidos. Veamos cuántos tenemos en cada columna.

In [None]:
# get the number of missing data points per column
missing_values_count = nfl_data.isnull().sum()

# look at the # of missing points in the first ten columns
missing_values_count[0:10]

¡Eso parece mucho! Podría ser útil ver qué porcentaje de los valores en nuestro conjunto de datos faltaban para darnos una mejor idea de la escala de este problema:

In [None]:
# how many total missing values do we have?
total_cells = np.product(nfl_data.shape)
total_missing = missing_values_count.sum()

# percent of data that is missing
(total_missing/total_cells) * 100

¡Vaya, casi una cuarta parte de las celdas de este conjunto de datos están vacías! En el siguiente paso, veremos más de cerca algunas de las columnas con valores perdidos y trataremos de averiguar qué podría estar sucediendo con ellas.

In [None]:
# your turn! Find out what percent of the sf_permits dataset is missing


# Descubra por qué faltan los datos
____
 
Este es el punto en el que entramos en la parte de la ciencia de datos que me gusta llamar "intuición de datos", con lo que me refiero a "mirar realmente sus datos y tratar de averiguar por qué es así y cómo será afectar su análisis ". Puede ser una parte frustrante de la ciencia de datos, especialmente si es nuevo en el campo y no tiene mucha experiencia. Para lidiar con los valores perdidos, necesitará usar su intuición para averiguar por qué falta el valor. Una de las preguntas más importantes que puede hacerse para ayudar a resolver esto es la siguiente:

> **¿Falta este valor porque no se registró o porque no existe?**

Si falta un valor porque no existe (como la altura del hijo mayor de alguien que no tiene hijos), no tiene sentido intentar adivinar cuál podría ser. Probablemente desee mantener estos valores como NaN. Por otro lado, si falta un valor porque no se registró, puede intentar adivinar cuál podría haber sido basándose en los otros valores en esa columna y fila. (¡Esto se llama "imputación" y aprenderemos cómo hacerlo a continuación! :)

Trabajemos con un ejemplo. Al observar el número de valores faltantes en el marco de datos nfl_data, me doy cuenta de que la columna `TimesSec` tiene muchos valores faltantes:

In [None]:
# look at the # of missing points in the first ten columns
missing_values_count[0:10]

Mirando [the documentation](https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016), Puedo ver que esta columna tiene información sobre la cantidad de segundos que quedan en el juego cuando se realizó la jugada. Esto significa que estos valores probablemente falten porque no se registraron, en lugar de porque no existen. Por lo tanto, tendría sentido que intentemos adivinar cuáles deberían ser en lugar de simplemente dejarlos como NA.

Por otro lado, hay otros campos, como `PenalizedTeam` que también tienen muchos campos faltantes. En este caso, sin embargo, falta el campo porque si no hubo penalización, entonces no tiene sentido decir * qué * equipo fue penalizado. Para esta columna, tendría más sentido dejarla vacía o agregar un tercer valor como "ninguno" y usarlo para reemplazar los NA.

> **Tip:** Este es un gran lugar para leer la documentación del conjunto de datos si aún no lo ha hecho. Si está trabajando con un conjunto de datos que obtuvo de otra persona, también puede intentar comunicarse con ellos para obtener más información.

Si está haciendo un análisis de datos muy cuidadoso, este es el punto en el que miraría cada columna individualmente para descubrir la mejor estrategia para completar esos valores faltantes. En el resto de este cuaderno, cubriremos algunas técnicas "rápidas y sucias" que pueden ayudarlo con los valores faltantes, pero probablemente también terminarán eliminando información útil o agregando algo de ruido a sus datos.

## ¡Tu turno!

* Mira las columnas `Street Number Suffix` y `Zipcode` de los conjuntos de datos `sf_permits`. Ambos contienen valores perdidos. ¿Cuáles, si alguno de estos, faltan porque no existen? ¿Cuáles, si es que faltan, porque no se grabaron?

# Eliminar los valores perdidos
___

Si tiene prisa o no tiene una razón para averiguar por qué faltan sus valores, una opción que tiene es simplemente eliminar las filas o columnas que contienen valores faltantes. (Nota: ¡generalmente no recomiendo este enfoque para proyectos importantes! Por lo general, vale la pena tomarse el tiempo para revisar sus datos y mirar realmente todas las columnas con valores faltantes una por una para conocer realmente su conjunto de datos .)

Si está seguro de que desea eliminar filas con valores faltantes, los pandas tienen una función útil, `dropna ()` para ayudarlo a hacer esto. ¡Probémoslo en nuestro conjunto de datos de la NFL!

In [None]:
# remove all the rows that contain a missing value
nfl_data.dropna()

¡Dios mío, parece que se eliminaron todos nuestros datos! 😱 Esto se debe a que cada fila de nuestro conjunto de datos tenía al menos un valor faltante. Es posible que tengamos más suerte eliminando todas las * columnas * que tienen al menos un valor faltante en su lugar.

In [None]:
# remove all columns with at least one missing value
columns_with_na_dropped = nfl_data.dropna(axis=1)
columns_with_na_dropped.head()

In [None]:
# just how much data did we lose?
print("Columns in original dataset: %d \n" % nfl_data.shape[1])
print("Columns with na's dropped: %d" % columns_with_na_dropped.shape[1])

Hemos perdido bastantes datos, pero en este punto hemos eliminado con éxito todos los `NaN` de nuestros datos.

In [None]:
# Your turn! Try removing all the rows from the sf_permits dataset that contain missing values. How many are left?


In [None]:
# Now try removing all the columns with empty values. Now how much of your data is left?


# Completar los valores perdidos automáticamente
_____

Otra opción es intentar completar los valores que faltan. Para el próximo bit, obtengo una pequeña subsección de los datos de la NFL para que se imprima bien.

In [None]:
# get a small subset of the NFL dataset
subset_nfl_data = nfl_data.loc[:, 'EPA':'Season'].head()
subset_nfl_data

Podemos usar la función fillna () de Panda para completar los valores faltantes en un marco de datos para nosotros. Una opción que tenemos es especificar con qué queremos que se reemplacen los valores de `NaN`. Aquí, estoy diciendo que me gustaría reemplazar todos los valores de `NaN` con 0.

In [None]:
# replace all NA's with 0
subset_nfl_data.fillna(0)

También podría ser un poco más inteligente y reemplazar los valores faltantes con cualquier valor que venga directamente después en la misma columna. (Esto tiene mucho sentido para los conjuntos de datos donde las observaciones tienen algún tipo de orden lógico).

In [None]:
# replace all NA's the value that comes directly after it in the same column, 
# then replace all the reamining na's with 0
subset_nfl_data.fillna(method = 'bfill', axis=0).fillna(0)

Completar los valores perdidos también se conoce como "imputación", y puede encontrar más ejercicios sobre él. [in this lesson, also linked under the "More practice!" section](https://www.kaggle.com/dansbecker/handling-missing-values). Sin embargo, primero, ¿por qué no intenta reemplazar algunos de los valores faltantes en el conjunto de datos sf_permit?

In [None]:
# Your turn! Try replacing all the NaN's in the sf_permits data with the one that
# comes directly after it and then replacing any remaining NaN's with 0

¡Y eso es todo por hoy! Si tiene alguna pregunta, asegúrese de publicarla en los comentarios a continuación o [on the forums](https://www.kaggle.com/questions-and-answers). 

Recuerde que su bloc de notas es privado de forma predeterminada y, para compartirlo con otras personas o pedir ayuda con él, deberá hacerlo público. Primero, deberá guardar una versión de su cuaderno que muestre su trabajo actual presionando el botón "Confirmar y ejecutar". (Su trabajo se guarda automáticamente, pero el control de versiones de su trabajo le permite volver atrás y ver cómo era en el momento en que lo guardó. También le permite compartir un buen cuaderno compilado en lugar de solo el código sin procesar). la computadora portátil ha terminado de ejecutarse, puede ir a la pestaña Configuración en el panel de la izquierda (es posible que deba expandirla presionando el botón [<] junto al botón "Confirmar y ejecutar") y configurar el menú desplegable "Visibilidad" en "Público".

# ¡Más práctica!
___

Si está buscando más práctica en el manejo de valores perdidos, consulte estos ejercicios de crédito adicional \ *:

* [Handling Missing Values](https://www.kaggle.com/dansbecker/handling-missing-values): En este cuaderno, Dan le muestra varios enfoques para imputar datos faltantes utilizando el imputador de scikit-learn. 
* Vuelve a mirar la columna `Zipcode` en el conjunto de datos` sf_permits`, que tiene algunos valores faltantes. ¿Cómo averiguaría cuál debería ser el código postal real de cada dirección? (Puede intentar usar otro conjunto de datos. Puede buscar conjuntos de datos sobre San Francisco en el [Datasets listing](https://www.kaggle.com/datasets).) 

\ * no se otorga crédito real por completar el desafío, solo aprende cómo limpiar datos realmente bien: P