### Todos los días del desafío:

* [Day 1: Handling missing values](https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values)
* [Day 2: Scaling and normalization](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data)
* [Day 3: Parsing dates](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/)
* [Day 4: Character encodings](https://www.kaggle.com/rtatman/data-cleaning-challenge-character-encodings/)
* [Day 5: Inconsistent Data Entry](https://www.kaggle.com/rtatman/data-cleaning-challenge-inconsistent-data-entry/)
___
¡Bienvenido al día 3 del Desafío de datos de 5 días! Hoy vamos a trabajar con fechas. Para comenzar, haga clic en el botón azul "Fork Notebook" en la esquina superior derecha. Esto creará una copia privada de este cuaderno que puede editar y jugar. Una vez que haya terminado con los ejercicios, puede optar por hacer público su cuaderno para compartirlo con otros. :)

> **¡Tu turno!** Mientras trabajamos en este cuaderno, verá algunas celdas del cuaderno (un bloque de código o texto) que tiene "¡Tu turno!" escrito en él. Estos son ejercicios que puede realizar para ayudar a consolidar su comprensión de los conceptos de los que estamos hablando. Una vez que haya escrito el código para responder una pregunta específica, puede ejecutar el código haciendo clic dentro de la celda (cuadro con el código) con el código que desea ejecutar y luego presione CTRL + ENTER (CMD + ENTER en una Mac ). También puede hacer clic en una celda y luego hacer clic en la flecha derecha "reproducir" a la izquierda del código. Si desea ejecutar todo el código en su cuaderno, puede usar las flechas dobles de "avance rápido" en la parte inferior del editor del cuaderno.

Esto es lo que haremos hoy:

* [Get our environment set up](#Get-our-environment-set-up)
* [Check the data type of our date column](#Check-the-data-type-of-our-date-column)
* [Convert our date columns to datetime](#Convert-our-date-columns-to-datetime)
* [Select just the day of the month from our column](#Select-just-the-day-of-the-month-from-our-column)
* [Plot the day of the month to check the date parsing](#Plot-the-day-of-the-month-to-the-date-parsing)

¡Empecemos!

# Configurar nuestro entorno
________

Lo primero que tendremos que hacer es cargar las bibliotecas y los conjuntos de datos que usaremos. Por hoy, trabajaremos con dos conjuntos de datos: uno que contiene información sobre terremotos que ocurrieron entre 1965 y 2016, y otro que contiene información sobre deslizamientos de tierra que ocurrieron entre 2007 y 2016.

> **¡Importante!** ¡Asegúrese de ejecutar esta celda usted mismo o el resto de su código no funcionará!

In [None]:
# modules we'll use
import pandas as pd
import numpy as np
import seaborn as sns
import datetime

# read in our data
earthquakes = pd.read_csv("../input/earthquake-database/database.csv")
landslides = pd.read_csv("../input/landslide-events/catalog.csv")
volcanos = pd.read_csv("../input/volcanic-eruptions/database.csv")

# set seed for reproducibility
np.random.seed(0)

Now we're ready to look at some dates! (If you like, you can take this opportunity to take a look at some of the data.)

# Verifique el tipo de datos de nuestra columna de fecha
___

Para esta parte del desafío, trabajaré con la columna `date` del marco de datos `landslides`. Lo primero que voy a hacer es echar un vistazo a las primeras filas para asegurarme de que realmente parezca que contiene fechas.

In [None]:
# print the first few rows of the date column
print(landslides['date'].head())

¡Sí, esas son citas! Pero solo porque yo, un ser humano, pueda decir que estas son fechas no significa que Python sepa que son fechas. Observe que en la parte inferior de la salida de `head ()`, puede ver que dice que el tipo de datos de esta columna es "objeto".

> Pandas usa el dtype "object" para almacenar varios tipos de tipos de datos, pero la mayoría de las veces, cuando ve una columna con el dtype "object", tendrá cadenas.

Si comprueba la documentación de pandas dtype [here](http://pandas.pydata.org/pandas-docs/stable/basics.html#dtypes), notará que también hay un dtypes específico de `datetime64`. Debido a que el dtype de nuestra columna es `object` en lugar de` datetime64`, podemos decir que Python no sabe que esta columna contiene fechas.

También podemos mirar solo el tipo d de su columna sin imprimir las primeras filas si lo deseamos:

In [None]:
# check the data type of our date column
landslides['date'].dtype

Puede que tenga que comprobar el [numpy documentation](https://docs.scipy.org/doc/numpy-1.12.0/reference/generated/numpy.dtype.kind.html#numpy.dtype.kind) para hacer coincidir el código de la letra con el tipo d del objeto. "O" es el código para "objeto", por lo que podemos ver que estos dos métodos nos dan la misma información.

In [None]:
# Your turn! Check the data type of the Date column in the earthquakes dataframe
# (note the capital 'D' in date!)


# Convierta nuestras columnas de fecha a fecha y hora
___

Ahora que sabemos que nuestra columna de fecha no se reconoce como una fecha, es hora de convertirla para que * se * reconozca como una fecha. Esto se llama "analizar fechas" porque tomamos una cadena e identificamos sus partes.

Podemos pandas cuál es el formato de nuestras fechas con una guía llamada como​ ["strftime directive", which you can find more information on at this link](http://strftime.org/). La idea básica es que debes señalar qué partes de la fecha están dónde y qué puntuación hay entre ellas. Existen[lots of possible parts of a date](http://strftime.org/), pero los más comunes son `%d` para el día, `%m` para el mes, `%Y` para un año de dos dígitos y `%Y` para un año de cuatro dígitos.

Algunos ejemplos:

 * 1/17/07 has the format "%m/%d/%y"
 * 17-1-2007 has the format "%d-%m-%Y"
 
Mirando hacia atrás en el encabezado de la columna `fecha` en el conjunto de datos de deslizamientos de tierra, podemos ver que tiene el formato" mes / día / año de dos dígitos ", por lo que podemos usar la misma sintaxis que en el primer ejemplo para analizar nuestras fechas:

In [None]:
# create a new column, date_parsed, with the parsed dates
landslides['date_parsed'] = pd.to_datetime(landslides['date'], format = "%m/%d/%y")

Ahora, cuando reviso las primeras filas de la nueva columna, puedo ver que el tipo d es `datetime64`. También puedo ver que mis fechas se han reorganizado ligeramente para que se ajusten a los objetos de fecha y hora de orden predeterminados (año-mes-día).

In [None]:
# print the first few rows
landslides['date_parsed'].head()

Ahora que nuestras fechas se han analizado correctamente, podemos interactuar con ellas de formas útiles.

___
* **¿Qué pasa si me encuentro con un error con varios formatos de fecha?** Si bien estamos especificando el formato de fecha aquí, a veces se encontrará con un error cuando hay varios formatos de fecha en una sola columna. Si eso sucede, los pandas intentan inferir cuál debería ser el formato de fecha correcto. Puedes hacerlo así:

`landslides['date_parsed'] = pd.to_datetime(landslides['Date'], infer_datetime_format=True)`

* **¿Por qué no usas siempre `infer_datetime_format = True?`** Hay dos grandes razones para que los pandas no siempre adivinen el formato de la hora. La primera es que los pandas no siempre podrán averiguar el formato de fecha correcto, especialmente si alguien se ha vuelto creativo con la entrada de datos. La segunda es que es mucho más lento que especificar el formato exacto de las fechas.
____

In [None]:
# Your turn! Create a new column, date_parsed, in the earthquakes
# dataset that has correctly parsed dates in it. (Don't forget to 
# double-check that the dtype is correct!)


# Seleccione solo el día del mes de nuestra columna
___

"Ok, Rachael", puedes estar diciendo en este punto, "Esto de jugar con los tipos de datos está bien, supongo, pero ¿cuál es el * punto *?" Para responder a su pregunta, intentemos obtener información sobre el día del mes en que ocurrió un deslizamiento de tierra de la columna "fecha" original, que tiene un tipo de "objeto":

In [None]:
# try to get the day of the month from the date column
day_of_month_landslides = landslides['date'].dt.day

¡Tenemos un error! La parte importante a mirar aquí es la parte al final que dice `AttributeError: Solo se puede usar el acceso .dt con valores de fecha y hora`. Recibimos este error porque la función dt.day () no sabe cómo tratar una columna con el "objeto" dtype. A pesar de que nuestro marco de datos tiene fechas, debido a que no se han analizado, no podemos interactuar con ellos de una manera útil.

Afortunadamente, tenemos una columna que analizamos anteriormente y que nos permite sacar el día del mes sin problemas:

In [None]:
# get the day of the month from the date_parsed column
day_of_month_landslides = landslides['date_parsed'].dt.day

In [None]:
# Your turn! get the day of the month from the date_parsed column


# Grafique el día del mes para verificar el análisis de la fecha
___

Uno de los mayores peligros al analizar las fechas es mezclar los meses y los días. La función to_datetime () tiene mensajes de error muy útiles, pero no está de más comprobar que los días del mes que hemos extraído tengan sentido.

Para hacer esto, tracemos un histograma de los días del mes. Esperamos que tenga valores entre 1 y 31 y, dado que no hay razón para suponer que los deslizamientos de tierra son más comunes en algunos días del mes que en otros, una distribución relativamente uniforme. (Con una caída en 31 porque no todos los meses tienen 31 días). Veamos si ese es el caso:

In [None]:
# remove na's
day_of_month_landslides = day_of_month_landslides.dropna()

# plot the day of the month
sns.distplot(day_of_month_landslides, kde=False, bins=31)

Sí, parece que analizamos nuestras fechas correctamente y este gráfico tiene sentido para mí. ¿Por qué no se turna para comprobar las fechas que analizó anteriormente?

In [None]:
# Your turn! Plot the days of the month from your
# earthquake dataset and make sure they make sense.


¡Y eso es todo por hoy! Si tiene alguna pregunta, asegúrese de publicarla en los comentarios a continuación o [on the forums](https://www.kaggle.com/questions-and-answers). 

Recuerde que su bloc de notas es privado de forma predeterminada y, para compartirlo con otras personas o pedir ayuda con él, deberá hacerlo público. Primero, deberá guardar una versión de su cuaderno que muestre su trabajo actual presionando el botón "Confirmar y ejecutar". (Su trabajo se guarda automáticamente, pero el control de versiones de su trabajo le permite volver atrás y ver cómo era en el momento en que lo guardó. También le permite compartir un buen cuaderno compilado en lugar de solo el código sin procesar). la computadora portátil ha terminado de ejecutarse, puede ir a la pestaña Configuración en el panel de la izquierda (es posible que deba expandirla presionando el botón [<] al lado del botón "Confirmar y ejecutar") y configurar la "Visibilidad"dropdown to "Public".

# ¡Más práctica!
___

Si está interesado en graficar series de tiempo, [check out this Learn tutorial](https://www.kaggle.com/residentmario/time-series-plotting-optional).

También puede buscar columnas de paso que sabe que tienen fechas en ellas el argumento `parse_dates` en` read_csv`. (The documention [is here](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).) Tenga en cuenta que este método puede ser muy lento, pero dependiendo de sus necesidades, a veces puede resultar útil.

Para un desafío adicional, puede intentar analizar la columna `Last Known Eruption`  del marco de datos `volcanos`. Esta columna contiene una mezcla de texto ("Unknown") y años antes de la era común (BCE, también conocida como BC) y en la era común (CE, también conocida como AD).

In [None]:
volcanos['Last Known Eruption'].sample(5)