# Limpieza, análisis y visualización de datos mediante Pandas y Folium

[Pandas](https://pandas.pydata.org/) es una biblioteca para análisis de datos en el lenguaje Python. Entre otras características, Pandas permite la manipulación en memoria de conjuntos de datos y series temporales, así como su visualización con el apoyo de otras bibliotecas como [NumPy](https://numpy.org/), [Matplotlib](https://matplotlib.org/) y [Folium](https://python-visualization.github.io/folium/).

Pandas provee una estructura de datos llamada [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), similar a una tabla, que permite realizar operaciones en las filas y en las columnas. Para más información, se recomienda revisar el tutorial [The Ultimate Pandas Guide: How to master Python’s main data analysis library in 20 Minutes](https://towardsdatascience.com/how-to-master-pandas-8514f33f00f6).

**Bibliotecas**

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

import calendar

import folium
from folium import plugins
from folium.plugins import HeatMapWithTime

**Variables globales**

In [None]:
# Archivo de datos con columnas del DwC (https://dwc.tdwg.org/terms/)
archivo_datos = "datos/Ara-macao-CR-2018.csv"

# Nombre científico que se desplegará en los gráficos estadísticos
nombre_cientifico = "Ara macao"

# Cantidad máxima de registros que se despliegan en un GeoDataFrame
pd.options.display.max_rows = 12

## Carga y limpieza de datos

In [None]:
# Carga de datos en un DataFrame
registros_presencia_df = pd.read_csv(archivo_datos, sep='\t')
registros_presencia_df

# registros_presencia_df.head()
# registros_presencia_df.tail()

In [None]:
# Lista de columnas
list(registros_presencia_df.columns)

In [None]:
# Tipos de datos de las columnas
registros_presencia_df.dtypes

In [None]:
# Información sobre el DataFrame
registros_presencia_df.info()

In [None]:
# Selección de un subconjunto de columnas
registros_presencia_df = registros_presencia_df[['species', 'stateProvince', 'locality', 'decimalLongitude', 'decimalLatitude', 'eventDate']]
registros_presencia_df

In [None]:
# Consulta del tipo de datos de una columna
registros_presencia_df.eventDate.dtypes

In [None]:
# Cambio del tipo de datos dateTime
registros_presencia_df["eventDate"] = pd.to_datetime(registros_presencia_df["eventDate"])

In [None]:
# Verificación del nuevo tipo de datos de la columna
registros_presencia_df.eventDate.dtypes

In [None]:
# Revisión del DataFrame para verificar la columna cambiada
registros_presencia_df

## Análisis de la información

### Graficación

In [None]:
# Estilo de los gráficos
plt.style.use('ggplot')

#### Distribución de registros por mes

In [None]:
# Agrupación de los registros por mes
registros_x_mes = registros_presencia_df.groupby(registros_presencia_df['eventDate'].dt.month).count().eventDate

registros_x_mes

In [None]:
# Reemplazo del número del mes por el nombre del mes
registros_x_mes.index=[calendar.month_name[x] for x in range(1,13)]

registros_x_mes

In [None]:
# Gráfico de barras
registros_x_mes.plot(kind='bar',figsize=(12,7), color='blue', alpha=0.5)

# Título y leyendas en los ejes
plt.title('Registros de presencia de ' + nombre_cientifico + ' en Costa Rica en 2018', fontsize=20)
plt.xlabel('Mes', fontsize=16)
plt.ylabel('Cantidad de registros', fontsize=16);

#### Distribución de registros por día de la semana

In [None]:
# Agrupación de los registros por día de la semana
registros_x_dia_semana = registros_presencia_df.groupby(registros_presencia_df['eventDate'].dt.dayofweek).count().eventDate

registros_x_dia_semana

In [None]:
# Reemplazo del número del día por el nombre del día
registros_x_dia_semana.index=[calendar.day_name[x] for x in range(0, 7)]

registros_x_dia_semana

In [None]:
# Gráfico de barras
registros_x_dia_semana.plot(kind='bar', figsize=(12,7), color='magenta', alpha=0.5)

# Título y leyendas en los ejes
plt.title('Registros de presencia de ' + nombre_cientifico + ' en Costa Rica en 2018', fontsize=20)
plt.xlabel('Día de la semana', fontsize=16)
plt.ylabel('Cantidad de registros', fontsize=16);

#### Distribución de registros por fecha

In [None]:
# Agrupación de los registros por día del año
registros_x_fecha = registros_presencia_df.groupby(registros_presencia_df['eventDate'].dt.date).count().eventDate

registros_x_fecha

In [None]:
# Gráfico de líneas
registros_x_fecha.plot(figsize=(20,8), color='blue')

# Marca para el día de la semana con más registros
registros_sabados = registros_presencia_df.groupby(registros_presencia_df[registros_presencia_df['eventDate'].dt.dayofweek==5].eventDate.dt.date).count().eventDate
plt.scatter(registros_sabados.index, registros_sabados, color='green', label='Sábado')

# Marca para el día de la semana con menos registros
registros_jueves = registros_presencia_df.groupby(registros_presencia_df[registros_presencia_df['eventDate'].dt.dayofweek==3].eventDate.dt.date).count().eventDate
plt.scatter(registros_jueves.index, registros_jueves, color='red', label='Jueves')

# Título y leyendas en los ejes
plt.title('Registros de presencia de ' + nombre_cientifico + ' en Costa Rica en 2018', fontsize=20)
plt.xlabel('Fecha',fontsize=16)
plt.ylabel('Cantidad de registros',fontsize=16);
plt.legend()

#### Distribución de registros por provincia

In [None]:
# Agrupación de los registros por provincia
registros_x_provincia = registros_presencia_df.groupby(registros_presencia_df['stateProvince'])['stateProvince'].count()

registros_x_provincia

In [None]:
# Gráfico de barras
registros_x_provincia.plot(kind='bar',figsize=(12,7), color='brown', alpha=0.5)

# Leyendas en los ejes
plt.title('Registros de presencia de ' + nombre_cientifico + ' en Costa Rica en 2018', fontsize=20)
plt.xlabel('Provincia', fontsize=16)
plt.ylabel('Cantidad de registros', fontsize=16);

In [None]:
# Gráfico de pastel
registros_x_provincia.plot(kind='pie',figsize=(10,10), colors=['red', 'magenta', 'yellow', 'green', 'orange', 'brown'], labels=None, autopct='%1.1f%%', fontsize=16)

# Leyendas y título
plt.legend(labels=['Alajuela', 'Guanacaste', 'Heredia', 'Limón', 'Puntarenas', 'San José'])
plt.title('Registros de presencia de ' + nombre_cientifico + ' en Costa Rica en 2018', fontsize=20)
plt.ylabel('')

### Mapeo

#### Folium

In [None]:
# Mapa centrado en Costa Rica
registros_presencia_mapa = folium.Map(location=[9.63, -84], zoom_start=8)

registros_presencia_mapa

##### Mapa de puntos

In [None]:
# Mapa centrado en Costa Rica
registros_presencia_mapa = folium.Map(location=[9.63, -84], zoom_start=8)

# Mapeo de los puntos correspondientes a los registros de presencia
for lat, lng, label in zip(registros_presencia_df.decimalLatitude, registros_presencia_df.decimalLongitude, registros_presencia_df.eventDate.astype(str)):
    folium.CircleMarker(
        [lat, lng],
        radius=3,
        color='red',
        fill=True,
        popup=label,
        fill_color='darkred',
        fill_opacity=0.6
    ).add_to(registros_presencia_mapa)
    
registros_presencia_mapa

##### Mapa de "cluster"

In [None]:
# Mapa centrado en Costa Rica
registros_presencia_mapa = folium.Map(location=[9.63, -84], zoom_start=8)

# Instantiate a mark cluster object for the car accidents
registros_presencia_cluster = plugins.MarkerCluster().add_to(registros_presencia_mapa)

for lat, lng, label in zip(registros_presencia_df.decimalLatitude, registros_presencia_df.decimalLongitude, registros_presencia_df.eventDate.astype(str)):
    folium.Marker(
        location=[lat, lng],
        icon=None,
        popup=label,
    ).add_to(registros_presencia_cluster)    
    
registros_presencia_mapa

##### Mapa de calor

In [None]:
# Mapa centrado en Costa Rica
registros_presencia_mapa = folium.Map(location=[9.63, -84], zoom_start=8)

lista_meses = [[] for _ in range(13)]
for lat, log, mes in zip(registros_presencia_df.decimalLatitude, registros_presencia_df.decimalLongitude, registros_presencia_df.eventDate.dt.month):
    lista_meses[mes].append([lat,log]) 
    
# Etiqueas que indican la cantidad de meses
index = ['Mes ' + str(i) for i in range(13)]

# Mapa de calor
HeatMapWithTime(lista_meses, index).add_to(registros_presencia_mapa)

registros_presencia_mapa    