# Análisis exploratorio de datos de trayectorias de albatros de Laysan

Minería de datos

Presenta: Ana Maritza Bello Yañez

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

In [None]:
trajectories = pd.read_csv('../data/trajectories.csv')
trajectories.head()

In [None]:
trajectories["date"] = trajectories["date"].astype("datetime64[ns]")
trajectories.info()

In [None]:
trajectories.nunique()

In [None]:
trajectories["day"] = trajectories["date"].dt.day
trajectories["month"] = trajectories["date"].dt.month
trajectories["year"] = trajectories["date"].dt.year
data_by_year = trajectories.groupby(["year", "month"]).size()
data_by_year.plot(kind="bar", figsize=(8, 5), 
                  title="Numero de datos por mes y año", 
                  xlabel="Año, mes", ylabel="Cantidad de datos")

In [None]:
data_by_month = trajectories.groupby(["month"]).size()
data_by_month.plot(kind="bar", figsize=(8, 5), 
                  title="Numero de datos por mes (todos los años)", 
                  xlabel="Mes", ylabel="Cantidad de datos")

In [None]:
sns.countplot(data=trajectories, x="season", hue="year", palette="Set2")

In [None]:
latitude_bp = trajectories["longitude"].groupby(trajectories["season"])
latitude_bp.describe()

In [None]:
latitude_bp = trajectories["latitude"].groupby(trajectories["season"])
latitude_bp.describe()

In [None]:
sns.scatterplot(data = trajectories, x="longitude", y="latitude", hue="season", alpha=0.5, s=10)

# Distribución geográfica durante la incubación

In [None]:
sns.boxplot(data = trajectories[(trajectories["season"]=="incubacion") & (trajectories["year"]==2014)], x="longitude")
plt.title("Boxplot de la longitud en la temporada de incubacion del año 2014")

In [None]:
sns.boxplot(data = trajectories[(trajectories["season"]=="incubacion") & (trajectories["year"]==2015)], x="longitude")
plt.title("Boxplot de la longitud en la temporada de incubacion del año 2015")

In [None]:
sns.histplot(data = trajectories[(trajectories["season"]=="incubacion") & (trajectories["year"]==2014)],
             x="longitude", binwidth=0.5, kde=True, color="red", alpha=0.3)
plt.title("Histograma de la longitud en la temporada de incubacion del año 2014")

In [None]:
sns.boxplot(data = trajectories[(trajectories["season"]=="incubacion") & (trajectories["year"]==2014)], x="latitude")
plt.title("Boxplot de la latitud en la temporada de incubacion del año 2014")

In [None]:
sns.boxplot(data = trajectories[(trajectories["season"]=="incubacion") & (trajectories["year"]==2015)], x="latitude")
plt.title("Boxplot de la latitud en la temporada de incubacion del año 2015")

In [None]:
sns.histplot(data = trajectories[(trajectories["season"]=="incubacion") & (trajectories["year"]==2014)],
             x="latitude", binwidth=0.5, kde=True, color="green", alpha=0.2)
plt.title("Histograma de la latitud en la temporada de incubacion")

# Distribución geográfica durante la crianza

In [None]:
sns.boxplot(data = trajectories[trajectories["season"]=="crianza"], x="longitude")
plt.title("Boxplot de la longitud en la temporada de crianza")

In [None]:
sns.histplot(data = trajectories[trajectories["season"]=="crianza"],
             x="longitude", binwidth=0.5, kde=True, color="red", alpha=0.3)
plt.title("Histograma de la longitud en la temporada de crianza")

In [None]:
sns.boxplot(data = trajectories[trajectories["season"]=="crianza"], x="latitude")
plt.title("Boxplot de la latitud en la temporada de crianza")

In [None]:
sns.histplot(data = trajectories[trajectories["season"]=="crianza"],
             x="latitude", binwidth=0.5, kde=True, color="green", alpha=0.3)
plt.title("Histograma de la latitud en la temporada de crianza")