# Potencial Ornitológico Fueguino
### **Autor:** Pablo Jusim

# Script de preprocesamiento de observaciones de eBird

![title](../data/external/logo_ebird.png)

Se realizan verificaciones antes de obtener el dataframe final.

La salida de este script será un dataframe de pandas donde cada fila representará una observación de eBird.

El dataframe final tendrá las siguientes **columnas**: id_obs, id_celda, especie, familia, orden, fecha

## Importaciones

In [1]:
import pandas as pd
from IPython.display import display

## Carga de datos

**Nota para el usuario del notebook:** EL archivo "obs_ebird.txt" pesa 166 mb, por lo que es muy pesado para subirlo a GitHub. El mismo puede ser descargado de [google drive](https://drive.google.com/file/d/1Dlc4CDrUaHSdlqO_qWHAMROhHPoJIOhG/view?usp=sharing).

In [2]:
archivo = '../data/external/obs_ebird.txt'
try:
    df_base = pd.read_csv(archivo, sep='\t')
    display(df_base.head())
except FileNotFoundError:
    print('No se encuentra el archivo en la ruta ' + archivo)

  df_base = pd.read_csv(archivo, sep='\t')


Unnamed: 0,GLOBAL UNIQUE IDENTIFIER,LAST EDITED DATE,TAXONOMIC ORDER,CATEGORY,TAXON CONCEPT ID,COMMON NAME,SCIENTIFIC NAME,SUBSPECIES COMMON NAME,SUBSPECIES SCIENTIFIC NAME,EXOTIC CODE,...,NUMBER OBSERVERS,ALL SPECIES REPORTED,GROUP IDENTIFIER,HAS MEDIA,APPROVED,REVIEWED,REASON,CHECKLIST COMMENTS,SPECIES COMMENTS,Unnamed: 52
0,URN:CornellLabOfOrnithology:EBIRD:OBS1966163490,2025-03-19 15:41:50.266885,6913,species,avibase-1819ECCE,Light-mantled Albatross,Phoebetria palpebrata,,,,...,1.0,0,,0,1,0,,,,
1,URN:CornellLabOfOrnithology:EBIRD:OBS1966176209,2025-03-19 15:41:50.266885,7354,species,avibase-1EA575E0,Magellanic Cormorant,Leucocarbo magellanicus,,,,...,1.0,0,,0,1,0,,,,
2,URN:CornellLabOfOrnithology:EBIRD:OBS2414496199,2025-03-24 07:15:47.007622,16879,species,avibase-644B907D,Austral Negrito,Lessonia rufa,,,,...,4.0,1,,0,1,0,,,,
3,URN:CornellLabOfOrnithology:EBIRD:OBS2414496193,2025-03-24 07:15:47.007622,28360,species,avibase-F09C3940,Austral Thrush,Turdus falcklandii,,,,...,4.0,1,,0,1,0,,,,
4,URN:CornellLabOfOrnithology:EBIRD:OBS2414496194,2025-03-24 07:15:47.007622,32378,species,avibase-AE31F0F3,Black-chinned Siskin,Spinus barbatus,,,,...,4.0,1,,0,1,0,,,,


## Limpieza de datos

### Revisión y eliminación de columnas no útiles

In [3]:
# Conservo únicamente las columnas necesarias y renombro según el formato de iNaturalist
df_filtrado = df_base[['COMMON NAME', 'SCIENTIFIC NAME', 'LATITUDE', 'LONGITUDE', 'OBSERVATION DATE']].rename(columns={
    'COMMON NAME': 'common_name',
    'SCIENTIFIC NAME': 'scientific_name',
    'LATITUDE': 'latitude',
    'LONGITUDE': 'longitude',
    'OBSERVATION DATE': 'observed_on'
})


##### Ver resumen de valores

In [4]:
# Ver la cantidad de datos faltantes en cada fila
print(df_filtrado.isnull().sum())

common_name        0
scientific_name    0
latitude           0
longitude          0
observed_on        0
dtype: int64


In [5]:
# Reviso puntos extremos de las coordenadas
df_filtrado.describe()

Unnamed: 0,latitude,longitude
count,426837.0,426837.0
mean,-54.551502,-67.848963
std,0.525515,1.07194
min,-57.920581,-68.774447
25%,-54.837786,-68.350963
50%,-54.811116,-68.26824
75%,-54.185825,-67.723954
max,-52.45467,-58.63661


## Exportar el data frame resultante

In [6]:
df_filtrado.to_csv('../data/raw/data_ebird.csv', index=False)