# 1. Limpieza

In [None]:
# Suprimir advertencias:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

In [None]:
data = pd.read_csv('DatosCaza_2015_2023_Limpios.csv', delimiter=",")
data.head()

Unnamed: 0,Ano,Encabezado,Cespe,Especie,Cintiauto,Cintientrega,Epocainicio,EpocaFin
0,2015,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,25/09/2015,24/09/2016
1,2016,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,09/09/2016,28/05/2017
2,2017,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,10,0,09/09/2017,28/05/2018
3,2018,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,28/05/2018,28/05/2019
4,2019,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,0,0,28/05/2019,28/05/2020


In [None]:
data_uma = pd.read_excel('CAT_Espc.xlsx')
data_uma.head()

Unnamed: 0,Cespe,Especie,Riesgo (IUCN),UMAs,Caracter,Riesgo (NOM-059)
0,1,Antílope Acuatico,LC,2.0,Extensivo,
1,2,Antílope Cuello Negro,VU,5.0,Extensivo,PR
2,3,Antílope Eland Del Cabo,LC,6.0,Extensivo,
3,4,Antílope Nilgo,LC,3.0,Extensivo,
4,5,Antílope Ñu Azul,LC,3.0,Extensivo,


In [None]:
data_uma.isnull().sum()

Cespe                0
Especie              0
Riesgo (IUCN)        0
UMAs                 9
Caracter            20
Riesgo (NOM-059)    40
dtype: int64

# 2. Transformación

In [None]:
promedio_umas = data_uma['UMAs'].mean()
data_uma['UMAs'].fillna(promedio_umas, inplace = True)

In [None]:
moda_caracter = data_uma['Caracter'].mode()
moda_caracter[0]

'Extensivo'

In [None]:
data_uma['Caracter'].fillna(moda_caracter[0], inplace = True)

In [None]:
from sklearn import preprocessing
le_caracter = preprocessing.LabelEncoder()
le_caracter.fit(['Extensivo','Intensivo'])
data_uma['Caracter'] = le_caracter.transform(data_uma['Caracter'])


In [None]:
data_uma['Riesgo (NOM-059)'].fillna(0, inplace = True)

In [None]:
mappingNOM = {'PR': 1, 'A': 2, 'P': 3, 'E': 4}
data_uma['Riesgo (NOM-059)'] = data_uma['Riesgo (NOM-059)'].replace(mappingNOM)

In [None]:
mappingIUCN = {'NE': 0, 'DD': 1, 'LC': 2, 'NT': 3, 'VU': 4, 'EN': 5, 'CE': 6, 'EW':7, 'EX':8}
data_uma['Riesgo (IUCN)'] = data_uma['Riesgo (IUCN)'].replace(mappingIUCN)

## Discretizar

In [None]:
bins = [0, 5, 45,  float('inf')]
labels = ['Poco popular', 'Ligeramente popular', 'Popular']
data['Popularidad'] = pd.cut(data['Cintientrega'], bins = bins, labels = labels, include_lowest=True)
data['Popularidad'] = data['Popularidad'].map({'Poco popular': 0, 'Ligeramente popular': 1, 'Popular': 2, 'Muy popular': 3})

In [None]:
data

Unnamed: 0,Ano,Encabezado,Cespe,Especie,Cintiauto,Cintientrega,Epocainicio,EpocaFin,Popularidad
0,2015,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,25/09/2015,24/09/2016,0
1,2016,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,09/09/2016,28/05/2017,0
2,2017,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,10,0,09/09/2017,28/05/2018,0
3,2018,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,28/05/2018,28/05/2019,0
4,2019,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,0,0,28/05/2019,28/05/2020,0
...,...,...,...,...,...,...,...,...,...
401,2018,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,2,0,01/12/2018,04/02/2019,0
402,2019,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,2,0,01/12/2019,04/02/2020,0
403,2020,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,0,0,01/12/2020,04/02/2021,0
404,2021,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,0,0,01/12/2021,04/02/2022,0


In [None]:
data_uma.isnull().sum()

Cespe               0
Especie             0
Riesgo (IUCN)       0
UMAs                0
Caracter            0
Riesgo (NOM-059)    0
dtype: int64

In [None]:
data.isnull().sum()

Ano             0
Encabezado      0
Cespe           0
Especie         0
Cintiauto       0
Cintientrega    0
Epocainicio     0
EpocaFin        0
Popularidad     0
dtype: int64

## Pasar fechas de objeto a int64.

In [None]:
data['Epocainicio'] = pd.to_datetime(data['Epocainicio'])
data['Epocainicio'] = data['Epocainicio'].astype('int64') / 1e9


In [None]:
data['EpocaFin'] = pd.to_datetime(data['EpocaFin'])
data['EpocaFin'] = data['EpocaFin'].astype('int64') / 1e9

# 3. Reduccion.

# 4. Integración.

In [None]:
data_merged = pd.merge(data, data_uma, how = 'outer', on = 'Cespe')
data_merged

Unnamed: 0,Ano,Encabezado,Cespe,Especie_x,Cintiauto,Cintientrega,Epocainicio,EpocaFin,Popularidad,Especie_y,Riesgo (IUCN),UMAs,Caracter,Riesgo (NOM-059)
0,2015,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,1.443139e+09,1.474675e+09,0,Antílope Acuatico,2,2.0,0,0
1,2016,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,1.473379e+09,1.495930e+09,0,Antílope Acuatico,2,2.0,0,0
2,2017,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,10,0,1.504915e+09,1.527466e+09,0,Antílope Acuatico,2,2.0,0,0
3,2018,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,20,0,1.527466e+09,1.559002e+09,0,Antílope Acuatico,2,2.0,0,0
4,2019,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,1,ANTILOPE ACUATICO,0,0,1.559002e+09,1.590624e+09,0,Antílope Acuatico,2,2.0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
401,2018,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,2,0,1.515715e+09,1.554163e+09,0,Mapache,2,8.0,0,0
402,2019,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,2,0,1.547251e+09,1.585786e+09,0,Mapache,2,8.0,0,0
403,2020,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,0,0,1.578787e+09,1.617322e+09,0,Mapache,2,8.0,0,0
404,2021,REPORTE DE LA FAUNA SILVESTRE DE LA TEMPORADA ...,50,MAPACHE,0,0,1.610410e+09,1.648858e+09,0,Mapache,2,8.0,0,0


In [None]:
data_merged = data_merged.drop(['Encabezado', 'Especie_x', 'Especie_y'], axis=1)

In [None]:
path = '(FINAL) Cespe_Riesgo_UMA_Merged.csv'

In [None]:
data_merged.to_csv(path, index = False)