In [89]:
import pandas as pd 
from sklearn.model_selection import train_test_split
#Cargamos el Dataset
file_path = "dataset/dataset.csv"
df = pd.read_csv(file_path)


In [90]:
#Listamos columnas para X y con drop separamos como un filter
X_columns = [
    'latitude_pos_tx', 'longitude_pos_tx', 'elevation_pos_tx', 'fc', 'elevation', 
    'azimuth', 'year', 'mmdd', 'UTI', 'hour', 'delay', 'terrestrial_range', 
    'slant_range', 'final_latitude', 'final_longitude', 'final_elevation'
]
X = df[X_columns]
Y = df.drop(columns=X_columns)

##### Uso drop()
***drop()*** es una función incorporada en Pandas que te permite eliminar una o más **filas o columnas** de un Marco de Datos. Devuelve un nuevo Marco de Datos con las filas o columnas especificadas eliminadas y no modifica el Marco de Datos original en su lugar, a menos que establezcas el parámetro inplace en True .

In [91]:
# Consideramos que las columnas "final_latitude", "final_longitude", "final_elevation"
# No corresponden a parametros de entradas X por lo que lo quitamos.
X = X.drop(columns=['final_latitude','final_longitude','final_elevation'])
print(X.head())
print(Y.head())


   latitude_pos_tx  longitude_pos_tx  elevation_pos_tx          fc  elevation  \
0           -42.28             -63.4                 0  10000000.0          5   
1           -42.28             -63.4                 0  10000000.0          5   
2           -42.28             -63.4                 0  10000000.0          5   
3           -42.28             -63.4                 0  10000000.0          5   
4           -42.28             -63.4                 0  10000000.0          5   

   azimuth    year  mmdd  UTI  hour     delay  terrestrial_range   slant_range  
0       98  2010.0   101    0     0  0.009048       2.597354e+06  2.712536e+06  
1       98  2010.0   101    0     4  0.009853       2.843389e+06  2.953766e+06  
2       98  2010.0   101    0     8  0.004795       1.412268e+06  1.437445e+06  
3       98  2010.0   101    0    12  0.004712       1.388350e+06  1.412611e+06  
4       98  2010.0   101    0    16  0.004787       1.409962e+06  1.435050e+06  
   lat_1      lat_2      la

In [92]:
# Ahora vamos a escalar las columnas de elevaciones, que se encuentran en metros se los pasará a Km
# y luego se les quitará decimas
# print(Y.head())
#Nota: En Y tenemos 3 tipos(latitudes, longitudes, elevations)
#Generamos los nombres de las columnas. 
lat_columns = [f'lat_{i}' for i in range(1,101)]
long_columns = [f'long_{i}' for i in range(1,101)]
elev_columns = [f'elev_{i}' for i in range(1,101)]



In [93]:
#Teniendo los nombres de las columnas las filtro
latitudes = Y[lat_columns]
longitudes = Y[long_columns]
elevations = Y[elev_columns]

k=1000 # valor a dividir para pasar a Km las elevaciones.
elevations = (elevations/k).round(5)
print(type(elevations))
print(elevations.head())


<class 'pandas.core.frame.DataFrame'>
   elev_1   elev_2   elev_3   elev_4   elev_5   elev_6   elev_7    elev_8  \
0     0.0  0.32750  0.35078  0.63832  2.34344  4.97896  7.92458  11.00981   
1     0.0  0.34868  0.36526  0.83345  3.11333  6.21840  9.48904  12.92477   
2     0.0  0.18312  0.34876  0.35004  0.38654  0.57094  1.03041   2.16837   
3     0.0  0.18664  0.34881  0.35011  0.40072  0.58867  1.16171   2.32156   
4     0.0  0.19016  0.34885  0.35019  0.41491  0.60640  1.29301   2.47474   

     elev_9   elev_10  ...   elev_91   elev_92  elev_93  elev_94  elev_95  \
0  14.23449  17.59841  ...  15.18315  10.59291  6.14061  2.43248  0.63258   
1  16.52553  20.29088  ...  10.00968   6.88286  3.92198  1.12679  0.50107   
2   3.48034   5.07071  ...   2.15070   1.19868  0.83331  0.83459  0.70193   
3   3.72501   5.34597  ...   0.05220   0.05351  0.05605  0.05997  0.06152   
4   3.96968   5.62123  ...   0.61936   0.62069  0.55722  0.36412  0.19513   

   elev_96  elev_97  elev_98  elev_9

In [94]:
# Ahora quito las elevaciones en m y concateno con las elevaciones en km y redondeado
Y = Y.drop(columns = elev_columns)
Y = pd.concat([Y,elevations],axis = 1)#

In [105]:
print(Y[["elev_100"]].describe())

          elev_100
count  5130.000000
mean     64.414795
std     119.523198
min       0.000000
25%       0.000000
50%       0.000000
75%      21.532835
max     304.611820


##### División de los datos en conjuntos de entrenamiento y prueba
  `train_test_split` es una función que forma parte de la biblioteca de scikit-learn en el módulo `sklearn.model_selection`.
  Se lo usa comunmente para dividir un conjunto de datos en dos subconjuntos (entrenamiento y prueba)
#### Sus parámetros
* **Datos**(obligatorio): Conjunto de datos que se desea dividir. 
  ```python
    train_test_split(X,Y)
* **test_size**(opcional): Define el porcentaje o la cantidad de datos que se reserva para prueba. Si es 0.2 indica un 20% reservado para prueba.
  ```python
    train_test_split(X,Y, test_size=0.2)
* **train_size**(opcional): Especifica el tamaño del conjunto de Entrenamiento.
* **random_state**(opcional): Controla la aleatoridad de la división. Si se usa un valor fijo (`random_state=42`), la división siempre es la misma cada vez que se ejecute el código.
  ```python
    train_test_split(X, Y, test_size=0.2, random_state=42)
* **shuffle** (opcional): Especificsa si los datos deben ser barajados antes de ser divididos. Por defecto está en `True`. Es decir, los datos se mezclarán aleatoriamente antes de ser divididos.
  


In [96]:
x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.2,random_state=42)

print("Tipo de dato:",type(x_train),"\n", x_train.head())

Tipo de dato: <class 'pandas.core.frame.DataFrame'> 
       latitude_pos_tx  longitude_pos_tx  elevation_pos_tx          fc  \
1235           -42.28             -63.4                 0  10000000.0   
4047           -42.28             -63.4                 0  20000000.0   
949            -42.28             -63.4                 0  10000000.0   
4375           -42.28             -63.4                 0  23000000.0   
19             -42.28             -63.4                 0  10000000.0   

      elevation  azimuth    year  mmdd  UTI  hour     delay  \
1235          5       98  2010.0   725    0    20  0.009413   
4047         28       89  2010.0  1215    0    12  0.002455   
949           5       98  2010.0   608    0     4  0.009073   
4375         34       87  2010.0  1215    0    12  0.001921   
19            5       98  2010.0   104    0     4  0.009910   

      terrestrial_range   slant_range  
1235       2.719923e+06  2.822081e+06  
4047       6.188348e+05  7.360000e+05  
949     

In [102]:
#Información
print("Información x_train:\n")
x_train.info()
print("\nInformación y_train:\n")
y_train.info()



Información x_train:

<class 'pandas.core.frame.DataFrame'>
Index: 4104 entries, 1235 to 860
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   latitude_pos_tx    4104 non-null   float64
 1   longitude_pos_tx   4104 non-null   float64
 2   elevation_pos_tx   4104 non-null   int64  
 3   fc                 4104 non-null   float64
 4   elevation          4104 non-null   int64  
 5   azimuth            4104 non-null   int64  
 6   year               4104 non-null   float64
 7   mmdd               4104 non-null   int64  
 8   UTI                4104 non-null   int64  
 9   hour               4104 non-null   int64  
 10  delay              4104 non-null   float64
 11  terrestrial_range  4104 non-null   float64
 12  slant_range        4104 non-null   float64
dtypes: float64(7), int64(6)
memory usage: 448.9 KB
Información y_train:

<class 'pandas.core.frame.DataFrame'>
Index: 4104 entries, 1235 to 860
Columns: 

In [104]:
print("Información x_test:\n")
x_test.info()
print("\nInformación y_test:\n")
y_test.info()

Información x_test:

<class 'pandas.core.frame.DataFrame'>
Index: 1026 entries, 5104 to 2305
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   latitude_pos_tx    1026 non-null   float64
 1   longitude_pos_tx   1026 non-null   float64
 2   elevation_pos_tx   1026 non-null   int64  
 3   fc                 1026 non-null   float64
 4   elevation          1026 non-null   int64  
 5   azimuth            1026 non-null   int64  
 6   year               1026 non-null   float64
 7   mmdd               1026 non-null   int64  
 8   UTI                1026 non-null   int64  
 9   hour               1026 non-null   int64  
 10  delay              1026 non-null   float64
 11  terrestrial_range  1026 non-null   float64
 12  slant_range        1026 non-null   float64
dtypes: float64(7), int64(6)
memory usage: 112.2 KB

Información y_test:

<class 'pandas.core.frame.DataFrame'>
Index: 1026 entries, 5104 to 2305
Columns: