## Importando liberías

In [2]:
import pandas as pd

## Importando datos

In [3]:
dataset=pd.read_csv('../data/raw/dataset.csv')

### Vista general

In [4]:
# Tipos de datos
print(dataset.dtypes)

ID                int64
ESTACION         object
FECHA             int64
HORA              int64
LONGITUD        float64
LATITUD         float64
ALTITUD         float64
TEMP            float64
HR              float64
PP              float64
RED              object
DEPARTAMENTO     object
PROVINCIA        object
DISTRITO         object
UBIGEO          float64
FECHA_CORTE       int64
dtype: object


In [5]:
# Nombre de las columnas
print(dataset.columns)

# Número de filas y columnas
print(dataset.shape)

Index(['ID', 'ESTACION', 'FECHA', 'HORA', 'LONGITUD', 'LATITUD', 'ALTITUD',
       'TEMP', 'HR', 'PP', 'RED', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO',
       'UBIGEO', 'FECHA_CORTE'],
      dtype='object')
(416273, 16)


In [6]:
# Valores nulos por columna
print(dataset.isnull().sum())

ID                  0
ESTACION            0
FECHA               0
HORA                0
LONGITUD            0
LATITUD             0
ALTITUD             0
TEMP            13343
HR              14121
PP              14440
RED                 0
DEPARTAMENTO        0
PROVINCIA           0
DISTRITO            0
UBIGEO              0
FECHA_CORTE         0
dtype: int64


### Vista por columna

In [7]:
print(dataset['ESTACION'].value_counts())
print(dataset['DEPARTAMENTO'].value_counts())
print(dataset['DISTRITO'].value_counts())

ESTACION
CANDARAVE            83256
SAN_JOSE_DE_UZUNA    83256
MATUCANA             83255
IMATA                83253
CARANIA              83253
Name: count, dtype: int64
DEPARTAMENTO
AREQUIPA    166509
LIMA        166508
TACNA        83256
Name: count, dtype: int64
DISTRITO
CANDARAVE               83256
POLOBAYA                83256
MATUCANA                83255
SAN_ANTONIO_DE_CHUCA    83253
CARANIA                 83253
Name: count, dtype: int64


In [8]:
print(dataset['UBIGEO'].value_counts())

UBIGEO
230201.0    83256
40114.0     83256
150701.0    83255
40514.0     83253
151007.0    83253
Name: count, dtype: int64


In [9]:
dataset['RED'].value_counts()

RED
RBON    249765
GBON    166508
Name: count, dtype: int64

In [10]:
dataset['ALTITUD'].value_counts()

ALTITUD
3410.0    83256
3269.0    83256
2421.0    83255
4475.0    83253
3840.0    83253
Name: count, dtype: int64

## Limpieza de datos

### Filtrando valores

In [11]:
#Eliminar las filas que tengan algún valor nulo
dataset=dataset.dropna()
print(dataset.shape)

(401003, 16)


#### *Eliminando columna que no aporta*

In [12]:
#Eliminar columna FECHA_CORTE
dataset=dataset.drop(columns=['FECHA_CORTE'])

### Conversión de tipos de datos

In [13]:
#convertir UBIGEO a int
dataset['UBIGEO']=dataset['UBIGEO'].astype(int)

In [14]:
#Convertir los valores de la columna FECHA a tipo datetime
dataset['FECHA']=pd.to_datetime(dataset['FECHA'], format='%Y%m%d')
print(dataset['FECHA'].dtypes)

#muestra todas las fechas distintas en una tabla de mayor a menor
print(dataset['FECHA'].value_counts().sort_index(ascending=False))


datetime64[ns]
FECHA
2024-06-30    120
2024-06-29    120
2024-06-28    120
2024-06-27    120
2024-06-26    118
             ... 
2015-01-05    116
2015-01-04    119
2015-01-03    120
2015-01-02    120
2015-01-01    120
Name: count, Length: 3468, dtype: int64


In [15]:
#convertir la columna HORA a tipo string
dataset['HORA']=dataset['HORA'].astype(str)

#Eliminar los últimos 4 dígitos de los datos de la columna HORA
dataset['HORA']=dataset['HORA'].str[:-4]
print(dataset['HORA'])

0           
1          1
2          2
3          3
4          4
          ..
416268    19
416269    20
416270    21
416271    22
416272    23
Name: HORA, Length: 401003, dtype: object


In [16]:
dataset['HORA']=dataset['HORA'].replace('', '0')

#convertir la columna HORA que es string a tipo int
dataset['HORA']=dataset['HORA'].astype(int)
print(dataset['HORA'])

0          0
1          1
2          2
3          3
4          4
          ..
416268    19
416269    20
416270    21
416271    22
416272    23
Name: HORA, Length: 401003, dtype: int64


In [17]:
print(dataset['TEMP'].value_counts())
print(dataset['HR'].value_counts())

TEMP
 13.3    2774
 13.1    2770
 12.9    2770
 5.5     2743
 5.8     2714
         ... 
-16.7       1
 24.9       1
 26.3       1
 25.5       1
 25.2       1
Name: count, Length: 414, dtype: int64
HR
100.0    57292
99.0      5929
46.0      4902
48.0      4884
49.0      4825
         ...  
9.0       1055
8.0        712
7.0        458
6.0        152
5.0         41
Name: count, Length: 96, dtype: int64


In [18]:
print(dataset['PP'].value_counts())

PP
0.0     378067
0.1       7937
0.2       2642
0.3       1786
0.4       1313
         ...  
11.5         1
24.0         1
8.4          1
12.2         1
21.8         1
Name: count, Length: 150, dtype: int64


### Creación de nuevas columnas

In [19]:
#crear tupla de departamento, distrito, provincia y ubigeo
dataset['UBICACION']=list(zip(dataset['DEPARTAMENTO'], dataset['PROVINCIA'], dataset['DISTRITO'], dataset['UBIGEO']))
print(dataset['UBICACION'].value_counts())


UBICACION
(AREQUIPA, AREQUIPA, POLOBAYA, 40114)                82160
(LIMA, YAUYOS, CARANIA, 151007)                      81548
(TACNA, CANDARAVE, CANDARAVE, 230201)                81021
(LIMA, HUAROCHIRI, MATUCANA, 150701)                 78195
(AREQUIPA, CAYLLOMA, SAN_ANTONIO_DE_CHUCA, 40514)    78079
Name: count, dtype: int64


In [20]:
#Crear columna AÑO y MES de FECHA
dataset['AÑO']=dataset['FECHA'].dt.year
print(dataset['AÑO'].value_counts())

dataset['MES']=dataset['FECHA'].dt.month
print(dataset['MES'].value_counts())

AÑO
2020    43747
2021    43655
2018    43575
2022    43560
2023    42948
2017    42641
2019    41158
2016    39554
2015    39320
2024    20845
Name: count, dtype: int64
MES
1     36390
3     35667
5     35505
6     34950
4     33619
12    33032
10    32903
2     32666
7     32321
8     31620
9     31507
11    30823
Name: count, dtype: int64


In [21]:
#crear tupla red y estacion
dataset['RED_ESTACION']=list(zip(dataset['RED'], dataset['ESTACION']))
print(dataset['RED_ESTACION'].value_counts())

RED_ESTACION
(RBON, SAN_JOSE_DE_UZUNA)    82160
(GBON, CARANIA)              81548
(RBON, CANDARAVE)            81021
(GBON, MATUCANA)             78195
(RBON, IMATA)                78079
Name: count, dtype: int64


In [22]:
#crear tupla latitud, longitud y altitud
dataset['COORDENADA']=list(zip(dataset['LATITUD'], dataset['LONGITUD'], dataset['ALTITUD']))

dataset.columns

Index(['ID', 'ESTACION', 'FECHA', 'HORA', 'LONGITUD', 'LATITUD', 'ALTITUD',
       'TEMP', 'HR', 'PP', 'RED', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO',
       'UBIGEO', 'UBICACION', 'AÑO', 'MES', 'RED_ESTACION', 'COORDENADA'],
      dtype='object')

In [23]:
#guardar en dataclean el dataset limpio
#dataset.to_csv('../data/raw/dataset_clean.csv', index=False)

Pensar incluir data de vegetación para calcular la evapotranspiración

In [33]:
# imprime todos los valores de PP del primer día
print(dataset[dataset['FECHA']=='2019-01-01']['PP'].value_counts())

PP
0.0    107
0.1      8
0.2      1
0.7      1
3.5      1
2.3      1
0.5      1
Name: count, dtype: int64


In [34]:
print(dataset[dataset['FECHA']=='2015-01-01']['PP'].value_counts())

PP
0.0    119
0.1      1
Name: count, dtype: int64
