In [24]:
import numpy as np
import pandas as pd

# Tomar datos del url en formato "raw"
url = 'https://raw.githubusercontent.com/FrydaOviedo/Fisica_Computacional/main/Actividad1/Datos_diarios.txt'
#url = 'https://github.com/FrydaOviedo/Fisica_Computacional/blob/main/Actividad1/Datos_diarios.txt'

# Definimos los nombres de las columnas
# El archivo tiene códigos ASCII extendido (Español), encoding='cp1251' Windows (Europa Occidental)
# El separador de datos es de uno o más espacios, sep='\s+'
# Se brincará los primeros 19 renglones y el último, afirmamos que no nay encabezado
# Se procesan los datos utilizando Python, engine='python' 
my_cols = ['Fecha','Precip','Evap','Tmax','Tmin',]
df_tkt = pd.read_csv(url, names=my_cols, encoding='cp1251', sep='\s+', header=None, skiprows=19, skipfooter=1, engine='python')

In [9]:
# Revisamos los primeros diez renglones y los últimos diez del dataframe
print(df_tkt.head(10))
print(df_tkt.tail(10))

        Fecha Precip  Evap  Tmax  Tmin
0  09/09/1953      0  Nulo  39.5  Nulo
1  10/09/1953      0  Nulo    41    35
2  11/09/1953      0  Nulo    38    26
3  12/09/1953      0  Nulo    36    26
4  13/09/1953      0  Nulo    35    25
5  14/09/1953      0  Nulo    31    24
6  15/09/1953      0  Nulo    38  24.5
7  16/09/1953      0  Nulo  40.5    25
8  17/09/1953      0  Nulo  38.5    26
9  18/09/1953      0  Nulo    34    23
            Fecha Precip  Evap Tmax Tmin
20894  21/11/2012      0  Nulo   25   16
20895  22/11/2012      0  Nulo   26   16
20896  23/11/2012      0  Nulo   27   18
20897  24/11/2012      0  Nulo   28   19
20898  25/11/2012      0  Nulo   27   16
20899  26/11/2012      0  Nulo   26   19
20900  27/11/2012      0  Nulo   26   17
20901  28/11/2012      0  Nulo   24   18
20902  29/11/2012      0  Nulo   25   17
20903  30/11/2012      0  Nulo   26   17


In [10]:
# Revisamos las dimensiones (renglones, columnas)
df_tkt.shape

(20904, 5)

In [11]:
# Información del dataframe
df_tkt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20904 entries, 0 to 20903
Data columns (total 5 columns):
Fecha     20904 non-null object
Precip    20904 non-null object
Evap      20904 non-null object
Tmax      20904 non-null object
Tmin      20904 non-null object
dtypes: object(5)
memory usage: 816.6+ KB


In [12]:
# Hacemos una copia de trabajo y preservamos el dataframe original
df_tkt0 = df_tkt.copy()
df_tkt0.head()

Unnamed: 0,Fecha,Precip,Evap,Tmax,Tmin
0,09/09/1953,0,Nulo,39.5,Nulo
1,10/09/1953,0,Nulo,41.0,35
2,11/09/1953,0,Nulo,38.0,26
3,12/09/1953,0,Nulo,36.0,26
4,13/09/1953,0,Nulo,35.0,25


In [13]:
# Cambiamos la palabra nulo por un vacío y verificamos
str_Nulo = 'Nulo'
df_tkt1 = df_tkt0.replace(to_replace=str_Nulo, value='', regex=True)
print(df_tkt1.head())
print(df_tkt.tail())

        Fecha Precip Evap  Tmax Tmin
0  09/09/1953      0       39.5     
1  10/09/1953      0         41   35
2  11/09/1953      0         38   26
3  12/09/1953      0         36   26
4  13/09/1953      0         35   25
            Fecha Precip  Evap Tmax Tmin
20899  26/11/2012      0  Nulo   26   19
20900  27/11/2012      0  Nulo   26   17
20901  28/11/2012      0  Nulo   24   18
20902  29/11/2012      0  Nulo   25   17
20903  30/11/2012      0  Nulo   26   17


In [15]:
# Convertimos los valores de las variables ambientales a números flotantes y verificamos 
cols_list = ['Precip', 'Evap', 'Tmax', 'Tmin']
for cols in cols_list:
  df_tkt1[cols] = pd.to_numeric(df_tkt0[cols], errors='coerce')
df_tkt1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20904 entries, 0 to 20903
Data columns (total 5 columns):
Fecha     20904 non-null object
Precip    20856 non-null float64
Evap      9815 non-null float64
Tmax      20790 non-null float64
Tmin      20801 non-null float64
dtypes: float64(4), object(1)
memory usage: 816.6+ KB


In [16]:
# Contabilizamos el número de datos faltantes en las variables y se suman los valores nulos
df_tkt1.isnull().sum()

Fecha         0
Precip       48
Evap      11089
Tmax        114
Tmin        103
dtype: int64

In [17]:
# Imprimimos nuevamente el encabezado y el final del dataframe
print(df_tkt1.head())
print(df_tkt1.tail())

        Fecha  Precip  Evap  Tmax  Tmin
0  09/09/1953     0.0   NaN  39.5   NaN
1  10/09/1953     0.0   NaN  41.0  35.0
2  11/09/1953     0.0   NaN  38.0  26.0
3  12/09/1953     0.0   NaN  36.0  26.0
4  13/09/1953     0.0   NaN  35.0  25.0
            Fecha  Precip  Evap  Tmax  Tmin
20899  26/11/2012     0.0   NaN  26.0  19.0
20900  27/11/2012     0.0   NaN  26.0  17.0
20901  28/11/2012     0.0   NaN  24.0  18.0
20902  29/11/2012     0.0   NaN  25.0  17.0
20903  30/11/2012     0.0   NaN  26.0  17.0


In [18]:
# Estádistica básica de las variables númericas con redondeo a 2 cifras significativas
df_tkt1.describe().round(2)


Unnamed: 0,Precip,Evap,Tmax,Tmin
count,20856.0,9815.0,20790.0,20801.0
mean,0.18,5.43,28.5,16.9
std,2.1,2.74,6.37,6.19
min,0.0,0.0,10.0,1.0
25%,0.0,3.3,23.0,12.0
50%,0.0,5.0,29.0,16.0
75%,0.0,7.3,34.0,22.0
max,124.0,17.8,49.0,35.0


In [19]:
# Definimos un nuevo dataframe por si hay que regresarse.
df_tkt2 = df_tkt1.copy()
df_tkt2['Fecha'].head()

0    09/09/1953
1    10/09/1953
2    11/09/1953
3    12/09/1953
4    13/09/1953
Name: Fecha, dtype: object

In [20]:
# Se convierte el objeto Fecha a variable fecha que python reconoce
df_tkt2['Fecha'] = pd.to_datetime(df_tkt2['Fecha'], dayfirst=True).copy()
print(df_tkt2.head())


       Fecha  Precip  Evap  Tmax  Tmin
0 1953-09-09     0.0   NaN  39.5   NaN
1 1953-09-10     0.0   NaN  41.0  35.0
2 1953-09-11     0.0   NaN  38.0  26.0
3 1953-09-12     0.0   NaN  36.0  26.0
4 1953-09-13     0.0   NaN  35.0  25.0


In [21]:
# Verificamos que las variables son del tipo que las queremos
df_tkt2.dtypes

Fecha     datetime64[ns]
Precip           float64
Evap             float64
Tmax             float64
Tmin             float64
dtype: object

In [22]:
# Añadimos dos columnas adicionales: df['Año'], df['Mes']
# Usaremos la función .dt.year y .dt.month para extraer el Año y Mes de la Fecha
df_tkt2['Año'] = df_tkt2['Fecha'].dt.year
df_tkt2['Mes'] = df_tkt2['Fecha'].dt.month
# Verificamos que se hayan creado de forma correcta
# Tendremos ahora dos columnas adicionales de Año y Mes.
print(df_tkt2.head())
print(df_tkt2.tail())


       Fecha  Precip  Evap  Tmax  Tmin   Año  Mes
0 1953-09-09     0.0   NaN  39.5   NaN  1953    9
1 1953-09-10     0.0   NaN  41.0  35.0  1953    9
2 1953-09-11     0.0   NaN  38.0  26.0  1953    9
3 1953-09-12     0.0   NaN  36.0  26.0  1953    9
4 1953-09-13     0.0   NaN  35.0  25.0  1953    9
           Fecha  Precip  Evap  Tmax  Tmin   Año  Mes
20899 2012-11-26     0.0   NaN  26.0  19.0  2012   11
20900 2012-11-27     0.0   NaN  26.0  17.0  2012   11
20901 2012-11-28     0.0   NaN  24.0  18.0  2012   11
20902 2012-11-29     0.0   NaN  25.0  17.0  2012   11
20903 2012-11-30     0.0   NaN  26.0  17.0  2012   11


In [23]:
# Verificamos que las variables Mes y Año son enteros
df_tkt2.dtypes


Fecha     datetime64[ns]
Precip           float64
Evap             float64
Tmax             float64
Tmin             float64
Año                int64
Mes                int64
dtype: object