In [4]:
# Importamos numpy y panda, bibliotecas que se necesitan
import numpy as np
import pandas as pd

# Tomar datos del url en formato "raw"
url = 'https://raw.githubusercontent.com/eduardxmartinez/FisicaComputacional/master/Actividad1/2030.txt'

# Definimos los nombres de las columnas
# El archivo tiene códigos ASCII extendido (Español), encoding='cp1251' Windows (Europa Occidental)
# El separador de datos es de uno o más espacios, sep='\s+'
# Se brincará los primeros 19 renglones y el último, afirmamos que no nay encabezado
# Se procesan los datos utilizando Python, engine='python' 
my_cols = ['Fecha','Precip','Evap','Tmax','Tmin',]
df_tkt = pd.read_csv(url, names=my_cols, encoding='cp1251', sep='\s+', header=None, skiprows=19, skipfooter=1, engine='python') 

In [5]:
# Revisamos los primeros diez renglones y los últimos diez del dataframe
print(df_tkt.head(10))
print(df_tkt.tail(10))

        Fecha Precip  Evap  Tmax  Tmin
0  01/01/1946      0  Nulo  Nulo  Nulo
1  02/01/1946     21  Nulo  18.4  Nulo
2  03/01/1946      0  Nulo  Nulo  Nulo
3  04/01/1946    9.5  Nulo  11.1   1.1
4  05/01/1946      0  Nulo    15   4.4
5  06/01/1946    1.5  Nulo  15.5   1.6
6  07/01/1946      0  Nulo  15.5   0.5
7  08/01/1946      0  Nulo  13.3   0.5
8  09/01/1946      0  Nulo  15.5  -2.2
9  10/01/1946      0  Nulo  14.5  -1.1
            Fecha Precip  Evap Tmax Tmin
23074  22/10/2012      0  Nulo   23   12
23075  23/10/2012      0  Nulo   22    9
23076  24/10/2012      0  Nulo   27    9
23077  25/10/2012      0  Nulo   27    6
23078  26/10/2012      0  Nulo   28    8
23079  27/10/2012      0  Nulo   33    6
23080  28/10/2012      0  Nulo   34    8
23081  29/10/2012      0  Nulo   31    9
23082  30/10/2012      0  Nulo   31    9
23083  31/10/2012      0  Nulo   27    9


In [6]:
# Revisamos las dimensiones (renglones, columnas)
df_tkt.shape

(23084, 5)

In [7]:
# Información del dataframe
df_tkt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23084 entries, 0 to 23083
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Fecha   23084 non-null  object
 1   Precip  23084 non-null  object
 2   Evap    23084 non-null  object
 3   Tmax    23084 non-null  object
 4   Tmin    23084 non-null  object
dtypes: object(5)
memory usage: 901.8+ KB


In [8]:
# Hacemos una copia de trabajo y preservamos el dataframe original
df_tkt0 = df_tkt.copy()
df_tkt0.head()

Unnamed: 0,Fecha,Precip,Evap,Tmax,Tmin
0,01/01/1946,0.0,Nulo,Nulo,Nulo
1,02/01/1946,21.0,Nulo,18.4,Nulo
2,03/01/1946,0.0,Nulo,Nulo,Nulo
3,04/01/1946,9.5,Nulo,11.1,1.1
4,05/01/1946,0.0,Nulo,15,4.4


In [10]:
# Cambiamos la palabra nulo por un vacío y verificamos
str_Nulo = 'Nulo'
df_tkt1 = df_tkt0.replace(to_replace=str_Nulo, value='', regex=True)
print(df_tkt1.head())
print(df_tkt.tail())

        Fecha Precip Evap  Tmax Tmin
0  01/01/1946      0                
1  02/01/1946     21       18.4     
2  03/01/1946      0                
3  04/01/1946    9.5       11.1  1.1
4  05/01/1946      0         15  4.4
            Fecha Precip  Evap Tmax Tmin
23079  27/10/2012      0  Nulo   33    6
23080  28/10/2012      0  Nulo   34    8
23081  29/10/2012      0  Nulo   31    9
23082  30/10/2012      0  Nulo   31    9
23083  31/10/2012      0  Nulo   27    9


In [24]:
# Convertimos los valores de las variables ambientales a números flotantes y verificamos 
cols_list = ['Precip', 'Evap', 'Tmax', 'Tmin']
for cols in cols_list:
  df_tkt1[cols] = pd.to_numeric(df_tkt0[cols], errors='coerce')
df_tkt1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23084 entries, 0 to 23083
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Fecha   23084 non-null  object 
 1   Precip  23024 non-null  float64
 2   Evap    4447 non-null   float64
 3   Tmax    22382 non-null  float64
 4   Tmin    22384 non-null  float64
dtypes: float64(4), object(1)
memory usage: 901.8+ KB


In [25]:
# Contabilizamos el número de datos faltantes en las variables y se suman los valores nulos
df_tkt1.isnull().sum()

Fecha         0
Precip       60
Evap      18637
Tmax        702
Tmin        700
dtype: int64

In [26]:
# Imprimimos nuevamente el encabezado y el final del dataframe
print(df_tkt1.head())
print(df_tkt1.tail())

        Fecha  Precip  Evap  Tmax  Tmin
0  01/01/1946     0.0   NaN   NaN   NaN
1  02/01/1946    21.0   NaN  18.4   NaN
2  03/01/1946     0.0   NaN   NaN   NaN
3  04/01/1946     9.5   NaN  11.1   1.1
4  05/01/1946     0.0   NaN  15.0   4.4
            Fecha  Precip  Evap  Tmax  Tmin
23079  27/10/2012     0.0   NaN  33.0   6.0
23080  28/10/2012     0.0   NaN  34.0   8.0
23081  29/10/2012     0.0   NaN  31.0   9.0
23082  30/10/2012     0.0   NaN  31.0   9.0
23083  31/10/2012     0.0   NaN  27.0   9.0


In [27]:
# Estádistica básica de las variables númericas con redondeo a 2 cifras significativas
df_tkt1.describe().round(2)

Unnamed: 0,Precip,Evap,Tmax,Tmin
count,23024.0,4447.0,22382.0,22384.0
mean,0.95,4.65,25.6,8.09
std,4.54,2.64,7.43,5.06
min,0.0,0.1,3.0,-9.0
25%,0.0,2.5,20.0,4.0
50%,0.0,4.3,26.0,8.0
75%,0.0,6.4,31.0,11.0
max,125.4,15.8,51.0,30.0


**Fecha** \\
Con ayuda de pandas transformaremos las fechas que estan como en objetos a una variable que python pueda reconocer como fecha. 

In [28]:
# Definimos un nuevo dataframe por si hay que regresarse.
df_tkt2 = df_tkt1.copy()
df_tkt2['Fecha'].head()

0    01/01/1946
1    02/01/1946
2    03/01/1946
3    04/01/1946
4    05/01/1946
Name: Fecha, dtype: object

In [30]:
# Se convierte el objeto Fecha a variable fecha que python reconoce
df_tkt2['Fecha'] = pd.to_datetime(df_tkt2['Fecha'], dayfirst=True).copy()
print(df_tkt2.head())

       Fecha  Precip  Evap  Tmax  Tmin
0 1946-01-01     0.0   NaN   NaN   NaN
1 1946-01-02    21.0   NaN  18.4   NaN
2 1946-01-03     0.0   NaN   NaN   NaN
3 1946-01-04     9.5   NaN  11.1   1.1
4 1946-01-05     0.0   NaN  15.0   4.4


In [33]:
# Verificamos que las variables son del tipo que las queremos
df_tkt2.dtypes

Fecha     datetime64[ns]
Precip           float64
Evap             float64
Tmax             float64
Tmin             float64
dtype: object

In [35]:
# Añadimos dos columnas adicionales: df['Año'], df['Mes']
# Usaremos la función .dt.year y .dt.month para extraer el Año y Mes de la Fecha
df_tkt2['Año'] = df_tkt2['Fecha'].dt.year
df_tkt2['Mes'] = df_tkt2['Fecha'].dt.month
# Verificamos que se hayan creado de forma correcta
# Tendremos ahora dos columnas adicionales de Año y Mes.
print(df_tkt2.head())
print(df_tkt2.tail())

       Fecha  Precip  Evap  Tmax  Tmin   Año  Mes
0 1946-01-01     0.0   NaN   NaN   NaN  1946    1
1 1946-01-02    21.0   NaN  18.4   NaN  1946    1
2 1946-01-03     0.0   NaN   NaN   NaN  1946    1
3 1946-01-04     9.5   NaN  11.1   1.1  1946    1
4 1946-01-05     0.0   NaN  15.0   4.4  1946    1
           Fecha  Precip  Evap  Tmax  Tmin   Año  Mes
23079 2012-10-27     0.0   NaN  33.0   6.0  2012   10
23080 2012-10-28     0.0   NaN  34.0   8.0  2012   10
23081 2012-10-29     0.0   NaN  31.0   9.0  2012   10
23082 2012-10-30     0.0   NaN  31.0   9.0  2012   10
23083 2012-10-31     0.0   NaN  27.0   9.0  2012   10


In [36]:
# Verificamos que las variables Mes y Año son enteros
df_tkt2.dtypes

Fecha     datetime64[ns]
Precip           float64
Evap             float64
Tmax             float64
Tmin             float64
Año                int64
Mes                int64
dtype: object