# Cosas por agregar
- Sección de series de tiempo (datetime)

# Import importantes

In [1]:
import kagglehub
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import datetime


# Download latest version
path = kagglehub.dataset_download("isathyam31/adult-income-prediction-classification")


  from .autonotebook import tqdm as notebook_tqdm


# Gathering data

## Datos en general

La función más usada, lejos es `read_csv` de pandas, donde basta que demos el path del archivo y su nombre, y se leerá si no hay mayor problema. Por default, la primera fila se transforma en las columnas del dataframe, que podemos ver usando `dataframe.columns`

In [5]:
df=pd.read_csv(f"{path}/data.csv")
print(df)
print(df.columns)

       age          workclass  fnlwgt    education  education-num  \
0       39          State-gov   77516    Bachelors             13   
1       50   Self-emp-not-inc   83311    Bachelors             13   
2       38            Private  215646      HS-grad              9   
3       53            Private  234721         11th              7   
4       28            Private  338409    Bachelors             13   
...    ...                ...     ...          ...            ...   
32556   27            Private  257302   Assoc-acdm             12   
32557   40            Private  154374      HS-grad              9   
32558   58            Private  151910      HS-grad              9   
32559   22            Private  201490      HS-grad              9   
32560   52       Self-emp-inc  287927      HS-grad              9   

            marital-status          occupation    relationship    race  \
0            Never-married        Adm-clerical   Not-in-family   White   
1       Married-civ-spo

---
Opciones más usadas de `read_csv`:
- **sep o delimiter** &rarr; El separador de la data, usualmente se encuentra solo pero a veces es mejor darlo explícitamente.
- **header** &rarr; Número de fila que se toma como nombre de columnas y desde el cual comienza la data, por default, cero (inicio del .csv).
- **skiprows** &rarr; Filas a saltar desde el inicio del archivo (indexeando desde cero, se puede entregar lista o tupla)
- **skipfooter** &rarr; Filas a saltar desde el final del archivo.
- **usecols** &rarr; Subset de columnas a usar (secuencia de números o nombres explícitos).

In [21]:
#Si la primera fila está mala, cambiamos el header
df1=pd.read_csv(f"{path}/data_bad_first_row.csv") #Salió pésimo
df2=pd.read_csv(f"{path}/data_bad_first_row.csv",header=1) #Mucho mejor

#Si la segunda está mala
df3=pd.read_csv(f"{path}/data_bad_second_row.csv") #Primer dato pésimo
df4=pd.read_csv(f"{path}/data_bad_second_row.csv",skiprows=[1],header=0) #Nos saltamos la segunda fila y conservamos el header

#Seleccionemos ciertas columnas no más
df5=pd.read_csv(f"{path}/data_bad_first_row.csv",header=1,usecols=[0,3]) #Puede ser con números
df6=pd.read_csv(f"{path}/data_bad_first_row.csv",header=1,usecols=["age","education","workclass"]) #Puede ser con los nombres explícitos

In [17]:
del df1,df2,df3,df4,df5,df6

## Series de Tiempo

Para el caso de series de tiempo, hay que saber trabajar con `Timestamps`, `Datetime`, `Timedelta`, etc...

### Funciones generales 

- **pd.to_datetime()** &rarr; Transforma lo que le entregues en un "Datetime", funciona aceptando varios formatos y si le entregas secuencias.
- **pd.date_range()** &rarr; Para crear puntos en el tiempo equiespaceados, con un "start" un "end", posibilidad de "periods" o "freq"
    - **freq** más comunes:"y" (años),"m" (meses),"W" (semana), "B" (business day), "d" (días), "h" (horas), "min" (minutos), "s" (segundos) Ojo que hay *infinitas* opciones! revisar en https://pandas.pydata.org/docs/user_guide/timeseries.html#dateoffset-objects
- **df.resample().func()** &rarr; Entregando como variable una frecuencia, podemos "resamplear" según la función "func"
- **datetime.min() y .max()** &rarr; Evidente
- **datetimeindex.atributos** &rarr; nos permite acceder a muchas funciones de tiempo como "hour","day","minute","second","dayofyear", "strftime", entre otras (si es una serie, no un índice, agregar dt) 

In [None]:
##datetime con varios formatos
dt1=pd.to_datetime(["13/1/2018", np.datetime64("2018-01-13"), datetime.datetime(2018, 1, 13)],dayfirst=True)
print("dt1:",dt1)

##date_range
#Creando una lista de tiempo cada tres horas
t1="1-1-2000"
t2="10-3-2000"
dt2=pd.date_range(start=t1,end=t2,freq="3h")
print("dt2:",dt2)

#Lo mismo pero con 15 minutos
t1="1-1-2000"
t2="10-3-2000"
dt3=pd.date_range(start=t1,end=t2,freq="15min")
print("dt3:",dt3)

#Si tengo periodos y frecuencia
dt4=pd.date_range("2018-01-01", periods=5, freq="d")
print("dt4:",dt4)

#Como usar el resampleo
idx = pd.date_range("2018-01-01", periods=10, freq="h")
ts = pd.Series(range(len(idx)), index=idx)
print("ts",ts)
ts_resampled=ts.resample("2h").mean()
print("ts_resampled",ts_resampled)

dt1: DatetimeIndex(['2018-01-13', '2018-01-13', '2018-01-13'], dtype='datetime64[ns]', freq=None)
dt2: DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 03:00:00',
               '2000-01-01 06:00:00', '2000-01-01 09:00:00',
               '2000-01-01 12:00:00', '2000-01-01 15:00:00',
               '2000-01-01 18:00:00', '2000-01-01 21:00:00',
               '2000-01-02 00:00:00', '2000-01-02 03:00:00',
               ...
               '2000-10-01 21:00:00', '2000-10-02 00:00:00',
               '2000-10-02 03:00:00', '2000-10-02 06:00:00',
               '2000-10-02 09:00:00', '2000-10-02 12:00:00',
               '2000-10-02 15:00:00', '2000-10-02 18:00:00',
               '2000-10-02 21:00:00', '2000-10-03 00:00:00'],
              dtype='datetime64[ns]', length=2209, freq='3h')
dt3: DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 00:15:00',
               '2000-01-01 00:30:00', '2000-01-01 00:45:00',
               '2000-01-01 01:00:00', '2000-01-01 01:15:00',
               '2

Timestamp('2018-01-01 00:00:00')

In [None]:
df_t=pd.read_csv("biomet1.csv",skiprows=[1],header=0) #Tenemos caso de segunda linea sin sentido
df_t["time_t"]=pd.to_datetime(df_t['date']+" "+df_t['time']) #Lo guardamos en una nueva columna
print(df_t)
print(df_t["time_t"].dt.year)
print(df_t["time_t"].dt.strftime("%Y/%m/%d"))

             date      time      DOY       Ta        Pa       RH       Td  \
0      2014-01-01  00:30:00   1.0208  285.499  100523.0  87.5984      NaN   
1      2014-01-01  01:00:00   1.0416  285.169  100531.0  88.4022      NaN   
2      2014-01-01  01:30:00   1.0624  285.089  100526.0  89.6953      NaN   
3      2014-01-01  02:00:00   1.0833  285.388  100514.0  87.9180      NaN   
4      2014-01-01  02:30:00   1.1041  285.454  100498.0  84.4577      NaN   
...           ...       ...      ...      ...       ...      ...      ...   
68987  2018-02-08  21:00:00  39.8748  284.809  100917.0  87.2794  8.53473   
68988  2018-02-08  21:30:00  39.8956  284.447  100944.0  81.5375  6.87156   
68989  2018-02-08  22:00:00  39.9165  284.535  100961.0  77.7024  6.43326   
68990  2018-02-08  22:30:00  39.9373  283.947  100990.0  81.4990  6.62946   
68991  2018-02-08  23:00:00  39.9581  284.156  100990.0  78.2415  5.94753   

            Tc        Rn     LWin  ...  Ts_3_1_1  SWC_1_1_1  SWC_2_1_1  \
0

In [40]:
#Fijamos un nuevo índice
df_t=df_t.set_index("time_t")
print(df_t.index)
print(df_t.index.day)

DatetimeIndex(['2014-01-01 00:30:00', '2014-01-01 01:00:00',
               '2014-01-01 01:30:00', '2014-01-01 02:00:00',
               '2014-01-01 02:30:00', '2014-01-01 03:00:00',
               '2014-01-01 03:30:00', '2014-01-01 04:00:00',
               '2014-01-01 04:30:00', '2014-01-01 05:00:00',
               ...
               '2018-02-08 18:30:00', '2018-02-08 19:00:00',
               '2018-02-08 19:30:00', '2018-02-08 20:00:00',
               '2018-02-08 20:30:00', '2018-02-08 21:00:00',
               '2018-02-08 21:30:00', '2018-02-08 22:00:00',
               '2018-02-08 22:30:00', '2018-02-08 23:00:00'],
              dtype='datetime64[ns]', name='time_t', length=68992, freq=None)
Index([1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       ...
       8, 8, 8, 8, 8, 8, 8, 8, 8, 8],
      dtype='int32', name='time_t', length=68992)


In [21]:
#Ahora cubrimos todo el espacio
ti=df_t.index.min()
tf=df_t.index.max()
time_total=pd.date_range(start=ti,end=tf,freq="30min")
df_t=df_t.reindex(time_total)
print(df_t)

                           date      time      DOY       Ta        Pa  \
2014-01-01 00:30:00  2014-01-01  00:30:00   1.0208  285.499  100523.0   
2014-01-01 01:00:00  2014-01-01  01:00:00   1.0416  285.169  100531.0   
2014-01-01 01:30:00  2014-01-01  01:30:00   1.0624  285.089  100526.0   
2014-01-01 02:00:00  2014-01-01  02:00:00   1.0833  285.388  100514.0   
2014-01-01 02:30:00  2014-01-01  02:30:00   1.1041  285.454  100498.0   
...                         ...       ...      ...      ...       ...   
2018-02-08 21:00:00  2018-02-08  21:00:00  39.8748  284.809  100917.0   
2018-02-08 21:30:00  2018-02-08  21:30:00  39.8956  284.447  100944.0   
2018-02-08 22:00:00  2018-02-08  22:00:00  39.9165  284.535  100961.0   
2018-02-08 22:30:00  2018-02-08  22:30:00  39.9373  283.947  100990.0   
2018-02-08 23:00:00  2018-02-08  23:00:00  39.9581  284.156  100990.0   

                          RH       Td       Tc        Rn     LWin  ...  \
2014-01-01 00:30:00  87.5984      NaN  285.499   

# Links de interés
- Datasets https://www.kaggle.com/datasets
- Documentación de Pandas https://pandas.pydata.org/docs/index.html 
- Cookbook de pandas https://pandas.pydata.org/docs/user_guide/cookbook.html
- Estructura y un par de cosas sobre data engineering https://apmonitor.com/pds/index.php/Main/DataPreparation