# **Obtención y preparación de datos**

# OD25. Manejo de Fechas con Pandas

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">

##<font color='red'>__Contenido opcional__</font>

## <font color='blue'>**Manejo de fechas**</font>
### __Especificando Columnas de Fechas__

Para facilitar el trabajo con datos de fecha y hora, `read_csv()` usa los argumentos de palabras clave `parse_dates` y `date_parser` para permitir a los usuarios especificar una variedad de columnas y formatos de fecha/hora para convertir los datos de texto de entrada en objetos de fecha y hora.

El caso más simple es simplemente pasar `parse_dates = True`:

**Recuerda montar tu drive con los archivos**

In [1]:
import pandas as pd

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [10]:
df = pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/foo.csv',
    index_col=0, parse_dates=True)
df

Unnamed: 0_level_0,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2009-01-01,a,1,2
2009-01-02,b,3,4
2009-01-03,c,4,5


In [11]:
df.index

DatetimeIndex(['2009-01-01', '2009-01-02', '2009-01-03'], dtype='datetime64[ns]', name='date', freq=None)

Es posible que queramos almacenar datos de fecha y hora por separado, o almacenar varios campos de fecha por separado. La palabra clave `parse_dates` se puede utilizar para especificar una combinación de columnas para analizar las fechas y/o horas.

Puede especificar una lista de listas de columnas para `parse_dates`, las columnas de fecha resultantes se antepondrán a la salida (para no afectar el orden de las columnas existentes) y los nombres de las nuevas columnas serán la concatenación de los nombres de las columnas del componente:

In [4]:
# print(open('/content/drive/MyDrive/Diplomado UDD-BCH 2023/Material_clases_CD_AD_2023/M02-Obtencion_preparacion_datos/files/tmp.csv').read())
print(open(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp.csv').read())

KORD,19990127,19:00:00,18:56:00,0.8100
KORD,19990127,20:00:00,19:56:00,0.0100
KORD,19990127,21:00:00,20:56:00,-0.5900
KORD,19990127,21:00:00,21:18:00,-0.9900
KORD,19990127,22:00:00,21:56:00,-0.5900
KORD,19990127,23:00:00,22:56:00,-0.5900



In [5]:
df = pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp.csv',
    header=None, parse_dates=[[1, 2], [1, 3]])
df

  df = pd.read_csv(


Unnamed: 0,1_2,1_3,0,4
0,1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,0.81
1,1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,0.01
2,1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,-0.59
3,1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,-0.99
4,1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,-0.59
5,1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,-0.59


In [7]:
df = pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp.csv',
    header=None, parse_dates=[[1, 2], [1, 3]], keep_date_col=True)
df

  df = pd.read_csv(
  df = pd.read_csv(


Unnamed: 0,1_2,1_3,0,1,2,3,4
0,1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,19990127,19:00:00,18:56:00,0.81
1,1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,19990127,20:00:00,19:56:00,0.01
2,1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,19990127,21:00:00,20:56:00,-0.59
3,1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,19990127,21:00:00,21:18:00,-0.99
4,1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,19990127,22:00:00,21:56:00,-0.59
5,1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,19990127,23:00:00,22:56:00,-0.59


Tenga en cuenta que si desea combinar varias columnas en una sola columna de fecha, se debe utilizar una lista anidada. En otras palabras, `parse_dates = [1, 2]` indica que la segunda y la tercera columna deben analizarse como columnas de fecha separadas, mientras que `parse_dates = [[1, 2]]` significa que las dos columnas deben analizarse en una sola columna.

También puede usar un diccionario para especificar columnas de nombre personalizadas:

In [8]:
date_spec = {'nominal': [1, 2], 'actual': [1, 3]}
date_spec

{'nominal': [1, 2], 'actual': [1, 3]}

In [9]:
df = pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp.csv',
    header=None, parse_dates=date_spec)
df

  df = pd.read_csv(


Unnamed: 0,nominal,actual,0,4
0,1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,0.81
1,1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,0.01
2,1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,-0.59
3,1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,-0.99
4,1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,-0.59
5,1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,-0.59


Es importante recordar que si se van a analizar varias columnas de texto en una sola columna de fecha, se antepone una nueva columna a los datos. La especificación `index_col` se basa en este nuevo conjunto de columnas en lugar de en las columnas de datos originales:

In [12]:
date_spec = {'nominal': [1, 2], 'actual': [1, 3]}
date_spec

{'nominal': [1, 2], 'actual': [1, 3]}

In [14]:
df = pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp.csv',
    header=None, parse_dates=date_spec, index_col=0)
df

  df = pd.read_csv(


Unnamed: 0_level_0,actual,0,4
nominal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,0.81
1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,0.01
1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,-0.59
1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,-0.99
1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,-0.59
1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,-0.59


### __Funciones de Análisis de Fecha__

Se puede especificar una función `date_parser` personalizada para aprovechar al máximo la flexibilidad de la API de análisis de fechas:

In [16]:
df = pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp.csv',
    header=None, parse_dates=date_spec,
    date_parser=pd.io.date_converters.parse_date_time)
df

AttributeError: module 'pandas.io' has no attribute 'date_converters'

### __Inferir Formato de Fecha y Hora__

Si tiene `parse_dates` habilitado para algunas o todas sus columnas, y sus cadenas de fecha y hora están todas formateadas de la misma manera, puede obtener una gran aceleración al configurar `infer_datetime_format = True`. Si se establece, Pandas intentará adivinar el formato de sus cadenas de fecha y hora y luego utilizará un medio más rápido para analizar las cadenas. Se han observado velocidades hasta 10 veces mayores de análisis sintáctico. Pandas recurrirá al análisis habitual si no se puede adivinar el formato. Entonces, en general, `infer_datetime_format` no debería tener consecuencias negativas si está habilitado.

A continuación, se muestran algunos ejemplos de cadenas de fecha y hora que se pueden adivinar (todas representan el 30 de diciembre de 2011 a las 00:00:00):

"20111230"

"2011/12/30"

"20111230 00:00:00"

"30/12/2011 00:00:00"

"30/Dic/2011 00:00:00"

"30/diciembre/2011 00:00:00"

Tenga en cuenta que `infer_datetime_format` es sensible a `dayfirst`. Con `dayfirst = True`, supondrá que “01/12/2011” es el 1 de diciembre. Con `dayfirst = False` (predeterminado) supondrá que “01/12/2011” es el 12 de enero.

In [17]:
df = pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/foo.csv',
    index_col=0, parse_dates=True, infer_datetime_format=True)
df

  df = pd.read_csv(


Unnamed: 0_level_0,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2009-01-01,a,1,2
2009-01-02,b,3,4
2009-01-03,c,4,5


### __Formato Internacional de Fecha__

Si bien los formatos de fecha de EE.UU. tienden a ser MM/DD/YYYY, muchos formatos internacionales utilizan DD/MM/YYYY en su lugar. Para mayor comodidad, se proporciona una palabra clave `dayfirst`:

In [19]:
print(open(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp2.csv').read())

date,value,cat
1/6/2000,5,a
2/6/2000,10,b
3/6/2000,15,c



In [18]:
pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp2.csv',
    parse_dates=[0])

Unnamed: 0,date,value,cat
0,2000-01-06,5,a
1,2000-02-06,10,b
2,2000-03-06,15,c


In [20]:
pd.read_csv(
    '/content/drive/Othercomputers/Mi PC/Diplomado Ciencia de datos UDD/2. '
    'Obtención y preparación de datos/files/tmp2.csv',
    dayfirst=True, parse_dates=[0])

Unnamed: 0,date,value,cat
0,2000-06-01,5,a
1,2000-06-02,10,b
2,2000-06-03,15,c


## <font color='blue'>**Manejo de Líneas "Malas"**</font>

Algunos archivos pueden tener líneas mal formadas con muy pocos campos o demasiados. Las líneas con muy pocos campos tendrán los valores NA rellenados en los campos finales. Las líneas con demasiados campos generarán un error de forma predeterminada:

In [21]:
from io import StringIO

data = ('a,b,c\n'
         '1,2,3\n'
         '4,5,6,7\n'
         '8,9,10\n'
         '11,12')
print(data)

a,b,c
1,2,3
4,5,6,7
8,9,10
11,12


In [22]:
try:
    pd.read_csv(StringIO(data))
except Exception as e:
    print(type(e))

<class 'pandas.errors.ParserError'>


Puede optar por omitir las líneas incorrectas con el argumento `on_bad_lines='skip'`:

In [23]:
pd.read_csv(StringIO(data), on_bad_lines='skip')

Unnamed: 0,a,b,c
0,1,2,3.0
1,8,9,10.0
2,11,12,


<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">