<a href="https://colab.research.google.com/github/SELF-msselve/UTN/blob/main/CEL_Data_Eng_Procesamiento_string_y_fechas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Procesamiento de datos**

Veamos que ofrece pandas para el manejo de columnas de tipo `string` (en realidad conocidas como `object`), `date`, `datetime`.

In [None]:
import pandas as pd

## Strings
En Pandas, contamos con un conjunto de métodos de procesamiento de strings, que facilitan la operación sobre cada elemento de una columna y lo hacen de forma óptima.

Se accede a ellos a través del atributo str y seguido del nombre del método.

En este link podes encontrar mas información al respecto: [Pandas doc - Working with text data](https://pandas.pydata.org/docs/user_guide/text.html#string-methods).

Aquí puedes un listado de métodos disponibles: [Pandas doc - Str method summary](https://pandas.pydata.org/docs/user_guide/text.html#method-summary)
Hay métodos para

In [None]:
# Creamos un DF de ejemplo
data = {
    'Nombres': ['Juan  ', '  María', 'Luis', '  Ana  ', ' Pedro   '],
    'Apellidos': ['pérez', 'GÓMEZ', 'MArtínez', 'GonzálEZ', 'López'],
    'Fecha_Nacimiento': ['1990-05-15', '1988-10-20', '1995-03-08', '1985-12-03', None],
    'Direccion': ['Calle 123', 'Avenida 45', 'Calle 67', 'Carrera 89 - Dpto 1', 'Avenida 39 - Piso 7 Dpto 2'],
}

df = pd.DataFrame(data)

In [None]:
# La columna apellido varía entre minúsculas y mayusculas
# Podemos usar algunas funciones para controlar eso
# Podemos hacer que la 1ra letra de cada palabra sea en mayúscula
df["Apellidos"].str.capitalize()

0       Pérez
1       Gómez
2    Martínez
3    González
4       López
Name: Apellidos, dtype: object

In [None]:
# Podemos pasar todo a minúsculas
df["Apellidos"].str.lower()

0       pérez
1       gómez
2    martínez
3    gonzález
4       lópez
Name: Apellidos, dtype: object

In [None]:
# La columna Nombre tiene espacios en blanco adicionales
# tanto al inicio como al final
# Podemos borrarlos
df["Nombres"].str.strip()

0     Juan
1    María
2     Luis
3      Ana
4    Pedro
Name: Nombres, dtype: object

In [None]:
# Podemos acceder a un subconjunto de caracteres,
# indicando un inicio y un fin
# Ej: primero tres caracteres
df["Nombres"].str[:3]

0    Jua
1      M
2    Lui
3      A
4     Pe
Name: Nombres, dtype: object

In [None]:
# La dirección tiene detalles en algunos casos
# como nro de piso y dpto
# Como está delimitado por el caracter '-'
# Podemos separar la dirección
df["Direccion"] = df["Direccion"].str.split(" - ")
df["Direccion Linea 1"] = df["Direccion"].str[0]
df["Direccion Linea 2"] = df["Direccion"].str[1]
df.head()

Unnamed: 0,Nombres,Apellidos,Fecha_Nacimiento,Direccion,Direccion Linea 1,Direccion Linea 2
0,Juan,pérez,1990-05-15,[Calle 123],Calle 123,
1,María,GÓMEZ,1988-10-20,[Avenida 45],Avenida 45,
2,Luis,MArtínez,1995-03-08,[Calle 67],Calle 67,
3,Ana,GonzálEZ,1985-12-03,"[Carrera 89, Dpto 1]",Carrera 89,Dpto 1
4,Pedro,López,,"[Avenida 39, Piso 7 Dpto 2]",Avenida 39,Piso 7 Dpto 2


In [None]:
# Podemos buscar patrones en un string
# Por ejemplo, verificar que registros empiezan, o terminan, con un texto en particular
# Supongamos que queremos filtrar solo las direcciones que comiencen con "Avenida"
df["Direccion Linea 1"].str.startswith("Avenida")

0    False
1     True
2    False
3    False
4     True
Name: Direccion Linea 1, dtype: bool

In [None]:
# .startwith devuelve un valor booleano, lo mismo que .endswith
# Así podríamos filtrar
df[
    df["Direccion Linea 1"].str.startswith("Avenida") # Filtro
    ]

# El resultado de ese filtro podríamos guardarlo en otro DF

Unnamed: 0,Nombres,Apellidos,Fecha_Nacimiento,Direccion,Direccion Linea 1,Direccion Linea 2
1,María,GÓMEZ,1988-10-20,[Avenida 45],Avenida 45,
4,Pedro,López,,"[Avenida 39, Piso 7 Dpto 2]",Avenida 39,Piso 7 Dpto 2


# Fechas

Pandas también cuenta con una serie de métodos para operar sobre columnas que contiene fecha y/o hora. Por ejemplo, es posible *desmenuzar* una fecha y acceder a partes como año, mes, hora, minuto, etc. Incluso se puede obtener valores adicionales como día de la semana, día del año, cuatrimestre, etc.

A su vez es posible formatearlas. Las fechas se pueden representar de distintas formas, es recomendable normalizar y asegurarse que las fechas estén representadas en un único formato como `YYYY-MM-DD`

A continuación, unos de links de referencia para formas información:

- [Pandas doc - Time-series/Date functionality](https://pandas.pydata.org/docs/user_guide/timeseries.html#time-series-date-functionality): Es una página extensa, te comparto algunas secciones clave:
  - [Converting to timestamps](https://pandas.pydata.org/docs/user_guide/timeseries.html#converting-to-timestamps)
  - [Time/date components](https://pandas.pydata.org/docs/user_guide/timeseries.html#time-date-components)

*En la mayoría de los casos, los valores son de tipo `float` por la existencia de nulos. Lo recomendable es reemplazar los valores nulos en primer lugar*

In [None]:
df["Fecha_Nacimiento"] = pd.to_datetime(df["Fecha_Nacimiento"])
df.head()

Unnamed: 0,Nombres,Apellidos,Fecha_Nacimiento,Direccion,Direccion Linea 1,Direccion Linea 2
0,Juan,pérez,1990-05-15,[Calle 123],Calle 123,
1,María,GÓMEZ,1988-10-20,[Avenida 45],Avenida 45,
2,Luis,MArtínez,1995-03-08,[Calle 67],Calle 67,
3,Ana,GonzálEZ,1985-12-03,"[Carrera 89, Dpto 1]",Carrera 89,Dpto 1
4,Pedro,López,NaT,"[Avenida 39, Piso 7 Dpto 2]",Avenida 39,Piso 7 Dpto 2


In [None]:
df["Fecha_Nacimiento"].dt.year

0    1990.0
1    1988.0
2    1995.0
3    1985.0
4       NaN
Name: Fecha_Nacimiento, dtype: float64

In [None]:
df["Fecha_Nacimiento"].dt.month

0     5.0
1    10.0
2     3.0
3    12.0
4     NaN
Name: Fecha_Nacimiento, dtype: float64

In [None]:
df["Fecha_Nacimiento"].dt.day

0    15.0
1    20.0
2     8.0
3     3.0
4     NaN
Name: Fecha_Nacimiento, dtype: float64

In [None]:
df["Fecha_Nacimiento"].dt.dayofyear

0    135.0
1    294.0
2     67.0
3    337.0
4      NaN
Name: Fecha_Nacimiento, dtype: float64

In [None]:
df["Fecha_Nacimiento"].dt.dayofweek

0    1.0
1    3.0
2    2.0
3    1.0
4    NaN
Name: Fecha_Nacimiento, dtype: float64

In [None]:
df["Fecha_Nacimiento"].dt.quarter

0    2.0
1    4.0
2    1.0
3    4.0
4    NaN
Name: Fecha_Nacimiento, dtype: float64

In [None]:
df["Fecha_Nacimiento"].dt.strftime("%d/%M/%Y")

0    15/00/1990
1    20/00/1988
2    08/00/1995
3    03/00/1985
4           NaN
Name: Fecha_Nacimiento, dtype: object