# Práctica de Data Cleaning


In [1]:
import pandas as pd

## Objetivo

El objetivo de este ejercicio es aplicar técnicas de **limpieza de datos** en Pandas.

Este ejercicio cubre la manipulación de strings (utilizando métodos de strings), el uso de expresiones regulares, la importancia de la limpieza y la conversión a `datetime`

## Contexto del Conjunto de Datos

Hemos cargado un DataFrame que contiene información de Presidentes de EE. UU. La columna `'Born'` (Nacimiento) contiene la fecha y, entre paréntesis, la ciudad o ubicación, como por ejemplo: `February 22, 1732[b] (Westmoreland County, Virginia)`.

## Instrucciones

- De la columna `'President'` Crea una columna para el nombre 'firstname' y otra para el apellido (lastname) de los presidentes eliminando la referencias a las notas al pie que encuentres. Puedes utilizar un patron de Regular Expression para realizar esta tarea
- La columna `'Born'` contiene referencias entre corchetes (ej. `[b]`) y texto adicional entre paréntesis (ej. `(Westmoreland County, Virginia)`). Debemos eliminar todo este texto para quedarnos solo con la fecha limpia.
- Convierte la columna `'Born'` al Tipo `datetime`
- Extrae de la columna  `'Born'` el año de nacimiento y genera una nueva columna denominada `'Year Born'`


In [2]:
df = pd.read_csv("../data/presidents.csv")

df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days"
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days"
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days"
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days"
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days"


Limpio president y separo nombre y apellido

In [3]:
df['President'] = df['President'].str.replace(r'\[.*?\]', '', regex=True).str.strip()
df[['firstname', 'lastname']] = df['President'].str.split(' ', n=1, expand=True)

Limpio Born

In [4]:
df['Born'] = (
    df['Born']
    .str.replace(r'\[.*?\]', '', regex=True)
    .str.replace(r'\(.*?\)', '', regex=True)
    .str.strip()
)


Convierto a datetime y extraigo el año

In [5]:
df['Born'] = pd.to_datetime(df['Born'], errors='coerce')
df['Year Born'] = df['Born'].dt.year

Muestro el resultado

In [6]:
df[['President', 'firstname', 'lastname', 'Born', 'Year Born']].head()

Unnamed: 0,President,firstname,lastname,Born,Year Born
0,George Washington,George,Washington,1732-02-22,1732
1,John Adams,John,Adams,1735-10-30,1735
2,Thomas Jefferson,Thomas,Jefferson,1743-04-13,1743
3,James Madison,James,Madison,1751-03-16,1751
4,James Monroe,James,Monroe,1758-04-28,1758
