# Práctica de Expresiones Regulares con Python

## Introducción

Esta práctica tiene como objetivo procesar archivos HTML de la Administración de Seguridad Social de EE.UU. que contienen los nombres de bebés más populares por año. Utilizaremos expresiones regulares para extraer y analizar esta información.

## Configuración Inicial

### Importación de Bibliotecas
import re


In [132]:
import re

file = open('../data/baby1992.html')

### Tarea 1: Encontrar el Año

**Objetivo:** Extraer el año de popularidad del archivo HTML y mostrarlo como un string formateado.

**Descripción:**
El archivo HTML contiene una línea con el formato específico que incluye el año. Debemos localizar esta línea usando expresiones regulares y extraer solo el valor numérico del año.


In [124]:
pattern = r'Popularity in (\d{4})'
anio = []

for line in file:
    result = re.search(pattern, line)
    if result :
        anio.append(result.group(1))
        break

print(f"Año:{anio[0]}")

Año:1992


### Tarea 2: Extraer Nombres y Ranking

**Objetivo:** Utilizar expresiones regulares para identificar y extraer los nombres de bebés junto con sus respectivos rankings del archivo HTML, creando una estructura de datos organizada.


In [127]:
pattern2 = r'<td>(\w+)</td><td>(\w+)</td><td>(\w+)</td>'
ranking = []
nombre_m = []
nombre_f = []
lista_2 = []
lista_3 = []

diccionario = {}
file.seek(0)
contador = 1
for line in file:
    result = re.findall(pattern2, line)
    if result:
        for ranking, nombre_m, nombre_f in result:
            lista_2.append((nombre_m, ranking))
            lista_3.append((nombre_f, str(contador)))
            contador = contador + 1

lista_2, lista_3

([('Michael', '1'),
  ('Christopher', '2'),
  ('Matthew', '3'),
  ('Joshua', '4'),
  ('Andrew', '5'),
  ('Brandon', '6'),
  ('Daniel', '7'),
  ('Tyler', '8'),
  ('James', '9'),
  ('David', '10'),
  ('Joseph', '11'),
  ('Nicholas', '12'),
  ('Ryan', '13'),
  ('John', '14'),
  ('Jacob', '15'),
  ('Zachary', '16'),
  ('Robert', '17'),
  ('Justin', '18'),
  ('Anthony', '19'),
  ('William', '20'),
  ('Jonathan', '21'),
  ('Kyle', '22'),
  ('Alexander', '23'),
  ('Cody', '24'),
  ('Kevin', '25'),
  ('Eric', '26'),
  ('Thomas', '27'),
  ('Dylan', '28'),
  ('Steven', '29'),
  ('Aaron', '30'),
  ('Brian', '31'),
  ('Jordan', '32'),
  ('Benjamin', '33'),
  ('Timothy', '34'),
  ('Christian', '35'),
  ('Adam', '36'),
  ('Jose', '37'),
  ('Austin', '38'),
  ('Patrick', '39'),
  ('Richard', '40'),
  ('Samuel', '41'),
  ('Sean', '42'),
  ('Charles', '43'),
  ('Nathan', '44'),
  ('Stephen', '45'),
  ('Jason', '46'),
  ('Jeremy', '47'),
  ('Travis', '48'),
  ('Mark', '49'),
  ('Jesse', '50'),
  ('Jeffr

### Tarea 3: Guardar en un Diccionario

**Objetivo:** Transformar la lista de tuplas obtenida en la Tarea 2 en un diccionario donde cada nombre sea una clave única asociada a su respectivo ranking.

**Propósito:** Crear una estructura de datos de tipo clave-valor que permita:
- Búsqueda rápida de rankings por nombre
- Eliminación de duplicados (cada nombre aparece solo una vez)
- Facilidad de acceso a la información


In [134]:
lista_1 = []

diccionario = {}

file.seek(0)

for line in file:
    result = re.findall(pattern2, line)
    if result:
        for ranking, nombre_m, nombre_f in result:
            lista_1.append((nombre_m, ranking))
            lista_1.append((nombre_f, ranking))

for nombre, ranking in lista_1:
    if nombre not in diccionario:
        diccionario[nombre] = ranking

diccionario, len(diccionario)

({'Michael': '1',
  'Ashley': '1',
  'Christopher': '2',
  'Jessica': '2',
  'Matthew': '3',
  'Amanda': '3',
  'Joshua': '4',
  'Brittany': '4',
  'Andrew': '5',
  'Sarah': '5',
  'Brandon': '6',
  'Samantha': '6',
  'Daniel': '7',
  'Emily': '7',
  'Tyler': '8',
  'Stephanie': '8',
  'James': '9',
  'Elizabeth': '9',
  'David': '10',
  'Megan': '10',
  'Joseph': '11',
  'Jennifer': '11',
  'Nicholas': '12',
  'Lauren': '12',
  'Ryan': '13',
  'Kayla': '13',
  'John': '14',
  'Nicole': '14',
  'Jacob': '15',
  'Chelsea': '15',
  'Zachary': '16',
  'Rachel': '16',
  'Robert': '17',
  'Taylor': '17',
  'Justin': '18',
  'Danielle': '18',
  'Anthony': '19',
  'Amber': '19',
  'William': '20',
  'Rebecca': '20',
  'Jonathan': '21',
  'Courtney': '21',
  'Kyle': '22',
  'Victoria': '22',
  'Alexander': '23',
  'Kelsey': '23',
  'Cody': '24',
  'Melissa': '24',
  'Kevin': '25',
  'Michelle': '25',
  'Eric': '26',
  'Hannah': '26',
  'Thomas': '27',
  'Katherine': '27',
  'Dylan': '28',
  'J

### Tarea 4: Lista de Nombres Ordenada Alfabéticamente

**Objetivo:** Crear una lista ordenada alfabéticamente que contenga únicamente los nombres extraídos del diccionario de la Tarea 3, preservando el orden natural alfabético para facilitar búsquedas y análisis.

In [129]:
nombres= []
nombres_ordenados = sorted(diccionario.keys())
nombres.append(nombres_ordenados)

nombres

[['Aaron',
  'Abbey',
  'Abbie',
  'Abby',
  'Abdul',
  'Abel',
  'Abigail',
  'Abraham',
  'Adam',
  'Adan',
  'Addison',
  'Adolfo',
  'Adrian',
  'Adriana',
  'Adrianna',
  'Adrianne',
  'Adrienne',
  'Agustin',
  'Ahmad',
  'Ahmed',
  'Aidan',
  'Aileen',
  'Aimee',
  'Aisha',
  'Aja',
  'Akeem',
  'Alaina',
  'Alan',
  'Alana',
  'Alanna',
  'Alayna',
  'Albert',
  'Alberto',
  'Aldo',
  'Alec',
  'Alecia',
  'Alejandra',
  'Alejandro',
  'Alesha',
  'Alessandra',
  'Alex',
  'Alexa',
  'Alexander',
  'Alexandra',
  'Alexandre',
  'Alexandrea',
  'Alexandria',
  'Alexandro',
  'Alexia',
  'Alexis',
  'Alexus',
  'Alfonso',
  'Alfred',
  'Alfredo',
  'Ali',
  'Alice',
  'Alicia',
  'Alina',
  'Alisa',
  'Alisha',
  'Alison',
  'Alissa',
  'Allan',
  'Allen',
  'Allie',
  'Allison',
  'Allyson',
  'Allyssa',
  'Alma',
  'Alonso',
  'Alonzo',
  'Alphonso',
  'Alton',
  'Alvaro',
  'Alvin',
  'Alycia',
  'Alysa',
  'Alysha',
  'Alysia',
  'Alyson',
  'Alyssa',
  'Amanda',
  'Amber',
 

### Tarea 5: Formatear la salida final

Generar una lista con el siguiente formato:

1. **El primer elemento** debe ser el **año extraído**.
2. **Los siguientes elementos** deben ser cadenas con el formato:

In [137]:
lista_final = [anio]

for nombre in nombres_ordenados:
    lista_final.append(f"{nombre} - {diccionario[nombre]}")

lista_final

[['1992'],
 'Aaron - 30',
 'Abbey - 545',
 'Abbie - 784',
 'Abby - 260',
 'Abdul - 980',
 'Abel - 370',
 'Abigail - 86',
 'Abraham - 254',
 'Adam - 36',
 'Adan - 498',
 'Addison - 634',
 'Adolfo - 677',
 'Adrian - 96',
 'Adriana - 141',
 'Adrianna - 289',
 'Adrianne - 822',
 'Adrienne - 279',
 'Agustin - 618',
 'Ahmad - 579',
 'Ahmed - 724',
 'Aidan - 633',
 'Aileen - 795',
 'Aimee - 314',
 'Aisha - 571',
 'Aja - 958',
 'Akeem - 562',
 'Alaina - 436',
 'Alan - 129',
 'Alana - 386',
 'Alanna - 502',
 'Alayna - 852',
 'Albert - 205',
 'Alberto - 225',
 'Aldo - 836',
 'Alec - 172',
 'Alecia - 751',
 'Alejandra - 149',
 'Alejandro - 113',
 'Alesha - 782',
 'Alessandra - 807',
 'Alex - 54',
 'Alexa - 140',
 'Alexander - 23',
 'Alexandra - 29',
 'Alexandre - 987',
 'Alexandrea - 508',
 'Alexandria - 73',
 'Alexandro - 882',
 'Alexia - 522',
 'Alexis - 40',
 'Alexus - 616',
 'Alfonso - 420',
 'Alfred - 403',
 'Alfredo - 274',
 'Ali - 477',
 'Alice - 372',
 'Alicia - 71',
 'Alina - 639',
 'Ali