[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/DCDPUAEM/DCDP/blob/main/02%20Análisis%20Estadístico%20de%20Datos/notebooks/exercises/Practica5_EDA_WS.ipynb)

# 📌 **Ejercicio: Extracción y Análisis de Datos de Calidad de Vida Mundial**  

## **Introducción**
En este ejercicio, aplicarás técnicas de **Web Scraping** para extraer datos de calidad de vida de diferentes países y realizarás un **Análisis Exploratorio de Datos (EDA)** para identificar tendencias y correlaciones clave.

Trabajarás con datos extraídos desde la página web **[Numbeo](https://www.numbeo.com/quality-of-life/rankings_by_country.jsp)**, una plataforma que proporciona comparaciones de calidad de vida a nivel mundial.  

A lo largo del ejercicio, aplicarás conceptos fundamentales como:  
✔️ **Web Scraping con `requests` y `BeautifulSoup`**  
✔️ **Manipulación y limpieza de datos con `pandas`**  
✔️ **Análisis Exploratorio de Datos (EDA)**  
✔️ **Generación y exportación de datos estructurados en `CSV`**  

---

## **Índices de Calidad de Vida Extraídos**
El conjunto de datos incluirá las siguientes métricas por país:  

| **Índice**                            | **Descripción** |
|----------------------------------------|----------------|
| **Rank**                               | Posición del país en el ranking general de calidad de vida. |
| **Country**                            | Nombre del país analizado. |
| **Quality of Life Index**              | Índice general de calidad de vida (ponderación de varios factores). |
| **Purchasing Power Index**             | Capacidad adquisitiva de los ciudadanos en relación con el costo de vida. |
| **Safety Index**                        | Nivel de seguridad y criminalidad en el país. |
| **Health Care Index**                   | Calidad y acceso a los servicios de salud. |
| **Cost of Living Index**                | Comparación del costo de vida con respecto a otros países. |
| **Property Price to Income Ratio**      | Relación entre el precio de la vivienda y el ingreso promedio. |
| **Traffic Commute Time Index**          | Tiempo promedio de desplazamiento en el tráfico. |
| **Pollution Index**                     | Niveles de contaminación ambiental en el país. |
| **Climate Index**                       | Evaluación del clima y condiciones meteorológicas en la región. |
| **Year**                                | Año en que se recopilaron los datos. |

📌 **Objetivo:** Obtener datos históricos de los últimos 10 años y evaluar la evolución de estos indicadores.

---

## **Actividades**
**Realizar Web Scraping** para extraer los datos de Numbeo.  
**Estructurar los datos en un `DataFrame` de Pandas.**  
**Limpiar y transformar los datos** para que sean analizables.  
**Guardar los datos en un archivo CSV** para análisis posterior.  
**Realizar un Análisis Exploratorio de Datos (EDA)** para visualizar tendencias y correlaciones.
**Comparar comportamientos** de los datos de Mexico vs el Mundo.


In [3]:
# Importamos las librerías necesarias
import requests  # Para hacer solicitudes HTTP y obtener datos de la web
from bs4 import BeautifulSoup  # Para analizar HTML y extraer información
import pandas as pd  # Para manipulación de datos en tablas
from datetime import datetime  # Para trabajar con fechas y tiempos

# 🔹 Definimos el encabezado 'User-Agent' para evitar bloqueos por parte de la página web
HEADERS = {
     _______  # (COMPLETAR)
}

# 🔹 Determinamos el rango de años a analizar
current_year =  _______  # (COMPLETAR)  # Obtiene el año actual
starting_year = _______  # (COMPLETAR) Define el primer año a analizar (últimos 10 años)

# Creamos una lista vacía para almacenar la información extraída
data = []

# 🔹 Iteramos sobre los últimos 10 años, analizando cada uno
for year in range(starting_year, _______):  # (COMPLETAR) Definir correctamente el rango
    for half in ["", "-mid"]:  # "" para el primer semestre, "-mid" para el segundo semestre
        formatted_year = _______  # (COMPLETAR) Formatear el año correctamente para el URL

        # Evita analizar el segundo semestre del año actual, ya que puede no tener datos aún
        if formatted_year ==  _______  # (COMPLETAR)
            continue
            
        # 🔹 Construimos la URL del sitio web de Numbeo
        url = f"https://www.numbeo.com/quality-of-life/rankings_by_country.jsp?title={formatted_year}"
        
        # (COMPLETAR) Hacer la solicitud HTTP a la URL usando requests.get()
        response = _______

        # (COMPLETAR) Verificar si la respuesta fue exitosa, de lo contrario, detener el programa
        response.raise_for_status()

        # 🔹 Parseamos el contenido HTML usando BeautifulSoup
        soup = _______  # (COMPLETAR) Usar BeautifulSoup para analizar el HTML
        
        # 🔹 Buscamos la tabla que contiene los datos
        table = soup.find _______  # (COMPLETAR)
        if not table:  # Si no hay tabla, pasamos al siguiente año
            continue
        
        # 🔹 Definimos los nombres de las columnas que tendrán nuestros datos
        headers =  _______  # (COMPLETAR)

        rank = 1  # Inicializamos el ranking para cada año
        
        # 🔹 Extraemos los datos fila por fila
        for row in table.find_all('tr'):
            columns = row.find_all('td')
        
            # Si la primera columna está vacía, asignamos manualmente el ranking
            if columns and columns[0].text.strip() == "":
                rank_value = rank  # Asignamos el ranking manualmente
                columns = _______  # (COMPLETAR) Eliminar la primera celda vacía
            else:
                rank_value = rank  # Usamos el ranking normal
            
            # 🔹 Verificamos que la cantidad de columnas sea correcta antes de procesarlas
            if len(columns) == len(headers) - 2:  # -2 porque agregamos Rank y Year manualmente
                row_data = [rank_value] + [col.text.strip() for col in columns]  # Extraemos y limpiamos los datos
                
                # 🔹 Ajustamos el formato del año
                if half == "-mid":
                    row_data.append(_______)  # (COMPLETAR) Convertir "2015-mid" en "2015/2"
                else:
                    row_data.append(_______)  # (COMPLETAR) Mantener el año normal
                
                # Guardamos la fila en la lista de datos
                data.append(row_data)
                rank += 1  # Incrementamos el ranking

# 🔹 Convertimos la lista en un DataFrame de Pandas
df = pd.DataFrame(data, columns=_______)  # (COMPLETAR) Incluir headers como nombres de columnas

# 🔹 Guardamos el DataFrame en un archivo CSV (Opcional)
# df.to_csv("quality_of_life_indices_by_country.csv", index=False)

# 🔹 Mostramos el DataFrame resultante
df


Unnamed: 0,Rank,Country,Quality of Life Index,Purchasing Power Index,Safety Index,Health Care Index,Cost of Living Index,Property Price to Income Ratio,Traffic Commute Time Index,Pollution Index,Climate Index,Year
0,1,Switzerland,222.9,146.5,73.2,66.3,126.0,7.3,25.6,24.1,-,2015
1,2,Germany,195.9,111.8,71.5,75.6,76.3,6.6,31.1,28.3,-,2015
2,3,Sweden,193.9,110.9,57.9,76.3,82.9,9.2,26.9,15.1,-,2015
3,4,United States,192.5,126.1,50.0,67.8,76.5,2.6,36.0,31.4,-,2015
4,5,Finland,190.2,101.2,70.5,69.4,89.7,7.0,33.2,14.9,-,2015
...,...,...,...,...,...,...,...,...,...,...,...,...
1578,84,Egypt,85.3,21.4,52.7,47.3,19.0,18.2,48.0,82.7,92.0,2025
1579,85,Sri Lanka,81.1,18.5,57.9,71.4,33.5,34.2,54.5,57.9,59.1,2025
1580,86,Venezuela,79.7,16.0,19.3,38.7,35.9,15.1,32.8,75.1,99.9,2025
1581,87,Bangladesh,73.9,35.9,38.4,42.2,20.9,12.8,57.1,85.4,71.3,2025


In [6]:
df.describe(include='all')

Unnamed: 0,Rank,Country,Quality of Life Index,Purchasing Power Index,Safety Index,Health Care Index,Cost of Living Index,Property Price to Income Ratio,Traffic Commute Time Index,Pollution Index,Climate Index,Year
count,1583.0,1583,1583.0,1583.0,1583.0,1583.0,1583.0,1583.0,1583.0,1583.0,1583,1583.0
unique,,98,948.0,863.0,510.0,403.0,645.0,281.0,329.0,637.0,418,21.0
top,,Switzerland,162.3,40.8,53.2,75.5,34.7,11.0,29.1,62.9,-,2025.0
freq,,21,7.0,8.0,11.0,13.0,10.0,21.0,23.0,10.0,143,88.0
mean,39.054327,,,,,,,,,,,
std,23.113272,,,,,,,,,,,
min,1.0,,,,,,,,,,,
25%,19.0,,,,,,,,,,,
50%,38.0,,,,,,,,,,,
75%,57.0,,,,,,,,,,,


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1583 entries, 0 to 1582
Data columns (total 12 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   Rank                            1583 non-null   int64 
 1   Country                         1583 non-null   object
 2   Quality of Life Index           1583 non-null   object
 3   Purchasing Power Index          1583 non-null   object
 4   Safety Index                    1583 non-null   object
 5   Health Care Index               1583 non-null   object
 6   Cost of Living Index            1583 non-null   object
 7   Property Price to Income Ratio  1583 non-null   object
 8   Traffic Commute Time Index      1583 non-null   object
 9   Pollution Index                 1583 non-null   object
 10  Climate Index                   1583 non-null   object
 11  Year                            1583 non-null   object
dtypes: int64(1), object(11)
memory usage: 148.5+ KB


In [8]:
 _______  # (COMPLETAR)

Unnamed: 0,Rank,Country,Quality of Life Index,Purchasing Power Index,Safety Index,Health Care Index,Cost of Living Index,Property Price to Income Ratio,Traffic Commute Time Index,Pollution Index,Climate Index,Year
45,46,Mexico,85.0,59.5,46.2,67.8,41.3,6.3,36.9,68.8,-,2015
118,33,Mexico,125.6,91.4,47.0,69.1,38.1,5.7,33.4,64.9,-,2015/2
181,39,Mexico,137.0,76.5,49.2,68.1,35.0,6.2,37.1,64.6,58.8,2016
231,33,Mexico,142.8,66.9,49.6,68.0,33.1,6.6,38.9,66.8,82.5,2016/2
304,45,Mexico,129.1,60.1,49.7,70.1,29.8,6.9,41.7,66.7,60.7,2017
364,38,Mexico,120.7,51.4,49.4,69.8,36.3,7.0,39.8,66.5,78.4,2017/2
425,43,Mexico,126.4,58.2,48.9,68.6,33.6,7.8,42.0,66.1,82.5,2018
489,47,Mexico,124.0,53.9,47.9,69.6,30.5,9.7,42.3,66.2,86.0,2018/2
555,47,Mexico,123.5,50.0,47.7,69.7,32.7,10.2,39.1,66.0,86.3,2019
628,49,Mexico,122.4,47.0,47.5,69.4,34.3,10.0,38.2,66.9,87.5,2019/2
