# Insertion Sort: Air Quality in India

<div style = "text-align: center;">
    <img src = "images/india_contaminada.jpg"
    style = "width:100%;height:400px;d"
    alt = "Imagen">

</div>

## 1. Introducción

El objetivo de este proyecto es demostrar cómo el algoritmo Insertion Sort puede aplicarse a un caso real. Para ello, se simulará la recogida de datos en tiempo real sobre la calidad del aire de las distintas estaciones de lectura ubicadas en la India. El resultado final consistirá en mostrar por pantalla los datos ordenados según la lectura máxima de polución, a medida que vayan llegando.

## 2. Insertion Sort Algorithm

**Insertion Sort** es un algoritmo que funciona de manera similar a como ordenaríasna baraja de cartas en la mano. 

La idea principal es que divide la lista en dos partes:

* Una parte ordenada (al principio de la lista).
* Una parte desordenada (el resto de la lista).

El algoritmo toma un elemento de la parte desordenada y lo inserta en la posición correcta dentro de la parte ordenada, repitiendo este proceso hasta que todos los elementos estén ordenados.

<div style="text-align: center;">
    <img src="https://upload.wikimedia.org/wikipedia/commons/0/0f/Insertion-sort-example-300px.gif" width="400">
</div>






La implementación en código sería la siguiente: 

In [11]:
def insertion_sort(lista):
    for i in range(1, len(lista)):
        idx = i

        while lista[idx] < lista[idx-1] and idx > 0:
            lista[idx-1], lista[idx] = lista[idx], lista[idx-1]
            idx -= 1
    
    return lista

`Ejemplo:`

[8, 3, 5, 2]

Toma el primer elemento (8).

* Como es el primero, ya se considera ordenado. -> Lista ordenada: [8]


Toma el siguiente elemento (3).

* Compara 3 con 8.
* Como 3 es menor, lo inserta antes de 8. -> Lista ordenada: [3, 8]

Toma el siguiente elemento (5).

* Compara 5 con 8 → Es menor.
* Compara 5 con 3 → Es mayor.
* Lo coloca entre 3 y 8. -> Lista ordenada: [3, 5, 8]

Toma el último elemento (2).

* Compara 2 con 8 → Es menor.
* Compara 2 con 5 → Es menor.
* Compara 2 con 3 → Es menor.
* Lo coloca al principio. -> Lista ordenada: [2, 3, 5, 8]

In [12]:
insertion_sort([8, 3, 5, 2])

[2, 3, 5, 8]

No es de los algoritmos de ordenación más eficientes, pues requiere de  $O(n^{2})$ operaciones para ordenar una lista de $n$ elementos.

## 3. Aplicación

In [1]:
%pip install kagglehub

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import kagglehub
import os
import pandas as pd
import time
from IPython.display import clear_output

In [3]:
# Download latest version
path = kagglehub.dataset_download("vijayveersingh/air-quality-index-in-india")

In [4]:
files = os.listdir(path)
print("Archivos disponibles:", files)

Archivos disponibles: ['3b01bcb8-0b14-4abf-b6f2-c1bfd384ba69.csv']


In [5]:
csv_file = files[0]

In [6]:
df = pd.read_csv(os.path.join(path, csv_file))
display(df.head())

Unnamed: 0,country,state,city,station,last_update,latitude,longitude,pollutant_id,pollutant_min,pollutant_max,pollutant_avg
0,India,Bihar,Patna,"DRM Office Danapur, Patna - BSPCB",07-01-2025 17:00:00,25.586562,85.043586,OZONE,4.0,16.0,11.0
1,India,Chhattisgarh,Kunjemura,"OP Jindal School, Kunjemura - CECB",07-01-2025 17:00:00,22.12665,83.483212,OZONE,3.0,4.0,3.0
2,India,Arunachal_Pradesh,Naharlagun,"Naharlagun, Naharlagun - APSPCB",07-01-2025 17:00:00,27.103358,93.679645,OZONE,3.0,3.0,3.0
3,India,Assam,Guwahati,"LGBI Airport, Guwahati - PCBA",07-01-2025 17:00:00,26.10887,91.589544,OZONE,16.0,22.0,19.0
4,India,Chhattisgarh,Bhilai,"32Bungalows, Bhilai - CECB",07-01-2025 17:00:00,21.194815,81.31477,OZONE,1.0,77.0,65.0


Para poder simular que los datos están llegando en tiempo real vamos a ayudarnos de una función generadora.

In [None]:
def generar_datos(df):
    for _, row in df.iterrows():
        yield row
        time.sleep(1.0)  # Simulamos el delay de llegada de datos

Reescribimos el algoritmo de forma que sirva para el caso que nos ocupa.

In [None]:
def insertion_sort_df(df, new_row):
    if df.empty:
        return pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)

    inserted = False
    for i in range(len(df)):
        if new_row["pollutant_max"] > df.loc[i, "pollutant_max"]:
            df = pd.concat([df.iloc[:i], pd.DataFrame([new_row]), df.iloc[i:]], ignore_index=True)
            inserted = True
            break
    
    if not inserted:
        df = pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)
    
    return df

In [9]:
# DataFrame vacío donde se irán insertando los datos ordenados
columns = df.columns
df_ordenado = pd.DataFrame(columns=columns)

In [None]:
for dato in generar_datos(df):# Iteramos los datos como si fueran llegando uno por uno
    
    df_ordenado = insertion_sort_df(df_ordenado, dato)

    display(df_ordenado)
    
    
    clear_output(wait=True) # Limpiamos la consola para que saga la tabla actualizada en cada iteración


Unnamed: 0,country,state,city,station,last_update,latitude,longitude,pollutant_id,pollutant_min,pollutant_max,pollutant_avg
0,India,Delhi,Delhi,"Punjabi Bagh, Delhi - DPCC",07-01-2025 17:00:00,28.674045,77.131023,OZONE,14.0,326.0,170.0
1,India,Haryana,Faridabad,"New Industrial Town, Faridabad - HSPCB",07-01-2025 17:00:00,28.390720,77.300590,OZONE,30.0,320.0,71.0
2,India,Maharashtra,Mumbai,"Ghatkopar, Mumbai - BMC",07-01-2025 17:00:00,19.083694,72.920967,OZONE,15.0,291.0,251.0
3,India,Odisha,Cuttack,"CDA Area, Cuttack - OSPCB",07-01-2025 17:00:00,20.488910,85.847680,OZONE,3.0,240.0,179.0
4,India,TamilNadu,Chennai,"Manali Village, Chennai - TNPCB",07-01-2025 17:00:00,13.166200,80.258400,OZONE,29.0,217.0,47.0
...,...,...,...,...,...,...,...,...,...,...,...
498,India,TamilNadu,Ranipet,"VOC Nagar_SIPCOT, Ranipet - TNPCB",07-01-2025 17:00:00,12.952707,79.303940,OZONE,1.0,1.0,1.0
499,India,Uttar_Pradesh,Varanasi,"IESD Banaras Hindu University, Varanasi - UPPCB",07-01-2025 17:00:00,25.262326,82.995408,OZONE,1.0,1.0,1.0
500,India,Maharashtra,Solapur,"Solapur, Solapur - MPCB",07-01-2025 17:00:00,17.659919,75.906391,SO2,,,
501,India,Chhattisgarh,Tumidih,"OP Jindal Industrial Park, Tumidih - CECB",07-01-2025 17:00:00,22.066315,83.338201,OZONE,,,


## 4. Referencias

* https://es.wikipedia.org/wiki/Ordenamiento_por_inserci%C3%B3n
* Conjunto de datos: https://www.kaggle.com/datasets/vijayveersingh/air-quality-index-in-india