# Limpieza y normalización de datos con Pandas

<p>Una vez extraído los datos de la página web en cuestión, procederemos a limpiar campo por campo. También, deberemos normalizar los datos ya que, como se observará más adelante, cada vendedor escribe los datos de manera diferente o, de plano, no  los escribe.</p>

## Importamos la única librería que usaremos

<p>Sólo usaremos Pandas para limpiar nuestro set de datos.</p>

In [1]:
import pandas as pd

## Leemos el .CSV que generamos en el apartado de Web Scraping

In [2]:
df = pd.read_csv('Monitores Nuevos - Registros sucios - Mercado Libre Argentina - Agosto 2023.csv',index_col= 0)

## Cantidad de registros antes de la limpieza:

<p>Es necesario documentar cuántos registros habían antes de limpiar.</p>

In [3]:
cantidadInicial = len(df)
cantidadInicial

1824

## Limpiando el campo 'Marca'

<p>Empezamos por el primer campo, que es 'Marca'. Cada marca debe ser única, debe haber una marca, debe parecer marca o de lo contrario se quita todo el registro.</p>

<p>Primero, buscamos todos los valores únicos de la columna para observarlos:</p>

In [4]:
df['Marca'].unique()

array(['Philips', 'Samsung', 'Noblex', 'Asus', 'LG', 'Dell', 'Hikvision',
       'BenQ', 'ViewSonic', 'Gigabyte', 'AOC', 'Daewoo', 'Level Up',
       'Redragon', 'Gfast', 'HDC', 'Acer', 'CX', 'HP', 'Viotek', 'Gadnic',
       'Ozone', 'BeOne', 'Lenovo', 'HKC Antteq', 'Nixzen', 'Suono',
       'Microfast', 'G-FAST', 'MSI', 'Westinghouse', 'Noxido', 'Kodak',
       'iQual', 'HKC', 'Coradir', 'E-View', 'Tedge', 'JBMI', 'ZKTeco',
       'Etheos', 'CHECKPOINT', 'Hollsen', 'Enova', 'Kanji', 'Naxido',
       'Genérico Chino', 'Visit the MOSISO Store', 'Baseus', 'Sceptre',
       'LG MONITOR', 'Mtek', 'WESAPPINC', '3nStar',
       'Visit the FORITO Store', 'AOpen', 'Lilliput', 'HS', 'NEC',
       'Dahua', 'Aorus', 'Genérica', 'Apple', 'Hewlett Packard'],
      dtype=object)

<p>No hay marcas nulas (aparecerían como nan) y, por lo tanto, no se aplicará la función de retirar registros nulos aquí.

### Retiramos los registros con marcas que no lo son

<p>Los registros que contengan estas "marcas", se retiran por completo.</p>

In [5]:
df = df[(df['Marca']!= 'Visit the MOSISO Store')]
df = df[(df['Marca']!= 'Genérica')]
df = df[(df['Marca']!= 'Visit the FORITO Store')]
df = df[(df['Marca']!= 'Genérico Chino')]

### Armamos la función para agrupar ciertas marcas en otras

<p>Algunos vendedores escribieron la misma marca de diferentes formas. Para ello, se creó esta función para reemplazar las ocurrencias por una sola opción.</p>

In [6]:
def agruparMarcas(entrada):
    if str(entrada) == 'LG MONITOR':
        return 'LG'
    elif str(entrada) == 'Hewlett Packard':
        return 'HP'
    elif str(entrada) == 'HKC Antteq':
        return 'HKC'
    else:
        return entrada

<p>Se aplica esta función al campo 'Marca' y continuamos con el siguiente campo.</p>

In [7]:
df['Marca'] = df['Marca'].apply(agruparMarcas)

## Limpiando el campo 'Modelo'

<p>Puede ser un desafío juzgar qué es modelo y qué no, sobretodo por la cantidad de datos únicos. Pero, si vemos que la mayoría de ellos consta de una combinación de números y letras en un orden particular, podremos detectar modelos que no lo son.</p>

In [8]:
df['Modelo'].unique()

array(['271E1SCA/55', 'F24T35', 'F22T35', 'MK24X7100', '221V8',
       '241V8L/77', '193V5LSB2', '193V5LHSB2', 'VA24EHE', '19M38A',
       'E2220H', '24MK430H', '20MK400H', '272V8LA/55', '27UL500',
       '27MK400H', 'DS-D5019QE-B', 'GW2780', '26WQ500', 'LF22T350FHLCZB',
       'LF24T350FHLCZB', 'VA27EHE', 'C24RG5', 'DS-D5024FN',
       'VX2418-P-MHD', '32MN500M', 'G27FC', 'G2790VX', 'DW-MON19',
       'S27A70', '24GN600', 'MK22X7100', 'GW2480', '241V8L/55',
       '27-UP6580', 'FHD 240', 'MK27X7100', 'DW-MON22', 'VP228HE',
       'VP249QGR', 'GM3CS27', 'DS-D5027FN', '24-UP5500', 'G3',
       'F27T350FHL', 'T-220', '29WQ600-WO.AWNEDSN', 'VG278QR', 'GW2283',
       'VX3218-PC-MHD', 'HM-27WQ144', 'RG50', 'LS32BM500', 'V206HQL Abi',
       'LED', 'PF185M', 'P22va G4', 'V206HQL', 'SUW49CB', '27MK400H-B',
       'P2222H', 'G4D41N-F', 'FLAT M7', 'S28AG70', 'G5 Odyssey',
       'DSP25PRO', 'FHD', '27-UP6680', 'PG259QNR', 'MB168B', '22MK600M',
       'AG275QXL', 'S32BM500', '49WL95C', 'EL2870U

<p>No se detectaron modelos nulos.</p>

### Retiramos los registros cuyos modelos no parecen serlo

<p>Tras un tiempo contemplando cada modelo, se establece que los siguientes no son correctos y, por tanto, todos los registros que los contengan deben ser retirados.</p>

In [9]:
df = df[(df['Modelo']!= 'Monitor Gamer')]
df = df[(df['Modelo']!= 'Monitor Pantalla PC Gamer 24 Pulgadas 75 Hz HDMI VGA')]
df = df[(df['Modelo']!= 'HP 27"')]
df = df[(df['Modelo']!= 'Samsung')]
df = df[(df['Modelo']!= '24 Pulgadas')]
df = df[(df['Modelo']!= 'Ergonomico')]
df = df[(df['Modelo']!= '24" 1080P Home')]
df = df[(df['Modelo']!= '185')]
df = df[(df['Modelo']!= '27')]
df = df[(df['Modelo']!= '25')]
df = df[(df['Modelo']!= 'LED')]
df = df[(df['Modelo']!= 'FHD')]
df = df[(df['Modelo']!= 'Gamer')]
df = df[(df['Modelo']!= 'Led pc gamer')]

## Limpiando el campo 'Tamaño de la pantalla'

<p>La mayoría de los vendedores escribieron el número de pulgadas seguido por comillas dobles. Mientras que otros usaron la palabra 'pulgadas' o la unidad en inglés 'in'. Esto se normalizará más adelante.</p>

In [10]:
df['Tamaño de la pantalla'].unique()

array(['27 "', '24 "', '22 "', '23.8 "', '21.5 "', '18.5 "', '19 "',
       '19.5 "', '25.7 "', '23.5 "', '31.5 "', '21.45 "', '25 "', '29 "',
       '32 "', '49 "', '28 "', '24.5 "', '15.6 "', '27.9 "', '27.6 "',
       '23.6 "', '12.1 "', '34 "', '20 "', '26.9 "', '27 in', '30 "',
       '55 "', '10 "', '19 pulgadas', '43 "', '98 "', '15 "', '10.1 "',
       '22 in', '24 in', '25 pulgadas', '75 "', '65 "', '27 pulgadas',
       '34 in', '29 in', '7 "', nan, '35 "', '23 "', '17.3 "',
       '24 pulgadas'], dtype=object)

### Retiramos los registros que no tengan tamaño

<p>Aquí se detectaron campos nulos. Ya podemos aplicar la función incorporada en Pandas para retirar registros con el campo especificado.</p>

In [11]:
df.dropna(subset=['Tamaño de la pantalla'], inplace = True)

### Retiramos los registros que tengan un tamaño no aplicable a un monitor de escritorio

<p>Se convino que un monitor de escritorio empieza a partir de pulgadas mayores a 17.3 ". Luego, de 30 " hacia arriba, se examina al azar las publicaciones para ver si seguimos hablando de monitores de escritorio, o si son televisores o si son algo más.</p>

<p>Al final, se llegó a la conclusión de retirar los siguientes registros con los siguientes tamaños de pantalla:</p>

In [12]:
# Tamaños muy pequeños para un monitor de escritorio
df = df[(df['Tamaño de la pantalla'] != '0 "')]
df = df[(df['Tamaño de la pantalla'] != '7 "')]
df = df[(df['Tamaño de la pantalla'] != '10 "')]
df = df[(df['Tamaño de la pantalla'] != '10.1 "')]
df = df[(df['Tamaño de la pantalla'] != '12.1 "')]
df = df[(df['Tamaño de la pantalla'] != '15 "')]
df = df[(df['Tamaño de la pantalla'] != '15.6 "')]
df = df[(df['Tamaño de la pantalla'] != '17.3 "')]

# Pizarras interactivas
df = df[(df['Tamaño de la pantalla'] != '55 "')]
df = df[(df['Tamaño de la pantalla'] != '65 "')]
df = df[(df['Tamaño de la pantalla'] != '75 "')]

# Pantalla para publicidad callejera
df = df[(df['Tamaño de la pantalla'] != '98 "')]

### Armamos la función para convertir los tamaños a número

Se crea esta función que transforma todos los tamaños a número flotante.

In [13]:
def convertirTamanioANumero(entrada):
    if 'pulgadas' in str(entrada):
        return float(entrada.replace(' pulgadas',''))
    elif 'in' in str(entrada):
        return float(entrada.replace(' in',''))
    elif '"' in str(entrada):
        return float(entrada.replace(' "',''))

Se aplica la función 'convertirTamanioANumero' sobre el campo 'Tamaño de la pantalla' y continuamos al siguiente campo.

In [14]:
df['Tamaño de la pantalla'] = df['Tamaño de la pantalla'].apply(convertirTamanioANumero)

## Limpiando el campo 'Tipo de resolución'

Los vendedores nuevamente escriben un dato de varias formas diferentes y, por lo tanto, hay que normalizar.

In [15]:
df['Tipo de resolución'].unique()

array(['Full HD', 'WXGA', 'HD', '4K', 'WFHD', nan, 'QHD', 'HD+', 'SDQHD',
       '2K', 'WQHD', '1366 px x 768 px', '1920 px x 1080 px', '1920x1080',
       'Fhd', '1366x768', '1600 x 900 a 60 Hz', 'XWGA', 'DQHD', 'UWFHD',
       '6K', '5K', '1080p'], dtype=object)

### Normalizamos resoluciones según la VESA (Video Electronics Standards Association), más resoluciones establecidas de facto

<p>Se dispuso de la siguiente tabla en <a href='https://en.wikipedia.org/wiki/Computer_display_standard#Standards'>Wikipedia en inglés</a>  para normalizar muchas de las resoluciones de pantalla mediante estándares de la VESA. Otras resoluciones no normalizadas son usadas pero no por eso vamos a quitarlas. Dichas resoluciones son <b>de facto</b> y son establecidas por grandes fabricantes como LG o Samsung.</p>
<br>
<p>Se armó un dictionary para cambiar cada valor actual por otro de la siguiente manera:</p>

In [16]:
normalizacion_resoluciones = {  
    'HD': 'HD',
    'HD+': 'HD+',
    '1600 x 900 a 60 Hz': 'HD+',
    'Full HD': 'FHD',
    '1080p': 'FHD',    
    '1920 px x 1080 px': 'FHD',
    '1920x1080':'FHD',
    'Fhd': 'FHD',
    '1366x768': 'WXGA',
    'WXGA': 'WXGA',
    '1366 px x 768 px': 'WXGA',
    'XWGA': 'WXGA', # Corrección en el orden de las siglas
    'WUXGA': 'WUXGA',
    'WQHD': 'QHD',
    'QHD':'QHD',
    '2K': 'QHD',
    '4K': 'UHD 4K',
    '5K': 'UHD 5K',
    '6K': 'UHD 6K',        
    'SDQHD': 'SDQHD', # Resolución de facto usada por LG
    'DQHD': 'DQHD', # Resolución de facto usada por Samsung
    'UWFHD': 'Ultrawide FHD', # Resolución sin un nombre formal pero reconocida por la VESA
    'WFHD':'Ultrawide FHD'
}

Aplicamos la función que reemplaza cada ocurrencia por el valor asociado en el dictionary.

In [17]:
df['Tipo de resolución'] = df['Tipo de resolución'].map(normalizacion_resoluciones)

### Retiramos los registros sin resolución

Se detectaron campos nulos y deberán retirarse todos los registros asociados.

In [18]:
df.dropna(subset=['Tipo de resolución'], inplace=True)

## Limpiando el campo 'Tipo de pantalla'

Continuando con el campo 'Tipo de pantalla', vemos que podemos unir varios tipos en una sola categoría haciendo una serie de supuestos que se redactarán más adelante.

In [34]:
df['Tipo de pantalla'].unique()

array(['LCD/LED', 'LCD TFT', 'LED VA', 'LED IPS', 'QLED'], dtype=object)

### Normalizamos los tipos de pantalla usando un dictionary siguiendo una serie de supuestos

Supuestos a la hora de normalizar los tipos de pantalla:
<!--<ul>
    <li>Se asume que <b>todos</b> los monitores LED son LED puro. Por eso, todos ellos estarán en la gran categoría LED.</li>
    <li>Se asume que <b>todos</b> los monitores LCD ya tienen retroiluminación LED. Por eso, todos ellos serán nombrados bajo la gran categoría LCD salvo la variante con TFT que mantendrá su propia categoría por ser táctil.</li>
    <li>Se asume que <b>todos</b> los monitores con tecnología VA (Vertical Alignment) tienen retroiluminación LED. Por eso, todos ellos estarán en la categoría LED VA.</li>
    <li>Se asume que <b>todos</b> los monitores con tecnología IPS (In-Plane Switching) tienen retroiluminación LED. Por eso, todos ellos estarán en la categoría LED IPS.</li>    
</ul>-->
<ul>
    <li>Se asume que <b>todos</b> los monitores de la lista son <b>nuevos</b> debido a que se aplicó ese filtro de búsqueda a la hora de hacer Web Scraping.</li>
    <li>Se asume que si un monitor es <b>nuevo</b>, se fabricó en los últimos cinco años.</li>   
    <li>Se asume que <b>todos</b> los monitores <b>LCD</b> ya tienen retroiluminación LED debido a que a partir del año 2013 se empezó a reemplazar el CCFL (lámparas fluorescentes de cátodo frío) por los LED para retroiluminar. <a href='https://www.portatilmovil.com/es/blog/post/mi-pantalla-del-portatil-es-led-o-lcd-ventajas-y-deventajas.html'>[1]</a></li>
    <li>Se asume que <b>algunos</b> vendedores publicaron su monitor como <b>LED</b> cuando en realidad es LCD con retroiluminación <b>LED</b>. Debido a la imposibilidad de saber qué quisieron decir esos vendedores realmente, se agruparán las categorías <b>LCD</b> y <b>LED</b> en una sola llamada <b>LCD/LED</b>.</li>
    <li>Se asume que <b>todos</b> los monitores con tecnología VA (Vertical Alignment) tienen retroiluminación LED. Por eso, todos ellos estarán en la categoría <b>LED VA</b>.</li>
    <li>Se asume que <b>todos</b> los monitores con tecnología IPS (In-Plane Switching) tienen retroiluminación LED. Por eso, todos ellos estarán en la categoría <b>LED IPS</b>.</li>    
</ul>
<br>
En cuanto a la categoría <b>QLED</b>, se investigó en la página oficial de Samsung y se determinó que no sería correcto agruparlo en la categoría <b>LCD/LED</b> debido a que hay una gran diferencia entre una tecnología y la otra. <a href='https://www.samsung.com/ar/tvs/tv-buying-guide/what-is-qled-tv/'>[2]</a>

In [20]:
'''normalizacion_tipo_pantalla = {
    'LCD' : 'LCD',
    'LCD con retroiluminación LED':'LCD',
    'LCD/LED' : 'LCD',
    'LED' : 'LED',
    'LCD TFT' : 'LCD TFT',
    'LED VA' : 'LED VA',    
    'VA' : 'LED VA',
    'IPS LED' : 'LED IPS',
    'IPS' : 'LED IPS',
    'QLED' : 'QLED'    
}'''
normalizacion_tipo_pantalla = {
    'LCD' : 'LCD/LED',
    'LCD con retroiluminación LED':'LCD/LED',
    'LCD/LED' : 'LCD/LED',
    'LED' : 'LCD/LED',
    'LCD TFT' : 'LCD TFT',
    'LED VA' : 'LED VA',    
    'VA' : 'LED VA',
    'IPS LED' : 'LED IPS',
    'IPS' : 'LED IPS',
    'QLED' : 'QLED'    
}

Aplicamos la función que reemplaza cada ocurrencia por el valor asociado en el dictionary.

In [21]:
df['Tipo de pantalla'] = df['Tipo de pantalla'].map(normalizacion_tipo_pantalla)

### Retiramos los registros sin tipo de pantalla

In [22]:
df.dropna(subset=['Tipo de pantalla'], inplace = True)

## Limpiando el campo 'Frecuencia de actualización'

Todos los datos de esta columna están normalizados (salvo los nulos) y la mayoría ellos tienen valores coherentes.

In [23]:
df['Frecuencia de actualización'].unique()

array(['75 Hz', '60 Hz', nan, '144 Hz', '165 Hz', '100 Hz', '360 Hz',
       '170 Hz', '240 Hz', '30 Hz', '120 Hz', '200 Hz', '56 Hz', '47 Hz',
       '1 Hz'], dtype=object)

### Corregimos el valor irrisorio para un monitor

Se presume que por error de tipeo por parte del vendedor, le dio a su monitor una frecuencia de 1 Hz; un valor impensado para un monitor. Se busca el monitor en cuestión para investigarlo y así rescatar un registro de la eliminación.

In [24]:
df[(df['Frecuencia de actualización'] == '1 Hz')]

Unnamed: 0,Marca,Modelo,Tamaño de la pantalla,Tipo de resolución,Tipo de pantalla,Frecuencia de actualización,Precio,Link
1814,Samsung,LC24RG50FZLCZB,24.0,FHD,LCD/LED,1 Hz,147344,https://articulo.mercadolibre.com.ar/MLA-82399...


Haciendo uso del modelo y la marca, se buscó <a href='https://www.samsung.com/ar/monitors/gaming/odyssey-crg5-24-inch-144hz-freesync-curved-lc24rg50fzlczb/'>este monitor</a> por internet y se descubrió que tiene una frecuencia de 144 Hz. Se corrige mediante una asignación.

In [25]:
df.loc[1814,'Frecuencia de actualización'] = '144 Hz'

### Retiramos los registros con frecuencia ausente

In [26]:
df.dropna(subset=['Frecuencia de actualización'], inplace=True)

### Definimos la función para convertir todas las frecuencias a números enteros

Se retira la unidad de frecuencia Hz y se convierte a int.

In [27]:
def convertirFrecANumero(entrada):
    return int(entrada.replace(' Hz',''))

Aplicamos la función a toda la columna y pasamos al último campo.

In [28]:
df['Frecuencia de actualización'] = df['Frecuencia de actualización'].apply(convertirFrecANumero)

## Limpiando el campo 'Precio'

<p>Durante el scraping, alguna publicación pudo haberse pausado y su precio no estar disponible.
Para ello, si el precio es -1, deberá ser retirado todo el registro ya que este campo se usará bastante para hacer análisis.</p>

In [29]:
df = df[(df['Precio']!= -1)]

## Limpiamos los duplicados

<p>Ya habiendo limpiado cada campo, se deben retirar todos los registros duplicados. Se excluye el campo 'Link' porque se presume que cada uno es único.</p>

In [30]:
df.drop_duplicates(subset=['Marca','Modelo','Tamaño de la pantalla','Tipo de resolución','Tipo de pantalla','Frecuencia de actualización','Precio'],inplace=True)

## Cantidad de registros después de la limpieza:

Han quedado limpios 1237 registros.

In [31]:
len(df)

1234

## Cantidad de registros retirados:

Se han retirado 587 registros.

In [32]:
cantidadInicial-len(df)

590

## Almacenamos los registros ya limpios en un nuevo CSV

In [33]:
df.to_csv('Monitores Nuevos - Registros limpios - Mercado Libre Argentina - Agosto 2023.csv')

## Fin de la limpieza

Ya una vez finalizada la limpieza, en el próximo apartado 'Análisis del CSV', podremos plantearnos preguntas y responderlas mediante consultas y gráficos.