In [None]:
# Evidencia de Aprendizaje Unidad 1
**Nombre:** Julian Gonzalez  
**Asignatura:** Análisis de Datos  
**Docente:** Nombre del profesor  
**Fecha:** 4 de mayo de 2025

---

## Título del Proyecto: Análisis de Datos Cripto desde CoinMarketCap


In [None]:
## Objetivo

Desarrollar un script en Python para extraer, limpiar y visualizar datos del sitio web CoinMarketCap, usando técnicas de web scraping, con el fin de analizar las principales criptomonedas en circulación.


In [None]:
import time
import re
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


In [None]:
class Dataweb:
    def __init__(self):
        self.url = "https://coinmarketcap.com/"
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        options.add_argument('--disable-gpu')
        self.driver = webdriver.Chrome(options=options)
        self.column_titles = None

    def obtener_datos(self):
        try:
            self.driver.get(self.url)
            try:
                btn = WebDriverWait(self.driver, 10).until(
                    EC.element_to_be_clickable(
                        (By.XPATH, "//button[contains(., 'Accept') or contains(., 'Aceptar')]")
                    )
                )
                btn.click()
            except:
                pass

            all_rows = []
            while len(all_rows) < 100:
                WebDriverWait(self.driver, 10).until(
                    EC.presence_of_element_located((By.TAG_NAME, "table"))
                )
                soup = BeautifulSoup(self.driver.page_source, 'html.parser')

                if self.column_titles is None:
                    thead = soup.find('thead')
                    titles = []
                    for th in thead.find_all('th'):
                        txt = th.get_text(strip=True) or ""
                        if not txt:
                            p = th.find('p')
                            txt = p.get_text(strip=True) if p else ""
                        titles.append(txt)
                    self.column_titles = titles[1:]

                tbody = soup.find('tbody')
                if not tbody:
                    break

                trs = tbody.find_all('tr')
                start = len(all_rows)
                block = trs[start:start + 10]
                if not block:
                    break

                for tr in block:
                    cols = [td.get_text(strip=True) for td in tr.find_all('td')]
                    all_rows.append(cols[1:])

                self.driver.execute_script("window.scrollBy(0, 1000);")
                time.sleep(2)

            self.driver.quit()

            if not all_rows or not self.column_titles:
                return pd.DataFrame()

            return pd.DataFrame(all_rows[:100], columns=self.column_titles)

        except Exception as err:
            print(f"Error en obtener_datos: {err}")
            try:
                self.driver.quit()
            except:
                pass
            return pd.DataFrame()

    def limpieza_datos(self, df):
        df_limpio = df.copy()

        for drop_col in ['#', 'Last 7 Days']:
            if drop_col in df_limpio.columns:
                df_limpio.drop(columns=[drop_col], inplace=True)

        if 'Name' in df_limpio.columns:
            df_limpio['Name'] = df_limpio['Name'].str.replace('Buy', '', regex=False).str.strip()

        def swap_commas_dots(x: str) -> str:
            tmp = x.replace(',', '<TMP>').replace('.', ',')
            return tmp.replace('<TMP>', '.')

        for col in ['Price', 'Volume(24h)', 'Market Cap']:
            if col in df_limpio.columns:
                df_limpio[col] = df_limpio[col].astype(str).apply(swap_commas_dots)

        if 'Market Cap' in df_limpio.columns:
            def strip_prefix_to_letter(s: str) -> str:
                return re.sub(r'^[^A-Za-z]*[A-Za-z]', '', s)
            df_limpio['Market Cap'] = df_limpio['Market Cap'].astype(str).apply(strip_prefix_to_letter)

        if 'Volume(24h)' in df_limpio.columns:
            def trim_volume(s: str) -> str:
                idx = s.rfind('.')
                if idx != -1 and len(s) > idx + 4:
                    return s[:idx+4]
                return s
            df_limpio['Volume(24h)'] = df_limpio['Volume(24h)'].astype(str).apply(trim_volume)

        if 'Circulating Supply' in df_limpio.columns:
            def format_supply(s: str) -> str:
                match = re.search(r'([A-Za-z])', s)
                if match:
                    idx = match.start()
                    return s[:idx+1] + " of " + s[idx+1:]
                return s
            df_limpio['Circulating Supply'] = df_limpio['Circulating Supply'].astype(str).apply(format_supply)

        return df_limpio


In [None]:
dw = Dataweb()
df_original = dw.obtener_datos()
df_limpio = dw.limpieza_datos(df_original)
df_limpio.head()


In [None]:
## Análisis de Resultados

Se muestran los primeros datos obtenidos y limpiados. Se observa que los formatos numéricos han sido normalizados y que las columnas innecesarias fueron removidas. La columna `Circulating Supply` ahora indica de forma clara la unidad de medida.


In [None]:
## Conclusiones

- Se logró automatizar el proceso de extracción y limpieza de datos desde una fuente en línea.
- Se aplicaron expresiones regulares para formatear correctamente los datos financieros.
- Esta información podría utilizarse para análisis de inversión, visualización o modelos predictivos.

