<a href="https://colab.research.google.com/github/RodolfoFerro/curso-ai-basics/blob/main/notebooks/session_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ingeniería de Datos ⛑

La ingeniería de datos se refiere a la construcción de sistemas para habilitar la recopilación y el uso de datos. Estos datos generalmente se utilizan para permitir análisis posteriores y ciencia de datos; lo que a menudo implica aprendizaje automático. Hacer que los datos sean utilizables generalmente implica un uso sustancial de cómputo y almacenamiento, así como procesamiento de datos.

- Extracción de datos
- Imputación de datos
- Estandarización/Transformación de datos
- Encoding de Datos Categóricos
- Filtros/Reducción de Dimensiones

## Extracción de datos 📄
Hay muchas maneras de extraer los datos, las principales son:
- APIs (SQL, databases, etc... cuentan)
- Web Scrapping
- Formularios literalmente

### ⛏️Web Scraping (MUCHOS PASOS)
Es el proceso de usar bots o técnicas de programación para extraer contenido y datos de algún sitio web 👩‍💻.

En nuestro caso lo usaremos para entrar a la red de la UG 🐝 y ¡Sacar los horarios 🤗!

Aquí el link 🌞: http://www.dci.ugto.mx/estudiantes/index.php/mcursos/horarios-licenciatura

In [None]:
# Vamos a necesitar dos librerías 🕝
import requests as req # Library for HTTP requests (allows you to send HTTP requests etremely easily): https://pypi.org/project/requests/
from bs4 import BeautifulSoup # Python Library for pulling data out of HTML files (or in this case, web page): https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [None]:
# Mandemos nuestro primer HTTP request a la página de la UG 🪰
url = 'http://www.dci.ugto.mx/estudiantes/index.php/mcursos/horarios-licenciatura'
res = req.get(url) # req.get(url)

In [None]:
# Necesitamos navegar por el contenido, para eso es BeautifulSoup ✨!
soup = BeautifulSoup(res.content, 'html.parser') # BeautifulSoup(res.content, 'html.parser') # Le pasamos el HTML y le indicamos que es tipo html
# Obtengamos todas las materias y metámoslas a una lista! (Hint: No lo veas en la variable, veelo en la página con el inspector)
all_tables = soup.find_all('table') # Hint 2: Necesitamos la tabla, es decir la etiqueta <table> con: soup.find_all('table')
# Podemos ver cuántas tablas hay
len(all_tables) # len(all_tables)

In [None]:
# Ya sabemos qué tabla necesitamos, guardemosla
scedule_table = all_tables[0] # all_tables[1]
# Podemos ver el tipo
type(scedule_table) # type(scedule_table)

In [None]:
# Importamos pandas
import pandas as pd # For Data Analysis and Manipulation in Python: https://pandas.pydata.org/

In [None]:
# Primero que nada, columnas, tenemos que sacar el nombre de las columnas que sean mas amigables
columns = ['page_number', 'name', 'group', 'day/place/time1', 'day/place/time2', 'day/place/time3', 'day/place/time4', 'teacher']

In [None]:
# Ahora a guardar la de todas las materias (fooooooorr)
schedules = []
all_rows = scedule_table.find_all('tr')
for row in  all_rows[1:]: # row in all_rows[1:]: IGNORA LA PRIMERA
    tds = row.find_all('td') # row.find_all('td')
    # Otro foooor?
    ssubject = {}
    for index, column in enumerate(columns):
        ssubject[column] = tds[index].string # {column: tds[index]}

    # Agregarlas a nuestra lista de horarios
    schedules.append(ssubject) # scedules.append(ssubject)

# print(schedules) # Review the first one and the last one

In [None]:
# LISTO, podemos crear nuestro dataframe # Explica lo que es un DataFrame
raw_schedules_df = pd.DataFrame(schedules, columns = columns) # pd.DataFrame(schedules, columns = columns)
# Por fin nuestro Data Frame esta aqui... o no?
raw_schedules_df # raw_schedules_df

### 👩‍💻 APIs
API es el acrónimo de Interfaz de Programación de Aplicaciones. En el contexto de las API, la palabra Aplicación se refiere a cualquier software con una función distinta. La Interfaz puede considerarse como un contrato de servicio entre dos aplicaciones. Este contrato define cómo las dos se comunican entre sí utilizando solicitudes y respuestas.

In [None]:
# Para obtener datos de una base de datos necesitas el URL de la información
url = "https://jsonplaceholder.typicode.com/users"

In [None]:
# Para cargar los datos es con la libreria requests
import requests as req # Library for HTTP requests (allows you to send HTTP requests etremely easily): https://pypi.org/project/requests/

In [None]:
# Guardamos la respuesta
res = req.get(url)
res.status_code # ¿Jaló?

In [None]:
data = res.json()
data[:3] # YA ES UN PYTHON DICTIONARY

¡Y LISTO! Así podemos trabajar ya con los datos... Ahora ¿qué sigue?

## Imputación de datos 🎇
La imputación de datos se refiere a técnicas usadas para reemplazar valores faltantes en un conjunto de datos.

In [None]:
import pandas as pd

In [None]:
# Ejemplo de DataFrame con valores faltantes
df = pd.DataFrame({'A': [1, 2, None, 4],
                   'B': [5, None, None, 8],
                   'C': [10, 11, 12, 13]})
df

In [None]:
# Se puede rellenar con 0's
df.fillna(0)

In [None]:
from sklearn.impute import SimpleImputer

# Imputación con la media
imputer = SimpleImputer(strategy='mean')
new_data = imputer.fit_transform(df)
df_imputed = pd.DataFrame(new_data, columns=df.columns)
df_imputed # Nota que transformó todas a np

# Estandarización / Normalización de datos
La estandarización es el proceso de implementar y desarrollar estándares técnicos basados en el consenso de diferentes partes que incluyen empresas, usuarios, grupos de interés, organizaciones de estándares y gobiernos.

In [None]:
# Ejemplo de DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4],
                   'B': [5, 6, 7, 8],
                   'C': [9, 10, 11, 12]})
df

In [None]:
# Normalización común
df["A"] / df["A"].max()

In [None]:
df / df.max()

In [None]:
def division(serie):
    return serie / serie.max()

In [None]:
# Ahora aplicando esta funcion en todas las columnas
df.apply(division, axis=0) # APPLYYYYYYYYYYYY!

In [None]:
from sklearn.preprocessing import StandardScaler

# Estandarización con sklearn Mean = 0
scaler = StandardScaler()
df_standardized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
df_standardized # El punto es que hay diferentes tipos de normalización numérica, esta es solo una de ellas

##  Encoding de Datos Categóricos
El encoding de datos categóricos implica convertir variables categóricas en una forma que pueda ser proporcionada a los modelos de ML.

In [None]:
# Ejemplo de DataFrame
df = pd.DataFrame({'Color': ['rojo', 'verde', 'azul', 'amarillo', 'rojo', 'rojo']})

df

#### Método de encoding "One-Hot": Es muy común y fácil de implementar con Pandas en Python. Este método crea una nueva columna para cada categoría única en la columna original, con 1s y 0s indicando la presencia de cada categoría.

In [None]:
# Aplicando One-Hot Encoding
df_encoded = pd.get_dummies(df, columns=['Color'])

df_encoded

In [None]:
# También hay versión sklearn para mayor flexibilidad
from sklearn.preprocessing import OneHotEncoder

# One-hot encoding
encoder = OneHotEncoder(sparse_output=False)
encoding_data = encoder.fit_transform(df[['Color']])
columns = encoder.get_feature_names_out(['Color'])
df_encoded = pd.DataFrame(encoding_data, columns=columns)
df_encoded

## Filtros/Reducción de Dimensiones
La reducción de dimensiones busca disminuir el número de variables aleatorias bajo consideración.

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4],
                   'B': [5, 6, 7, 8],
                   'C': [9, 10, 11, 12]})
df

In [None]:
from sklearn.decomposition import PCA
# Reducción de dimensiones con PCA
pca = PCA(n_components=2)
new_data = pca.fit_transform(df)
df_reduced = pd.DataFrame(new_data, columns=['Componente_1', 'Componente_2'])
df_reduced # EL PCA ES LO MAAAXIMOOOOOOOOOOOOOOOOOOO, pero medio complejo de entender (btw ocupas estandarizar casi siempre antes)

# Ejemplo MUY idealizado

In [None]:
# Extraction

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# load dataset into Pandas DataFrame
df = pd.read_csv(url, names=['sepal length','sepal width','petal length','petal width','target'])
df

In [None]:
features = ['sepal length', 'sepal width', 'petal length', 'petal width']

# Separación de los "features" en un numpy array
x = df.loc[:, features].values

# También los targets
y = df.loc[:,['target']].values

In [None]:
# Estandarizando los datos
x = StandardScaler().fit_transform(x)

In [None]:
pca = PCA(n_components=2)

principal_components = pca.fit_transform(x)

principal_df = pd.DataFrame(data = principal_components
             , columns = ['principal component 1', 'principal component 2'])

In [None]:
principal_df.head()

In [None]:
final_df = pd.concat([principal_df, df[['target']]], axis = 1)
final_df

In [None]:
# VISUALIZACION
import matplotlib.pyplot as plt

In [None]:
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)

targets = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
colors = ['r', 'g', 'b']
for target, color in zip(targets,colors):
    indicesToKeep = final_df['target'] == target
    ax.scatter(final_df.loc[indicesToKeep, 'principal component 1']
               , final_df.loc[indicesToKeep, 'principal component 2']
               , c = color
               , s = 50)
ax.legend(targets)
ax.grid()

# Ejemplo MUY real

## Extract data

In [None]:
import requests as req
import pandas as pd
import numpy as np

In [None]:
url = "https://api.airtable.com/v0/app16UnSRCYxUX2Jm/datos_puercos"
token = "XXXXX"
headers = {
    "Authorization": f"Bearer {token}",
    "Content-Type": "application/json"
}
res = req.get(url, headers=headers)
res.status_code

In [None]:
almost_data = res.json()['records']
data = list(map(lambda x: x['fields'], almost_data))
df = pd.DataFrame(data)
df.tail()

In [None]:
len(df) # eeeeeeeeeeeeeeeh???????????????? no estan todas

In [None]:
url = "https://api.airtable.com/v0/app16UnSRCYxUX2Jm/datos_puercos"
offset = None
data = []
while True:
    current_url = url
    if offset:
        current_url += f"?offset={offset}"

    res = req.get(current_url, headers=headers)
    if res.status_code in range(200, 300):
        almost_data = res.json()
        if "offset" in almost_data:
            offset = almost_data['offset']
        else:
            offset = None
        data += list(map(lambda x: x['fields'], almost_data['records']))
    else:
        break

    if not offset:
        break

In [None]:
df = pd.DataFrame(data)
df.head()

In [None]:
# A mi me gusta ordenar las columns y las rows
columns = ["page_number", "name", "group", "day/place/time1", "day/place/time2", "day/place/time3", "day/place/time4", "teacher"]
df = df[columns]
df['page_number'] = df['page_number'].astype(int)
df = df.sort_values("page_number").reset_index(drop = True)
df.head(6)

# 🧹**Data cleansing**: Limpiar los datos (buscar errores y corregirlos).
Es muy probable (estoy seguro) de que hay algunos errores dentro de la tabla de horarios, muchos de los cuales no se encontraran a menos que experimenten con estos datos un buen rato. Por suerte ✨ me tienen a mí, que ya jugué con estos datos mucho tiempo y les puedo decir algunos de los errores y bugs más importantes que tienen estos datos (🤞 esperemos no encontrarnos con más).

In [None]:
# Estandaricemos las celdas en blanco, hay que ponerlas NAN o None
df_no_spaces = df.replace(np.nan, None)
df_no_spaces = df_no_spaces.replace(r'^\s*$', None, regex=True)
df_no_spaces.head()

### ❌ Acentos y Mayúsculas
Estos datos podrían tener algún campo mal escrito, tal vez algunas veces alguna materia tiene acento y tal vez en alguna otra no lo tienen, por ello, habrá que *normalizar* el texto dentro de nuestra base de datos.

Una de las formas en cómo podríamos normalizar estas celdas es creando una función de normalización y aplicandola a cada fila de nuestro Data Frame, esto se puede hacer gracias a *[Apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)* de pandas.


Primer paso para usar apply, hagamos una función de normalización con una palabra random. Hay que pensar muy bien en qué queremos hacer y cómo lo vamos a hacer:
Algunos errores comunes que podría tener un texto son:
1. Estar escritos con mayúsculas y minúsculas.
2. Tener muchos espacios antes o después del texto
3. Tener acentos (Malo).

In [None]:
import unicodedata

In [None]:
def normalize_text(word):
    if word is None:
        return None
    upper_word = word.upper() # word.upper()
    striped_word = upper_word.strip() # upper_word.strip()
    normalized_word = unicodedata.normalize('NFD', striped_word) # unicodedata.normalize('NFD', striped_word)
    result_word = ''
    for letter in normalized_word:
        if unicodedata.category(letter) != 'Mn':
            result_word += letter

    return result_word

In [None]:
# Vamos a testear esta funcion
word = "    TÓPICoS SeLeCToS DE AsTrONoMÍa           "
normalized_word = normalize_text(word)
normalized_word

In [None]:
# Apliquemos esta función a cada una de las filas de nuestro Data Frame
normalized_df = df_no_spaces.apply(normalize_text) # Oh no
normalized_df # Oh no! Qué salió mal? 🤔

### Qué salió mal? 🤔
Esta función está hecha solamente para normalizar texto, por tanto, si le pasamos una fila o columna de un dataframe, lo convertirá a string! No queremos eso, tenemos que hacer otra función para que aplique esta función "*normalize_text*" a cada una de nuestras filas (O columnas).

In [None]:
def normalize_df_rows(row):
    # Ciclemos por cada columna en esta fila
    normalized_row = [] # Necesitamos una lista para guardar cada una de nuestras filas
    for cell in row:
        normalized_row.append(normalize_text(cell)) # normalized_row.append(normalize_text(cell)) # Guardando la normalizacion de cada celda

    return normalized_row

In [None]:
# Ahora si, testeemos esta funcion
normalized_data = df_no_spaces.apply(normalize_df_rows, axis = 0) # normalized_data = raw_schedules_df.apply(normalize_df_rows, axis = 1)
normalized_data

In [None]:
pd.__version__

In [None]:
normalized_df = df_no_spaces.applymap(normalize_text)
normalized_df

### 1. ¿Campos en Blanco?
Si hay campos en blanco (que no sean de días porque no todos tienen más de uno) entonces hay que corregirlo porque significa que algo está mal en nuestro algoritmo de recolección de datos (o en la página de la UG).

http://www.dci.ugto.mx/estudiantes/index.php/mcursos/horarios-licenciatura

In [None]:
invalid_rows = normalized_df[(normalized_df["day/place/time1"].isna()) | (normalized_df["teacher"].isna())]
invalid_rows

## ❌ 4. Errores en horarios
Necesitamos un estándar para cada una de las columnas, en caso de las columnas de nombres de profesores y de materias, realmente no necesitamos hacer nada (porque ya normalizamos). PERO, en el caso de los horarios de cada materia, ahí sí necesitamos un estándar para que podamos operar con estas cosas de manera correcta en el futuro, el que yo elegí tiene la forma:

_día/hora_inicio-hora_final/lugar_

por ejemplo:

_LUNES/14-16/F9_

Si alguna fila no cumple con este estándar, entonces habrá que corregirlo.

In [None]:
# Hagamos una función para detectar cuando una fecha no está en el formato correcto (hay que pensar de lo mas shiquito a lo mas grande cuando no sepas hacer algo)
def detect_wrong_dates(date, index = False, column_name = False):
    # Los requisitos para esta funcion son que date sea una string diferente de nan, por ello.
    if date == 'NAN' or date is None:
        return
    # Splitear la fecha podria ser util
    date_split = date.split('/') # date.split('/')

    # A partir de esto podrían ocurrir varios errores o bugs
    # 1. Que no tenga algún "/"
    # 2. Que tenga más de un "/"
    # 3. Que haya guión entre los horarios de inicio y finales, es decir, que no esté en formato "hora-hora"

    # Corrijamos los primeros dos
    if len(date_split) != 3:
        print('Slashes Error')
        print(f"Index={index}, #Pag={index + 1}, Columna={column_name[-1]}")

    # Corrijamos la 3
    if len(date_split) == 3:
        hours = date_split[1] # Porque queremos checar la hora
        if hours and len(hours.split('-')) != 2:
            print('Hour Error')
            print(f"Index={index}, #Pag={index + 1}, Columna={column_name[-1]}")


# Aquí sucederá de nuevo lo que pasó con la normalización, tenemos que crear otra función para que trabaje sobre DataFrames
def detect_wrong_dates_in_df(df, date_columns):
    # Hay una forma de iterar sobre filas mas sencillo
    for index, row in df.iterrows():
        for column in date_columns:
            detect_wrong_dates(row[column], index, column)

In [None]:
# Testeemos esta función, primero necesitamos las columnas donde están las fechas
date_columns = ['day/place/time1', 'day/place/time2', 'day/place/time3', 'day/place/time4']
detect_wrong_dates_in_df(normalized_df, date_columns) # 😱 Asumakina, muchos errores, Maldita UG arruinó la UG

## AHORA a cargar los datos:

In [None]:
normalized_data.to_csv("datos_chidos.csv")

# ¿Qué sigue?
Darle significado a lo que haces, los datos están ahí, y se pueden limpiar y se pueden hacer un montón de cosas, pero si no les das significado y valor, no sirven de nada, tanto los datos, como tu esfuerzo! D: (A menos que hayas aprendido algo entonces sí).
Ejemplo:
https://bubudavid.github.io/dci-hh/

---
> Contenido creado por por **David (Bubu)** (2023). <br>
> **Contacto:** [@bubusaurio_rex](https://www.instagram.com/bubusaurio_rex/)