En esta libreta intento presentar un panorama de la programación orientada a objetos en Python para ciencia de datos.

La **programación orientada a objetos** (**POO**) es un poderoso y versátil paradigma que puede beneficiar la organización, mantenimiento y escalabilidad de los programas que escribas para resolver problemas de ciencia de datos.

*Nota:* No todos los científicos de datos programan en su día a día, y no todos los que programan lo hacen con el paradigma orientado a objetos. No necesitas ser un experto en este tema, pero entender los conceptos básicos te permitirá escribir código más limpio, reusable y fácil de modificar con el tiempo.

De la página oficial de la Maestría de Ciencia de Datos, retomo:

-----
El proceso que sigue un científico de datos para resolver algún problema que se le plantea se puede resumir en estos pasos:

- **Extraer los datos**, independientemente de la fuente y de su volumen. Muchas veces es necesario complementar con otros tipos de datos que ayuden a resolver el problema de que se pretende resolver.
- **Limpiar y completar los datos**, para eliminar lo que pueda sesgar los resultados e incluir información que de momento no se tiene.
- **Procesar los datos** usando métodos: estadísticos, de aprendizaje automático, métodos heurísticos, etcétera.
- **Diseñar experimentos** adicionales para aumentar la información que nos proporcionan los datos.
- **Crear visualizaciones gráficas** de los datos relevantes para la resolución del problema.
-----

Quizás en la mayoría de los casos, el escribir programas de computadora en Python para atacar estos pasos, utilizarás bibliotecas y programas escritos por otras personas.

Sin embargo, también es probable que te encuentres en situaciones donde debas automatizar un proceso, adecuar un programa existente a tus necesidades, o construir métodos más eficientes para resolver los problemas específicos en los que trabajes. Tienes en Python una herramienta para lograr esto y en la POO un conjunto de modelos, principios y técnicas para lograr esto de manera efectiva.

# Terminología

En la POO se utiliza alguna terminología para diseñar e implementar programas.

Recuerda que el propósito central de un paradigma de programación es acercar el proceso computacional que se ejecuta en la computadora a las ideas, modelos mentales y vocabulario con el que pensamos el problema.

## Objetos

Los **objetos** son el concepto central de la POO, son las entidades abstractas que conforman nuestros programas.

Ya has utilizado objetos en Python, considera cualquier valor

In [170]:
obj = 42

Los objetos contienen información en forma de **campos** (también llamados atributos) y **programas** en forma de métodos

In [171]:
# leemos el campo `numerator` de un objeto numérico (entero)
obj.numerator

42

In [172]:
# leemos el campo `denominator` de un objeto numérico (entero)
obj.denominator

1

¿Por qué los enteros tienen un campo de denominador? ¡Siempre va a ser `1`!

La respuesta a esta pregunta la discutiremos en un ratito.

Por el momento, consideremos algunos métodos de los enteros.

In [173]:
# calculamos la cantidad de bits necesarias para representar el número
obj.bit_length()

6

Si `<obj>` es un objeto, `<field>` uno de sus campos y `<method>` uno de sus métodos, entonces:
- `<obj>.<field>` nos permite leer el valor del campo
- `<obj>.<method>()` nos permite invocar el programa del método

Los métodos pueden recibir información adicional al objeto por medio de argumentos. Consideremos un objeto distinto, una cadena de caracteres.

In [174]:
obj = "¡ciencia de datos!"

Los objetos que son cadenas de caracteres no tienen ningún campo que podamos leer, esta es una técnica común en el diseño de código con la POO, en un ratito más discutiremos por qué y otras técnicas.

Sin embargo, las cadenas de caracteres si tienen métodos, ¡y son bastante útiles!

In [175]:
# calculamos una cadena con los signos de ¡ reemplazados por ¿
obj.replace("¡", "¿")

'¿ciencia de datos!'

Algunos métodos van a modificar el objeto, mientras que otros dejan el objeto intacto pero producen un objeto nuevo. El método `replace` es de estos últimos.

In [176]:
# el objeto original queda igualito
obj

'¡ciencia de datos!'

Ya que el método calcula una cadena de caracteres, también podemos invocar sobre esta cadena el método `replace`.

In [177]:
# reemplazamos en obj y luego reemplazamos en la cadena resultante
# del primer reemplazo
(obj.replace("¡", "¿")).replace("!", "?")

'¿ciencia de datos?'

Podemos omitir los paréntesis de agrupación y simplemente escribir:

In [178]:
obj.replace("¡", "¿").replace("!", "?")

'¿ciencia de datos?'

Podremos cuestionarnos, ¿Por qué usar métodos cuando ya tenemos **funciones**? ¿Por qué a veces usamos funciones en lugar de métodos?

Consideremos la función `len`.

In [179]:
# calcula la cantidad de caracteres en la cadena
len(obj)

18

Esta función opera sobre objetos de distintos tipos, en realidad su propósito es calcular la *longitud* de un objeto. En el caso de las cadenas esto corresponde a la cantidad de caracteres, pero en el caso de listas esto corresponde a la cantidad de elementos.

In [180]:
obj = ["ciencia", "de", "datos"]

In [181]:
# calcula la cantidad de elementos en la lista
len(obj)

3

En cada dominio del conocimiento, o modelo, o problema, el criterio de *la longitud* de un objeto puede ser diferente.

Python usa el método `__len__` de cada objeto para que el criterio usado sea el adecuado.

In [182]:
obj.__len__()

3

Cuando modelamos nuestro problema con POO podemos especificar precisamente a qué nos referimos con longitud. Es decir, acercamos el proceso computacional hacia nuestra mente, y no nuestra mente hacia la computadora.

## Clases

Una **clase** es una plantilla para crear objetos. Nos permiten definir la estructura y el comportamiento de un conjunto de objetos con los que nos interesa trabajar.

En el contexto de ciencia de datos, una clase puede representar cosas como:
- Una fuente de donde extraer datos
- Una estrategia o criterio para limpiar datos
- Un proceso de canalización de datos para el procesamiento
- Un método estadístico parametrizado
- Un estilo de visualización, o el medio en donde representar visualizaciones

Un patrón muy utilizado es el de representar un modelo de aprendizaje automático con una clase.

Consideremos un modelo de aprendizaje supervisado, el cuál tiene dos parámetros `param1` y `param2`. En el aprendizaje supervisado, nos interesa tomar un conjunto de datos etiquetados, ajustar el modelo a los datos una vez y luego realizar predicciones muchas veces sobre datos no etiquetados.

Identificamos entonces que los parámetros nos describen un conjunto de modelos, en donde nos interesa programar dos comportamientos presentes en todos:
- ajustar (`fit`)
- predecir (`predict`)

In [183]:
class SupervisedLearningModel:
    def __init__(self, param1, param2 = 0.1):
        self.param1 = param1
        self.param2 = param2

    def fit(self, data, labels):
        # aquí escribimos el programa para ajustar el modelo
        # a los datos etiquetados.
        pass

    def predict(self, data):
        # aquí escribimos el programa para predecir las etiquetas
        # de los datos nuevos.
        pass

El proceso de crear un objeto a partir de una clase se llama **instanciación**. Esto lo hacemos invocando el nombre de la clase como si fuera una función, pasando los parámetros del modelo como argumentos.

In [184]:
model = SupervisedLearningModel(0.5)

Entonces, los parámetros son campos del modelo.

In [185]:
model.param1

0.5

In [186]:
model.param2

0.1

Y los procesos de ajustar y predecir son métodos del modelo.

In [187]:
model.fit

<bound method SupervisedLearningModel.fit of <__main__.SupervisedLearningModel object at 0x00000204CC981190>>

In [188]:
model.predict

<bound method SupervisedLearningModel.predict of <__main__.SupervisedLearningModel object at 0x00000204CC981190>>

El método que programamos en la clase llamado `__init__` es un método especial, también llamado inicializador) que es invocado cuando instanciamos un objeto de esta clase. Es utilizado para asignar valores a los campos del objeto.

Este es un bosquejo, entonces nuestro modelo no hace nada interesante...

## Encapsulamiento

El **encapsulamiento** es otro concepto central en la POO, consiste en empaquetar datos (campos) y los metodos que operan sobre ellos dentro de una clase, ocultando los detalles de qué información usa el objeto para realizar los cálculos.

En el ejemplo anterior, cuando creamos un modelo particular, queremos usar de vocabulario los términos `fit` y `predict` en lugar de pensar en la manera en que estos están programados, o en qué calculos realiza con los parámetros.

El encapsulamiento también mejora la organización del código y hace más fácil modificarlo.

## Herencia

La **herencia** se refiere a que podemos crear clases (hijo) que contengan los campos y métodos de otra clase (padre).

En el ejemplo anterior, existen muchos tipos de modelos de aprendizaje supervisado, pero todos ellos contienen al menos los métodos `fit` y `predict`, podemos crear una jerarquía de modelos, donde se comparta vocabulario y funcionalidad.

## Polimorfismo

El **polimorfismo** (etimología *muchas formas*) se refiere a la capacidad de tratar objetos de distintas clases como si fueran de la misma.

Por ejemplo, podemos escribir código genérico que trabaje con un modelo de aprendizaje supervisado sin conocer precisamente qué tipo de modelo es, utilizando solamente los métodos `fit` y `predict`.

Pensemos también en el método `__len__`, cada clase distinta puede establecer su criterio de longitud a ser utilizado en otras partes de nuestros programas.

# Problema de ejemplo

Consideremos un problema de análisis de sentimientos para la clasificación de reseñas de películas.

Para este ejemplo consideramos que las reseñas son cadenas de caracteres y la calificación puede ser positiva con valor `+1` o negativa con valor `-1`.

In [189]:
training_data = [
    ("not good",       -1),
    ("pretty bad",     -1),
    ("good plot",      +1),
    ("pretty scenery", +1),
]

Crea una clase `Corpus` que tome datos de entrenamiento, identifique cada palabra en las reseñas y les asigne un índice numérico único. La longitud de un `Corpus` es la cantidad de palabras.

In [190]:
class Corpus:
    def __init__(self, data):
        # initial values
        words_review = {}
        index = 0
        
        # we assignt an index to every unique word in the data,
        # since we dont use label, we use "_" as a placeholder
        for (review, _) in data:
            # we split the string by spaces into words
            words=review.split(" ")

            # for every word
            for word in words:
                # if its not already in the dictionary of words (so they can be unique)
                if word not in words_review.values():
                    # we assign the word to an index
                    words_review[index] = word
                    # next index for next word
                    index += 1
        # we save the dictionary of index:word in a field called dic
        self.dic=words_review

    def index(self, word):
        for key, value in self.dic.items():
            if value==word:
                return key
        pass

    def word(self, ind):
        # ind being index
        word = self.dic[ind]
        return word

    def __len__(self):
        return len(self.dic)

In [191]:
corpus_review=Corpus(training_data)

In [192]:
print(f'Reviews as a dic:{corpus_review.dic}\n')
print(f'Index of the word "pretty":{corpus_review.index("pretty")}\n')
print(f'Word with index 1:{corpus_review.word(1)}\n')
print(f'Lenght of elements(amounts of reviews) in reviews:{len(corpus_review)}\n')

Reviews as a dic:{0: 'not', 1: 'good', 2: 'pretty', 3: 'bad', 4: 'plot', 5: 'scenery'}

Index of the word "pretty":2

Word with index 1:good

Lenght of elements(amounts of reviews) in reviews:6



Crea una clase llamada `Review` que represente una reseña, debe ser construida a partir de una cadena de caracteres y un `Corpus`, para representar cada reseña como un conteo de frecuencias de las palabras usando una lista con tantos elementos como longitud del `Corpus`.

In [193]:
class Review:
    def __init__(self, string, corpus_data):
        self.string=string
        self.words=list(corpus_data.dic.values())
        self.items=string.split(" ")
        count=0
        for word in self.words:
            count+=self.items.count(word)
        self.count=count

In [None]:
review = Review('that movie was pretty good but i did not like the part where the bad guy dies out of nowhere', corpus_review)

In [195]:
print(f'The words in:\n     {review.words} \nappear in: \n     "{review.string}"\n{review.count} times')

The words in:
     ['not', 'good', 'pretty', 'bad', 'plot', 'scenery'] 
appear in: 
     "that movie was pretty good but i did not like the part where the bad guy dies out of nowhere"
4 times


In [None]:
review = Review('was aight', corpus_review)

In [197]:
print(f'The words in:\n     {review.words} \nappear in: \n     "{review.string}"\n{review.count} times')

The words in:
     ['not', 'good', 'pretty', 'bad', 'plot', 'scenery'] 
appear in: 
     "was aight"
0 times


Si entrenamos un modelo con esta representación de reseñas...

¿Qué pasa cuando queremos predecir una reseña que contiene palabras no contempladas en el `Corpus`?

¿Qué pasa cuando el `Corpus` tiene una longitud muy grande pero cada reseña es breve?

Modifica tu clase `Review` para que sea llamada `DenseReview` y crea una clase llamada `SparseReview` que represente el conteo de frecuencias de las palabras en las reseñas usando diccionarios de Python.

Ambas clases deben incluir el método `frequency` que toma una palabra y regresa la cantidad de veces que aparece en la reseña.

In [None]:
# We inherit from the Review class
class DenseReview(Review):
    # We define the frequency method
    def frequency(self, word):
        freq = 0
        freq += self.items.count(word)
        return freq

In [208]:
dense_review=DenseReview('that was was pretty bad', corpus_review)

In [226]:
print(f'The words in:\n     {dense_review.words} \nappear in: \n     "{dense_review.string}"\n{dense_review.count} times\n')
word='that'

count=dense_review.frequency(word)
if (dense_review.count>0) and (count>0):
    print(f'And the word "{word}" appears {count} times')
else:
    print(f'But the word "{word}" appears {count} times')

The words in:
     ['not', 'good', 'pretty', 'bad', 'plot', 'scenery'] 
appear in: 
     "that was was pretty bad"
2 times

And the word "that" appears 1 times


In [227]:
print(f'The words in:\n     {dense_review.words} \nappear in: \n     "{dense_review.string}"\n{dense_review.count} times\n')
word='movie'

count=dense_review.frequency(word)
if (dense_review.count>0) and (count>0):
    print(f'And the word "{word}" appears {count} times')
else:
    print(f'But the word "{word}" appears {count} times')

The words in:
     ['not', 'good', 'pretty', 'bad', 'plot', 'scenery'] 
appear in: 
     "that was was pretty bad"
2 times

But the word "movie" appears 0 times


In [201]:
# We inherit from the DenseReview class
class SparseReview(DenseReview):
    # As the frequency method is already defined, 
    # we use it to define the count for every word
    def __init__(self, data, corpus_data):
        # Parent __init__
        super().__init__(data, corpus_data)
        
        # dic with frequency for every word
        freq_counts={}
        for word in self.words:
            if word not in freq_counts.keys():
                freq_counts[word]=self.frequency(word)
        self.frequency_counts = freq_counts

In [228]:
dense_review=SparseReview('that was was pretty bad',corpus_review)

In [232]:
print(f'The words in:\n     {dense_review.words} \nappear in: \n     "{dense_review.string}"\n with the following frequency:\n     {dense_review.frequency_counts}\n')

word='movie'
count=dense_review.frequency(word)
print(f'Fun fact: the word "{word}" appears {count} times')

The words in:
     ['not', 'good', 'pretty', 'bad', 'plot', 'scenery'] 
appear in: 
     "that was was pretty bad"
 with the following frequency:
     {'not': 0, 'good': 0, 'pretty': 1, 'bad': 1, 'plot': 0, 'scenery': 0}

Fun fact: the word "movie" appears 0 times


# Algunos patrones de POO

## Estrategia

Cuando tienes varios algoritmos o métodos para una tarea específica, define una familia de algoritmos (clases) y haz que sean intercambiables programando métodos en común.

La normalización de datos (también llamada *feature scaling*) son métodos usados para ajustar el rango de valores en variables independientes o características de los datos. Usualmente se utilizan en la etapa de preprocesamiento de datos.

In [204]:
class FeatureScaling:
    def scale(self, data):
        raise NotImplementedError

class StandardScaler(FeatureScaling):
    def scale(self, data):
        # Calcula media y varianza
        # Normaliza los datos para que tengan
        # media y varianza unitaria
        pass

class MinMaxScaler(FeatureScaling):
    def __init__(self, minval, maxval):
        pass

    def scale(self, data):
        # Normaliza los datos para que se encuentren
        # entre el valor minimo y maximo especificados
        pass

De esta manera, puedes usar algun normalizador en tu código sin pensar en los detalles de cómo es que se está normalizando. O bien, definir métodos que trabajen con algún normalizador, independientemente de cuál sea.

## Fábrica

Cuando necesitas crear objetos de diferentes clases basado en ciertas condiciones, pero quieres evitar incorporar la lógica de creación en cada método, puedes crear una clase separada (la fábrica) que sea responsable de crear la instancia adecuada.

In [205]:
class ScalerFactory:
    def create_scaler(self, scaler_type):
        if scaler_type == "standard":
            return StandardScaler()
        elif scaler_type == "minmax":
            return MinMaxScaler(0, 1)
        else:
            return StandardScaler()

## Constructor

Cuando quieres crear objetos complejos con muchos parámetros opcionales, puedes usar una clase constructor separada que se encargue de ensamblar el objeto paso a paso, usando una técnica que se llama encadenamiento de métodos.

Pensemos en la construcción de todo un procesamiento de datos.

La imputación (`imputer`) es la sustitución de valores no informados en una observación por otros.

La normalización (`scaler`) ajusta el rango de valores en variables independientes.

In [206]:
class DataPipelineBuilder:
    def __init__(self):
        self.pipeline = []

    def add_imputer(self, imputer_type):
        # Agregar imputador al pipeline
        return self

    def add_scaler(self, scaler_type):
        # Agregar normalizador al pipeline
        return self

    def add_model(self, model_type):
        # Agregar modelo al pipeline
        return self

    def build(self):
        # Construir el pipeline
        return self.pipeline

Entonces podríamos construir un procesamiento de datos de la siguiente manera:

```python
pipeline = DataPipelineBuilder() \
            .add_imputer('mean') \
            .add_scaler('standard') \
            .add_model('linear') \
            .build()
```

o configurarlo distinto:

```python
pipeline = DataPipelineBuilder() \
            .add_imputer('ignore') \
            .add_scaler('minmax') \
            .add_model('logistic') \
            .build()
```

## Método plantilla

Cuando tienes un algoritmo que siempre realiza ciertos pasos, pero en diferentes implementaciones algunos pasos cambian, puedes definir el esqueleto del algoritmo en una clase padre y dejar que las subclases sobreescriban los pasos específicos.

In [207]:
class Analyzer:
    def analyze(self, data):
        self.preprocess(data)
        self.custom_analyze(data)

class FastButInaccurateAnalyzer:
    def custom_analyze(self, data):
        pass

class SlowButAccurateAnalyzer:
    def custom_analyze(self, data):
        pass