### open vs with open

In [None]:
HOUSING_PATH = "datasets/housing"
HOUSING_UNTAR_PATH = HOUSING_PATH + "/CaliforniaHousing"

In [None]:
# Uso de open
header_file = open(HOUSING_UNTAR_PATH + "/cal_housing.domain")
print(header_file.read())
# Liberamos recursos
header_file.close()

In [None]:
# Uso de with open
with open(HOUSING_UNTAR_PATH + "/cal_housing.domain") as header_file:
    print(header_file.read())

### pandas low_memory=True y mixed dtypes

In [None]:
import pandas as pd

In [None]:
from io import StringIO

In [None]:
# 1er caso, dtype único cabe en un solo chunk
test1 = '\n'.join([str(x) for x in range(10000)])
pd1 = pd.read_csv(StringIO(test1))

In [None]:
pd1

In [None]:
pd1.dtypes

In [None]:
# 2o caso, dtypes mixtos que caben en un solo chunk (sin problemas)
test2 = '\n'.join([str(x) for x in range(10000)] + ['a string'])
pd2 = pd.read_csv(StringIO(test2))

In [None]:
pd2

In [None]:
pd2.dtypes

In [None]:
print(test2)

In [None]:
# 3er caso, dtypes mixtos que no caben en un solo chunk (warning)
test3 = '\n'.join([str(x) for x in range(1000000)] + ['a string'])
pd3 = pd.read_csv(StringIO(test3))

In [None]:
print(test3)

In [None]:
import numpy as np

In [None]:
print(test3)

In [None]:
type(a)

### imputando features Categóricas

In [None]:
import numpy as np
import pandas as pd

In [None]:
# DataFrame de juguete que contiene un columna color con un missing al final
amigos = pd.DataFrame({
    "nombre": np.array(["Julio", "Nuria", "Jose", "Luis", "Daniel", "Javier", "Alberto", "Lourdes"]),
    "edad": np.array(  [     22,      26,     28,     25,       24,       24,        24,        26]),
    "sexo": np.array(  ["Hombre", "Mujer","Hombre","Hombre","Hombre","Hombre", "Hombre",  "Mujer" ]),
    "color": np.array( ["verde", "rojo", "azul", "amarillo", "amarillo", "rosa", "morado", ""])
})


In [None]:
from sklearn.impute import SimpleImputer

In [None]:
# La estrategia de imputación será most frequent (la moda) y especificamos
# explicitamente qué es lo que se considera un valor missing para nuestra feature
# categórica.
imputer = SimpleImputer(strategy='most_frequent', missing_values='')

In [None]:
imputer = SimpleImputer(strategy='constant', missing_values='', fill_value='naranja')

In [None]:
imputer.fit(amigos.values)

In [None]:
imputer.transform(amigos.values)

In [None]:
imputer.statistics_

### numpy Strides

In [None]:
import numpy as np

In [None]:
# Supongamos el siguiente array (dtype int32 es de tamaño 32 bits y 32 bits=4 bytes)
x = np.array([[0, 1, 2, 3, 4],
              [5, 6, 7, 8, 9]], dtype=np.int32)


In [None]:
# Es un array de dos dimensiones, pero en memoria sus elementos se almacenan 
# de forma contigua: uno detrás de otro.
x.shape

In [None]:
# Los strides nos dicen como movernos de un elemento a otro
# a través de un determinado eje. Por ejemplo si estamos en el 0 y queremos ir al siguiente
# elemento de la misma columna, habría que desplazarse 4 bytes. Pero si queremos desplazarnos al mismo elemento
# de la fila siguiente, el salto será de 20 bytes.
x.strides

In [None]:
# Añadamos una dimensión más
y = np.reshape(np.arange(2*3*4), (2,3,4))

In [None]:
y

In [None]:
# Veamos la forma
y.shape

In [None]:
# En este caso los stride nos informarán de cuanto hay que desplazarse para moverse
# al mismo elemento de cada una de las tres dimensiones.
y.strides

In [None]:
# Confirmamos que por defecto el tipo de los valores de 
# nuestro array de numpy es int32
type(y[0][0][0])

In [None]:
# Nota: el subtipo de entero que numpy asuma por defecto, dependerá 
# concretamente de lo que el compilador de C de vuestra máquina entienda por un tipo long
# (int32 o int64)...en el caso de win64 lo normal es que sea int32.

### ¿copia o referencia?

#### Tipos básicos (str, int...)

In [None]:
str1 = "Hola majo"

In [None]:
str2 = str1

In [None]:
str2 = "anda..."

In [None]:
print(str2)

In [None]:
print(str1)

#### estructuras de datos (listas, diccionarios...)

In [None]:
dict1 = {0:'a',1:'b',2:'c'}

In [None]:
dict2 = dict1

In [None]:
dict2[1] = 90

In [None]:
dict1

In [None]:
# Para prevenir esto disponemos del método copy(),
# intenta hacer lo mismo, pero esta vez no uses el operador "="
# para asignar un diccionario a otro, sino el método copy()


### LabelBinarizer: label con dos únicos valores y label con más de dos valores posibles

In [None]:
from sklearn.preprocessing import LabelBinarizer

#### label con dos únicos valores: rojo y blanco

In [None]:
lb = LabelBinarizer()

In [None]:
lb.fit(['rojo','blanco','blanco','rojo'])

In [None]:
lb.transform(['rojo','blanco','rojo'])

#### label con más de dos valores posibles: rojo, rosado y blanco

In [None]:
lb = LabelBinarizer()

In [None]:
lb.fit(['rojo','blanco','rosado','rosado','blanco'])

In [None]:
lb.transform(['rojo','blanco','rosado','rosado'])