<h1>  <center> Manipulación y procesamiento de datos </center></h1>

<p> En está sesión realizaremos una introducción al procesamiento de datos en Python. Para ello, miraremos como importar distintas fuentes de información, como manipularlas, en qué consiste una base de datos y como todos estos conceptos juntos son útiles para trabajar con técnicas de Machine Learning. </p>

<h3> Los datos </h3>

La mayoría de los datos a nivel global se encuentran no estructurados, es decir, no se encuentran en alojados en una infraestructura que me permita realizar obtener información, realizar modelos, estimar resultados. Es por ello que es útil para cualquier modelador, entender como puede construir distintos tipos de estructuras de datos, y con ellos realizar los análisis que desee.

<h2> Librerías y modulos </h2>
Estas son las librerías y los modulos con que trabajaremos está sección:
<ul>
    <li><i>numpy:</i> Es una librería que contiene una gran variedad de modulos, muchos de ellos, orientados a algebra lineal, funciones matemáticas, transformadas de Fourier y números aleatorios, entre otros elementos.</li>
    <li><i>pandas:</i> Es una librería con modulos enfocados en estructura y análisis de datos</li>
    <li><i>matplotlib:</i> Es una librería útil para realizar gráficos en Python</li>
    <li><i>sklearn:</i> Es una librería que contiene un conjunto amplio de modulos diseñados para trabajar en Machine Learning</li>
</ul>    

In [None]:
import numpy as np 
np.set_printoptions(suppress=True)

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.model_selection import train_test_split

<h2> Data Frame </h2>
<p>De las sesiones pasadas, vimos como podemos interactuar con la maquina a través de Python para que pueda realizar tareas sencillas, a su vez, observamos que a la hora de programar, existen distintos tipos de elementos que en este lenguaje nos permite almacenar información.</p>

<p>Continuando con ello, los <i>Data frame</i> son un tipo de archivos en la cual podemos almacenar una cantidad heterogenea de elementos, como datos numéricos, string, registros categorícos y demás. Y este se compone de filas (índices), columnas, valores perdidos, y datos. Donde, cada fila será entendida como un registro, y cada columna como un campo.</p>

<p>Y es que, estas estructuras son útiles porque nos permiten hacer consultas sobre las características de nuestra información, permitiendo identificar patrones y errores en las fuentes de datos. Así como hacer manipulaciones que permitan ejecutar técnicas de Machine Learning.</p>

<p>A diferencia de R, en Python partimos de <i>diccionarios</i> para obtener data frames.</p>

In [None]:
## Crear un Data frame
# 1. Creemos un diccionario
data = {'Nombre':['Andres', 'Camilo', 'Laura', 'Daniela'],
        'Edad':[20, 21, 19, 18]}
print(type(data))

# Transformamos a data frame
df = pd.DataFrame(data)

# Podemos imprimir los primeros resultados.
df.head()

## Ingreso a los componentes
# columnas
print(df.columns)
print(df.index)
print(df.values)
print("")
print(df.columns.values)
print(df.index.values)



<h2> Manipulación de Data Frame </h2>

<p>Ya construido un data frame, podemos realizar distintos tipos de ejercicios, por ejemplo:</p>
<ul>
    <li>Renombrar columnas y filas</li>
    <li>Selección y manipulación de información</li>
    <li>Manipulación de <i>missing values</i></li>
</ul>

<h3> Renombrar índices y columnas </h3>
<p>En varios escenarios es necesario renombrar las filas y las columnas de un data frame, con el fin de corregir y/o mejorar la información contenida en una tabla </p>

print(df)
df.columns = ['Name','Age']
df.index = range(2,6)
print("")
print(df)
df.index = ['Perez','Ortiz','Rodriguez','Gonzalez']
print("")
print(df)

<h3> Selección y manipulación de información</h3>
<h4> Seleccionar columnas e índices </h4>
Existe varias maneras de manipular los índices y las columnas, por ejemplo, podemos seleccionar columnas y índices de la siguiente manera:
<ul>
    <li>df.nombre_columna</li>
    <li>df["nombre_columna"]</li>
    <li>df.loc[:,'\_'] : Trabaja con la posición del índice</li>
    <li>df.loc['indice']</li>
    <li>df.iloc['indice']: Trabaja con la etiqueta del índice</li>
    <li>df.ix['indice']: Trabaja cuando la etiqueta del índice es númerica</li>
</ul>

print(df.Edad,"\n\n\n",df['Edad'],"\n\n\n")
print(df.loc[1],"\n\n\n",df.loc[1])

<h3> Agregar columnas e índices a un data frame </h3>
<h4> Agregar Filas </h4>

<p> Para agregar información por índices/filas es necesario definir un data frame que posea las mismas columnas con las mismas etiquetas </p>

df = df.append(df.iloc[[1,3]])

df

<h4> Agregar columnas </h4>
En este caso, es posible agregar otra columna en el data frame, siempre que posea el mismo número de índices, de la siguiente manera:

df['Hijos'] = pd.Series([1,2,4,1,0,3])
df.insert(1, 'Universidad', 'Universidad Nacional de Colombia')
df.insert(1, 'Localidad', ['Teusaquillo','Teusaquillo','Engativá','Suba','Usaquen','Usaquen'])
df





## Archivos

Se pueden trabajar con distintos tipos de archivos, por ejemplo:
* Archivos planos
* Archivos .csv o .tsv
* Bases de datos de python

data = pd.read_csv('Data.csv')
print(data)
type(data)
#dir(data)

Podemos manipular este DataFrame, indexando con .ilo y tomando solo lo que nos es relevante

X = data.iloc[:,:-1].values
Y = data.iloc[:,3].values
print(X)
print(" ")
print(Y)

imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')
imputer = imputer.fit(X[:,1:3])
X[:,1:3]= imputer.transform(X[:,1:3])
print(X)

# Encoding Categorical variable
labelencoder_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0])
OHE = ColumnTransformer([('one_hot_encoder', OneHotEncoder(categories='auto'), [0])],remainder='passthrough')
X = OHE.fit_transform(X)
print(X)

labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)
print(Y)

## Datasets
Dos tipos de conjuntos de datos:
* Entrenamiento
* Pruebas


X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size = 0.2, random_state = 42)
print(X_train)
print(" ")
print(X_test)
print(" ")
print(Y_train)
print(" ")
print(Y_test)
print(" ")

## Escalas
En el caso de mantener una misma escala para las variables de nuestra base de datos, con el fin de evitar sesgos a la hora de realizar estimaciones, nos encontramos con 2 métodos:
* Estandarización:
\begin{equation*}
\frac{x-mean(x)}{standard desviation(X)} 
\end{equation*}
* Normalización:
\begin{equation*}
\frac{x-min(x)}{max(x)-min(x)} 
\end{equation*}

En Python esto lo podemos desarrollar de la siguiente manera:

_**Nota:** Las variables dummy si bien pueden predecir pierden interpretación_

sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

<h3> Tipos de objetos </h3>
Como lo mencionamos anteriormente, en Python con Pandas podemos albergar distintos tipos de objetos, entre los que tenemos:

<ul>
    <li> <b>Enteros:</b> Números enteros </li>
    <li> <b>Flotantes:</b> Números decimales </li>
    <li> <b>Expresiones booleanas:</b> <b>True</b> and <b>False</b> </li>
    <li> <b>Categóricos:</b> Datos númericos o string que definen un tipo específico de dominio para un campo </li>
    <li> <b>Fechas:</b> Datos de fechas, como el día, el mes y el año </li>
    <li> <b>Complejos:</b> Números complejos </li>
    <li> <b>Objetos:</b> Columnas con string, tuplas, listas, diccionarios, entre otros </li>
</ul>