# Aprendizaje Automatico con Scikit Learn

El *Machine Learning* es una rama de la informatica que utiliza tecnicas matematicas y estadisticas para desarrollar sistemas que en teoria aprenden algo a partir de un conjunto de datos.

El punto de partida es un conjunto de datos que podria ser una tabla ya sea en formato excel, csv o json. Esto se componen de instancias y atributos, los cuales en su respectivo orden, se entienden como *filas y columnas o registros y campos* si se consideran bases de datos. Lo importante es que todas las instancias deben tener la misma cantidad de atributos y los datos de cada atributo deben ser del mismo tipo de datos.

Distinguimos dos tipos de Aprendizaje Automatico: El *Aprendizaje Supervisado* en el que se espera predecir los valores de un atributo especifico, denominado *atributo clase*, a partir de los datos de los demas atributos. Y el *Aprendizaje No Supervisado* en el que no existe un atributo clase, por lo que su proposito es intentar encontrar algun patron entre los datos.

Al momento de aplicar un Aprendizaje Automatico, se debe dividir el conjunto de datos en dos partes: Conjunto de Entrenamiento (Train) usualmente un 80% y conjunto de prueba (Test) un 20%.

Los datos deben ser transformados y seleccionados para enfocarse correctamente en lo que se pretende identificar o predecir.

## Funcion para separar datos de Entrenamiento y de Prueba

Creamos una funcion que se encargue de separar los datos de entrenamiento y de prueba.

In [2]:
import pandas as pd

# cargams los datos del archivo
df = pd.read_csv('titanic_ml.csv')
df

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.2500,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.9250,2
3,1,1,0,35.0,1,0,53.1000,2
4,0,3,1,35.0,0,0,8.0500,2
...,...,...,...,...,...,...,...,...
707,0,3,0,39.0,0,5,29.1250,1
708,0,2,1,27.0,0,0,13.0000,2
709,1,1,0,19.0,0,0,30.0000,2
710,1,1,1,26.0,0,0,30.0000,0


In [3]:
# Mostrar todas las columnas del DataFrame
df.columns

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked'],
      dtype='object')

In [4]:
# importamos la libreria requerida para dividir conjuntos de datos en conjuntos 
# de entrenamiento y de prueba
from sklearn.model_selection import train_test_split

def separar(df, p_test, atributo_clase):
    '''
    Separa los datos de una DataFrame en atributos de entrada (train_x, test_x)
    y la variable objetivo (train_y, test_y)
    df: dataframe que se va a dividir
    p_test: proporcion del conjunto de datos utilizado como conjunto de prueba (0.0, 1.0)
    atributo_clase: Nombre de la variable objetivo que se quiere predecir
    '''
    
    train, test = train_test_split(df, test_size=p_test)
    atributos = df.columns.drop(atributo_clase)
    train_x = train[atributos]
    train_y = train[atributo_clase]
    test_x = test[atributos]
    test_y = test[atributo_clase]

    return train_x, train_y, test_x, test_y

- Utiliza la funcion *train_test_split()* para dividir el df en conjuntos de entrenamiento y prueba segun la proporcion especificada el p_test.

- Extrae y almacena en la variable *atributos*, los nombres de las columnas que representan los atributos de entrada, excluyendo la variable objetivo.

- Guarda en *train_x* el conjunto de entrenamiento de los atributos de entrada.

- Guarda en *train_y* el conjunto de entrenamiento de la variable objetivo.

- Guarda en *test_x* el conjunto de prueba de los atributos de entrada.

- Guarda en *test_y* el conjunto de prueba de la variable objetivo.


In [5]:
# Creamos las variables requeridas con la funcion anterior
# La variable objetivo en este caso sera Survived
train_x, train_y, test_x, test_y = separar(df, 0.2, 'Survived')

In [6]:
train_x

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
354,3,1,25.0,1,0,7.7750,2
318,2,1,46.0,0,0,26.0000,2
287,3,1,40.0,1,4,27.9000,2
254,1,0,31.0,0,2,164.8667,2
529,1,1,31.0,1,0,52.0000,2
...,...,...,...,...,...,...,...
568,1,0,38.0,0,0,227.5250,0
162,3,0,2.0,0,1,10.4625,2
572,3,1,17.0,1,0,7.0542,2
427,1,0,36.0,0,2,71.0000,2


In [7]:
train_y

354    0
318    0
287    0
254    1
529    0
      ..
568    1
162    0
572    0
427    1
387    0
Name: Survived, Length: 569, dtype: int64

In [8]:
test_x

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
584,3,1,28.5,0,0,16.1000,2
222,3,1,7.0,4,1,29.1250,1
649,3,0,6.0,4,2,31.2750,2
315,3,0,24.0,0,2,16.7000,2
224,3,1,65.0,0,0,7.7500,1
...,...,...,...,...,...,...,...
5,1,1,54.0,0,0,51.8625,2
329,3,1,21.0,0,0,7.7750,2
513,2,0,18.0,0,1,23.0000,2
401,1,1,18.0,1,0,108.9000,0


In [9]:
test_y

584    0
222    0
649    0
315    1
224    0
      ..
5      0
329    0
513    1
401    0
676    0
Name: Survived, Length: 143, dtype: int64