# Comencemos :
Para codificar, como sabemos necesitamos un entorno adecuado, aquí en mi caso he utilizado Google Colab, ya que reduce la frenética tarea de compilar y ejecutar el programa en tu PC. Puede utilizar cualquier editor que desee.

Lo más importante que debemos hacer es importar las dependencias que usaremos en nuestro código.

# Importando dependencias:
Usaremos:  NumPy,  pandas , matplotlib, seaborn, sklearn.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

### A medida que avancemos, conocerá el uso de cada uno de estos módulos.

Ahora, necesitamos cargar el conjunto de datos descargado en este programa, para que nuestro código pueda leer los datos y realizar las acciones necesarias usándolos.

Como hemos descargado un archivo CSV, usaremos Pandas para almacenar esos datos en una variable.

In [2]:
titanic_data = pd.read_csv('train.csv')


### Nuestro conjunto de datos ahora está almacenado en la variable llamada titanic_data.

Para tener una breve idea de cómo se cargan los datos, usamos el comando "variable_name.head()" para obtener una idea del conjunto de datos en forma de tabla.

In [3]:
titanic_data.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


A continuación se describen las variables contenidas en el fichero:
Variables Descripción
passengerId- int, valor de identificación único de cada pasajero

name- string, que hace referencia al nombre del pasajero

sex- factor, con niveles (masculino y femenino)

age - numeric, valor que se refiere a la edad de una persona determinada. La edad de
los niños menores de 12 meses es dad en fracción de un año (1/mes)

class - - factor, especifica la clase para cada pasajero (tipo de servicio a bordo)

embarked- factor, hace referencia al lugar de embarcamiento (puerto de embarque de las
personas)

ticketno - numeric, especifica el número de ticket (na para la tripulación)

fare - numeric, valor con el precio del ticket (na para la tripulación, musicos,
empleados y otros)

sibsp - factor ordenado, especifíca el número de hermanos/familiares

cabin - factor, tipo de cabina que ocupa cada pasajero

parch - factor ordenado, especifica el número de padres e hijos a bordo

survived - factor 2 de dos niveles, que especifíca (sí o no) la persona ha sobrevivido al
hundimiento



Los datos tienen 891 filas y 11 columnas.



In [4]:
titanic_data.describe

<bound method NDFrame.describe of      PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                 

### Ahora, veamos cuántas celdas quedan vacías en la tabla.
No podemos dejar las celdas vacías, por lo que hay que rellenar las tablas con los valores más adecuados.


In [5]:
titanic_data.isnull().sum()


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### Manejo de los valores perdidos:
Eliminando la columna "Cabina" del marco de datos, ya que no será de mucha importancia

In [6]:
titanic_data = titanic_data.drop(columns='Cabin', axis=1)


Reemplazar los valores que faltan en la columna "Edad" con el valor medio



In [16]:
titanic_data['Age'].fillna(titanic_data['Age'].mean(), inplace=True)


Encontrar el valor moda de la columna "Embarcado" ya que habrá ocurrido el número máximo de veces


In [17]:
print(titanic_data['Embarked'].mode())


0    S
dtype: object


In [18]:
titanic_data['Embarked']

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: Embarked, Length: 891, dtype: object

Reemplazar los valores que faltan en la columna "Embarcado" con el valor del modo


In [19]:
titanic_data['Embarked'].fillna(titanic_data['Embarked'].mode()[0], inplace=True)

Ahora vamos a comprobar si todavía quedan celdas vacías.

Ejecutando el comando isnull() nuevamente, obtenemos un resultado satisfactorio, que no hay celdas vacías.



In [20]:
titanic_data.isnull().sum()


PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

Ya hemos notado en la tabla que hay dos columnas que contienen valores de tipo cadena: la columna "Sexo" y la columna "Atraque".

### Transformación en una columna categórica.

Convirtámoslo en valores de tipo entero y transformémoslo en una columna categórica:

In [21]:
titanic_data.replace({'Sex':{'male':0,'female':1}, 'Embarked':{'S':0,'C':1,'Q':2}}, inplace=True)


Ahora, si ejecutamos el comando titanic_data.head() nuevamente, encontramos que los valores se han reemplazado con éxito.

In [22]:
titanic_data.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,1
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,0
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,0


Vemos también, que hay pocas columnas, que no son de mucha importancia en este proceso. Deshagámonos de ellos.

### Ahora es el momento de comenzar a implementar el aprendizaje automático.

Dividamos los datos en las variables objetivo y característica.

In [23]:
X = titanic_data.drop(columns = ['PassengerId','Name','Ticket','Survived'],axis=1)
Y = titanic_data['Survived']

In [24]:
titanic_data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.000000,1,0,A/5 21171,7.2500,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.000000,1,0,PC 17599,71.2833,1
2,3,1,3,"Heikkinen, Miss. Laina",1,26.000000,0,0,STON/O2. 3101282,7.9250,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.000000,1,0,113803,53.1000,0
4,5,0,3,"Allen, Mr. William Henry",0,35.000000,0,0,373450,8.0500,0
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",0,27.000000,0,0,211536,13.0000,0
887,888,1,1,"Graham, Miss. Margaret Edith",1,19.000000,0,0,112053,30.0000,0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",1,29.699118,1,2,W./C. 6607,23.4500,0
889,890,1,1,"Behr, Mr. Karl Howell",0,26.000000,0,0,111369,30.0000,1


In [25]:
X

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,3,0,22.000000,1,0,7.2500,0
1,1,1,38.000000,1,0,71.2833,1
2,3,1,26.000000,0,0,7.9250,0
3,1,1,35.000000,1,0,53.1000,0
4,3,0,35.000000,0,0,8.0500,0
...,...,...,...,...,...,...,...
886,2,0,27.000000,0,0,13.0000,0
887,1,1,19.000000,0,0,30.0000,0
888,3,1,29.699118,1,2,23.4500,0
889,1,0,26.000000,0,0,30.0000,1


In [26]:
Y

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: Survived, Length: 891, dtype: int64

Aquí, X es la variable de característica, que contiene todas las características como Pclass, Age, Sex, Embarked, etc., excepto la columna Survived.

Y, por otro lado, es la variable objetivo, ya que ese es el resultado que queremos determinar, es decir, si una persona está viva.

Ahora, dividiremos los datos en cuatro variables, a saber, X_train, Y_train, X_test, Y_test.



In [27]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.2, random_state=2)


Entendamos las variables:

X_train: contiene un conjunto de valores de la variable ' X '

Y_train: contiene la salida (ya sea que la persona esté viva o muerta) del valor correspondiente de X_train.

X_test: contiene un conjunto de valores de la variable ' X ', excluyendo los de X_train.

Y_train: contiene la salida (ya sea que la persona esté viva o muerta) del valor correspondiente de X_test.

test_size: representa la relación porcentual de X_train:X_test (Aquí 0,2 significa que los datos se segregarán en las variables X_train y X_test en una relación de 80:20). Puede utilizar cualquier valor que desee. Se prefiere un valor <0.3

### Regresión logística :
Vamos a crear un modelo llamado modelo



In [28]:
model = LogisticRegression()


Ahora entrenemos el modelo, con nuestros valores de entrenamiento (X_train, Y_train)



In [29]:
model.fit(X_train, Y_train)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

El modelo entrena de esta manera: “Cuando los valores de X son estos, el valor de Y es este”.

### Comprobación de la precisión:
Verificando la precisión de cuando nuestro modelo intenta predecir los valores, usando nuestros datos de entrenamiento:

Nombraremos una variable X_train_prediction, que almacenará todas las salidas predictivas de los valores X_train.

In [30]:
X_train_prediction = model.predict(X_train)


Ahora, para verificar qué tan precisa fue su predicción, comparamos los valores de X_train_prediction con Y_train, que eran los datos originales de la vida real.

In [31]:
training_data_accuracy = accuracy_score(Y_train, X_train_prediction)
print('Accuracy score of training data : ', training_data_accuracy)

Accuracy score of training data :  0.8075842696629213


La salida resulta ser 0.8075842696629213, que es bastante decente.

Ahora, intentémoslo de nuevo con X_test e Y_test:

In [32]:
X_test_prediction = model.predict(X_test)
test_data_accuracy = accuracy_score(Y_test, X_test_prediction)
print('Accuracy score of test data : ', test_data_accuracy)

Accuracy score of test data :  0.7821229050279329


El resultado resultó ser 0.7821229050279329, que estuvo muy cerca de nuestra predicción de datos de prueba.

Por lo tanto, nuestro modelo es bastante preciso según los datos que recibimos.

### Comprobación de una persona aleatoria:
Ahora busquemos una Persona aleatoria usando datos aleatorios

In [34]:
input_data = (3,0,25,0,0,9,2)  
# Tenga en cuenta que estos datos excluyen los datos sobrevividos, 
# ya que se determinarán a partir del propio modelo


In [35]:
X_train

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
30,1,0,40.000000,0,0,27.7208,1
10,3,1,4.000000,1,1,16.7000,0
873,3,0,47.000000,0,0,9.0000,0
182,3,0,9.000000,4,2,31.3875,0
876,3,0,20.000000,0,0,9.8458,0
...,...,...,...,...,...,...,...
534,3,1,30.000000,0,0,8.6625,0
584,3,0,29.699118,0,0,8.7125,1
493,1,0,71.000000,0,0,49.5042,1
527,1,0,29.699118,0,0,221.7792,0


Ahora cambiemos estos valores a una matriz NumPy:



In [36]:
input_data_as_numpy_array = np.asarray(input_data)


Como nuestro modelo fue entrenado en diferentes dimensiones, necesitamos remodelarlo a nuestras dimensiones objetivo.

In [37]:
input_data_reshaped = input_data_as_numpy_array.reshape(1,-1)


Ahora, vamos a predecir usando nuestro modelo:



In [38]:
prediction = model.predict(input_data_reshaped)
#print(prediction)
if prediction[0]==0:
    print("Muerto")
if prediction[0]==1:
    print("Sobrevive")

Muerto
