# Data Science Nivel 1: Análisis de Datos con Python

Ejercicio creado por:* **V. D. Betancourt**

## Capítulo 4. Análisis de Datos

### Notebook. Data Cleaning
El proceso de limpieza de datos implica identificar y corregir errores o inconsistencias en los datos,
como valores faltantes,duplicados, o incorrectos. El objetivo es asegurar que los datos sean precisos
y coherentes antes de realizar el análisis

#### Importar

In [None]:
# Importar Bibliotecas
import pandas as pd


#### Carga de Datos desde GitHub

In [None]:
# Cargar dataset de Titanic
import pandas as pd

url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
titanic = pd.read_csv(url, sep=',')


El dataset **Titanic** contiene los siguientes campos:

* **`PassengerId`** (Identificación del Pasajero): Un número único asignado a cada pasajero.

* **`Survived`** (Sobrevivió): Indica si el pasajero sobrevivió (**`1`**) o no (**`0`**).

* **`Pclass`** (Clase de Pasaje): La clase del billete del pasajero, indicando un nivel socioeconómico. 1 representa primera clase, 2 segunda clase y 3 tercera clase.

* **`Name`** (Nombre): El nombre del pasajero.

* **`Sex`** (Sexo): El género del pasajero.

* **`Age`** (Edad): La edad del pasajero.

* **`SibSp`** (Hermanos/Esposas a bordo): El número total de hermanos, hermanas y esposas/esposos del pasajero a bordo.

* **`Parch`** (Padres/Hijos a bordo): El número total de padres e hijos del pasajero a bordo.

* **`Ticket`** (Número de Ticket): El número de ticket del pasajero.

* **`Fare`** (Tarifa): El precio del billete.

* **`Cabin`** (Cabina): El número de cabina.

* **`Embarked`** (Puerto de Embarque): El puerto donde el pasajero se embarcó. **`C`** = Cherbourg, **`Q`** = Queenstown, **`S`** = Southampton.

#### Guardar Respaldo

Hacemos una copia del DataFrame original para tener un backup.

In [None]:
# Guardar respaldo
titanic_backup = titanic.copy()


#### Vista Preliminar de los Datos

In [None]:
# Visualizamos las primeras filas del dataset para entender su estructura
print(titanic.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


#### Identificación de Valores Faltantes (Missing Values)

En este código, se usa el método **`isnull()`** para crear un DataFrame de valores booleanos, donde **`True`** indica un *valor faltante* y **`False`** indica un *valor presente*.

Luego, el método **`sum()`** se aplica a este DataFrame booleano para contar cuántos valores **`True`** (faltantes) hay en cada columna.

In [None]:
# Identificamos los valores faltantes
print("Valores faltantes antes de la limpieza:\n")
print(titanic.isnull().sum())


Valores faltantes antes de la limpieza:

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Otra manera de darse cuenta que existen valores faltantes es con **`info()`**. El conteo de los valores no nulos (**`Non-Null`**) debería ser igual para todas las columnas cuando no hay valores faltantes. En este caso, todas las columnas tienen **`891`** valores **`Non-Null`**, excepto **`Age`**, **`Cabin`**, y **`Embarked`**, lo cual implica que estas 3 columnas tienen valores faltantes.

In [None]:
# Con info() también se ven los valores faltantes
print(titanic.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


#### Tratamiento de Valores Faltantes

##### Age: Rellenar con Mediana

In [None]:
# Valores faltantes en 'Age'
print("Valores faltantes en 'Age' antes de rellenar:", titanic['Age'].isnull().sum())


Valores faltantes en 'Age' antes de rellenar: 177


In [None]:
# Rellenamos los valores faltantes en 'Age' con la mediana de la columna
titanic['Age'].fillna(titanic['Age'].median(), inplace=True)


In [None]:
# Valores faltantes después de rellenar 'Age'
print("Valores faltantes en 'Age' después de rellenar:", titanic['Age'].isnull().sum())


Valores faltantes en 'Age' después de rellenar: 0


##### Embarked: Rellenar con Moda

In [None]:
# Valores faltantes en 'Embarked'
print("Valores faltantes en 'Embarked' antes de rellenar:", titanic['Embarked'].isnull().sum())


Valores faltantes en 'Embarked' antes de rellenar: 2


In [None]:
# Para 'Embarked', dado que es categórica y tiene pocos valores faltantes, los rellenamos con la moda
titanic['Embarked'].fillna(titanic['Embarked'].mode()[0], inplace=True)


In [None]:
# Valores faltantes después de rellenar 'Embarked'
print("Valores faltantes en 'Embarked' después de rellenar:", titanic['Embarked'].isnull().sum())


Valores faltantes en 'Embarked' después de rellenar: 0


##### Cabin: Eliminar

In [None]:
# Valores faltantes en 'Cabin'
print("Valores faltantes en 'Cabin':", titanic['Cabin'].isnull().sum())


Valores faltantes en 'Cabin': 687


In [None]:
# Eliminamos la columna 'Cabin'
# por tener muchos valores faltantes
titanic.drop('Cabin', axis=1, inplace=True)


In [None]:
# Verificamos que la columna 'Cabin' haya sido eliminada
print("Columnas en el DataFrame después de eliminar 'Cabin':")
print(titanic.columns)


Columnas en el DataFrame después de eliminar 'Cabin':
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked'],
      dtype='object')


#### Eliminación de Columnas

##### Ticket y Name

In [None]:
# Supongamos que 'Ticket' y 'Name' no son necesarios para nuestro análisis
titanic.drop(['Ticket', 'Name'], axis=1, inplace=True)


In [None]:
# Verificamos las columnas
print("Columnas en el DataFrame después de eliminar 'Ticket' y 'Name':\n")
print(titanic.columns)


Columnas en el DataFrame después de eliminar 'Ticket' y 'Name':

Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch',
       'Fare', 'Embarked'],
      dtype='object')


#### Corrección de Tipos de Datos

In [None]:
# Antes de cambiar los tipos de datos
print("Tipos de datos antes de los cambios:")
print(titanic[['Fare', 'Pclass']].dtypes)


Tipos de datos antes de los cambios:
Fare      float64
Pclass      int64
dtype: object


##### Fare

In [None]:
# Convertir 'Fare' a tipo float (si no lo fuera)
titanic['Fare'] = titanic['Fare'].astype(float)


##### Pclass

In [None]:
# Convertimos 'Pclass' a tipo 'category' porque representa categorías
titanic['Pclass'] = titanic['Pclass'].astype('category')


In [None]:
# Después de cambiar los tipos de datos
print("\nTipos de datos después de los cambios:")
print(titanic[['Fare', 'Pclass']].dtypes)



Tipos de datos después de los cambios:
Fare       float64
Pclass    category
dtype: object


##### Ver Cambios

In [None]:
# Verificamos los cambios realizados
print(titanic.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Pclass       891 non-null    category
 3   Sex          891 non-null    object  
 4   Age          891 non-null    float64 
 5   SibSp        891 non-null    int64   
 6   Parch        891 non-null    int64   
 7   Fare         891 non-null    float64 
 8   Embarked     891 non-null    object  
dtypes: category(1), float64(2), int64(4), object(2)
memory usage: 56.8+ KB
None
