<div align="center">
    
  <b>Curso: Programación para el Análisis de Datos<span></b>
    
  <b>Ejercicio 2: Limpieza y procesamiento de datos.</b>
    
  <b>Presentado por: Juan Camilo Betancourt Monsalve</b>
    
  <b>Grupo: 30 </b>
    
  <b>Código: 203008069
    
  <b>Presentado a: Miguel Angel Vargas Valencia</b>
    
  <img src="https://estudios.unad.edu.co/images/footer/logo-unad-acreditacion-min.png" alt="logo universidad UNAD">
    
  
  <b>17/03/2024</b>

</div>

# Resumen

Se busca limpiar los datos faltantes y las columnas de tipo cadena del dataset de la API SapcesX.


**Palabras clave:** limpieza de datos, datos faltantes, limpieza de cadenas.

# Teoría







## **Manejo de valores nulos**

Es necesario limpiar datos datos nulos para garantizar la precision,la confiabilidad y la integridad de los análisis de datos y de los modelos de machine learning. En Python se pueden limpiar de diversas formas:


**Eliminación de filas o columnas con datos nulos:**
```
# Eliminar filas con valores nulos
df_sin_nulos = df.dropna()

# Eliminar columnas con valores nulos
df_sin_nulos = df.dropna(axis=1)
```

**Imputación de valores nulos:**

Reemplazar los valores nulos con la media, mediana,un cero,etc según convega en el proyecto.


```
# Imputar valores nulos con la media de la columna
media = df['name_columna'].mean()
df['columna'] = df['name_columna'].fillna(media)
```

**Máscaras booleanas:**

Usar máscaras booleanas para identificar y manipular datos nulos manualmente.

```
# Crear una máscara booleana para identificar valores nulos
mascara = df['name_columna'].isnull()

# Reemplazar valores nulos con un valor específico
df.loc[mascara, 'name_columna'] = valor_especifico
```

## **Manipulación de Series tipo String**

Las Series se pueden manipular y transformar con los métodos de **str**:



```
# Convertir a mayúsculas
serie.str.upper()

# Convertir a minúsculas
serie.str.lower()

# Reemplazar una subcadena
serie.str.replace('old', 'new')

# Dividir una cadena en subcadenas
serie.str.split('')

# Quitar espacios a izquierda y derecha
serie.str.strip()
```



# Cargar DataFrame


Se carga de nuevo los datos del Ejercicio 1, pero solamente con las columnas:

• type

• mass_kg

• year_built

• home_port

• name

# Importar librerías



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import requests

## Cargar datos con método GET

In [None]:
#URL de la API SapcesX
url = 'https://api.spacexdata.com/v4/ships'
# petición GET
response = requests.get(url)
# data
data = response.json()

## Columnas de interés

In [None]:
df = pd.DataFrame.from_dict(data)
df = df[['type','mass_kg','year_built','home_port','name']]
df.head()

Unnamed: 0,type,mass_kg,year_built,home_port,name
0,Tug,266712.0,1976.0,Port of Los Angeles,American Champion
1,Cargo,,,Port of Los Angeles,American Islander
2,Cargo,,,Port of Los Angeles,American Spirit
3,Barge,,2021.0,Port Canaveral,A Shortfall of Gravitas
4,Tug,202302.0,1974.0,Port of Los Angeles,Betty R Gambarella


In [None]:
df.shape[0]

29

# Revisando datos faltantes

## Paso 1:

Se determina cuantos datos faltantes hay en la variable mass_kg del mediante value_counts()

In [None]:
# Identificar valores faltantes y contarlos
missing_values_counts = df.isnull().sum()

# Se debe especificar a la función value_counts() que NO deseche los valores faltantes
valores_faltantes_mass_kg = df['mass_kg'].value_counts(dropna=False)
valores_faltantes_mass_kg

mass_kg
NaN          8
2719740.0    2
449964.0     2
89811.0      1
4616663.0    1
445428.0     1
2097411.0    1
741170.0     1
843682.0     1
312072.0     1
351080.0     1
266712.0     1
320236.0     1
508023.0     1
450870.0     1
502999.0     1
451778.0     1
273063.0     1
202302.0     1
440892.0     1
Name: count, dtype: int64

**Respuesta:** Hay 8 valores nulos en el atributo mss_kg

## Paso 2:

Se crea un DataFrame df1 removiendo las filas que tienen algunos
datos faltantes. Por otro lado se crea un DataFrame df2 removiendo las filas que tienen todos los datos faltantes. Se Compáran y comentan los resultados.

In [None]:
# Se eliminan las filas que tienen al menos un dato faltante
# Nota: El how='any' es opcional ya que es el valor por defecto.
df1 = df.dropna(how='any')

# Se eliminan las filas que tienen todos sus datos faltantes.
df2 = df.dropna(how='all')

# Comparación

print("Número de filas eliminadas con any: ", df.shape[0] -  len(df1))
print("Número de filas elimiandas con all: ", df.shape[0] -  len(df2) )

Número de filas eliminadas con any:  8
Número de filas elimiandas con all:  0


Hay naves con algunosa valores nulos, pero no hay una nave con todos sus atributos nulos.

## Paso 3:

En el DataFrame df se completa los datos faltantes por los siguientestres métodos (se muestra y comenta los resultados):

- Completar datos faltantes con el número 0.

- Completar por método de propagación hacia adelante.

- Completar los valores faltantes con el promedio de la
columna.

In [None]:
# Completar datos faltantes con el número 0
df_0 = df.fillna(0)
df_0.head(5)

Unnamed: 0,type,mass_kg,year_built,home_port,name
0,Tug,266712.0,1976.0,Port of Los Angeles,American Champion
1,Cargo,0.0,0.0,Port of Los Angeles,American Islander
2,Cargo,0.0,0.0,Port of Los Angeles,American Spirit
3,Barge,0.0,2021.0,Port Canaveral,A Shortfall of Gravitas
4,Tug,202302.0,1974.0,Port of Los Angeles,Betty R Gambarella


In [None]:
# Completar por método de propagación hacia adelante
#ffill: Toma valor inmediatamente anterior no nulo y completa con ese valor.

df_ffill = df.fillna(method='ffill')
df_ffill

Unnamed: 0,type,mass_kg,year_built,home_port,name
0,Tug,266712.0,1976.0,Port of Los Angeles,American Champion
1,Cargo,266712.0,1976.0,Port of Los Angeles,American Islander
2,Cargo,266712.0,1976.0,Port of Los Angeles,American Spirit
3,Barge,266712.0,2021.0,Port Canaveral,A Shortfall of Gravitas
4,Tug,202302.0,1974.0,Port of Los Angeles,Betty R Gambarella
5,Tug,273063.0,1999.0,Port Canaveral,Elsbeth III
6,High Speed Craft,449964.0,2014.0,Port Canaveral,GO Ms Chief
7,High Speed Craft,449964.0,2015.0,Port Canaveral,GO Ms Tree
8,Cargo,451778.0,2009.0,Port Canaveral,Shannon
9,Cargo,502999.0,2007.0,Port Canaveral,GO Pursuit


En este caso este llenado de valores nulos no tiene mucho sentido, pero en otros datoset que tienen orden cronológico puede ser valioso.

In [None]:
# Completar los valores faltantes con el promedio de la columna.

# Se hace una copia de DataFrame
df_new = df.copy()

# Se calcula promedio de 'mass_kg'
prom_mass = df['mass_kg'].mean()
df_new['mass_kg'] = df['mass_kg'].fillna(prom_mass)

# Se pasa a entero el promedio de la fecha, porque una fecha flotante no tiene sentido.
prom_year = int( df['year_built'].mean() )
df_new['year_built'] = df['year_built'].fillna(prom_year)

df_new.head()

Unnamed: 0,type,mass_kg,year_built,home_port,name
0,Tug,266712.0,1976.0,Port of Los Angeles,American Champion
1,Cargo,916838.095238,1998.0,Port of Los Angeles,American Islander
2,Cargo,916838.095238,1998.0,Port of Los Angeles,American Spirit
3,Barge,916838.095238,2021.0,Port Canaveral,A Shortfall of Gravitas
4,Tug,202302.0,1974.0,Port of Los Angeles,Betty R Gambarella


# Operaciones con STRING

Se realizan las sigueintes oepraciones con el df:

• De la columna home_port se extrae la primera palabra de cada
dato y muestre los resultados.

• Se Determina cuántos datos comienzan con la palabra Port y cuántos datos comienzan con una palabra diferente, ¿Cuáles son las palabras diferentes?

• Se filtra el DataFrame con los datos que en la columna name
contengan en el string la palabra “GO” y se muestra los resultados.

• Se Convierte todos los strings de la columna name en palabras con todas sus letras mayúsculas y se muestra los resultados.

• Se Convierte todos los strings de la columna type en palabras con todas sus letras minúsculas y se muestra los resultados.

• Se Divide todos los strings de la columna home_port por el espacio en blanco y se muestra los resultados.

• Se Reemplaza todas las palabras ‘Port’ que se encuentran en la
columna home_port por la abreviación ‘P.’ y se muestra los
resultados.

• Se comenta todos los procesos realizados y se concluye con las
posibilidades de uso de estas herramientas en el campo de
acción.

## Paso 1:

De la columna home_port extraiga la primera palabra de cada
dato y muestre los resultados.

In [None]:
# Dividir cada fila en palabras( split() ) y seleccionar la primera palabra
# Nota: Se utiliza strip por si hay espacios al inicio de la frase cada fila

df_serie_split =  df['home_port'].str.strip().str.split().str[0]
df_serie_split

0     Port
1     Port
2     Port
3     Port
4     Port
5     Port
6     Port
7     Port
8     Port
9     Port
10    Port
11    Port
12    Port
13    Fort
14    Port
15    Port
16    Port
17    Port
18    Port
19    Port
20    Port
21    Port
22    Port
23    Port
24    Port
25    Port
26    Port
27    Port
28    Port
Name: home_port, dtype: object

## Paso 2:
Determine cuántos datos comienzan con la palabra Port y cuántos
datos comienzan con una palabra diferente, ¿Cuáles son las
palabras diferentes?

In [None]:
# Se utiliza dropna=False para garantizar que no haya valores nulos aún sin limpiar
df_serie_split.value_counts(dropna=False)

home_port
Port    28
Fort     1
Name: count, dtype: int64

**Respuesta:** 28 registros comeinzan con la plabra **'Port'**, y solo uno comeinza con otra palabra: **'Fort'**

## Paso 3:

Filtre el DataFrame con los datos que en la columna name
contengan en el string la palabra “GO” y muestre los resultados.


In [None]:
df[df['name'].str.contains('GO')]

Unnamed: 0,type,mass_kg,year_built,home_port,name
6,High Speed Craft,449964.0,2014.0,Port Canaveral,GO Ms Chief
7,High Speed Craft,449964.0,2015.0,Port Canaveral,GO Ms Tree
9,Cargo,502999.0,2007.0,Port Canaveral,GO Pursuit
10,Cargo,,2014.0,Port Canaveral,GO Quest


**Respuesta:** Hay 4 registros que contienen la palabra 'GO'

## Paso 4:
Convierta todos los strings de la columna name en palabras con
todas sus letras mayúsculas y muestre los resultados.

In [None]:
df['name'] = df['name'].str.upper()
df['name']

0                AMERICAN CHAMPION
1                AMERICAN ISLANDER
2                  AMERICAN SPIRIT
3          A SHORTFALL OF GRAVITAS
4               BETTY R GAMBARELLA
5                      ELSBETH III
6                      GO MS CHIEF
7                       GO MS TREE
8                          SHANNON
9                       GO PURSUIT
10                        GO QUEST
11                           MEGAN
12                            HAWK
13                       HOLLYWOOD
14    JUST READ THE INSTRUCTIONS 1
15    JUST READ THE INSTRUCTIONS 2
16                         KELLY C
17                       NRC QUEST
18      OF COURSE I STILL LOVE YOU
19                PACIFIC FREEEDOM
20                 PACIFIC WARRIOR
21                          RACHEL
22                    FINN FALGOUT
23                     LAUREN FOSS
24                 SHELIA BORDELON
25                       MR. JONAH
26                   HOS BRIARWOOD
27                            DOUG
28                  

## Paso 5:

Convierta todos los strings de la columna type en palabras con
todas sus letras minúsculas y muestre los resultados.


In [None]:
df['type'] = df['type'].str.lower()
df['type']

0                  tug
1                cargo
2                cargo
3                barge
4                  tug
5                  tug
6     high speed craft
7     high speed craft
8                cargo
9                cargo
10               cargo
11               cargo
12                 tug
13                 tug
14               barge
15               barge
16                 tug
17               cargo
18               barge
19                 tug
20                 tug
21                 tug
22                 tug
23                 tug
24               cargo
25                 tug
26               cargo
27               cargo
28               cargo
Name: type, dtype: object

## Paso 6:

Divida todos los strings de la columna home_port por el espacio
en blanco y muestre los resultados.

In [None]:
df['home_port'].str.split()

0     [Port, of, Los, Angeles]
1     [Port, of, Los, Angeles]
2     [Port, of, Los, Angeles]
3            [Port, Canaveral]
4     [Port, of, Los, Angeles]
5            [Port, Canaveral]
6            [Port, Canaveral]
7            [Port, Canaveral]
8            [Port, Canaveral]
9            [Port, Canaveral]
10           [Port, Canaveral]
11           [Port, Canaveral]
12           [Port, Canaveral]
13          [Fort, Lauderdale]
14           [Port, Canaveral]
15           [Port, Canaveral]
16    [Port, of, Los, Angeles]
17    [Port, of, Los, Angeles]
18    [Port, of, Los, Angeles]
19    [Port, of, Los, Angeles]
20    [Port, of, Los, Angeles]
21           [Port, Canaveral]
22           [Port, Canaveral]
23           [Port, Canaveral]
24           [Port, Canaveral]
25           [Port, Canaveral]
26           [Port, Canaveral]
27           [Port, Canaveral]
28           [Port, Canaveral]
Name: home_port, dtype: object

## Paso 7:
Reemplace todas las palabras ‘Port’ que se encuentran en la
columna home_port por la abreviación ‘P.’ y muestre los
resultados.


In [None]:
df['home_port'] = df['home_port'].str.replace('Port','P.')
df['home_port'] = df['home_port'].str.replace('of','')
df['home_port']

0     P.  Los Angeles
1     P.  Los Angeles
2     P.  Los Angeles
3        P. Canaveral
4     P.  Los Angeles
5        P. Canaveral
6        P. Canaveral
7        P. Canaveral
8        P. Canaveral
9        P. Canaveral
10       P. Canaveral
11       P. Canaveral
12       P. Canaveral
13    Fort Lauderdale
14       P. Canaveral
15       P. Canaveral
16    P.  Los Angeles
17    P.  Los Angeles
18    P.  Los Angeles
19    P.  Los Angeles
20    P.  Los Angeles
21       P. Canaveral
22       P. Canaveral
23       P. Canaveral
24       P. Canaveral
25       P. Canaveral
26       P. Canaveral
27       P. Canaveral
28       P. Canaveral
Name: home_port, dtype: object

## Paso 8:

Comente todos los procesos realizados y concluya con las
posibilidades de uso de estas herramientas en su campo de
acción.


Actualmente trabajo configurando bots  y se deben preparar reportes de trazabilidad con las consultas de los contactos. Los métodos de str como split(), replace(), lower(), upper(),contains() son relevantes para limpiar los datos de cara al cliente final.



# Coclusiones


- Es posible limpiar los datos faltantes de diversas maneras, sin embargo es necesario analizar cuál  es la que en realidad se requiere  ya que puede que lo mejor en un datset sea imputar con la media ,pero puede que por los valores atípicos sea mejor la mediana.En otra columna utilizar la función de propagación puede funcionar porque siguen un tipo de orden como el cronológico.

- Es necesario revisar las columnas de tipo Objet(string)  para normalizarlas, es decir, quitar espacios en los extremos, pasar a minuscula,quitar caracteres de códificación errónea ,etc.

# Bibliografía

Samir Madhavan. (2015). Mastering Python for Data Science:
Explore the World of Data Science Through Python and Learn How
to Make Sense of Data. Packt Publishing. (pp. 11-18).