# Programación para el Análisis de Datos
## Tarea - 2 Desarrollo de código para el tratamiento y manejo de información - Ejercicio 2
**07 - **04 - 2024****

## Introducción

En la era actual, donde el volumen de datos crece exponencialmente, la ciencia de datos se posiciona como un campo crucial para la extracción de conocimiento y la toma de decisiones basadas en datos. Dentro de este dominio, la limpieza y el procesamiento de datos representan etapas fundamentales para asegurar la calidad y la fiabilidad de los análisis posteriores. Este trabajo se ha centrado en explorar técnicas avanzadas de manipulación de datos, particularmente en el tratamiento de valores faltantes y la manipulación de strings, utilizando la librería Pandas en Python. Estas operaciones son esenciales para transformar datos brutos en conjuntos de datos listos para el análisis, especialmente cuando se trata de información textual en diversos contextos de la ciencia de datos.

## Ejercicio 2: Limpieza y procesamiento de datos

### 1. Parte 

## Revisión teórica de Limpieza y procesamiento de datos

La limpieza y el procesamiento de datos son pasos cruciales en cualquier proyecto de análisis de datos o aprendizaje automático. Estos procesos implican la transformación de los datos crudos en un formato que es más adecuado para el análisis, lo que puede incluir la corrección de errores, la eliminación de datos innecesarios y la preparación de los datos para su análisis. A continuación, se presenta una revisión teórica de estos conceptos clave:

### 1. **Limpieza de Datos**

La limpieza de datos se refiere al proceso de detectar y corregir (o eliminar) registros corruptos o inexactos de un conjunto de datos. Incluye varias tareas como:

- **Detección y manejo de valores faltantes**: Esto puede implicar la eliminación de registros con valores faltantes, la imputación de estos valores utilizando métodos estadísticos, o la asignación de un valor predeterminado.
  
- **Identificación y corrección de errores**: Los errores pueden surgir de diversas fuentes, como errores de entrada de datos o problemas en la recopilación de datos. La corrección de estos errores es esencial para mantener la integridad de los datos.
  
- **Eliminación de duplicados**: Los registros duplicados pueden distorsionar el análisis, por lo que es importante identificarlos y eliminarlos.

- **Normalización de datos**: Este proceso involucra la transformación de los datos a una escala común, lo que es particularmente útil en análisis que involucran múltiples variables de diferentes escalas.

### 2. **Procesamiento de Datos**

Una vez que los datos están limpios, el procesamiento de datos implica transformarlos en un formato que es más adecuado para el análisis. Esto puede incluir:

- **Transformación de datos**: Cambiar los datos de su formato original a un formato necesario para el análisis. Esto puede incluir la creación de variables derivadas, la categorización de variables continuas, o la transformación logarítmica de variables para normalizar su distribución.

- **Codificación de variables categóricas**: Muchos algoritmos de aprendizaje automático requieren que los datos de entrada sean numéricos. La codificación de variables categóricas (por ejemplo, mediante la codificación one-hot) convierte estas variables en un formato que los algoritmos pueden procesar.

- **División de datos**: En muchos casos, especialmente en el aprendizaje automático, los datos se dividen en conjuntos de entrenamiento, validación y prueba. Esta división ayuda a evaluar el rendimiento del modelo de manera más efectiva.

- **Estandarización o normalización de datos**: La estandarización implica reescalar las características para que tengan una media de 0 y una desviación estándar de 1. La normalización, por otro lado, reescala las características para que estén en un rango entre 0 y 1. Ambos procesos pueden ser cruciales dependiendo del modelo o algoritmo utilizado.

### 3. **Herramientas y Técnicas**

Existen numerosas herramientas y técnicas para facilitar la limpieza y el procesamiento de datos, incluidas bibliotecas de programación como Pandas y NumPy en Python, que ofrecen una amplia gama de funciones para manipular y preparar datos. Además, software especializado como Tableau o Power BI pueden proporcionar capacidades avanzadas de limpieza de datos con interfaces más intuitivas.

### 4. **Importancia de la Limpieza y Procesamiento de Datos**

La calidad de los datos es fundamental para obtener resultados confiables en cualquier análisis. Datos mal limpiados o incorrectamente procesados pueden llevar a conclusiones erróneas, lo que subraya la importancia de estos procesos en el flujo de trabajo de análisis de datos.

En resumen, la limpieza y el procesamiento de datos son pasos fundamentales que preparan el conjunto de datos para el análisis, asegurando que los insights generados sean válidos y confiables.

### 2. Parte

### Descripción del ejercicio:

ParPara este ejercicio, cargue de nuevo los datos del Ejercicio 1, pero genere un DataFrame llamado df, solamente con las columnas:

• type

• mass_kg

• year_built

• home_port

• name

In [19]:
import requests
import pandas as pd

# URL de la API de SpaceX para obtener datos de las naves
url = 'https://api.spacexdata.com/v4/ships'

# Realizar la petición GET a la API
response = requests.get(url)

# Verificar que la petición fue exitosa
if response.status_code == 200:
    # Convertir la respuesta en formato JSON a un objeto Python
    data = response.json()
    
    # Generar un DataFrame con las columnas específicas
    df = pd.DataFrame(data)[['type', 'mass_kg', 'year_built', 'home_port', 'name']]

    # Mostrar las primeras filas del DataFrame para verificar
    print(df.head())
else:
    print("Error en la petición a la API:", response.status_code)

    type   mass_kg  year_built            home_port                     name
0    Tug  266712.0      1976.0  Port of Los Angeles        American Champion
1  Cargo       NaN         NaN  Port of Los Angeles        American Islander
2  Cargo       NaN         NaN  Port of Los Angeles          American Spirit
3  Barge       NaN      2021.0       Port Canaveral  A Shortfall of Gravitas
4    Tug  202302.0      1974.0  Port of Los Angeles       Betty R Gambarella


Siguiendo las funciones mostradas en las referencias bibliográficas, desarrolle las siguientes tareas en el DataFrame generado
anteriormente:

### 3. Parte

### Revisando datos faltantes:

• Determine cuantos datos faltantes hay en la variable mass_kg del mediante value_counts()

In [3]:
# Contar los valores nulos en la columna 'mass_kg'
missing_mass_kg = df['mass_kg'].isna().sum()

# Mostrar la cantidad de valores nulos
print("Cantidad de datos faltantes en 'mass_kg':", missing_mass_kg)


Cantidad de datos faltantes en 'mass_kg': 8


### 4. Parte 

Crea un DataFrame df1 removiendo las filas que tienen algunos datos faltantes. Por otro lado crea un DataFrame df2 removiendo
las filas que tienen todos los datos faltantes. Compáralos y comenta los resultados.

In [4]:
# Crear df1 eliminando filas con al menos un dato faltante
df1 = df.dropna()

# Crear df2 eliminando filas donde todos los datos son faltantes
df2 = df.dropna(how='all')

In [5]:
print("Cantidad original de filas en 'df':", len(df))
print("Cantidad de filas en 'df1' (sin ningún dato faltante):", len(df1))
print("Cantidad de filas en 'df2' (sin filas completamente vacías):", len(df2))

Cantidad original de filas en 'df': 29
Cantidad de filas en 'df1' (sin ningún dato faltante): 21
Cantidad de filas en 'df2' (sin filas completamente vacías): 29


### Comparación y comentarios de los resultados.

La comparación entre `df`, `df1` y `df2` revela lo siguiente:

- **`df` (DataFrame Original)**: Contiene 29 filas en total. Este es el punto de partida antes de aplicar cualquier filtrado por datos faltantes.

- **`df1` (Sin ningún dato faltante)**: Al eliminar filas que contienen al menos un valor faltante, el total de filas se reduce a 21. Esto indica que 8 filas en el DataFrame original tenían al menos un valor faltante en alguna de sus columnas. Al utilizar este enfoque, se garantiza que todas las filas restantes en `df1` tienen valores completos en todas las columnas, lo que puede ser crítico para ciertos análisis que requieren datos completos. Sin embargo, este método también puede resultar en la pérdida de datos significativos, especialmente si los valores faltantes están concentrados en una o pocas columnas que quizás no sean críticas para el análisis.

- **`df2` (Sin filas completamente vacías)**: Al eliminar solo las filas donde todos los datos son faltantes, se observa que el número de filas se mantiene igual que en el DataFrame original (`df`), con un total de 29 filas. Esto indica que no había filas en el conjunto de datos original donde todos los valores fueran `NaN`. Por lo tanto, `df2` mantiene todas las filas originales, incluyendo aquellas con algunos valores faltantes.

### Comentarios sobre los resultados:

- La diferencia en el número de filas entre `df1` y `df` muestra la cantidad de filas que tenían al menos un valor faltante. En contextos donde la integridad de los datos en todas las columnas es crucial, utilizar un enfoque como el de `df1` es preferible, aunque conlleva el riesgo de perder información potencialmente valiosa.

- El hecho de que `df2` tenga el mismo número de filas que `df` indica que no había filas en el conjunto de datos original que estuvieran completamente vacías. Esto sugiere que todos los registros tenían al menos algún dato en una o más columnas. `df2` es útil en análisis donde se pueden tolerar algunos datos faltantes y se prefiere retener la mayor cantidad posible de registros.

- En la práctica, la elección entre `df1` y `df2` dependerá del análisis específico a realizar y de la importancia de tener conjuntos de datos completos frente a la necesidad de retener tantos registros como sea posible. Cada enfoque tiene sus ventajas y limitaciones, y la decisión debe basarse en el contexto y los requisitos específicos del análisis en cuestión.

### 5. Parte

En el DataFrame df completa los datos faltantes por los siguientes tres métodos (muestra y comenta los resultados):

- Completar datos faltantes con el número 0.
- Completar por método de propagación hacia adelante.
- Completar los valores faltantes con el promedio de la columna.

#### 1. Completar datos faltantes con el número 0

Este método consiste en reemplazar todos los valores faltantes (NaN) por el número 0. Es útil cuando tiene sentido dentro del contexto de los datos que los valores faltantes puedan considerarse como "cero" en términos prácticos.

In [6]:
df_filled_zero = df.fillna(0)

#### 2. Completar por método de propagación hacia adelante

La propagación hacia adelante (ffill) toma el último valor válido (no nulo) y lo utiliza para reemplazar los valores faltantes hasta que encuentre el próximo valor válido. Es especialmente útil en series temporales o cuando el orden de los datos importa.

In [7]:
df_filled_ffill = df.fillna(method='ffill')

#### 3. Completar los valores faltantes con el promedio de la columna

Este método implica calcular el promedio (media) de los valores no nulos en una columna y utilizar este promedio para reemplazar los valores faltantes. Es una buena opción cuando los datos faltantes pueden considerarse representativos del promedio de los datos existentes.

In [10]:
# Calcular el promedio solo para las columnas numéricas
mean_values = df.mean(numeric_only=True)

# Utilizar estos valores promedio para rellenar los datos faltantes en las columnas numéricas
df_filled_mean = df.fillna(mean_values)

# Mostrar las primeras filas para verificar los cambios
print(df_filled_mean.head())

    type        mass_kg   year_built            home_port  \
0    Tug  266712.000000  1976.000000  Port of Los Angeles   
1  Cargo  916838.095238  1998.461538  Port of Los Angeles   
2  Cargo  916838.095238  1998.461538  Port of Los Angeles   
3  Barge  916838.095238  2021.000000       Port Canaveral   
4    Tug  202302.000000  1974.000000  Port of Los Angeles   

                      name  
0        American Champion  
1        American Islander  
2          American Spirit  
3  A Shortfall of Gravitas  
4       Betty R Gambarella  


### 6. Parte
#### Operaciones de strings:

Realice las siguientes operaciones en el DataFrame df:

1. De la columna home_port extraiga la primera palabra de cadadato y muestre los resultados.

In [11]:
df['first_word_home_port'] = df['home_port'].str.split().str[0]
print(df['first_word_home_port'].head())

0    Port
1    Port
2    Port
3    Port
4    Port
Name: first_word_home_port, dtype: object


2. Determine cuántos datos comienzan con la palabra Port y cuántos datos comienzan con una palabra diferente, ¿Cuáles son las palabras diferentes?

In [12]:
starts_with_port = df['home_port'].str.startswith('Port').sum()
starts_with_other = (~df['home_port'].str.startswith('Port')).sum()

# Palabras diferentes que no son 'Port'
different_words = df.loc[~df['home_port'].str.startswith('Port'), 'home_port'].str.split().str[0].unique()

print(f"Datos que comienzan con 'Port': {starts_with_port}")
print(f"Datos que comienzan con una palabra diferente: {starts_with_other}")
print(f"Palabras diferentes: {different_words}")

Datos que comienzan con 'Port': 28
Datos que comienzan con una palabra diferente: 1
Palabras diferentes: ['Fort']


3. Filtre el DataFrame con los datos que en la columna namecontengan en el string la palabra “GO” y muestre los resultados.

In [14]:
df_with_go = df[df['name'].str.contains('GO')]
print(df_with_go[['name']])

           name
6   GO Ms Chief
7    GO Ms Tree
9    GO Pursuit
10     GO Quest


4. Convierta todos los strings de la columna name en palabras con todas sus letras mayúsculas y muestre los resultados.

In [15]:
df['name_uppercase'] = df['name'].str.upper()
print(df['name_uppercase'].head())

0          AMERICAN CHAMPION
1          AMERICAN ISLANDER
2            AMERICAN SPIRIT
3    A SHORTFALL OF GRAVITAS
4         BETTY R GAMBARELLA
Name: name_uppercase, dtype: object


5. Convierta todos los strings de la columna type en palabras con todas sus letras minúsculas y muestre los resultados.

In [16]:
df['type_lowercase'] = df['type'].str.lower()
print(df['type_lowercase'].head())

0      tug
1    cargo
2    cargo
3    barge
4      tug
Name: type_lowercase, dtype: object


6. Divida todos los strings de la columna home_port por el espacio en blanco y muestre los resultados.

In [17]:
df['home_port_split'] = df['home_port'].str.split(' ')
print(df['home_port_split'].head())

0    [Port, of, Los, Angeles]
1    [Port, of, Los, Angeles]
2    [Port, of, Los, Angeles]
3           [Port, Canaveral]
4    [Port, of, Los, Angeles]
Name: home_port_split, dtype: object


7. Reemplace todas las palabras ‘Port’ que se encuentran en la columna home_port por la abreviación ‘P.’ y muestre los resultados.

In [18]:
df['home_port_replaced'] = df['home_port'].str.replace('Port', 'P.')
print(df['home_port_replaced'].head())

0    P. of Los Angeles
1    P. of Los Angeles
2    P. of Los Angeles
3         P. Canaveral
4    P. of Los Angeles
Name: home_port_replaced, dtype: object


## Comentarios

- La extracción de la primera palabra de home_port puede ser útil para análisis o categorización basada en ubicaciones más generales.
- Determinar el comienzo de los datos con "Port" y encontrar alternativas nos ayuda a entender mejor la distribución geográfica de los datos y posiblemente normalizar la nomenclatura de los puertos.
- Filtrar datos por contenido específico en los nombres (como "GO") permite identificar rápidamente subconjuntos de datos de interés, lo cual es crucial en el análisis de datos y la toma de decisiones.
- La conversión de texto a mayúsculas o minúsculas puede ser fundamental para la estandarización de los datos de texto, lo que facilita su comparación y filtrado.
- Dividir strings por espacios o reemplazar partes de strings son herramientas poderosas para la manipulación y limpieza de datos textuales, permitiendo reformatear la información de manera que sea más útil para análisis específicos.

Estas herramientas de manipulación de strings en Pandas son extremadamente útiles en la limpieza de datos, el preprocesamiento, y la extracción de características, especialmente en campos que involucran el manejo de grandes volúmenes de datos textuales o la necesidad de normalizar y estandarizar datos de texto para análisis posteriores. En el campo de la ciencia de datos, las técnicas de manipulación de strings en Pandas son clave para limpiar y preparar datos textuales, esenciales en procesos de análisis y modelado, especialmente en NLP. Permiten normalizar y estructurar datos crudos, facilitando la extracción de insights y mejorando el rendimiento de modelos de machine learning. Estas habilidades son cruciales en áreas como análisis de sentimientos y clasificación de texto, convirtiéndose en herramientas indispensables para los científicos de datos que buscan profundizar en el vasto mundo de los datos no estructurados.

## Conclusiones

**1.** La manipulación eficiente de datos, incluyendo el manejo de valores faltantes y la operación avanzada con strings, es un pilar fundamental en la ciencia de datos. Estas técnicas no solo mejoran la calidad de los conjuntos de datos, sino que también permiten una exploración más profunda y la generación de insights más ricos. En un campo donde los datos no estructurados son abundantes, especialmente en forma de texto, dominar estas habilidades se convierte en un requisito indispensable para cualquier científico de datos. En última instancia, el manejo competente de los datos no solo facilita el análisis y la modelización, sino que también impulsa la innovación y la creación de valor a partir de grandes volúmenes de información.

**1.** Flexibilidad y Adaptabilidad en la Imputación de Datos: Este trabajo subraya la importancia de seleccionar el método de imputación más adecuado para cada situación específica. No existe una solución única para todos los casos, y la elección entre rellenar con ceros, usar la propagación hacia adelante o imputar con el promedio depende de la naturaleza de los datos y del contexto analítico. Esta flexibilidad es crucial para mantener la integridad de los datos y asegurar que las decisiones tomadas durante la fase de limpieza y preprocesamiento no introduzcan sesgos inadvertidos en el análisis posterior.

**2.** Importancia de la Manipulación Avanzada de Strings en la Extracción de Características: La capacidad de realizar operaciones complejas con strings es fundamental para desbloquear el valor completo de los conjuntos de datos textuales, especialmente en la era del big data y el NLP. Las técnicas exploradas en este trabajo no solo facilitan la limpieza y normalización de los datos, sino que también abren caminos hacia la extracción de características más sofisticadas, lo que puede mejorar significativamente el rendimiento de los modelos de machine learning y proporcionar insights más profundos y matizados a partir de datos textuales.

## Referencias Bibliográficas

**1.** Samir Madhavan. (2015). Mastering Python for Data Science: Explore the World of Data Science Through Python and Learn How to Make Sense of Data. Packt Publishing. (pp. 11-18).

**2.** Thakur, A. (2016). Python: Real-World Data Science. Packt Publishing. (pp. 511 – 538).

**3.** ¿En qué consiste la limpieza de datos? - Explicación de la limpieza de datos - AWS. (n.d.). Amazon Web Services, Inc. https://aws.amazon.com/es/what-is/data-cleansing/

**4.** Team, A. A. (2024, April 2). What is data processing? definition and stages. Astera. https://www.astera.com/es/knowledge-center/what-is-data-processing-definition-and-stages/#:~:text=El%20procesamiento%20de%20datos%20implica,legibles%2C%20como%20gr%C3%A1ficos%20o%20documentos.

**5.** Torrenti, Á. (2024, April 5). Descubre la librerías Pandas y NumPy en Python. Imagina Formación. https://imaginaformacion.com/tutoriales/pandas-numpy-en-python