<a href="https://colab.research.google.com/github/never130/Politecnico_Malvinas_Mineria_de_datos/blob/main/clase%202/Actividad_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color='yellow'>Exploración y Limpieza de Datos en Práctica</font>

### Objetivo de la Actividad:

En esta actividad, aplicarás los conceptos de limpieza y preprocesamiento de datos en un conjunto de datos real. Usarás herramientas de inteligencia artificial como ChatGPT o Google Gemini para investigar y aplicar técnicas de limpieza de datos. Cada estudiante deberá elegir un aspecto diferente de la limpieza de datos para explorar y compartir sus hallazgos y aplicaciones en el foro de la clase.

### Instrucciones:
1. **Selección del Aspecto de Limpieza de Datos:** Selecciona uno de
los siguientes aspectos de la limpieza de datos sobre los que quieras
aprender más y aplicar en un conjunto de datos real:
- Tratamiento de datos faltantes.
- Detección y manejo de datos atípicos.
- Transformación de variables para normalización.
- Codificación de variables categóricas.
- Eliminación de duplicados.
2. **Investigación**: Utiliza ChatGPT o Google Gemini para investigar el aspecto seleccionado. Busca técnicas, mejores prácticas, y ejemplos de código que se aplican a este aspecto de la limpieza de datos. Intenta comprender no solo cómo se aplican estas técnicas, sino también cuándo y por qué se utilizan.
3. **Aplicación Práctica:** Elige un conjunto de datos público de
plataformas como Kaggle, UCI Machine Learning Repository, o
cualquier otro repositorio de datos abiertos. Aplica las técnicas de
limpieza de datos que has investigado al conjunto de datos
seleccionado utilizando Python y Pandas.
Nota: Asegúrate de documentar tu proceso, incluyendo:
- La selección y descripción breve del conjunto de datos.
- El código utilizado para aplicar las técnicas de limpieza.
- Antes y después de la limpieza: Observaciones sobre cómo ha
cambiado el conjunto de datos y el impacto en el análisis.
4. **Compartir y Discutir en el Foro**: Publica tus hallazgos, tu proceso,
y tu código en el foro de la clase. Tu publicación debe incluir:
- Una breve introducción al aspecto de limpieza de datos que
investigaste.
- Un resumen de tus hallazgos y la técnica que aplicaste.
- Cómo crees que la aplicación de esta técnica mejora el análisis
de datos.
5. **Revisión por Pares**: Lee y comenta al menos dos publicaciones de tus compañeros en el foro. Ofrece retroalimentación, plantea
preguntas, o sugiere otras maneras en que las técnicas de limpieza
podrían aplicarse al conjunto de datos que han trabajado.

### <font color = 'yellow'>**1. Tratamiento de datos faltantes**
Es una técnica clave en el análisis de datos.
Este aspecto es crucial cuando se trabaja con datasets reales, ya que la mayoría de ellos presentan valores faltantes que pueden afectar el análisis y los resultados.

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo con algunos valores faltantes
data = {'columna_1': [10, 20, np.nan, 40, 50],
        'columna_2': [np.nan, 1.5, 2.5, np.nan, 4.5],
        'columna_3': [5, np.nan, np.nan, 20, 25]}

df = pd.DataFrame(data)

# 1. Eliminar filas con valores faltantes
df_sin_nan_filas = df.dropna()

# 2. Eliminar columnas con valores faltantes
df_sin_nan_columnas = df.dropna(axis=1)

# 3. Rellenar valores faltantes con un valor constante (por ejemplo, 0)
df_rellenado_constante = df.fillna(0)

# 4. Rellenar valores faltantes con la media de cada columna
df_rellenado_media = df.apply(lambda x: x.fillna(x.mean()), axis=0)

# 5. Rellenar valores faltantes con la interpolación (útil en series temporales)
df_interpolado = df.interpolate(method='linear')

# Mostrar los resultados
print("Original DataFrame con valores faltantes:\n", df, "\n")
print("1. Filas con valores faltantes eliminadas... \n", df_sin_nan_filas, "\n")
print("2. Columnas con valores faltantes eliminadas:\n", df_sin_nan_columnas, "\n")
print("3. Valores faltantes reemplazados por un valor constante (0):\n", df_rellenado_constante, "\n")
print("4. Valores faltantes reemplazados por la media de cada columna:\n", df_rellenado_media, "\n")
print("5. Valores faltantes rellenados con interpolación lineal:\n", df_interpolado)


Original DataFrame con valores faltantes:
    columna_1  columna_2  columna_3
0       10.0        NaN        5.0
1       20.0        1.5        NaN
2        NaN        2.5        NaN
3       40.0        NaN       20.0
4       50.0        4.5       25.0 

1. Filas con valores faltantes eliminadas... 
    columna_1  columna_2  columna_3
4       50.0        4.5       25.0 

2. Columnas con valores faltantes eliminadas:
 Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4] 

3. Valores faltantes reemplazados por un valor constante (0):
    columna_1  columna_2  columna_3
0       10.0        0.0        5.0
1       20.0        1.5        0.0
2        0.0        2.5        0.0
3       40.0        0.0       20.0
4       50.0        4.5       25.0 

4. Valores faltantes reemplazados por la media de cada columna:
    columna_1  columna_2  columna_3
0       10.0   2.833333   5.000000
1       20.0   1.500000  16.666667
2       30.0   2.500000  16.666667
3       40.0   2.833333  20.000000
4       50.

### <font color = yellow>**2. Investigacion**
#### <font color = 'orange'>1. Eliminación de valores faltantes
Cuándo usarlo: Cuando la cantidad de datos faltantes es mínima o no afecta significativamente el análisis. Ideal si los datos son suficientes para proporcionar un resultado válido sin la necesidad de esos registros.

Por qué usarlo: Eliminar filas o columnas con datos faltantes puede simplificar el análisis y evitar sesgos en los resultados.

Ejemplo de código:<br>
<code>df_sin_nan = df.dropna()  # Eliminar filas con al menos un NaN</code>
#### <font color = 'orange'>2. Relleno con valores constantes
Cuándo usarlo: Cuando un valor específico tiene sentido en el contexto del análisis (por ejemplo, 0 en un conteo).

Por qué usarlo: Puede ser útil en análisis donde se desea indicar que no hubo un valor específico.

Ejemplo de código:<br/>
<code>df.fillna(0, inplace=True)  # Rellenar NaN con 0</code>
#### <font color = 'orange'>3. Relleno con la media/mediana/moda
Cuándo usarlo: Útil para variables numéricas cuando se desea preservar la media del conjunto de datos.

Por qué usarlo: Rellenar con la media o mediana es común en datasets donde los valores faltantes son aleatorios y no tienen un patrón. Rellenar con la moda es útil para variables categóricas.

Ejemplo de código:<br>
<code>df['columna_1'].fillna(df['columna_1'].mean(), inplace=True)  # Rellenar con la media</code>
#### <font color = 'orange'>4. Interpolación
Cuándo usarlo: Cuando hay un orden lógico en los datos (como series temporales) y se espera que los valores sigan una tendencia.

Por qué usarlo: La interpolación proporciona una estimación más precisa al considerar la relación entre los datos.

Ejemplo de código: </br>
<code>df.interpolate(method='linear', inplace=True)  # Interpolación lineal</code>
#### <font color = 'orange'>5. Imputación basada en modelos</font>
Cuándo usarlo: Cuando hay una relación compleja entre las variables, y se puede usar un modelo predictivo para estimar los valores faltantes.

Por qué usarlo: Proporciona una forma más robusta de rellenar datos faltantes al modelar las relaciones entre las variables.

Ejemplo de código (usando scikit-learn):<br>
<pre>from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')  # Usar la media
df[['columna_1']] = imputer.fit_transform(df[['columna_1']])
</pre>
#### <font color = 'orange'>6. Manejo de valores faltantes en variables categóricas
Cuándo usarlo: Cuando se trabaja con datos categóricos, es útil rellenar los valores faltantes con la moda.

Por qué usarlo: Mantiene la integridad del conjunto de datos sin introducir sesgos.

Ejemplo de código:
<pre>df['columna_categorica'].fillna(df['columna_categorica'].mode()[0], inplace=True)  # Rellenar con la moda
</pre>
### Conclusión
El tratamiento de datos faltantes es fundamental para garantizar la calidad de los datos antes de realizar cualquier análisis. Las técnicas seleccionadas deben alinearse con la naturaleza de los datos y el objetivo del análisis. Siempre es importante realizar un análisis previo para entender cómo se distribuyen los datos faltantes y qué métodos serán más apropiados para el caso específico.

##  <font color = 'Yellow'>3) Aplicación Prácticas
#### <font color = 'orange'>Descripción del Conjunto de Datos Titanic
- Características: Incluye atributos como Survived (sobrevivió o no), Pclass (clase del pasajero), Name, Sex, Age, SibSp (hermanos/cónyuges a bordo), Parch (padres/hijos a bordo), Ticket, Fare (tarifa), Cabin y Embarked (puerto de embarque).
- Objetivo: Aplicar técnicas de limpieza de datos, como tratamiento de valores faltantes y eliminación de duplicados.

#### <font color = 'orange'>Pasos para la Limpieza de Datos
- Descargar el conjunto de datos.
- Código para la limpieza de datos: Aquí hay un ejemplo de cómo podrías cargar y limpiar el conjunto de datos Titanic utilizando Python y Pandas.

In [None]:
import pandas as pd

# Cargar el conjunto de datos Titanic desde un archivo CSV
# Asegúrate de ajustar la ruta del archivo según donde lo hayas guardado
df = pd.read_csv('titanic.csv')

# Ver las primeras filas del DataFrame
print("Primeras filas del conjunto de datos:\n", df.head())

# 1. Comprobar valores faltantes
print("\nValores faltantes en cada columna:\n", df.isnull().sum())

# 2. Eliminar filas con valores faltantes (si existen)
df.dropna(subset=['Age'], inplace=True)  # Eliminar filas donde 'Age' es NaN

# 3. Comprobar si hay duplicados
duplicados = df.duplicated().sum()
print("\nNúmero de filas duplicadas:", duplicados)

# 4. Eliminar duplicados si existen
if duplicados > 0:
    df.drop_duplicates(inplace=True)
    print("Duplicados eliminados.")

# 5. Resumen estadístico del DataFrame
print("\nResumen estadístico:\n", df.describe())

# 6. Mostrar la cantidad de sobrevivientes y no sobrevivientes
print("\nCantidad de sobrevivientes y no sobrevivientes:\n", df['Survived'].value_counts())


Primeras filas del conjunto de datos:
    Passengerid   Age     Fare  Sex  sibsp  zero  zero.1  zero.2  zero.3  \
0            1  22.0   7.2500    0      1     0       0       0       0   
1            2  38.0  71.2833    1      1     0       0       0       0   
2            3  26.0   7.9250    1      0     0       0       0       0   
3            4  35.0  53.1000    1      1     0       0       0       0   
4            5  35.0   8.0500    0      0     0       0       0       0   

   zero.4  ...  zero.12  zero.13  zero.14  Pclass  zero.15  zero.16  Embarked  \
0       0  ...        0        0        0       3        0        0       2.0   
1       0  ...        0        0        0       1        0        0       0.0   
2       0  ...        0        0        0       3        0        0       2.0   
3       0  ...        0        0        0       1        0        0       2.0   
4       0  ...        0        0        0       3        0        0       2.0   

   zero.17  zero.18  Su

#### <font color = 'orange'>Explicación del Código:
- Carga del conjunto de datos: Utilizamos pd.read_csv() para cargar el conjunto de datos Titanic desde un archivo CSV.
- Comprobación de valores faltantes: Usamos isnull().sum() para identificar si hay valores faltantes en el DataFrame.
- Eliminación de filas con valores faltantes: En este caso, eliminamos solo las filas donde Age es NaN utilizando dropna().
- Detección de duplicados: Usamos duplicated().sum() para verificar si hay filas duplicadas.
- Eliminación de duplicados: Si hay duplicados, usamos drop_duplicates() para eliminarlos.
- Resumen estadístico: describe() proporciona estadísticas descriptivas del DataFrame.
- Cantidad de sobrevivientes: Verificamos cuántos pasajeros sobrevivieron y cuántos no usando value_counts().
#### <font color = 'orange'> Después de la Limpieza
- Valores Faltantes:
Se eliminó cualquier fila con valores faltantes en la columna Age. Esto reduce el tamaño del conjunto de datos, pero mejora la calidad de los análisis al asegurarse de que no haya valores NaN que puedan interferir con los cálculos.
Alternativamente, si decides imputar los valores faltantes en lugar de eliminarlos, podrías usar la media o mediana de la columna Age, lo que preservaría más datos.

- Duplicados:
Cualquier fila duplicada se ha eliminado, lo que significa que ahora cada entrada es única. Esto proporciona una mejor base para realizar análisis y evita la duplicación en las métricas que se calculan.

- Datos Consistentes:
Después de la limpieza, los nombres de las columnas son consistentes, lo que facilita la manipulación de datos. Ahora puedes usar directamente las columnas para análisis sin preocuparte por errores de sintaxis.