In [1]:
import pandas as pd

Se crea una funcion llamada *explorar_variables* con el proposito de cargar el Dataframe para analizar, analizar las variables del Dataframe y generar un diccionario.  
El argumento de entrada de la funcion *explorar_variables* es el DataFrame *df*, la cual incluye los datos del archivo a analizar.  
La salida de la funcion *explorar_variables* es un diccionario con la inforamción de cada variable analizada.  
**Args**  
*df*: La ruta completa al archivo de datos.  
**Returns**  
Un diccionario con la información de cada variable.

In [4]:
def explorar_variables(df):
  # 1. La base de datos ingresa cargada en un dataframe
  # Se crea el diccionario report
  report = {}
 # Utilizamos ciclo for para analizar columna a columna del DataFrame  
  for column in df.columns:
    variable_info = {
      'Tipo': df[column].dtype,
      'Valores únicos': df[column].nunique(),
      'Valores nulos': df[column].isnull().sum(),
      'Primeros 5 valores': df[column].head().tolist(),
      'Descripción': df[column].describe(),
      'Análisis': '' 
    }

   # Utilizamos la funcion if para  realizar el Análisis específico según tipo de variable
    if variable_info['Tipo'] == 'object':
      variable_info['Análisis'] = "Variable de tipo texto. "
      variable_info['Análisis'] += "Verificar si hay caracteres especiales o errores de formato."
    elif variable_info['Tipo'] == 'int64' or variable_info['Tipo'] == 'float64':
      variable_info['Análisis'] = "Variable numérica. "
      variable_info['Análisis'] += "Verificar si hay valores atípicos o outliers."
    else:
      variable_info['Análisis'] = "Variable de otro tipo."

    report[column] = variable_info
  return report

Aplica limpieza a una variable según el método elegido.  
Se crea una funcion llamada *limpiar_variable* con el proposito de limpiar cualquiera de las variables del Dataframe analizado, según el método elegido.  
El argumento de entrada de la funcion *limpiar_variable* es el DataFrame *df*, el cual incluye los datos del archivo a analizado, la *varaible* a limpiar, y el *metodo* de limpieza.  
La salida de la funcion *limpiar_variable* es el DataFrame *df* con la variable ya limpia.  


**Args**  
*df*: DataFrame con la variable a limpiar.  
*variable*: Nombre de la variable.  
*metodo*: Método de limpieza a aplicar.  
**Returns**  
DataFrame con la variableimpiadada.

In [7]:
def limpiar_variable(df, variable, metodo):
  if metodo == 'eliminar_caracteres':
    df[variable] = df[variable].str.replace('[^a-zA-Z0-9 ]', '', regex=True)
  elif metodo == 'reemplazar_valores_nulos':
    df[variable].fillna(method='ffill', inplace=True)  # Rellenar con el valor anterior
  elif metodo == 'eliminar_duplicados':
    df.drop_duplicates(subset=[variable], inplace=True)
  else:
    print(f"Método de limpieza '{metodo}' no encontrado.")

  return df


In [9]:
# Cargar la base de datos
df = pd.read_csv('titanic.csv') # Reemplaza 'tu_base_de_datos.csv' con el nombre real

In [11]:
# Explorar las variables
report = explorar_variables(df)

In [13]:
# Imprimir el informe
print("Informe de variables:")
for variable, info in report.items():
  print(f"Variable: {variable}")
  for key, value in info.items():
    print(f"  {key}: {value}")
  print()

Informe de variables:
Variable: Survived
  Tipo: int64
  Valores únicos: 2
  Valores nulos: 0
  Primeros 5 valores: [0, 1, 1, 1, 0]
  Descripción: count    887.000000
mean       0.385569
std        0.487004
min        0.000000
25%        0.000000
50%        0.000000
75%        1.000000
max        1.000000
Name: Survived, dtype: float64
  Análisis: Variable numérica. Verificar si hay valores atípicos o outliers.

Variable: Pclass
  Tipo: int64
  Valores únicos: 3
  Valores nulos: 0
  Primeros 5 valores: [3, 1, 3, 1, 3]
  Descripción: count    887.000000
mean       2.305524
std        0.836662
min        1.000000
25%        2.000000
50%        3.000000
75%        3.000000
max        3.000000
Name: Pclass, dtype: float64
  Análisis: Variable numérica. Verificar si hay valores atípicos o outliers.

Variable: Name
  Tipo: object
  Valores únicos: 887
  Valores nulos: 0
  Primeros 5 valores: ['Mr. Owen Harris Braund', 'Mrs. John Bradley (Florence Briggs Thayer) Cumings', 'Miss. Laina Heikkin

Según el analisis no se encontro ningún elemento nulo. Por tanto, no hay que hacer limpieza.

In [None]:
# Seleccionar una variable para limpiar
variable_a_limpiar = 'nombre_de_la_variable'  # Reemplaza con el nombre de la variable a limpiar

In [None]:
# Seleccionar el método de limpieza
metodo_de_limpieza = 'eliminar_caracteres'  # Ejemplos: 'eliminar_caracteres', 'reemplazar_valores_nulos', 'eliminar_duplicados'

In [None]:
# Limpiar la variable
df = limpiar_variable(df, variable_a_limpiar, metodo_de_limpieza)

In [None]:
# Imprimir el DataFrame limpio
print("DataFrame después de la limpieza:")
print(df)

In [None]:
# Guardar el DataFrame limpio (opcional)
df.to_csv('tu_base_de_datos_limpia.csv', index=False)