# Técnicas de procesamiento de datos para el análisis estadístico y para la construcción de modelos

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

### Importacón de librerias

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Cargado de los datos (Verifica la ruta del dataset antes de ejecutar el código)

df = pd.read_csv('Automobile.csv')

In [3]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,number-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   number-of-doors    205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

### Clasificacción de variables de acuerdo a su tipo y escala de medición

In [5]:
# Clasificacion de Variables
categoricas = df[['symboling','make','fuel-type','aspiration','number-of-doors','body-style','drive-wheels','engine-location','engine-type','num-of-cylinders','fuel-system']]
nominales = categoricas[['make','fuel-type','aspiration','number-of-doors','body-style','drive-wheels','engine-location','engine-type','num-of-cylinders', 'fuel-system']]
ordinal = categorical[['symboling']]
numerica = df[['normalized-losses','wheel-base','length','width','height','curb-weight','engine-size','bore','stroke','compression-ratio','horsepower','peak-rpm','city-mpg','highway-mpg','price']]
continua = numerica[['normalized-losses','wheel-base','length','width','height','curb-weight','engine-size','bore','stroke','compression-ratio','horsepower','peak-rpm']]
discreta = numerica[[]]

NameError: name 'categorical' is not defined

In [None]:
# Visualización de las variables
print("Variables categóricas:")
print(categoricas.head())
print("\n")

print("Variables nominales:")
print(nominales.head())
print("\n")

print("Variables ordinales:")
print(ordinal.head())
print("\n")

print("Variables numéricas:")
print(numerica.head())
print("\n")

print("Variables continuas:")
print(continua.head())
print("\n")

print("Variables discretas:")
print(discreta.head())
print("\n")

### Identifica Problemas de calidad de datos

In [None]:
# Datos inconsistentes
# Empecemos identificando las columnas con valores faltantes representados como "?"
columnas_faltantes = df.isnull().any()
columnas_con_valores_faltantes = columnas_faltantes[columnas_faltantes].index.tolist()

print("Columnas con valores faltantes:", columnas_con_valores_faltantes)

# Reemplaza "?" con valores nulos de NumPy
df.replace("?", np.nan, inplace=True)

print('\nDespués de la transformación:\n')

# Verifica nuevamente las columnas con valores faltantes
columnas_faltantes = df.isnull().any()
columnas_con_valores_faltantes = columnas_faltantes[columnas_faltantes].index.tolist()

print("Columnas con valores faltantes:", columnas_con_valores_faltantes)



In [None]:
# Valores nulos
# Aquí podemos ver aquellas columnas que tienen valores nulos, y la cantidad 
# de ellos en comparación con la cantidad total de valores.
columnas_con_nulos = df.columns[df.isnull().any()]

for columna in columnas_con_nulos:
    cantidad_nulos = df[columna].isnull().sum()
    total_datos = len(df.index)
    porcentaje_nulos = (cantidad_nulos / total_datos) * 100
    print(f"Columna: {columna}")
    print(f"Cantidad de nulos: {cantidad_nulos}")
    print(f"Porcentaje de nulos: {porcentaje_nulos:.2f}%")
    print("-" * 20)


In [None]:
# Lo siguiente a revisar es si en nuestro conjunto de datos existen duplicados
duplicados = df[df.duplicated()]

print("Registros duplicados:")
print(duplicados)


In [None]:
# Identificación de valores atípicos mediante diagramas de caja
primer_cuartil = df.quantile(0.25, numeric_only=True)
tercer_cuartil = df.quantile(0.75, numeric_only=True)
rango_intercuartilico = tercer_cuartil - primer_cuartil

# Cálculo de los límites para identificar valores atípicos
límite_inferior = primer_cuartil - 1.5 * rango_intercuartilico
límite_superior = tercer_cuartil + 1.5 * rango_intercuartilico

# Detección de valores atípicos
valores_atípicos = ((df.select_dtypes(include=[np.number]) < límite_inferior) | (df.select_dtypes(include=[np.number]) > límite_superior)).sum()

# Impresión de la cantidad de valores atípicos por columna
print("Cantidad de valores atípicos por columna:")
print(valores_atípicos)



### Identificacion del los metodos de procesamiento 
Según el tipo de variable, identifica los métodos de procesamiento aplicables y se decide por alguno siendo consciente de sus consecuencias y argumentando su decisión. 

### Variables Categóricas:
Para las variables categóricas, he decidido aplicar diferentes enfoques según el número de categorías diferentes. Si una variable tiene menos de 5 categorías diferentes, optaría por utilizar la técnica de codificación one-hot para poder analizar los datos de manera efectiva. En el caso específico de la columna que representa el número de puertas, cambiaré el tipo de dato de string a integer. Esto me permitirá aprovechar mejor esta columna en mi análisis. En cuanto a la marca del vehículo, dejaré la columna tal cual está, ya que será útil para filtrar y analizar datos en relación con marcas específicas. Si necesito aplicar técnicas de clasificación, convertiré estas variables en factores para llevar a cabo la técnica adecuada. En el caso de variables categóricas ordinales, como ya están representadas como enteros, no es necesario hacer cambios adicionales.

### Variables Numéricas:
Para las variables numéricas, es importante asegurarse de que estén en el tipo de dato correcto. Por lo tanto, modificaré las variables numéricas para que sean del tipo integer o float, según corresponda. Esto garantizará que los datos sean adecuados para el análisis y el modelado.

### Nulos:
En el caso de valores nulos, he tomado distintas medidas según la cantidad de valores faltantes. Para aquellas columnas con menos de 10 valores nulos, optaré por eliminar los registros correspondientes. Dado que esta pérdida representa menos del 10% de los datos, no debería afectar significativamente mi análisis. Sin embargo, para una columna con un número considerable de valores faltantes, evaluaré su utilidad. Si es útil, llenaré los valores nulos con la media, considerando la marca del vehículo. Esto me permitirá aproximarme mejor a los valores faltantes y mantener la integridad de los datos.

### Outliers:
En relación con los valores atípicos, seguiré una estrategia similar a la de los valores nulos. Eliminaré registros con un número pequeño de valores atípicos, ya que esto no debería impactar negativamente mi análisis. Para las columnas con un número mayor de valores atípicos, aplicaré técnicas de transformación logarítmica o Box-Cox para reducir su influencia. En caso de que estas técnicas no sean suficientes, optaré por reemplazar los valores atípicos por valores límites, basados en el rango intercuartílico. Esto me permitirá evitar la pérdida excesiva de datos y garantizar un análisis más sólido.

En resumen, he tomado estas decisiones basándome en el análisis de los datos y considerando las implicaciones de cada enfoque. Mi objetivo es garantizar que los datos sean adecuados para el análisis y que las técnicas aplicadas sean coherentes y razonables en función de la naturaleza de los datos y los objetivos de mi análisis.

## Adicional

Se intento generar un clasificador de variables automatico a travez de la deteccion del tipo de dato (dtype) y la cantidad de valores unicos de la columna.

Se utilizan los valores unico y se coloca como estandard de repeticion con el numero 10 para revisar la diversidad de valores que hay en una columna y que el programa tome la desición de si esta pertenece a los grupos de variables previamente definidos

In [None]:
# Clasificación de variables
variable_classification = {
    'auto_categoricas': [],
    'auto_ordinales': [],
    'auto_continuas': [],
    'auto_discreta': [],
    'auto_numericas': [], 
    'auto_nominales': [] 
}

for column in df.columns:
    dtype = df[column].dtype
    unique_values = df[column].nunique()
    
    # Clasificación por tipo de variable
    if dtype == 'object':
        if unique_values <= 10:  # Umbral para considerar categóricas como ordinales
            variable_classification['auto_ordinales'].append(column)
        else:
            variable_classification['auto_categoricas'].append(column)
        variable_classification['auto_nominales'].append(column)  # Agregar a la categoría de variables nominales
    elif dtype in ['int64', 'float64']:
        if unique_values <= 10:  # Umbral para considerar numéricas como discretas
            variable_classification['auto_discreta'].append(column)
        else:
            variable_classification['auto_continuas'].append(column)
        variable_classification['auto_numericas'].append(column)  # Agregar a la categoría de variables numéricas

# Visualización de la clasificación
for var_type, variables in variable_classification.items():
    print(f"Variables {var_type}:")
    print(variables)
    print("\n")


Se decidio hacer un comparador para revisar que tan acertado es la clasificación automatica de variables

In [None]:

# Comparación de clasificaciones
coincidencias = 0
diferencias = 0

for variable in categoricas_manual:
    if variable in auto_categoricas:
        coincidencias += 1
    else:
        diferencias += 1

for variable in nominales_manual:
    if variable in auto_nominales:
        coincidencias += 1
    else:
        diferencias += 1

for variable in ordinal_manual:
    if variable in auto_ordinales:
        coincidencias += 1
    else:
        diferencias += 1

for variable in numerica_manual:
    if variable in auto_numericas:
        coincidencias += 1
    else:
        diferencias += 1

for variable in continua_manual:
    if variable in auto_continuas:
        coincidencias += 1
    else:
        diferencias += 1

for variable in discreta_manual:
    if variable in auto_discreta:
        coincidencias += 1
    else:
        diferencias += 1

total_variables = coincidencias + diferencias
coincidencias_porcentaje = (coincidencias / total_variables) * 100
diferencias_porcentaje = (diferencias / total_variables) * 100

print(f"Variables que coinciden: {coincidencias} ({coincidencias_porcentaje:.2f}%)")
print(f"Variables que difieren: {diferencias} ({diferencias_porcentaje:.2f}%)")


Debido a que aun no esta tan pulido la clasificacion automatica de variables, no se puede tomar en cuenta para el desarrollo de esta actividad