# Técnicas de ocesameinto de tos para el análisis estadístico y para la construccion de modelos

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

### Importacón de librerias

In [18]:
import pandas as pd
import numpy as np

In [19]:
# Cargado de los datos (Verifica la ruta del dataset antes de ejecutar el código)

df = pd.read_csv('Automobile.csv')

In [20]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,number-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   number-of-doors    205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [22]:
print(list(df.head()))

['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'number-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']


### Clasificacción de variables de acuerdo a su tipo y escala de medición

In [23]:
# Clasificación de variables
variable_classification = {
    'categoricas': [],
    'ordinales': [],
    'continuas': [],
    'discreta': []
}

for column in df.columns:
    dtype = df[column].dtype
    unique_values = df[column].nunique()
    
    # Clasificación por tipo de variable
    if dtype == 'object':
        if unique_values <= 10:  # Umbral para considerar categóricas como ordinales
            variable_classification['ordinales'].append(column)
        else:
            variable_classification['categoricas'].append(column)
    elif dtype in ['int64', 'float64']:
        if unique_values <= 10:  # Umbral para considerar numéricas como discretas
            variable_classification['discreta'].append(column)
        else:
            variable_classification['continuas'].append(column)

# Visualización de la clasificación
for var_type, variables in variable_classification.items():
    print(f"Variables {var_type}:")
    print(variables)
    print("\n")

Variables categoricas:
['normalized-losses', 'make', 'bore', 'stroke', 'horsepower', 'peak-rpm', 'price']


Variables ordinales:
['fuel-type', 'aspiration', 'number-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'engine-type', 'num-of-cylinders', 'fuel-system']


Variables continuas:
['wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-size', 'compression-ratio', 'city-mpg', 'highway-mpg']


Variables discreta:
['symboling']




### Identifica Problemas de calidad de datos

In [30]:
# Reemplazar valores '?' y 'NA' con NaN para facilitar su manejo
df.replace(['?', 'NA', '|'], np.nan, inplace=True)

# Identificar registros duplicados
duplicates = df[df.duplicated()]
print(f"Registros duplicados encontrados: {len(duplicates)}")

# Eliminar registros duplicados
df_cleaned = df.drop_duplicates()

# Identificar valores faltantes
missing_values = df_cleaned.isnull().sum()
print("\nValores faltantes por columna:")
print(missing_values)

# Eliminar filas con valores faltantes
df_cleaned = df_cleaned.dropna()

# Identificar y tratar outliers (ejemplo usando IQR)
Q1 = df_cleaned.quantile(0.25)
Q3 = df_cleaned.quantile(0.75)
IQR = Q3 - Q1
outliers = (df_cleaned < (Q1 - 1.5 * IQR)) | (df_cleaned > (Q3 + 1.5 * IQR))

# Eliminar filas con outliers
df_cleaned = df_cleaned[~outliers.any(axis=1)]

# Resumen de limpieza
print("\nResumen de limpieza:")
print(f"Registros originales: {len(df)}")
print(f"Registros duplicados removidos: {len(df) - len(df_cleaned)}")
print(f"Registros con valores faltantes removidos: {missing_values.sum()}")
print(f"Registros con outliers removidos: {outliers.sum().sum()}")
print(f"Registros limpios: {len(df_cleaned)}")

# Guardar el nuevo DataFrame limpio en un archivo CSV
df_cleaned.to_csv('data_cleaned.csv', index=False)
print("Nuevo DataFrame limpio guardado como 'data_cleaned.csv'")


Registros duplicados encontrados: 0

Valores faltantes por columna:
symboling             0
normalized-losses    41
make                  0
fuel-type             0
aspiration            0
number-of-doors       2
body-style            0
drive-wheels          0
engine-location       0
wheel-base            0
length                0
width                 0
height                0
curb-weight           0
engine-type           0
num-of-cylinders      0
engine-size           0
fuel-system           0
bore                  4
stroke                4
compression-ratio     0
horsepower            2
peak-rpm              2
city-mpg              0
highway-mpg           0
price                 4
dtype: int64

Resumen de limpieza:
Registros originales: 205
Registros duplicados removidos: 78
Registros con valores faltantes removidos: 59
Registros con outliers removidos: 47
Registros limpios: 127
Nuevo DataFrame limpio guardado como 'data_cleaned.csv'


  Q1 = df_cleaned.quantile(0.25)
  Q3 = df_cleaned.quantile(0.75)
  outliers = (df_cleaned < (Q1 - 1.5 * IQR)) | (df_cleaned > (Q3 + 1.5 * IQR))



### Identificacion del los metodos de procesamiento 
Según el tipo de variable, identifica los métodos de procesamiento aplicables y se decide por alguno siendo consciente de sus consecuencias y argumentando su decisión. 