Inspección Inicial del Archivo

In [1]:
import pandas as pd

# Cargar los datos sin especificar tipos
df = pd.read_csv("../data/OSHA/Data.csv", low_memory=False)

# Verificar el tipo de la columna antes de la conversión
columna_objetivo = df.columns[3]  # Nombre de la columna en la posición 3
print(f"Tipo de dato antes: {df[columna_objetivo].dtype}")

# Eliminar espacios en blanco o caracteres extraños en la columna (si los hay)
df[columna_objetivo] = df[columna_objetivo].astype(str).str.strip()

# Intentar conversión a numérico nuevamente
df[columna_objetivo] = pd.to_numeric(df[columna_objetivo], errors="coerce")

# Verificar el tipo de la columna después de la conversión
print(f"Tipo de dato después: {df[columna_objetivo].dtype}")

# Contar valores NaN
print(f"Cantidad de valores convertidos en NaN: {df[columna_objetivo].isna().sum()}")


Tipo de dato antes: object
Tipo de dato después: float64
Cantidad de valores convertidos en NaN: 36543


In [2]:
# Mostrar valores únicos problemáticos
valores_problematicos = df[df[columna_objetivo].isna()][columna_objetivo]
print(valores_problematicos.unique())  # Ver qué valores están causando problemas

[nan]


Manejo de NaN

In [3]:
# Ver cuántos registros totales tiene el dataset
print(f"Total de filas en el dataset: {df.shape[0]}")

Total de filas en el dataset: 346799


In [4]:
# eliminar filas no afectará el análisis
df.dropna(subset=[columna_objetivo], inplace=True)

In [5]:
# Verificar que ya no hay NaN en la columna
print(f"Cantidad de valores NaN después de la limpieza: {df[columna_objetivo].isna().sum()}")

# Verificar el nuevo tamaño del dataset
print(f"Total de filas después de la limpieza: {df.shape[0]}")


Cantidad de valores NaN después de la limpieza: 0
Total de filas después de la limpieza: 310256


In [8]:
# Inspeccionar las primeras filas
print(df.head())

# Verificar información general
print(df.info())

# Revisar valores nulos
print(df.isnull().sum())


        id                                     company_name  \
0  1752479                     Diamond S Mobile Welding LLC   
1  1752480  T&J Industries Development and Contracting, Inc   
2  1752481                                 Divine Power LLC   
3  1752482                                           Vac2Go   
4  1752483                                           Vac2Go   

                                establishment_name          ein  \
0                     Diamond S Mobile Welding LLC  870992458.0   
1  T&J Industries Development and Contracting, Inc  271904473.0   
2                                 Divine Power LLC  820978176.0   
3                           Crown Point, IN Branch  800771071.0   
4                             Deer Park, TX Branch  800771071.0   

        street_address         city state  zip_code  naics_code  \
0  101 W. Hamlin Trail   Frostproof    FL     33843      333992   
1    4600 Cleveland Rd     Lithonia    GA     30038      237110   
2   4422 Highway 

# Exploración de Datos (EDA)

Inspección General

In [10]:

# verificar si hay valores duplicados
print(f"Total de filas duplicadas: {df.duplicated().sum()}")

Total de filas duplicadas: 0


In [None]:
# Manejo de Valores Faltantes: Columnas con pocos valores faltantes
df.dropna(subset=["establishment_name", "street_address", "city", "total_hours_worked"], inplace=True)

In [12]:
# Columnas con muchos valores NaN
df.drop(columns=["change_reason"], inplace=True)

In [14]:
df["industry_description"] = df["industry_description"].fillna("Unknown")
df["establishment_type"] = df["establishment_type"].fillna(df["establishment_type"].mode()[0])  # Rellenar con el valor más común

In [15]:
# Revisar nuevamente los valores NaN
print(df.isnull().sum())

id                                  0
company_name                    10370
establishment_name                  0
ein                                 0
street_address                      0
city                                0
state                               0
zip_code                            0
naics_code                          0
industry_description                0
annual_average_employees            0
total_hours_worked                  0
no_injuries_illnesses               0
total_deaths                        0
total_dafw_cases                    0
total_djtr_cases                    0
total_other_cases                   0
total_dafw_days                     0
total_djtr_days                     0
total_injuries                      0
total_poisonings                    0
total_respiratory_conditions        0
total_skin_disorders                0
total_hearing_loss                  0
total_other_illnesses               0
establishment_id                    0
establishmen

In [17]:
df["company_name"] = df["company_name"].fillna(df["establishment_name"])

In [18]:
df["company_name"].isna().sum()

0

Estadísticas descriptivas del dataset