Inspección Inicial del Archivo

In [1]:
import pandas as pd

# Cargar los datos sin especificar tipos
df = pd.read_csv("../data/OSHA/Data.csv", low_memory=False)

# Verificar el tipo de la columna antes de la conversión
columna_objetivo = df.columns[3]  # Nombre de la columna en la posición 3
print(f"Tipo de dato antes: {df[columna_objetivo].dtype}")

# Eliminar espacios en blanco o caracteres extraños en la columna (si los hay)
df[columna_objetivo] = df[columna_objetivo].astype(str).str.strip()

# Intentar conversión a numérico nuevamente
df[columna_objetivo] = pd.to_numeric(df[columna_objetivo], errors="coerce")

# Verificar el tipo de la columna después de la conversión
print(f"Tipo de dato después: {df[columna_objetivo].dtype}")

# Contar valores NaN
print(f"Cantidad de valores convertidos en NaN: {df[columna_objetivo].isna().sum()}")


Tipo de dato antes: object
Tipo de dato después: float64
Cantidad de valores convertidos en NaN: 36543


In [2]:
# Mostrar valores únicos problemáticos
valores_problematicos = df[df[columna_objetivo].isna()][columna_objetivo]
print(valores_problematicos.unique())  # Ver qué valores están causando problemas

[nan]


Manejo de NaN

In [3]:
# Ver cuántos registros totales tiene el dataset
print(f"Total de filas en el dataset: {df.shape[0]}")

Total de filas en el dataset: 346799


In [4]:
# eliminar filas no afectará el análisis
df.dropna(subset=[columna_objetivo], inplace=True)

In [5]:
# Verificar que ya no hay NaN en la columna
print(f"Cantidad de valores NaN después de la limpieza: {df[columna_objetivo].isna().sum()}")

# Verificar el nuevo tamaño del dataset
print(f"Total de filas después de la limpieza: {df.shape[0]}")


Cantidad de valores NaN después de la limpieza: 0
Total de filas después de la limpieza: 310256


In [6]:
# Inspeccionar las primeras filas
print(df.head())

# Verificar información general
print(df.info())

# Revisar valores nulos
print(df.isnull().sum())


        id                                     company_name  \
0  1752479                     Diamond S Mobile Welding LLC   
1  1752480  T&J Industries Development and Contracting, Inc   
2  1752481                                 Divine Power LLC   
3  1752482                                           Vac2Go   
4  1752483                                           Vac2Go   

                                establishment_name          ein  \
0                     Diamond S Mobile Welding LLC  870992458.0   
1  T&J Industries Development and Contracting, Inc  271904473.0   
2                                 Divine Power LLC  820978176.0   
3                           Crown Point, IN Branch  800771071.0   
4                             Deer Park, TX Branch  800771071.0   

        street_address         city state  zip_code  naics_code  \
0  101 W. Hamlin Trail   Frostproof    FL     33843      333992   
1    4600 Cleveland Rd     Lithonia    GA     30038      237110   
2   4422 Highway 

# Exploración de Datos (EDA)

Inspección General

In [7]:

# verificar si hay valores duplicados
print(f"Total de filas duplicadas: {df.duplicated().sum()}")

Total de filas duplicadas: 0


In [8]:
# Manejo de Valores Faltantes: Columnas con pocos valores faltantes
df.dropna(subset=["establishment_name", "street_address", "city", "total_hours_worked"], inplace=True)

In [9]:
# Columnas con muchos valores NaN
df.drop(columns=["change_reason"], inplace=True)

In [10]:
df["industry_description"] = df["industry_description"].fillna("Unknown")
df["establishment_type"] = df["establishment_type"].fillna(df["establishment_type"].mode()[0])  # Rellenar con el valor más común

In [11]:
# Revisar nuevamente los valores NaN
print(df.isnull().sum())

id                                  0
company_name                    10370
establishment_name                  0
ein                                 0
street_address                      0
city                                0
state                               0
zip_code                            0
naics_code                          0
industry_description                0
annual_average_employees            0
total_hours_worked                  0
no_injuries_illnesses               0
total_deaths                        0
total_dafw_cases                    0
total_djtr_cases                    0
total_other_cases                   0
total_dafw_days                     0
total_djtr_days                     0
total_injuries                      0
total_poisonings                    0
total_respiratory_conditions        0
total_skin_disorders                0
total_hearing_loss                  0
total_other_illnesses               0
establishment_id                    0
establishmen

In [12]:
df["company_name"] = df["company_name"].fillna(df["establishment_name"])

In [13]:
df["company_name"].isna().sum()

0

Estadísticas descriptivas del dataset

In [14]:
df.describe()

Unnamed: 0,id,ein,zip_code,naics_code,annual_average_employees,total_hours_worked,no_injuries_illnesses,total_deaths,total_dafw_cases,total_djtr_cases,...,total_injuries,total_poisonings,total_respiratory_conditions,total_skin_disorders,total_hearing_loss,total_other_illnesses,establishment_id,establishment_type,size,year_filing_for
count,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,...,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0
mean,1929420.0,503358000.0,17591890.0,465541.355639,764.7129,354022.7,1.381911,0.00263,2.238473,1.223772,...,3.810713,0.001795,0.808427,0.018201,0.030552,0.258231,713209.5,1.070646,1.951272,2022.0
std,99636.1,258013900.0,108036500.0,159700.115232,343616.8,18053800.0,0.485856,0.072435,13.171043,7.914521,...,17.025374,0.065227,9.886273,0.271576,0.608843,3.850749,303101.0,0.349787,0.780987,0.0
min,1752479.0,0.0,0.0,111110.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,41929.0,0.0,1.0,2022.0
25%,1845054.0,320027700.0,29572.0,333517.0,22.0,33941.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,472414.0,1.0,2.0,2022.0
50%,1930580.0,464766300.0,50441.0,448130.0,45.0,77205.0,1.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,826984.0,1.0,2.0,2022.0
75%,2015178.0,741539500.0,79119.0,561720.0,107.0,182018.0,2.0,0.0,1.0,1.0,...,3.0,0.0,0.0,0.0,0.0,0.0,972711.0,1.0,2.0,2022.0
max,2101831.0,1000000000.0,997094200.0,999999.0,191390500.0,5812723000.0,2.0,27.0,1789.0,2213.0,...,3238.0,10.0,1696.0,55.0,116.0,655.0,1065593.0,3.0,22.0,2022.0


In [15]:
df.describe(include="object")

Unnamed: 0,company_name,establishment_name,street_address,city,state,industry_description,created_timestamp
count,310253,310253,310253,310253,310253,310253,310253
unique,109191,294604,283840,23983,84,13096,333
top,US Postal Service,Main Office,VIRTUAL,Houston,CA,Unknown,3/1/2023
freq,10164,137,1866,2266,32246,22469,32267


📊 Análisis de Estadísticas Descriptivas (Variables Categóricas)

Aquí algunos insights clave sobre las columnas categóricas:

company_name (Nombre de la empresa)

- Total de registros: 310,253
- Empresas únicas: 109,191
- Empresa más frecuente: US Postal Service (10,164 registros)
- Posible análisis: La alta frecuencia de algunas empresas indica que ciertos sectores pueden tener más incidentes reportados.

establishment_name (Nombre del establecimiento)

- Establecimientos únicos: 294,604
- Más común: "Main Office" (137 veces)
- Posible análisis: Algunos nombres genéricos como "Main Office" pueden representar múltiples ubicaciones de la misma empresa.

street_address (Dirección del establecimiento)

- Direcciones únicas: 283,840
- Más común: "VIRTUAL" (1,866 veces)
- Posible análisis: La presencia de "VIRTUAL" puede indicar establecimientos sin ubicación física (¿trabajo remoto?).

city (Ciudad)

- Ciudades únicas: 23,983
- Ciudad más reportada: Houston (2,266 veces)
- Posible análisis: Houston podría ser un foco de incidentes debido a su tamaño o a la industria presente.

state (Estado)

- Estados únicos: 84 (¿Incluye territorios de EE.UU.?)
- Estado más reportado: California (CA) (32,246 registros)
- Posible análisis: California podría tener más incidentes debido a su gran población e industrias con alto riesgo.

industry_description (Industria del establecimiento)

- Industrias únicas: 13,096
- Categoría más común: "Unknown" (22,469 registros, ~7.2%)
- Posible análisis: Muchas industrias no están especificadas, lo que podría afectar análisis sectoriales.

created_timestamp (Fecha de creación del registro)

- Fechas únicas: 333
- Fecha más común: 3/1/2023 (32,267 registros)
- Posible análisis: Se debe investigar si hay picos de reportes en ciertas fechas.

# ANALISIS

Estos análisis ayudan a:

✅ Mejorar la calidad de los datos antes de aplicar modelos de Machine Learning.

✅ Encontrar patrones clave para la toma de decisiones sobre seguridad laboral.

✅ Evitar problemas en la geolocalización y análisis temporales.

1️⃣ Revisar si "VIRTUAL" en street_address afecta la geolocalización
📌 Objetivo: Evaluar si las direcciones "VIRTUAL" pueden generar problemas en análisis geoespaciales.

🔍 Razón:

Si hay registros con "VIRTUAL", significa que no tienen una ubicación física real.

Esto puede afectar análisis de mapas, ya que estos datos no se pueden geocodificar correctamente.

Puede ser necesario excluirlos o tratarlos de forma especial en análisis geográficos.

✏️ Acción posible:

Contar cuántos registros tienen "VIRTUAL" y evaluar si representan una proporción significativa.

Analizar si estos registros corresponden a industrias específicas o tipos de establecimientos con trabajo remoto.


Pasos a seguir:

1️⃣ Contar cuántos registros tienen "VIRTUAL" en street_address.

2️⃣ Evaluar si estos registros están concentrados en ciertas industrias (industry_description) o estados (state).

3️⃣ Analizar si afectan el análisis geoespacial (ej. si representan un porcentaje alto del total).

In [16]:
# 1️⃣ Contar registros con "VIRTUAL" en street_address
virtual_count = df[df["street_address"] == "VIRTUAL"].shape[0]
total_count = df.shape[0]
percentage_virtual = (virtual_count / total_count) * 100

print(f"Registros con 'VIRTUAL' en street_address: {virtual_count}")
print(f"Porcentaje sobre el total: {percentage_virtual:.2f}%")

# 2️⃣ Ver en qué estados e industrias ocurre más
virtual_by_state = df[df["street_address"] == "VIRTUAL"]["state"].value_counts()
virtual_by_industry = df[df["street_address"] == "VIRTUAL"]["industry_description"].value_counts()

# Mostrar los 10 estados con más registros "VIRTUAL"
print("\nTop 10 estados con más direcciones 'VIRTUAL':")
print(virtual_by_state.head(10))

# Mostrar las 10 industrias más afectadas
print("\nTop 10 industrias con más direcciones 'VIRTUAL':")
print(virtual_by_industry.head(10))


Registros con 'VIRTUAL' en street_address: 1866
Porcentaje sobre el total: 0.60%

Top 10 estados con más direcciones 'VIRTUAL':
state
FL    166
CA    134
NC    111
TX    107
NY    107
NJ     80
OH     69
SC     60
PA     58
GA     56
Name: count, dtype: int64

Top 10 industrias con más direcciones 'VIRTUAL':
industry_description
Office Equipment    1864
Unknown                2
Name: count, dtype: int64


# 📊 Análisis de "VIRTUAL" en street_address

🔹 Conclusiones clave

✅ Solo 0.60% de los registros tienen "VIRTUAL" como dirección, por lo que su impacto es bajo en términos de volumen.

✅ Se concentra en 10 estados, con Florida (FL) como el más afectado (166 registros).

✅ Casi todos los registros (1864 de 1866) pertenecen a la industria Office Equipment.

🔹 Posibles implicaciones en la geolocalización

1️⃣ Riesgo de datos sin ubicación física real 🏢

Si queremos hacer análisis geoespacial (ej. mapas de calor de incidentes), estos registros podrían generar inconsistencias porque no tienen una dirección válida.
Si estamos usando APIs de geocodificación (Google Maps, OpenStreetMap), estas direcciones podrían no devolver coordenadas válidas.

2️⃣ Poca diversidad industrial 🏭

Dado que el 99.9% de estos registros son de Office Equipment, podríamos tratarlos como una excepción específica de esa industria en lugar de un problema general de los datos.

3️⃣ Posible limpieza de datos 🧹

Opción 1: Si estos registros afectan nuestros análisis espaciales, podríamos excluirlos.

Opción 2: Si queremos mantenerlos, podríamos reemplazar "VIRTUAL" con la ciudad/estado correspondiente (si está disponible).

In [17]:
# Eliminar registros con 'VIRTUAL' en street_address
df = df[df["street_address"] != "VIRTUAL"]

# Verificar que los registros fueron eliminados
print(f"Registros restantes: {len(df)}")
print(f"Registros con 'VIRTUAL' en street_address después de la limpieza: {df[df['street_address'] == 'VIRTUAL'].shape[0]}")

Registros restantes: 308387
Registros con 'VIRTUAL' en street_address después de la limpieza: 0


# 2️⃣ Analizar la distribución de incidentes por state e industry_description

📌 Objetivos del análisis

1️⃣ Identificar qué estados tienen más incidentes reportados.

2️⃣ Determinar qué industrias son las más afectadas.

3️⃣ Visualizar patrones que puedan ayudar a entender dónde y en qué sectores ocurren más accidentes.

In [19]:
# análisis por estado
incident_count_by_state = df.groupby("state")["no_injuries_illnesses"].sum().sort_values(ascending=False)
incident_count_by_state.head(10)  # Top 10 estados con más incidentes

state
CA    43514
TX    33285
FL    23528
NY    18933
OH    18780
IL    18288
PA    17945
NC    15882
MN    14347
MI    13819
Name: no_injuries_illnesses, dtype: int64

observaciones:

🔹 California (CA) tiene la mayor cantidad de incidentes reportados (43,514), lo que puede deberse a su gran población y fuerte presencia industrial.

🔹 Texas (TX) y Florida (FL) le siguen con 33,285 y 23,528 incidentes respectivamente, lo cual es consistente con su tamaño y actividad económica.

🔹 Estados industriales como Ohio (OH), Illinois (IL) y Pensilvania (PA) también presentan altos números de accidentes.

📊 Próximo paso: Visualización # ESTOY AQUIII!

3️⃣ Explorar la variación de reportes en el tiempo con created_timestamp
📌 Objetivo: Evaluar tendencias temporales en la generación de reportes de incidentes.

🔍 Razón:

Puede haber picos de reportes en ciertos meses (ej. inicio de año, después de inspecciones).

Identificar tendencias como aumento o disminución de reportes a lo largo del tiempo.

Ayuda a entender si los incidentes están relacionados con eventos específicos (ej. nuevas regulaciones).

✏️ Acción posible:

Crear una serie temporal con la cantidad de reportes por mes/año.

Comparar años diferentes para ver si hay cambios en la cantidad de incidentes reportados.

Identificar posibles sesgos en la recolección de datos (ej. muchos reportes en una sola fecha).
