Inspecci√≥n Inicial del Archivo

In [1]:
import pandas as pd

# Cargar los datos sin especificar tipos
df = pd.read_csv("../data/OSHA/Data.csv", low_memory=False)

# Verificar el tipo de la columna antes de la conversi√≥n
columna_objetivo = df.columns[3]  # Nombre de la columna en la posici√≥n 3
print(f"Tipo de dato antes: {df[columna_objetivo].dtype}")

# Eliminar espacios en blanco o caracteres extra√±os en la columna (si los hay)
df[columna_objetivo] = df[columna_objetivo].astype(str).str.strip()

# Intentar conversi√≥n a num√©rico nuevamente
df[columna_objetivo] = pd.to_numeric(df[columna_objetivo], errors="coerce")

# Verificar el tipo de la columna despu√©s de la conversi√≥n
print(f"Tipo de dato despu√©s: {df[columna_objetivo].dtype}")

# Contar valores NaN
print(f"Cantidad de valores convertidos en NaN: {df[columna_objetivo].isna().sum()}")


Tipo de dato antes: object
Tipo de dato despu√©s: float64
Cantidad de valores convertidos en NaN: 36543


In [2]:
# Mostrar valores √∫nicos problem√°ticos
valores_problematicos = df[df[columna_objetivo].isna()][columna_objetivo]
print(valores_problematicos.unique())  # Ver qu√© valores est√°n causando problemas

[nan]


Manejo de NaN

In [3]:
# Ver cu√°ntos registros totales tiene el dataset
print(f"Total de filas en el dataset: {df.shape[0]}")

Total de filas en el dataset: 346799


In [4]:
# eliminar filas no afectar√° el an√°lisis
df.dropna(subset=[columna_objetivo], inplace=True)

In [5]:
# Verificar que ya no hay NaN en la columna
print(f"Cantidad de valores NaN despu√©s de la limpieza: {df[columna_objetivo].isna().sum()}")

# Verificar el nuevo tama√±o del dataset
print(f"Total de filas despu√©s de la limpieza: {df.shape[0]}")


Cantidad de valores NaN despu√©s de la limpieza: 0
Total de filas despu√©s de la limpieza: 310256


In [6]:
# Inspeccionar las primeras filas
print(df.head())

# Verificar informaci√≥n general
print(df.info())

# Revisar valores nulos
print(df.isnull().sum())


        id                                     company_name  \
0  1752479                     Diamond S Mobile Welding LLC   
1  1752480  T&J Industries Development and Contracting, Inc   
2  1752481                                 Divine Power LLC   
3  1752482                                           Vac2Go   
4  1752483                                           Vac2Go   

                                establishment_name          ein  \
0                     Diamond S Mobile Welding LLC  870992458.0   
1  T&J Industries Development and Contracting, Inc  271904473.0   
2                                 Divine Power LLC  820978176.0   
3                           Crown Point, IN Branch  800771071.0   
4                             Deer Park, TX Branch  800771071.0   

        street_address         city state  zip_code  naics_code  \
0  101 W. Hamlin Trail   Frostproof    FL     33843      333992   
1    4600 Cleveland Rd     Lithonia    GA     30038      237110   
2   4422 Highway 

# Exploraci√≥n de Datos (EDA)

Inspecci√≥n General

In [7]:

# verificar si hay valores duplicados
print(f"Total de filas duplicadas: {df.duplicated().sum()}")

Total de filas duplicadas: 0


In [8]:
# Manejo de Valores Faltantes: Columnas con pocos valores faltantes
df.dropna(subset=["establishment_name", "street_address", "city", "total_hours_worked"], inplace=True)

In [9]:
# Columnas con muchos valores NaN
df.drop(columns=["change_reason"], inplace=True)

In [10]:
df["industry_description"] = df["industry_description"].fillna("Unknown")
df["establishment_type"] = df["establishment_type"].fillna(df["establishment_type"].mode()[0])  # Rellenar con el valor m√°s com√∫n

In [11]:
# Revisar nuevamente los valores NaN
print(df.isnull().sum())

id                                  0
company_name                    10370
establishment_name                  0
ein                                 0
street_address                      0
city                                0
state                               0
zip_code                            0
naics_code                          0
industry_description                0
annual_average_employees            0
total_hours_worked                  0
no_injuries_illnesses               0
total_deaths                        0
total_dafw_cases                    0
total_djtr_cases                    0
total_other_cases                   0
total_dafw_days                     0
total_djtr_days                     0
total_injuries                      0
total_poisonings                    0
total_respiratory_conditions        0
total_skin_disorders                0
total_hearing_loss                  0
total_other_illnesses               0
establishment_id                    0
establishmen

In [12]:
df["company_name"] = df["company_name"].fillna(df["establishment_name"])

In [13]:
df["company_name"].isna().sum()

0

Estad√≠sticas descriptivas del dataset

In [14]:
df.describe()

Unnamed: 0,id,ein,zip_code,naics_code,annual_average_employees,total_hours_worked,no_injuries_illnesses,total_deaths,total_dafw_cases,total_djtr_cases,...,total_injuries,total_poisonings,total_respiratory_conditions,total_skin_disorders,total_hearing_loss,total_other_illnesses,establishment_id,establishment_type,size,year_filing_for
count,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,...,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0,310253.0
mean,1929420.0,503358000.0,17591890.0,465541.355639,764.7129,354022.7,1.381911,0.00263,2.238473,1.223772,...,3.810713,0.001795,0.808427,0.018201,0.030552,0.258231,713209.5,1.070646,1.951272,2022.0
std,99636.1,258013900.0,108036500.0,159700.115232,343616.8,18053800.0,0.485856,0.072435,13.171043,7.914521,...,17.025374,0.065227,9.886273,0.271576,0.608843,3.850749,303101.0,0.349787,0.780987,0.0
min,1752479.0,0.0,0.0,111110.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,41929.0,0.0,1.0,2022.0
25%,1845054.0,320027700.0,29572.0,333517.0,22.0,33941.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,472414.0,1.0,2.0,2022.0
50%,1930580.0,464766300.0,50441.0,448130.0,45.0,77205.0,1.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,826984.0,1.0,2.0,2022.0
75%,2015178.0,741539500.0,79119.0,561720.0,107.0,182018.0,2.0,0.0,1.0,1.0,...,3.0,0.0,0.0,0.0,0.0,0.0,972711.0,1.0,2.0,2022.0
max,2101831.0,1000000000.0,997094200.0,999999.0,191390500.0,5812723000.0,2.0,27.0,1789.0,2213.0,...,3238.0,10.0,1696.0,55.0,116.0,655.0,1065593.0,3.0,22.0,2022.0


In [15]:
df.describe(include="object")

Unnamed: 0,company_name,establishment_name,street_address,city,state,industry_description,created_timestamp
count,310253,310253,310253,310253,310253,310253,310253
unique,109191,294604,283840,23983,84,13096,333
top,US Postal Service,Main Office,VIRTUAL,Houston,CA,Unknown,3/1/2023
freq,10164,137,1866,2266,32246,22469,32267


üìä An√°lisis de Estad√≠sticas Descriptivas (Variables Categ√≥ricas)

Aqu√≠ algunos insights clave sobre las columnas categ√≥ricas:

company_name (Nombre de la empresa)

- Total de registros: 310,253
- Empresas √∫nicas: 109,191
- Empresa m√°s frecuente: US Postal Service (10,164 registros)
- Posible an√°lisis: La alta frecuencia de algunas empresas indica que ciertos sectores pueden tener m√°s incidentes reportados.

establishment_name (Nombre del establecimiento)

- Establecimientos √∫nicos: 294,604
- M√°s com√∫n: "Main Office" (137 veces)
- Posible an√°lisis: Algunos nombres gen√©ricos como "Main Office" pueden representar m√∫ltiples ubicaciones de la misma empresa.

street_address (Direcci√≥n del establecimiento)

- Direcciones √∫nicas: 283,840
- M√°s com√∫n: "VIRTUAL" (1,866 veces)
- Posible an√°lisis: La presencia de "VIRTUAL" puede indicar establecimientos sin ubicaci√≥n f√≠sica (¬øtrabajo remoto?).

city (Ciudad)

- Ciudades √∫nicas: 23,983
- Ciudad m√°s reportada: Houston (2,266 veces)
- Posible an√°lisis: Houston podr√≠a ser un foco de incidentes debido a su tama√±o o a la industria presente.

state (Estado)

- Estados √∫nicos: 84 (¬øIncluye territorios de EE.UU.?)
- Estado m√°s reportado: California (CA) (32,246 registros)
- Posible an√°lisis: California podr√≠a tener m√°s incidentes debido a su gran poblaci√≥n e industrias con alto riesgo.

industry_description (Industria del establecimiento)

- Industrias √∫nicas: 13,096
- Categor√≠a m√°s com√∫n: "Unknown" (22,469 registros, ~7.2%)
- Posible an√°lisis: Muchas industrias no est√°n especificadas, lo que podr√≠a afectar an√°lisis sectoriales.

created_timestamp (Fecha de creaci√≥n del registro)

- Fechas √∫nicas: 333
- Fecha m√°s com√∫n: 3/1/2023 (32,267 registros)
- Posible an√°lisis: Se debe investigar si hay picos de reportes en ciertas fechas.

# ANALISIS

Estos an√°lisis ayudan a:

‚úÖ Mejorar la calidad de los datos antes de aplicar modelos de Machine Learning.

‚úÖ Encontrar patrones clave para la toma de decisiones sobre seguridad laboral.

‚úÖ Evitar problemas en la geolocalizaci√≥n y an√°lisis temporales.

1Ô∏è‚É£ Revisar si "VIRTUAL" en street_address afecta la geolocalizaci√≥n
üìå Objetivo: Evaluar si las direcciones "VIRTUAL" pueden generar problemas en an√°lisis geoespaciales.

üîç Raz√≥n:

Si hay registros con "VIRTUAL", significa que no tienen una ubicaci√≥n f√≠sica real.

Esto puede afectar an√°lisis de mapas, ya que estos datos no se pueden geocodificar correctamente.

Puede ser necesario excluirlos o tratarlos de forma especial en an√°lisis geogr√°ficos.

‚úèÔ∏è Acci√≥n posible:

Contar cu√°ntos registros tienen "VIRTUAL" y evaluar si representan una proporci√≥n significativa.

Analizar si estos registros corresponden a industrias espec√≠ficas o tipos de establecimientos con trabajo remoto.


Pasos a seguir:

1Ô∏è‚É£ Contar cu√°ntos registros tienen "VIRTUAL" en street_address.

2Ô∏è‚É£ Evaluar si estos registros est√°n concentrados en ciertas industrias (industry_description) o estados (state).

3Ô∏è‚É£ Analizar si afectan el an√°lisis geoespacial (ej. si representan un porcentaje alto del total).

In [16]:
# 1Ô∏è‚É£ Contar registros con "VIRTUAL" en street_address
virtual_count = df[df["street_address"] == "VIRTUAL"].shape[0]
total_count = df.shape[0]
percentage_virtual = (virtual_count / total_count) * 100

print(f"Registros con 'VIRTUAL' en street_address: {virtual_count}")
print(f"Porcentaje sobre el total: {percentage_virtual:.2f}%")

# 2Ô∏è‚É£ Ver en qu√© estados e industrias ocurre m√°s
virtual_by_state = df[df["street_address"] == "VIRTUAL"]["state"].value_counts()
virtual_by_industry = df[df["street_address"] == "VIRTUAL"]["industry_description"].value_counts()

# Mostrar los 10 estados con m√°s registros "VIRTUAL"
print("\nTop 10 estados con m√°s direcciones 'VIRTUAL':")
print(virtual_by_state.head(10))

# Mostrar las 10 industrias m√°s afectadas
print("\nTop 10 industrias con m√°s direcciones 'VIRTUAL':")
print(virtual_by_industry.head(10))


Registros con 'VIRTUAL' en street_address: 1866
Porcentaje sobre el total: 0.60%

Top 10 estados con m√°s direcciones 'VIRTUAL':
state
FL    166
CA    134
NC    111
TX    107
NY    107
NJ     80
OH     69
SC     60
PA     58
GA     56
Name: count, dtype: int64

Top 10 industrias con m√°s direcciones 'VIRTUAL':
industry_description
Office Equipment    1864
Unknown                2
Name: count, dtype: int64


# üìä An√°lisis de "VIRTUAL" en street_address

üîπ Conclusiones clave

‚úÖ Solo 0.60% de los registros tienen "VIRTUAL" como direcci√≥n, por lo que su impacto es bajo en t√©rminos de volumen.

‚úÖ Se concentra en 10 estados, con Florida (FL) como el m√°s afectado (166 registros).

‚úÖ Casi todos los registros (1864 de 1866) pertenecen a la industria Office Equipment.

üîπ Posibles implicaciones en la geolocalizaci√≥n

1Ô∏è‚É£ Riesgo de datos sin ubicaci√≥n f√≠sica real üè¢

Si queremos hacer an√°lisis geoespacial (ej. mapas de calor de incidentes), estos registros podr√≠an generar inconsistencias porque no tienen una direcci√≥n v√°lida.
Si estamos usando APIs de geocodificaci√≥n (Google Maps, OpenStreetMap), estas direcciones podr√≠an no devolver coordenadas v√°lidas.

2Ô∏è‚É£ Poca diversidad industrial üè≠

Dado que el 99.9% de estos registros son de Office Equipment, podr√≠amos tratarlos como una excepci√≥n espec√≠fica de esa industria en lugar de un problema general de los datos.

3Ô∏è‚É£ Posible limpieza de datos üßπ

Opci√≥n 1: Si estos registros afectan nuestros an√°lisis espaciales, podr√≠amos excluirlos.

Opci√≥n 2: Si queremos mantenerlos, podr√≠amos reemplazar "VIRTUAL" con la ciudad/estado correspondiente (si est√° disponible).

In [17]:
# Eliminar registros con 'VIRTUAL' en street_address
df = df[df["street_address"] != "VIRTUAL"]

# Verificar que los registros fueron eliminados
print(f"Registros restantes: {len(df)}")
print(f"Registros con 'VIRTUAL' en street_address despu√©s de la limpieza: {df[df['street_address'] == 'VIRTUAL'].shape[0]}")

Registros restantes: 308387
Registros con 'VIRTUAL' en street_address despu√©s de la limpieza: 0


# 2Ô∏è‚É£ Analizar la distribuci√≥n de incidentes por state e industry_description

üìå Objetivos del an√°lisis

1Ô∏è‚É£ Identificar qu√© estados tienen m√°s incidentes reportados.

2Ô∏è‚É£ Determinar qu√© industrias son las m√°s afectadas.

3Ô∏è‚É£ Visualizar patrones que puedan ayudar a entender d√≥nde y en qu√© sectores ocurren m√°s accidentes.

In [19]:
# an√°lisis por estado
incident_count_by_state = df.groupby("state")["no_injuries_illnesses"].sum().sort_values(ascending=False)
incident_count_by_state.head(10)  # Top 10 estados con m√°s incidentes

state
CA    43514
TX    33285
FL    23528
NY    18933
OH    18780
IL    18288
PA    17945
NC    15882
MN    14347
MI    13819
Name: no_injuries_illnesses, dtype: int64

observaciones:

üîπ California (CA) tiene la mayor cantidad de incidentes reportados (43,514), lo que puede deberse a su gran poblaci√≥n y fuerte presencia industrial.

üîπ Texas (TX) y Florida (FL) le siguen con 33,285 y 23,528 incidentes respectivamente, lo cual es consistente con su tama√±o y actividad econ√≥mica.

üîπ Estados industriales como Ohio (OH), Illinois (IL) y Pensilvania (PA) tambi√©n presentan altos n√∫meros de accidentes.

üìä Pr√≥ximo paso: Visualizaci√≥n # ESTOY AQUIII!

3Ô∏è‚É£ Explorar la variaci√≥n de reportes en el tiempo con created_timestamp
üìå Objetivo: Evaluar tendencias temporales en la generaci√≥n de reportes de incidentes.

üîç Raz√≥n:

Puede haber picos de reportes en ciertos meses (ej. inicio de a√±o, despu√©s de inspecciones).

Identificar tendencias como aumento o disminuci√≥n de reportes a lo largo del tiempo.

Ayuda a entender si los incidentes est√°n relacionados con eventos espec√≠ficos (ej. nuevas regulaciones).

‚úèÔ∏è Acci√≥n posible:

Crear una serie temporal con la cantidad de reportes por mes/a√±o.

Comparar a√±os diferentes para ver si hay cambios en la cantidad de incidentes reportados.

Identificar posibles sesgos en la recolecci√≥n de datos (ej. muchos reportes en una sola fecha).
