<div style="font-family: Arial, sans-serif; line-height: 1.5; padding: 20px; border: 1px solid #ddd; border-radius: 5px;">
  <h1 style="margin-bottom: 0.5em;">📊 Análisis Exploratorio de Contratos de Pesca (2005–2011)</h1>
  <p style="margin-top: 0; color: #555;">
    <strong>Autor:</strong> Cristian Orellana<br>
    <strong>Fecha:</strong> 2025-06-26
  </p>
  <hr>
  <h2>Objetivos</h2>
  <ul>
    <li>Cargar los datos desde la base de datos Postgres</li>
    <li>Limpiar y preparar el DataFrame para el análisis</li>
    <li>Explorar la distribución de contrataciones por región, función y género</li>
    <li>Visualizar tendencias temporales y comparaciones entre grupos</li>
    <li>Extraer conclusiones e identificar próximos pasos</li>
  </ul>
</div>

<h1><b>Librerías</b></h1>

In [None]:
import pandas as pd
import plotly.express as px

<h1><b>Carga de la data</b></h1>

In [None]:
df_2005 = pd.read_csv('empleoPlantasDeProceso2005.csv',encoding = 'latin-1',sep = ';')
df_2006 = pd.read_csv('empleoPlantasDeProceso2006.csv',encoding = 'latin-1',sep = ';')
df_2007 = pd.read_csv('empleoPlantasDeProceso2007.csv',encoding = 'latin-1',sep = ';')
df_2008 = pd.read_csv('empleoPlantasDeProceso2008.csv',encoding = 'latin-1',sep = ';')
df_2009 = pd.read_csv('empleoPlantasDeProceso2009.csv',encoding = 'latin-1',sep = ';')
df_2010 = pd.read_csv('empleoPlantasDeProceso2010.csv',encoding = 'latin-1',sep = ';')
df_2011 = pd.read_csv('empleoPlantasDeProceso2011.csv',encoding = 'latin-1',sep = ';')

<h1><b>Exploración inicial de la data</b></h1>
<ul>
<li><p>Revisar la cantidad de filas y columnas</p></li>
<li><p>Revisar la cantidad de valores nulos</p></li>
<li><p>Revisar la cantidad de valores duplicados</p></li>
<li><p>Revisión de los tipos de datos</p></li>
<li><p>Previsualización de la data</p></li>
</ul>

<h2><b>Cantidad de filas y columnas por dataset</b></h2>
<table>
  <thead>
    <tr>
      <th>Año del Dataset</th>
      <th>Número de filas</th>
      <th>Número de columnas</th>
    </tr>
  </thead>
  <tbody>
  <tr>
    <td>2005</td>
    <td>28428</td>
    <td>10</td>
  </tr>
  <tr>
    <td>2006</td>
    <td>58266</td>
    <td>11</td>
  </tr>
  <tr>
    <td>2007</td>
    <td>56862</td>
    <td>11</td>
  </tr>
  <tr>
    <td>2008</td>
    <td>63882</td>
    <td>10</td>
  </tr>
  <tr>
    <td>2009</td>
    <td>62046</td>
    <td>10</td>
  </tr>
  <tr>
    <td>2010</td>
    <td>62424</td>
    <td>11</td>
  </tr>
  <tr>
    <td>2011</td>
    <td>65016</td>
    <td>10</td>
  </tr>
  </tbody>
</table>

In [None]:
# df_2005.shape
# df_2006.shape
# df_2007.shape
# df_2008.shape
# df_2009.shape
# df_2010.shape
df_2011.shape

(65016, 10)

<h1><b>Calidad de la data</b></h1>

<table>
  <thead>
    <tr>
      <th>Tabla</th>
      <th>Columna</th>
      <th>Tipo de dato</th>
      <th>Nulos</th>
      <th>Valores duplicados</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Año</td>
      <td>Fecha (int)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>NUI</td>
      <td>Identificador (int)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Region</td>
      <td>Categórica (str)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Trimestre</td>
      <td>Discreta (int)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Mes</td>
      <td>Categórica (str)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Categoría</td>
      <td>Categórica (str)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Función</td>
      <td>Categórica (str)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Género</td>
      <td>Categórica (str)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Ocupados</td>
      <td>Entero (int)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2005 a 2011</td>
      <td>Clase_Industria_II</td>
      <td>Categórica (str)</td>
      <td>0</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tablas 2006 y 2007</td>
      <td>Explicación_Clase_Industria</td>
      <td>Categórica (str)</td>
      <td>390696</td>
      <td>0</td>
    </tr>
    <tr>
      <td>Tabla 2010</td>
      <td>Comentarios</td>
      <td>Categórica (str)</td>
      <td>334500</td>
      <td>0</td>
    </tr>
  </tbody>
</table>

In [None]:
# df_2005.info()
# df_2006.info()
# df_2005.isnull().sum()
# df_2006.isnull().sum()
# df_2007.isnull().sum()
# df_2008.isnull().sum()
# df_2009.isnull().sum()
# df_2010.isnull().sum()
# df_2011.isnull().sum()


<h2><b>Cambio de tipo de dato</b></h2>
<p>En la tabla del año 2010, la columna 'Ocupados' utilizó un separador de números ',', por lo que python no podía cambiar el tipo a datos enteros, por lo cual primero se reemplazó la coma por un punto y luego se procedió a cambiar el tipo de dato. </p>

In [None]:
df_2010['Ocupados'] = df_2010['Ocupados'].str.replace(',','.')
df_2010['Ocupados'] = df_2010['Ocupados'].astype('float')
df_2010['Ocupados'] = df_2010['Ocupados'].astype('int')

In [None]:
# df_2006.isnull().sum() #53550
# df_2007.isnull().sum() #55350
# df_2008.isnull().sum() #0
# df_2009.isnull().sum() #0
# df_2010.isnull().sum() #0
# df_2011.isnull().sum() #0

In [None]:
df_2011.head()

Unnamed: 0,AÑO,NUI,Región,Trimestre,Mes,Categoría,Función,Género,Ocupados,CLASE_INDUSTRIA_II
0,2011,90109,8,1,enero,CONTRATO,Directivos,hombres,0,HUMANO
1,2011,90109,8,2,abril,CONTRATO,Directivos,hombres,0,HUMANO
2,2011,90109,8,3,julio,CONTRATO,Directivos,hombres,0,HUMANO
3,2011,90109,8,4,octubre,CONTRATO,Directivos,hombres,0,HUMANO
4,2011,11179,10,1,enero,CONTRATO,Directivos,hombres,2,HUMANO


<h1><b>Unión de tablas</b></h1>

In [None]:
lista_tablas = [df_2005,df_2006,df_2007,df_2008,df_2009,df_2010,df_2011]
df = pd.concat(lista_tablas)

<h1><b>Creación del csv</b><h1>

In [None]:
df['EXPLICACIÓN_CLASE_INDUSTRIA'].unique()

array([nan, 'SIN_ABASTECIMIENTO'], dtype=object)

In [None]:
df.to_csv('contratos_2005-2011.csv',index=False,encoding='utf-8')

In [None]:
df.isnull().sum()

Unnamed: 0,0
AÑO,0
NUI,0
Región,0
Trimestre,0
Mes,0
Categoría,0
Función,0
Género,0
Ocupados,0
CLASE_INDUSTRIA_II,0


<h1><b>Análisis exploratorio</b></h1>
<ul>
  <li>Resumen estadístico de variables numéricas</li>
  <li>Gráficos univariados</li>
  <li>Gráficos bivariados</li>
</ul>

<h2><b>Resumen estadístico</b></h2>

In [None]:
df['Ocupados'].describe()

Unnamed: 0,Ocupados
count,396924.0
mean,8.761221
std,40.008041
min,0.0
25%,0.0
50%,0.0
75%,2.0
max,3643.0


<h1><b>Análisis univariado de las características</b></h1>

In [None]:
df.head()

Unnamed: 0,AÑO,NUI,Región,Trimestre,Mes,Categoría,Función,Género,Ocupados,CLASE_INDUSTRIA_II,EXPLICACIÓN_CLASE_INDUSTRIA,COMEN
0,2005,21714,1,1,enero,CONTRATO,Directivos,mujeres,1,HUMANO,,
1,2005,21714,1,1,enero,CONTRATO,Productivos_directos,mujeres,134,HUMANO,,
2,2005,21714,1,1,enero,CONTRATO,Productivos_indirectos,mujeres,1,HUMANO,,
3,2005,21714,1,1,enero,CONTRATO,Administrativos,mujeres,1,HUMANO,,
4,2005,21714,1,1,enero,SUBCONTRATO,Productivos_indirectos,mujeres,1,HUMANO,,


<h2><b>Análisis de la variable objetivo</b></h2>

In [None]:
df['Categoría'] = df['Categoría'].str.replace('SUB-CONTRATO','SUBCONTRATO') #Transformación para tener solo 2 categorías

In [None]:
conteo_categoria = df['Categoría'].value_counts().reset_index()
conteo_categoria


Unnamed: 0,Categoría,count
0,CONTRATO,228486
1,SUBCONTRATO,168438


In [None]:
fig = px.bar(data_frame=conteo_categoria,
             x= 'Categoría',
             y= 'count',
             height= 700,
             width = 800,
             color = 'Categoría',
             text='count',
             color_discrete_sequence=px.colors.qualitative.Set1)

#Personalizar el gráfico

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title= dict(
        text= 'Distribución de contratos en plantas de proceso',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=22)
    ),
    xaxis=dict(
        title=dict(text='Tipo de contrato',
          font= dict(size=18))
    ),
    yaxis=dict(
        title=dict(text='Cantidad de personas',
                   font=dict(size=18))
    )

)


fig.show()

<h2><b>Análisis Univariado por género</b></h2>

In [None]:
cantidad_genero = df['Género'].value_counts().reset_index()
cantidad_genero

#Gráfico de barra por género

fig = px.bar(data_frame=cantidad_genero,
             x='Género',
             y='count',
             color='Género',
             text='count',
             width=800,
             height=700,
             color_discrete_sequence=px.colors.qualitative.Set2)

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title=dict(
        text='Distribución de contratos por género',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=22)
    ),
    xaxis=dict(
        title=dict(text='Género',
                   font=dict(size=18))
    ),
    yaxis=dict(
        title=dict(text='Cantidad de personas',
                   font=dict(size=18))
    )
)

fig.show()

<h2><b>Gráfico univariado de la función (puesto de trabajo)</b><h2>

<h2><b>Limpieza columna "Función"</b><h2>
<p>Esta columna presenta varios valores repetidos debido a espacios o diferencia entre mayúsculas y minúsculas</p>

In [None]:
# df['Función'].value_counts().reset_index()
df['Función'] = df['Función'].str.strip()
df['Función'] = df['Función'].str.lower()
df['Función'] = df['Función'].str.capitalize()
df['Función'] = df['Función'].str.replace('_',' ')

In [None]:
contratos_por_funcion = df['Función'].value_counts().reset_index()
contratos_por_funcion

fig = px.bar(data_frame=contratos_por_funcion,
             x='Función',
             y='count',
             text='count',
             color='Función',
             color_discrete_sequence=px.colors.qualitative.D3,
             height= 700,
             width=800)

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title=dict(
        text='Distribución de cargos',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=22)
    ),
    xaxis=dict(
        title=dict(text='Funciones',
        font=dict(size=18))
    ),
    yaxis=dict(
        title=dict(text='Cantidad de personas',
        font=dict(size=18))
    )
)

fig.show()

<h2><b>Gráfico univariado Clase de Industria</b></h2>

In [None]:
clase_industria = df['CLASE_INDUSTRIA_II'].value_counts().reset_index()
clase_industria

fig = px.bar(data_frame=clase_industria,
             x='CLASE_INDUSTRIA_II',
             y='count',
             text='count',
             color='CLASE_INDUSTRIA_II',
             width=800,
             height=700,
             color_discrete_sequence=px.colors.qualitative.Dark2)

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title=dict(
        text='Distribución de clases de industrias',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=22)
    ),
    xaxis= dict(
        title=dict(text='Clases de Industria',
                   font=dict(size=18))
    ),
    yaxis = dict(
        title=dict(text='Cantidad de personas',
                   font=dict(size=18))
    )
)

fig.show()

<h2><b>Cantidad de trabajadores por región<b><h2>

In [None]:
personas_region = df['Región'].value_counts().sort_index().reset_index()
personas_region['Región'] = personas_region['Región'].astype('str')

fig = px.bar(data_frame=personas_region,
             x='Región',
             y='count',
             text='count',
             color='Región',
             color_discrete_sequence=px.colors.qualitative.Antique
             )

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title=dict(
        text='Distribución de trabajadores por región',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=22)
    ),
    xaxis=dict(
        title=dict(text='Regiones',
                   font=dict(size=18))
    ),
    yaxis=dict(
        title=dict(text='Cantidad de personas',
                   font=dict(size=18))
    )
)

fig.show()


<h2><b>Gráfico de puestos ocupados</b></h2>

In [None]:
fig = px.box(data_frame=df,
             x='Ocupados',
             hover_data=['Función'],
             width=650,
             height=600,
             )

fig.update_layout(
    title=dict(
        text='Distribución de trabajadores por puesto',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=22)
    ),
    xaxis=dict(
        title=dict(text='Cantidad de trabajadores por puesto',
          font=dict(size=18))
    )
)
fig.show()

<h2><b>Complemento del análisis de puestos ocupados</b></h2>

In [None]:
df['Ocupados'].describe()

Unnamed: 0,Ocupados
count,396924.0
mean,8.761221
std,40.008041
min,0.0
25%,0.0
50%,0.0
75%,2.0
max,3643.0


<h1><b>Gráficos Bivariados</b></h1>

<h2><b>Género respecto a la variable objetivo</b></h2>

In [None]:
contratos_genero= df.groupby(['Categoría','Género'])['Categoría'].count().reset_index(name='Cantidad')
contratos_genero

fig = px.bar(data_frame=contratos_genero,
             x='Género',
             y='Cantidad',
             color='Categoría',
             barmode='group',
             color_discrete_sequence=px.colors.qualitative.Set1,
             text='Cantidad',
             width=800,
             height=700
             )

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title=dict(
        text='Tipos de contratos por género',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=24)
    ),
    xaxis=dict(
        title=dict(
            text='Género',
            font=dict(size=20)),
        tickfont=dict(size=16)
    ),
    yaxis=dict(
        title=dict(text='Cantidad de personas',
                   font=dict(size=20)),
        tickfont=dict(size=16)
    )
)

fig.show()

<h2><b>Función con respecto a la variable objetivo</b></h2>

In [None]:
df.head()

Unnamed: 0,AÑO,NUI,Región,Trimestre,Mes,Categoría,Función,Género,Ocupados,CLASE_INDUSTRIA_II,EXPLICACIÓN_CLASE_INDUSTRIA,COMEN
0,2005,21714,1,1,enero,CONTRATO,Directivos,mujeres,1,HUMANO,,
1,2005,21714,1,1,enero,CONTRATO,Productivos directos,mujeres,134,HUMANO,,
2,2005,21714,1,1,enero,CONTRATO,Productivos indirectos,mujeres,1,HUMANO,,
3,2005,21714,1,1,enero,CONTRATO,Administrativos,mujeres,1,HUMANO,,
4,2005,21714,1,1,enero,SUBCONTRATO,Productivos indirectos,mujeres,1,HUMANO,,


In [None]:
contratos_por_funcion = df.groupby(['Categoría','Función'])['Categoría'].count().reset_index(name='Cantidad')
contratos_por_funcion

fig = px.bar(data_frame=contratos_por_funcion,
             x='Función',
             y='Cantidad',
             text='Cantidad',
             color='Categoría',
             width=1100,
             height=750,
             barmode='group',
             color_discrete_sequence=px.colors.qualitative.Set1)

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title=dict(
        text='Distribución de función por tipo de contrato',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=24)
    ),
    xaxis=dict(
        title=dict(
            text='Tipo de función',
            font=dict(size=20)
        ),
        tickfont=dict(size=16)
    ),
    yaxis=dict(
        title=dict(
            text='Cantidad de personas',
            font=dict(size=20)),
        tickfont=dict(size=16)
    )
)

fig.show()

<h1><b>Clase de industria respecto de la variable objetivo</b></h1>

In [None]:
# df['CLASE_INDUSTRIA_II']         #Categoría

trabajadores_por_categoria = df.groupby(['Categoría','CLASE_INDUSTRIA_II'])['Categoría'].count().reset_index(name='Cantidad')
trabajadores_por_categoria

fig = px.bar(data_frame=trabajadores_por_categoria,
             x='CLASE_INDUSTRIA_II',
             y='Cantidad',
             text='Cantidad',
             color = 'Categoría',
             width=1100,
             height=750,
             barmode='group',
             color_discrete_sequence=px.colors.qualitative.Set1)

fig.update_traces(
    textposition='outside',
    textfont_size=14
)

fig.update_layout(
    title=dict(
        text='Distribución de clases de industria por tipo de contrato',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=24)
    ),
    xaxis=dict(
        title=dict(
            text='Clase de industria',
            font=dict(size=22)
        )
    ),
    yaxis=dict(
        title=dict(
            text='Cantidad',
            font=dict(size=22)
        )
    )


)

fig.show()

<h1><b>Gráficos de categoría de contratos por año</b></h1>

In [None]:
df_temporal = df.groupby(['AÑO','Categoría'])['Ocupados'].sum().reset_index()

fig = px.line(data_frame=df_temporal,
              x='AÑO',
              y='Ocupados',
              color='Categoría',
              text='AÑO',
              width = 1100,
              height = 650,
              color_discrete_sequence=px.colors.qualitative.Set1)

fig.update_traces(
    textposition = 'top center',
    textfont_size = 14
)

fig.update_layout(
    title=dict(
        text='Distribución de contratos por año',
        x=0.5,
        y=0.95,
        xanchor='center',
        yanchor='top',
        font=dict(size=24)
    ),
    xaxis=dict(
        title=dict(
            text='Año',
            font=dict(size=22)
        )
    ),
    yaxis=dict(
        title=dict(
            text='Cantidad',
            font=dict(size=22)
        )
    )

)
fig.show()