# Limpieza de archivos 

In [1]:
import pandas as pd
import os

In [2]:
dfs = {}

dfs["df1"] = pd.read_csv(os.path.join('data','artificial-intelligence-granted-patents-by-industry.csv'))
dfs["df2"] = pd.read_csv(os.path.join('data','corporate-investment-in-artificial-intelligence-by-type.csv'))
dfs["df3"] = pd.read_csv(os.path.join('data','newly-funded-artificial-intelligence-companies.csv'))
dfs["df4"] = pd.read_csv(os.path.join('data','IA_impact_on_jobs.csv'))
dfs["df5"] = pd.read_excel(os.path.join('data','tech_layoffs.xlsx'))


# Codigos para confirmar limpiezas

In [3]:
# información
[[print(f"{i}:\n"), print(f"{j.info()}\n\n")] for i,j in dfs.items()]
# print retorna None es normal 

df1:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 352 entries, 0 to 351
Data columns (total 13 columns):
 #   Column                                                                  Non-Null Count  Dtype 
---  ------                                                                  --------------  ----- 
 0   Entity                                                                  352 non-null    object
 1   Code                                                                    352 non-null    object
 2   Year                                                                    352 non-null    int64 
 3   Patent applications granted - Field: Banking and finance                352 non-null    int64 
 4   Patent applications granted - Field: Industry and manufacturing         352 non-null    int64 
 5   Patent applications granted - Field: Energy management                  352 non-null    int64 
 6   Patent applications granted - Field: Physical sciences and engineering  352 non-null

[[None, None], [None, None], [None, None], [None, None], [None, None]]

In [4]:
# duplicados
[[print(f"{i}:"), print(f"{len(j[j.duplicated(keep=False)])}\n")] for i,j in dfs.items()]
# Lo mismo para este None

df1:
0

df2:
0

df3:
0

df4:
0

df5:
0



[[None, None], [None, None], [None, None], [None, None], [None, None]]

In [5]:
# La limpieza clave que se hizo 

In [6]:
dfs["df2"].drop(columns="Code", inplace=True)

In [7]:
dfs["df2"].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 3 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   Entity                             55 non-null     object
 1   Year                               55 non-null     int64 
 2   Global corporate investment in AI  55 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 1.4+ KB


In [8]:
# Cargar el archivo Excel
# file_path = os.path.join('data','isoc_eb_ai$defaultview_spreadsheet.xlsx')
# excel_file = pd.ExcelFile(file_path)

# Obtener los nombres de las hojas
# print(excel_file.sheet_names)

In [9]:
# El dataset Europeo

In [10]:
#df = pd.read_excel(file_path, sheet_name='Nombre_de_la_hoja')

# Para el dataset europeo
df6 = pd.read_excel('data/isoc_eb_ai$defaultview_spreadsheet.xlsx', sheet_name='Sheet 1')


  warn("Workbook contains no default style, apply openpyxl's default")


In [11]:
df6

Unnamed: 0,Data extracted on 09/10/2024 03:00:35 from [ESTAT],Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,Dataset:,Artificial intelligence by size class of enter...,,,
1,Last updated:,24/09/2024 11:00,,,
2,,,,,
3,Time frequency,,Annual,,
4,Size classes in number of persons employed,,From 10 to 49 persons employed,,
5,Statistical classification of economic activit...,,"All activities (except agriculture, forestry a...",,
6,Information society indicator,,Enterprises use at least one of the AI technol...,,
7,Unit of measure,,Percentage of enterprises,,
8,,,,,
9,TIME,2021,,2023,


# Análisis de Roles Jerárquicos y Automatización por IA

## Contexto
Este notebook continúa el análisis del proyecto iniciado en `limpieza.ipynb`. 
Los datos utilizados ya han sido limpiados y procesados según los criterios 
establecidos en el notebook de limpieza.

## Datos Utilizados
- `IA_impact_on_jobs.csv`: Impacto de IA en diferentes roles laborales
- `artificial-intelligence-granted-patents-by-industry.csv`: Patentes por sector
- agregar los que faltan

## Objetivo
Responder a la pregunta: "¿Por qué ciertos roles o niveles jerárquicos dentro 
de las organizaciones parecen ser más susceptibles a la automatización por IA, 
y cómo esto está reconfigurando la estructura organizacional de las empresas?"

## Lo que se realizará
Este notebook analiza por qué ciertos roles jerárquicos son más susceptibles 
a la automatización por IA y cómo esto reconfigura la estructura organizacional.

In [12]:
# Importaciones
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns


In [13]:
# Datos ordenados
# Dataset 1: Impacto de IA en trabajos
df_impact = pd.read_csv('data/IA_impact_on_jobs.csv')

# Dataset 2: Patentes de IA por sector
df_patents = pd.read_csv('data/artificial-intelligence-granted-patents-by-industry.csv')

# Dataset 3: Inversión corporativa en IA
df_investment = pd.read_csv('data/corporate-investment-in-artificial-intelligence-by-type.csv')

# Dataset 4: Nuevas empresas de IA
df_companies = pd.read_csv('data/newly-funded-artificial-intelligence-companies.csv')

# Dataset 5: Despidos tecnológicos
df_layoffs = pd.read_excel('data/tech_layoffs.xlsx')

# Dataset 6: Datos de empresas europeas
df_eu = pd.read_excel('data/isoc_eb_ai$defaultview_spreadsheet.xlsx', sheet_name='Sheet 1')

  warn("Workbook contains no default style, apply openpyxl's default")


In [14]:
# Verificación inicial de datos
for name, df in {
    'Impacto IA': df_impact,
    'Patentes': df_patents,
    'Inversión': df_investment,
    'Empresas': df_companies,
    'Despidos': df_layoffs,
    'Europa': df_eu
}.items():
    print(f"\nDataset: {name}")
    print(f"Dimensiones: {df.shape}")
    print("Columnas:", df.columns.tolist())

# Forma ordenada de ver verificación, intenté copiarle la forma a la flo y algo de ia :D


Dataset: Impacto IA
Dimensiones: (4706, 6)
Columnas: ['Job titiles', 'AI Impact', 'Tasks', 'AI models', 'AI_Workload_Ratio', 'Domain']

Dataset: Patentes
Dimensiones: (352, 13)
Columnas: ['Entity', 'Code', 'Year', 'Patent applications granted - Field: Banking and finance', 'Patent applications granted - Field: Industry and manufacturing', 'Patent applications granted - Field: Energy management', 'Patent applications granted - Field: Physical sciences and engineering', 'Patent applications granted - Field: Security', 'Patent applications granted - Field: Life sciences', 'Patent applications granted - Field: Transportation', 'Patent applications granted - Field: Business', 'Patent applications granted - Field: Telecommunications', 'Patent applications granted - Field: Personal devices and computing']

Dataset: Inversión
Dimensiones: (55, 4)
Columnas: ['Entity', 'Code', 'Year', 'Global corporate investment in AI']

Dataset: Empresas
Dimensiones: (44, 4)
Columnas: ['Entity', 'Code', 'Year

In [15]:
print("Análisis para responder la pregunta de investigación")

Análisis para responder la pregunta de investigación


In [16]:
print("""
¿Por qué ciertos roles o niveles jerárquicos dentro de las organizaciones parecen 
ser más susceptibles a la automatización por IA, y cómo esto está reconfigurando 
la estructura organizacional de las empresas?
""")


¿Por qué ciertos roles o niveles jerárquicos dentro de las organizaciones parecen 
ser más susceptibles a la automatización por IA, y cómo esto está reconfigurando 
la estructura organizacional de las empresas?



## 1.1 Análisis por dominio y nivel jerárquico


In [18]:
print("\nAnálisis de impacto por dominio:")
domain_analysis = dfs["df4"].groupby('Domain').agg({
    'AI_Workload_Ratio': 'mean',
    'AI models': 'mean',
    'Tasks': 'mean'
}).sort_values('AI_Workload_Ratio', ascending=False)

domain_analysis



Análisis de impacto por dominio:


Unnamed: 0_level_0,AI_Workload_Ratio,AI models,Tasks
Domain,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Administrative & Clerical,inf,1808.208068,395.673036
Construction,inf,1849.408511,410.734043
Supply Chain & Logistics,inf,1786.021231,393.356688
Data & IT,inf,1814.462845,392.452229
Law Enforcement,inf,1778.42766,401.202128
Medical & Healthcare,inf,1760.847134,386.643312
Sales & Marketing,0.20753,1855.704255,412.740426
Leadership & Strategy,0.204877,1817.467091,398.779193
Hospitality,0.204731,1869.451064,416.682979
Communication & PR,0.200423,1836.957537,398.898089


In [23]:
# Identificar roles más susceptibles por dominio
high_impact_roles = dfs["df4"].nlargest(10, 'AI_Workload_Ratio')[['Job titiles', 'Domain', 'AI_Workload_Ratio', 'AI models']]
print("\nRoles más susceptibles a automatización:")
high_impact_roles



Roles más susceptibles a automatización:


Unnamed: 0,Job titiles,Domain,AI_Workload_Ratio,AI models
3034,Charter Pilot,Medical & Healthcare,inf,0
3035,Commercial Pilot,Supply Chain & Logistics,inf,0
3036,Conductor,Law Enforcement,inf,0
3037,Corporate Pilot,Construction,inf,0
3184,Dog Groomer,Medical & Healthcare,inf,0
3211,Constable,Data & IT,inf,0
3322,Crossing Guard,Administrative & Clerical,inf,0
3058,After School Teacher,Sales & Marketing,1.0,1
3185,Dog Trainer,Supply Chain & Logistics,0.833333,6
186,Flooring Installer,Law Enforcement,0.5,2


## 1.2 Análisis de susceptibilidad a la automatización


In [25]:
# Correlación entre variables de impacto
correlation_matrix = dfs["df4"][['AI_Workload_Ratio', 'Tasks', 'AI models']].corr()
print("\nCorrelación entre factores de automatización:")
correlation_matrix


Correlación entre factores de automatización:


Unnamed: 0,AI_Workload_Ratio,Tasks,AI models
AI_Workload_Ratio,1.0,0.631305,0.346893
Tasks,0.631305,1.0,0.92835
AI models,0.346893,0.92835,1.0


## 1.3 Análisis de patrones en despidos tecnológicos


In [28]:
# Usando df5 (tech_layoffs.xlsx)
layoffs_by_industry = dfs["df5"].groupby('Industry').agg({
    'Laid_Off': 'sum',
    'Company_Size_before_Layoffs': 'mean',
    'Percentage': 'mean'
}).sort_values('Laid_Off', ascending=False)

print("\nPatrones de despidos por industria:")
layoffs_by_industry


Patrones de despidos por industria:


Unnamed: 0_level_0,Laid_Off,Company_Size_before_Layoffs,Percentage
Industry,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Retail,59454.0,13043.192308,23.746924
Consumer,57446.0,6732.486486,25.139265
Other,49343.0,8344.0,17.767442
Transportation,35649.0,3211.673913,20.228982
Finance,32815.0,1170.22381,21.709091
Food,32772.0,2696.090909,27.139529
Hardware,16861.0,26467.222222,12.555556
Real Estate,15181.0,1722.263158,27.63261
Healthcare,14545.0,872.405405,28.131579
Sales,14331.0,11457.1,12.935484


## 1.4 Correlación con inversión en IA


In [30]:
# Usando df2 (corporate-investment-in-artificial-intelligence-by-type.csv)
investment_trend = dfs["df2"].groupby('Year')['Global corporate investment in AI'].mean()
print("\nTendencia de inversión en IA por año:")
print(investment_trend)


Tendencia de inversión en IA por año:
Year
2013    6.778981e+09
2014    8.717324e+09
2015    1.162914e+10
2016    1.527321e+10
2017    2.375411e+10
2018    3.436722e+10
2019    4.378210e+10
2020    8.480107e+10
2021    1.349600e+11
2022    8.701627e+10
2023    6.728766e+10
Name: Global corporate investment in AI, dtype: float64


## 1.5. Conclusiones
