# Limpieza de archivos 

In [19]:
import pandas as pd
import os

In [20]:
dfs = {}

dfs["df1"] = pd.read_csv(os.path.join('data','artificial-intelligence-granted-patents-by-industry.csv'))
dfs["df2"] = pd.read_csv(os.path.join('data','corporate-investment-in-artificial-intelligence-by-type.csv'))
dfs["df3"] = pd.read_csv(os.path.join('data','newly-funded-artificial-intelligence-companies.csv'))
dfs["df4"] = pd.read_csv(os.path.join('data','IA_impact_on_jobs.csv'))
dfs["df5"] = pd.read_excel(os.path.join('data','tech_layoffs.xlsx'))


# Codigos para confirmar limpiezas

In [24]:
# información
[[print(f"{i}:\n"), print(f"{j.info()}\n\n")] for i,j in dfs.items()]
# print retorna None es normal 

df1:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 352 entries, 0 to 351
Data columns (total 13 columns):
 #   Column                                                                  Non-Null Count  Dtype 
---  ------                                                                  --------------  ----- 
 0   Entity                                                                  352 non-null    object
 1   Code                                                                    352 non-null    object
 2   Year                                                                    352 non-null    int64 
 3   Patent applications granted - Field: Banking and finance                352 non-null    int64 
 4   Patent applications granted - Field: Industry and manufacturing         352 non-null    int64 
 5   Patent applications granted - Field: Energy management                  352 non-null    int64 
 6   Patent applications granted - Field: Physical sciences and engineering  352 non-null

[[None, None], [None, None], [None, None], [None, None], [None, None]]

In [22]:
# duplicados
[[print(f"{i}:"), print(f"{len(j[j.duplicated(keep=False)])}\n")] for i,j in dfs.items()]
# Lo mismo para este None

df1:
0

df2:
0

df3:
0

df4:
0

df5:
0



[[None, None], [None, None], [None, None], [None, None], [None, None]]

In [None]:
# La limpieza clave que se hizo 

In [5]:
dfs["df2"].drop(columns="Code", inplace=True)

In [6]:
dfs["df2"].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 3 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   Entity                             55 non-null     object
 1   Year                               55 non-null     int64 
 2   Global corporate investment in AI  55 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 1.4+ KB


In [25]:
# Cargar el archivo Excel
# file_path = os.path.join('data','isoc_eb_ai$defaultview_spreadsheet.xlsx')
# excel_file = pd.ExcelFile(file_path)

# Obtener los nombres de las hojas
# print(excel_file.sheet_names)

In [None]:
# El dataset Europeo

In [28]:
#df = pd.read_excel(file_path, sheet_name='Nombre_de_la_hoja')

# Para el dataset europeo
df6 = pd.read_excel('data/isoc_eb_ai$defaultview_spreadsheet.xlsx', sheet_name='Sheet 1')


  warn("Workbook contains no default style, apply openpyxl's default")


In [27]:
df6

Unnamed: 0,Data extracted on 09/10/2024 03:00:35 from [ESTAT],Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,Dataset:,Artificial intelligence by size class of enter...,,,
1,Last updated:,24/09/2024 11:00,,,
2,,,,,
3,Time frequency,,Annual,,
4,Size classes in number of persons employed,,From 10 to 49 persons employed,,
5,Statistical classification of economic activit...,,"All activities (except agriculture, forestry a...",,
6,Information society indicator,,Enterprises use at least one of the AI technol...,,
7,Unit of measure,,Percentage of enterprises,,
8,,,,,
9,TIME,2021,,2023,


# Análisis de Roles Jerárquicos y Automatización por IA

## Contexto
Este notebook continúa el análisis del proyecto iniciado en `limpieza.ipynb`. 
Los datos utilizados ya han sido limpiados y procesados según los criterios 
establecidos en el notebook de limpieza.

## Datos Utilizados
- `IA_impact_on_jobs.csv`: Impacto de IA en diferentes roles laborales
- `artificial-intelligence-granted-patents-by-industry.csv`: Patentes por sector
- agregar los que faltan

## Objetivo
Responder a la pregunta: "¿Por qué ciertos roles o niveles jerárquicos dentro 
de las organizaciones parecen ser más susceptibles a la automatización por IA, 
y cómo esto está reconfigurando la estructura organizacional de las empresas?"

## Lo que se realizará
Este notebook analiza por qué ciertos roles jerárquicos son más susceptibles 
a la automatización por IA y cómo esto reconfigura la estructura organizacional.

In [None]:
# Importaciones
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns


In [32]:
# Datos ordenados
# Dataset 1: Impacto de IA en trabajos
df_impact = pd.read_csv('data/IA_impact_on_jobs.csv')

# Dataset 2: Patentes de IA por sector
df_patents = pd.read_csv('data/artificial-intelligence-granted-patents-by-industry.csv')

# Dataset 3: Inversión corporativa en IA
df_investment = pd.read_csv('data/corporate-investment-in-artificial-intelligence-by-type.csv')

# Dataset 4: Nuevas empresas de IA
df_companies = pd.read_csv('data/newly-funded-artificial-intelligence-companies.csv')

# Dataset 5: Despidos tecnológicos
df_layoffs = pd.read_excel('data/tech_layoffs.xlsx')

# Dataset 6: Datos de empresas europeas
df_eu = pd.read_excel('data/isoc_eb_ai$defaultview_spreadsheet.xlsx', sheet_name='Sheet 1')

  warn("Workbook contains no default style, apply openpyxl's default")


In [37]:
# Verificación inicial de datos
for name, df in {
    'Impacto IA': df_impact,
    'Patentes': df_patents,
    'Inversión': df_investment,
    'Empresas': df_companies,
    'Despidos': df_layoffs,
    'Europa': df_eu
}.items():
    print(f"\nDataset: {name}")
    print(f"Dimensiones: {df.shape}")
    print("Columnas:", df.columns.tolist())

# Forma ordenada de ver verificación, intenté copiarle la forma a la flo y algo de ia :D


Dataset: Impacto IA
Dimensiones: (4706, 6)
Columnas: ['Job titiles', 'AI Impact', 'Tasks', 'AI models', 'AI_Workload_Ratio', 'Domain']

Dataset: Patentes
Dimensiones: (352, 13)
Columnas: ['Entity', 'Code', 'Year', 'Patent applications granted - Field: Banking and finance', 'Patent applications granted - Field: Industry and manufacturing', 'Patent applications granted - Field: Energy management', 'Patent applications granted - Field: Physical sciences and engineering', 'Patent applications granted - Field: Security', 'Patent applications granted - Field: Life sciences', 'Patent applications granted - Field: Transportation', 'Patent applications granted - Field: Business', 'Patent applications granted - Field: Telecommunications', 'Patent applications granted - Field: Personal devices and computing']

Dataset: Inversión
Dimensiones: (55, 4)
Columnas: ['Entity', 'Code', 'Year', 'Global corporate investment in AI']

Dataset: Empresas
Dimensiones: (44, 4)
Columnas: ['Entity', 'Code', 'Year

In [34]:
print("Análisis para responder la pregunta de investigación")

Análisis para responder la pregunta de investigación


In [35]:
print("""
¿Por qué ciertos roles o niveles jerárquicos dentro de las organizaciones parecen 
ser más susceptibles a la automatización por IA, y cómo esto está reconfigurando 
la estructura organizacional de las empresas?
""")


¿Por qué ciertos roles o niveles jerárquicos dentro de las organizaciones parecen 
ser más susceptibles a la automatización por IA, y cómo esto está reconfigurando 
la estructura organizacional de las empresas?



## 1.1 Análisis por dominio y nivel jerárquico


## 1.2 Análisis de susceptibilidad a la automatización


## 1.3 Análisis de patrones en despidos tecnológicos


## 1.4 Correlación con inversión en IA


## 1.5. Conclusiones
