# TRANSFORMACIÓN, FILTRACIÓN Y REORDENAMIENTO

## Introducción

En esta sesión, aplicaremos herramientas cruciales para el análisis de datos: transformación, filtración y ordenamiento, en el contexto de la inestabilidad geopolítica en Medio Oriente. Exploraremos cómo convertir tipos de datos, manipular textos, y aplicar funciones personalizadas en un DataFrame para analizar los conflictos, cambios políticos, y tensiones en la región. Además, aprenderemos a filtrar nuestros datos para obtener subconjuntos específicos y a ordenarlos para una mejor interpretación y análisis.

## Objetivo

- Realizar el cambio de tipos de datos para análisis precisos.
- Manipular textos y cadenas de caracteres relacionados con eventos geopolíticos.
- Aplicar funciones personalizadas a un DataFrame que reflejen el impacto y las tendencias en la región.
- Filtrar datos para enfocarse en ciertos aspectos, como conflictos específicos o periodos históricos.
- Ordenar el dataset según diferentes criterios, como cronología o intensidad del conflicto.

## Transformación de Datos

En el análisis de la inestabilidad geopolítica en Medio Oriente, la transformación de datos es esencial. Esto implica modificar datos para adecuarlos al formato necesario para su análisis. Por ejemplo, podríamos convertir textos descriptivos sobre eventos en categorías numéricas o estandarizar fechas para un análisis temporal coherente. Es crucial, ya que los datos rara vez se presentan de la forma exacta en que los necesitamos para nuestras investigaciones y análisis.

# Casting

Uno de los aspectos más frecuentes en la transformación de datos es el cambio de tipo de dato. Por ejemplo, podríamos tener fechas como cadenas de texto que necesiten ser convertidas a objetos de fecha para análisis temporal. O bien, podríamos tener descripciones de eventos que deban ser codificadas como valores categóricos. Entender y realizar estas conversiones correctamente es vital para obtener resultados precisos y útiles.

Primero, vamos a importar nuestro dataset y comenzar con estas transformaciones:



In [1]:
import pandas as pd

In [2]:
df=pd.read_csv('../Dataset/geopolitical_instability_middle_east.csv', sep=',')
df

Unnamed: 0,Conflict_ID,Region,Conflict_Type,Start_Date,End_Date,Number_of_Incidents,Number_of_Deaths,Intervention_ID,Intervention_Country,Intervention_Organization,...,Government_Transparency,Number_of_Scandals,Number_of_Displaced_People,Number_of_Refugees,Humanitarian_Needs,Access_to_Humanitarian_Aid,Technology_Use_in_Conflicts,Technological_Investment,Number_of_Data_Analysis_Projects,Data_Analysis_Effectiveness
0,1,Afghanistan,terrorism,2010-01-01,,48,820,1,Iraq,Red Cross,...,8,6,1097330,973012,medicine,high,low,40,12,7
1,2,Afghanistan,civil war,2010-01-02,2023-01-01,18,284,2,Afghanistan,Red Cross,...,7,2,4064229,1822404,shelter,low,medium,71,48,2
2,3,Iran,terrorism,2010-01-03,2023-01-01,55,29,3,Yemen,UN,...,2,4,1308294,1392299,shelter,medium,high,42,4,1
3,4,Iran,territorial conflict,2010-01-04,2023-01-01,14,458,4,Afghanistan,Red Cross,...,4,6,92928,878925,medicine,medium,medium,18,30,4
4,5,Iraq,terrorism,2010-01-05,2023-01-01,34,935,5,Iraq,Red Cross,...,4,5,3494593,1090382,water,medium,low,76,11,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,Syria,terrorism,2037-05-14,,63,757,9996,Iraq,UN,...,1,9,938855,534834,shelter,low,high,80,47,7
9996,9997,Iran,terrorism,2037-05-15,,95,45,9997,Iran,UN,...,2,1,3445901,2273746,water,low,medium,57,31,2
9997,9998,Afghanistan,territorial conflict,2037-05-16,,98,121,9998,Yemen,Red Cross,...,6,5,4246780,1884898,food,medium,medium,91,1,9
9998,9999,Syria,territorial conflict,2037-05-17,,38,713,9999,Afghanistan,UN,...,1,4,946595,414533,water,low,medium,9,13,8


In [3]:
df.head(5)

Unnamed: 0,Conflict_ID,Region,Conflict_Type,Start_Date,End_Date,Number_of_Incidents,Number_of_Deaths,Intervention_ID,Intervention_Country,Intervention_Organization,...,Government_Transparency,Number_of_Scandals,Number_of_Displaced_People,Number_of_Refugees,Humanitarian_Needs,Access_to_Humanitarian_Aid,Technology_Use_in_Conflicts,Technological_Investment,Number_of_Data_Analysis_Projects,Data_Analysis_Effectiveness
0,1,Afghanistan,terrorism,2010-01-01,,48,820,1,Iraq,Red Cross,...,8,6,1097330,973012,medicine,high,low,40,12,7
1,2,Afghanistan,civil war,2010-01-02,2023-01-01,18,284,2,Afghanistan,Red Cross,...,7,2,4064229,1822404,shelter,low,medium,71,48,2
2,3,Iran,terrorism,2010-01-03,2023-01-01,55,29,3,Yemen,UN,...,2,4,1308294,1392299,shelter,medium,high,42,4,1
3,4,Iran,territorial conflict,2010-01-04,2023-01-01,14,458,4,Afghanistan,Red Cross,...,4,6,92928,878925,medicine,medium,medium,18,30,4
4,5,Iraq,terrorism,2010-01-05,2023-01-01,34,935,5,Iraq,Red Cross,...,4,5,3494593,1090382,water,medium,low,76,11,8


Vamos a ver los tipos de datos de las columnas

In [4]:
df.dtypes

Conflict_ID                           int64
Region                               object
Conflict_Type                        object
Start_Date                           object
End_Date                             object
Number_of_Incidents                   int64
Number_of_Deaths                      int64
Intervention_ID                       int64
Intervention_Country                 object
Intervention_Organization            object
Intervention_Type                    object
Intervention_Start_Date              object
Intervention_End_Date                object
Intervention_Success                 object
Country                              object
Population                            int64
GDP_Per_Capita                        int64
Unemployment_Rate                   float64
Poverty_Index                       float64
Literacy_Rate                       float64
Ethnic_Group                         object
Main_Religion                        object
Ethnic_Religious_Tension        

**astype**

La manera más sencilla de transformar un dato en otro tipo de dato es usando el método astype. Basta con seleccionar la Serie que quieres transformar, llamar el método y pasarle el tipo de dato final:

In [5]:
df['Unemployment_Rate'].astype(float)

0       13.84
1       27.16
2       30.28
3       18.64
4       36.74
        ...  
9995    13.19
9996    25.92
9997    18.18
9998    36.73
9999    36.01
Name: Unemployment_Rate, Length: 10000, dtype: float64

In [6]:
df['Start_Date']

0       2010-01-01
1       2010-01-02
2       2010-01-03
3       2010-01-04
4       2010-01-05
           ...    
9995    2037-05-14
9996    2037-05-15
9997    2037-05-16
9998    2037-05-17
9999    2037-05-18
Name: Start_Date, Length: 10000, dtype: object

En esta sección, documentamos el proceso de traducción y simplificación de los nombres de las columnas en el dataset de análisis de inestabilidad geopolítica en Medio Oriente. Esta acción es importante para estandarizar y facilitar la manipulación de datos, especialmente en contextos multilingües y para mejorar la legibilidad del código.

## Proceso de Traducción y Simplificación

### Objetivo

El objetivo fue traducir los nombres de las columnas de inglés a español y, donde fuese necesario, simplificar los nombres para hacerlos más manejables sin perder claridad en su significado.

In [8]:
df.dtypes

Conflict_ID                           int64
Region                               object
Conflict_Type                        object
Start_Date                           object
End_Date                             object
Number_of_Incidents                   int64
Number_of_Deaths                      int64
Intervention_ID                       int64
Intervention_Country                 object
Intervention_Organization            object
Intervention_Type                    object
Intervention_Start_Date              object
Intervention_End_Date                object
Intervention_Success                 object
Country                              object
Population                            int64
GDP_Per_Capita                        int64
Unemployment_Rate                   float64
Poverty_Index                       float64
Literacy_Rate                       float64
Ethnic_Group                         object
Main_Religion                        object
Ethnic_Religious_Tension        

In [9]:
df.head(5)

Unnamed: 0,Conflict_ID,Region,Conflict_Type,Start_Date,End_Date,Number_of_Incidents,Number_of_Deaths,Intervention_ID,Intervention_Country,Intervention_Organization,...,Government_Transparency,Number_of_Scandals,Number_of_Displaced_People,Number_of_Refugees,Humanitarian_Needs,Access_to_Humanitarian_Aid,Technology_Use_in_Conflicts,Technological_Investment,Number_of_Data_Analysis_Projects,Data_Analysis_Effectiveness
0,1,Afghanistan,terrorism,2010-01-01,,48,820,1,Iraq,Red Cross,...,8,6,1097330,973012,medicine,high,low,40,12,7
1,2,Afghanistan,civil war,2010-01-02,2023-01-01,18,284,2,Afghanistan,Red Cross,...,7,2,4064229,1822404,shelter,low,medium,71,48,2
2,3,Iran,terrorism,2010-01-03,2023-01-01,55,29,3,Yemen,UN,...,2,4,1308294,1392299,shelter,medium,high,42,4,1
3,4,Iran,territorial conflict,2010-01-04,2023-01-01,14,458,4,Afghanistan,Red Cross,...,4,6,92928,878925,medicine,medium,medium,18,30,4
4,5,Iraq,terrorism,2010-01-05,2023-01-01,34,935,5,Iraq,Red Cross,...,4,5,3494593,1090382,water,medium,low,76,11,8


In [10]:
diccionario_renombramiento = {
    'Conflict_ID': 'ID_Conflicto',
    'Region': 'Región',
    'Conflict_Type': 'Tipo_Conflicto',
    'Start_Date': 'Fecha_Inicio',
    'End_Date': 'Fecha_Fin',
    'Number_of_Incidents': 'Incidentes',
    'Number_of_Deaths': 'Muertes',
    'Intervention_ID': 'ID_Intervención',
    'Intervention_Country': 'País_Intervención',
    'Intervention_Organization': 'Org_Intervención',
    'Intervention_Type': 'Tipo_Intervención',
    'Intervention_Start_Date': 'Inicio_Intervención',
    'Intervention_End_Date': 'Fin_Intervención',
    'Intervention_Success': 'Éxito_Intervención',
    'Country': 'País',
    'Population': 'Población',
    'GDP_Per_Capita': 'PIB_Per_Cápita',
    'Unemployment_Rate': 'Desempleo',
    'Poverty_Index': 'Índice_Pobreza',
    'Literacy_Rate': 'Alfabetización',
    'Ethnic_Group': 'Grupo_Étnico',
    'Main_Religion': 'Religión_Principal',
    'Ethnic_Religious_Tension': 'Tensión_ER',
    'Number_of_Conflicts': 'Conflictos',
    'Last_Conflict_Date': 'Último_Conflicto',
    'Corruption_Index': 'Índice_Corrupción',
    'Governance_Quality': 'Calidad_Gobernanza',
    'Government_Transparency': 'Transparencia_Gob',
    'Number_of_Scandals': 'Escándalos',
    'Number_of_Displaced_People': 'Desplazados',
    'Number_of_Refugees': 'Refugiados',
    'Humanitarian_Needs': 'Necesidades_Humanitarias',
    'Access_to_Humanitarian_Aid': 'Acceso_Ayuda_Humanitaria',
    'Technology_Use_in_Conflicts': 'Tecno_Conflictos',
    'Technological_Investment': 'Inversión_Tecno',
    'Number_of_Data_Analysis_Projects': 'Proyectos_Análisis_Datos',
    'Data_Analysis_Effectiveness': 'Efectividad_Análisis'
}

In [11]:
df.rename(columns=diccionario_renombramiento, inplace=True)

In [13]:
df.dtypes

ID_Conflicto                  int64
Región                       object
Tipo_Conflicto               object
Fecha_Inicio                 object
Fecha_Fin                    object
Incidentes                    int64
Muertes                       int64
ID_Intervención               int64
País_Intervención            object
Org_Intervención             object
Tipo_Intervención            object
Inicio_Intervención          object
Fin_Intervención             object
Éxito_Intervención           object
País                         object
Población                     int64
PIB_Per_Cápita                int64
Desempleo                   float64
Índice_Pobreza              float64
Alfabetización              float64
Grupo_Étnico                 object
Religión_Principal           object
Tensión_ER                   object
Conflictos                    int64
Último_Conflicto             object
Índice_Corrupción           float64
Calidad_Gobernanza            int64
Transparencia_Gob           

In [14]:
df

Unnamed: 0,ID_Conflicto,Región,Tipo_Conflicto,Fecha_Inicio,Fecha_Fin,Incidentes,Muertes,ID_Intervención,País_Intervención,Org_Intervención,...,Transparencia_Gob,Escándalos,Desplazados,Refugiados,Necesidades_Humanitarias,Acceso_Ayuda_Humanitaria,Tecno_Conflictos,Inversión_Tecno,Proyectos_Análisis_Datos,Efectividad_Análisis
0,1,Afghanistan,terrorism,2010-01-01,,48,820,1,Iraq,Red Cross,...,8,6,1097330,973012,medicine,high,low,40,12,7
1,2,Afghanistan,civil war,2010-01-02,2023-01-01,18,284,2,Afghanistan,Red Cross,...,7,2,4064229,1822404,shelter,low,medium,71,48,2
2,3,Iran,terrorism,2010-01-03,2023-01-01,55,29,3,Yemen,UN,...,2,4,1308294,1392299,shelter,medium,high,42,4,1
3,4,Iran,territorial conflict,2010-01-04,2023-01-01,14,458,4,Afghanistan,Red Cross,...,4,6,92928,878925,medicine,medium,medium,18,30,4
4,5,Iraq,terrorism,2010-01-05,2023-01-01,34,935,5,Iraq,Red Cross,...,4,5,3494593,1090382,water,medium,low,76,11,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,Syria,terrorism,2037-05-14,,63,757,9996,Iraq,UN,...,1,9,938855,534834,shelter,low,high,80,47,7
9996,9997,Iran,terrorism,2037-05-15,,95,45,9997,Iran,UN,...,2,1,3445901,2273746,water,low,medium,57,31,2
9997,9998,Afghanistan,territorial conflict,2037-05-16,,98,121,9998,Yemen,Red Cross,...,6,5,4246780,1884898,food,medium,medium,91,1,9
9998,9999,Syria,territorial conflict,2037-05-17,,38,713,9999,Afghanistan,UN,...,1,4,946595,414533,water,low,medium,9,13,8
