# INFORMACIÓN DEL PROYECTO

### TÍTULO

Guerra de Ucrania: las pérdidas y el coste de la comida

### TEMA

Una comparativa de 6 datasets de tamaños variables sobre diversos aspectos de la guerra de Ucrania que tienen que ver con las pérdidas (sobre todo las rusas, de las que hay más datos disponibles), los refugiados y el precio de la comida en los puestos locales. El nexo de la mayoría son las fechas.

### HIPÓTESIS

Define aquí lo que será la hipótesis de tu proyecto.
Puede que tengas más de una, pero tu proyecto lo harás teniendo una principal hipótesis.

1) Se espera que el precio de la comida en Ucrania oscile en función del número de refugiados que huyen del país y de la cercanía al frente de los puestos de venta. Asimismo, un peor rendimiento por parte del bando ruso debería animar a los proveedores a vender en el país y aumentar la oferta.

Más refugiados, mayor lejanía del frente o más pérdidas rusas = precios más bajos

2) Con el paso del tiempo, aumentan las pérdidas materiales rusas y se reducen las pérdidas humanas. Ello puede ser indicativo de una creciente preocupación de la administración rusa por la opinión pública, con lo que, entre otras cosas, usa más drones o artillería y menos tropas terrestres para minimizar la cuenta de bajas.

Uso mayor de tropas mecanizadas = uso reducido de soldados rasos = más pérdidas materiales y menos muertos

3) Los ejércitos ruso y ucraniano todavía se sirven de mucho material de la Unión Soviética, que, en comparación con el equipamiento moderno, tiende a ser capturado o destruido con mayor frecuencia.

Uso de material soviético = más destrucciones y más capturas

## OBTENCIÓN DE LOS DATOS

### DATASETS Y FUENTES ALTERNATIVAS DE DATOS

Incluye aquí una breve descripción del dataset o datasets de los que partirás para poder evaluar tu hipótesis. <br>
También incluye el origen de estos datos y su fuente.

Acumulativo de refugiados ucranianos por fecha y destino (fuente original: API sobre actualizaciones de la guerra de RapidAPI):
https://www.kaggle.com/datasets/anuragbantu/ukraine-invasion-refugee-data-2022

Precio de la comida en cada mercado de Ucrania por fecha y tipo. He añadido una columna y he apuntado, a mano, la longitud en términos de coordenadas (fuente: Google Maps), ya que es una buena aproximación para calcular la distancia respecto a la frontera este, que es donde se abre el frente (fuente original: Centre for Humanitarian Data de la Oficina de Naciones Unidas para la Coordinación de Asuntos Humanitarios):
https://data.humdata.org/dataset/wfp-food-prices-for-ukraine

Pérdidas rusas personales por fecha (fuente original: múltiples, ver en Kaggle; entre ellas, el Ejército y el Ministerio de Defensa del Ucrania):
https://www.kaggle.com/datasets/piterfm/2022-ukraine-russian-war

Pérdidas rusas materiales, según categorías generales, por fecha (fuente original: es el mismo Kaggle que el anterior):
https://www.kaggle.com/datasets/piterfm/2022-ukraine-russian-war

Pérdidas materiales rusas, incluyendo modelo y fabricante, sin fecha (fuente original: Oryxspioenkop, web alemana de análisis datos de defensa de código abierto e investigación sobre la guerra):
https://www.kaggle.com/datasets/piterfm/2022-ukraine-russia-war-equipment-losses-oryx

Pérdidas materiales ucranianas, incluyendo modelo y fabricante, sin fecha (fuente original: es el mismo Kaggle que el anterior):
https://www.kaggle.com/datasets/piterfm/2022-ukraine-russia-war-equipment-losses-oryx


Muestra mediante un head() los principales datasets con los que vas a trabajar

In [1]:
# Refugiados ucranianos (acumulativo) por fecha y destino:

import pandas as pd

df_refugees = pd.read_csv(r'src\data\Refugees.csv')

df_refugees = df_refugees[['date', 'country', 'individuals']]

df_refugees.head()


Unnamed: 0,date,country,individuals
0,2022-09-13,Poland,6114787
1,2022-09-12,Russian Federation,2593209
2,2022-09-13,Slovakia,778335
3,2022-09-10,Republic of Moldova,606707
4,2022-09-11,Belarus,16705


In [2]:
# Precio de la comida en cada mercado de Ucrania por fecha y tipo + columna de longitudes para comparar la cercanía a la frontera este:

import datetime

df_prices = pd.read_csv(r'src\data\Prices.csv', low_memory=False)

df_prices = df_prices.drop(index=0)

df_prices['date'] = pd.to_datetime(df_prices['date'], exact=False).dt.date

start_war = datetime.date(2022, 2, 24)

df_prices = df_prices[df_prices['date'] >= start_war]

df_prices.reset_index(drop=True, inplace=True)

df_prices = df_prices[['date', 'category', 'commodity', 'unit', 'usdprice', 'market']]

longitude = {'Kherson': '32.6169° E',
                'Dnipropetrovsk': '35.0462° E',
                'Vinnytsya': '28.4682° E',
                'Zhytomyr': '28.6587° E',
                'Poltava': '34.5514° E',
                'Mykolayiv': '31.9946° E',
                'Kyiv city': '30.5234° E',
                'Iv.-Frankivsk': '24.7111° E',
                'Volyn': '25.3254° E',
                'Zaporizhzhya': '35.1396° E',
                'Khmelnytskiy': '26.9871° E',
                'Chernivtsi': '25.9358° E',
                'Kirovohrad': '32.2623° E',
                'Lviv': '24.0297° E',
                'Zakarpattya': '22.2879° E',
                'Sumy': '34.7981° E',
                'Ternopyl': '25.5948° E',
                'Odesa': '30.7233° E',
                'Cherkasy': '32.0598° E',
                'Kyiv': '30.5234° E',
                'Rivne': '26.2516° E',
                'Chernihiv': '31.2893° E',
                'Kharkiv': '36.2304° E',
                'Donetsk': '37.8028° E'
            }

for key, value in longitude.items():
    df_prices.loc[df_prices['market'] == key, 'longitude'] = value

df_prices.head()


Unnamed: 0,date,category,commodity,unit,usdprice,market,longitude
0,2022-03-15,cereals and tubers,Barley,KG,0.502,Cherkasy,32.0598° E
1,2022-03-15,cereals and tubers,Bread (first grade flour),KG,0.7094,Cherkasy,32.0598° E
2,2022-03-15,cereals and tubers,Bread (high grade flour),KG,0.8548,Cherkasy,32.0598° E
3,2022-03-15,cereals and tubers,Bread (rye),KG,0.7021,Cherkasy,32.0598° E
4,2022-03-15,cereals and tubers,Bread (wheat),500 G,0.4372,Cherkasy,32.0598° E


In [3]:
# Pérdidas rusas personales por fecha:


def decumulate_columns(dataframe, excluded=None):
    '''Requires a dataframe as a positional argument and it may have a list of excluded columns as a key argument'''
    if excluded is None:
        excluded = []
    for column in dataframe.columns:
        if column not in excluded:
            for index, value in reversed(list(enumerate(dataframe[column]))):
                if index != 0:
                    dataframe.loc[[index], column] = value - dataframe[column][index-1]


df_personnel = pd.read_csv(r'src\data\Russia_losses_personnel(date).csv')

df_personnel = df_personnel[['date', 'personnel']]

decumulate_columns(df_personnel, excluded=['date'])

df_personnel.head()


Unnamed: 0,date,personnel
0,2022-02-25,2800
1,2022-02-26,1500
2,2022-02-27,200
3,2022-02-28,800
4,2022-03-01,410


In [8]:
# Pérdidas rusas materiales, según categorías generales, por fecha:

df_equipment = pd.read_csv(r'src\data\Russia_losses_equipment(date).csv')

df_equipment.drop(columns=['day', 
                            'greatest losses direction',
                            'military auto', 
                            'fuel tank', 
                            'special equipment', 
                            'mobile SRBM system', 
                            'vehicles and fuel tanks',
                            'cruise missiles'
                            ], inplace=True)

decumulate_columns(df_equipment, excluded=['date'])

df_equipment.head()


Unnamed: 0,date,aircraft,helicopter,tank,APC,field artillery,MRL,drone,naval ship,anti-aircraft warfare
0,2022-02-25,10,7,80,516,49,4,0,2,0
1,2022-02-26,17,19,66,190,0,0,2,0,0
2,2022-02-27,0,0,4,0,1,0,0,0,0
3,2022-02-28,2,3,0,110,24,17,1,0,5
4,2022-03-01,0,0,48,30,3,3,0,0,2


In [5]:
# Pérdidas materiales rusas (incluye modelo y fabricante), por fecha:

df_tech = pd.read_csv(r'src\data\Russia_losses_equipment(tech_details).csv')

for column in df_tech.columns[4:]:
    pd.to_numeric(df_tech[column])

df_tech['total captured'] = df_tech[['captured', 
                                    'captured and destroyed',
                                    'captured and stripped',
                                    'damaged and captured'
                                    ]].sum(axis=1)

df_tech['total not captured'] = df_tech[['abandoned', 
                                        'abandoned and destroyed',
                                        'damaged',
                                        'damaged and abandoned',
                                        'damaged beyond economical repair',
                                        'damaged by Bayraktar TB2',
                                        'destroyed',
                                        'destroyed by Bayraktar TB2',
                                        'destroyed by Bayraktar TB2 and Harpoon AShM',
                                        'sunk'
                                        ]].sum(axis=1)

df_tech = df_tech[['equipment', 'model', 'manufacturer', 'losses_total', 'total captured', 'total not captured']]

df_tech.head()


Unnamed: 0,equipment,model,manufacturer,losses_total,total captured,total not captured
0,Tanks,T-62M,the Soviet Union,20,16.0,4.0
1,Tanks,T-62MV,the Soviet Union,3,2.0,1.0
2,Tanks,T-64A,the Soviet Union,2,0.0,2.0
3,Tanks,T-64BV,the Soviet Union,39,5.0,34.0
4,Tanks,T-72A,the Soviet Union,33,15.0,18.0


In [6]:
# Pérdidas materiales ucranianas (incluye modelo y fabricante), por fecha:

df_uc_tech = pd.read_csv(r'src\data\Ukraine_losses_equipment(tech_details).csv')

for column in df_uc_tech.columns[4:]:
    pd.to_numeric(df_uc_tech[column])

df_uc_tech['total captured'] = df_uc_tech[['captured', 
                                            'captured and destroyed',
                                            'damaged and captured',
                                            'damaged by Orion and captured',
                                            'sunk but raised by Russia'
                                            ]].sum(axis=1)

df_uc_tech['total not captured'] = df_uc_tech[['abandoned', 
                                                'abandoned and destroyed',
                                                'damaged',
                                                'damaged and abandoned',
                                                'damaged beyond economical repair',
                                                'damaged by Forpost-R',
                                                'destroyed',
                                                'destroyed by Forpost-R',
                                                'destroyed by Orion',
                                                'destroyed by loitering munition',
                                                'scuttled to prevent capture by Russia',
                                                'sunk'
                                                ]].sum(axis=1)

df_uc_tech = df_uc_tech[['equipment', 'model', 'manufacturer', 'losses_total', 'total captured', 'total not captured']]

df_uc_tech.head()


Unnamed: 0,equipment,model,manufacturer,losses_total,total captured,total not captured
0,Tanks,T-64A,the Soviet Union,1,1.0,0.0
1,Tanks,T-64B,the Soviet Union,1,0.0,1.0
2,Tanks,T-64BV,the Soviet Union,123,53.0,70.0
3,Tanks,T-64BV Zr. 2017,Ukraine,49,27.0,22.0
4,Tanks,T-64B1M,Ukraine,4,4.0,0.0
