# ÍNDICE
# **Repsol D4D/D4B**
# **Introducción a Python para Análisis de Datos 🐍 📊**
# *Notebook 3: Manipulación de Datos*

---
### ÍNDICE DE CONTENIDO
1. CAMPOS CONDICIONALES
2. AGREGACIONES
3. UNIR DATAFRAMES
4. EJERCICIOS

### Juan Martin Bellido
* [linkedin.com/in/jmartinbellido](https://www.linkedin.com/in/jmartinbellido/) 
* jmbellido@isdi.education


In [None]:
# cargamos librerías
import pandas as pd
import numpy as np

# CAMPOS CONDICIONALES
---
En notebook anteriores, introducimos la sintaxis necesaria para crear un nuevo campo (columna) en un dataframe. En los ejemplos utilizados hasta el momento, el campo se creaba como resultado de la operación matemática entre una o más columnas en el dataframe.

A continuación, crearemos una nueva columna a partir de una condición *if/else* utilizando la función *np.where()*. En este caso, el valor del campo dependará de una *condición lógica*, no de una operación matemática.

```
np.where(condition, value if true, value if false)
```

In [None]:
# Importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
df_jamesbond.dtypes # la función dtypes permite visualizar las variables incluídas en un dataframe

Film                  object
Year                   int64
Actor                 object
Director              object
Box Office           float64
Budget               float64
Bond Actor Salary    float64
dtype: object

In [None]:
# Creamos un nuevo campo con valor condicional
# Asignamos 1 o 0 en función de si el actor es Sean Connery o no
df_jamesbond["actor_is_Sean_Connery"] = np.where(df_jamesbond["Actor"]=='Sean Connery',1,0)
df_jamesbond[["Actor","actor_is_Sean_Connery"]].head()

Unnamed: 0,Actor,actor_is_Sean_Connery
0,Sean Connery,1
1,Sean Connery,1
2,Sean Connery,1
3,Sean Connery,1
4,David Niven,0


En caso de necesitar crear una lógica con múltiples condiciones, podemos anidar funciones np.where().

```
np.where(
  condition 1, 
  value if true,
  np.where(
    condition 2,
    value if true,
    value if false
  )
)
```



In [None]:
# A continuación, crearemos un nuevo campo utilizando dos condiciones
# Crearemos un nuevo campo para clasificar películas en función del presupuesto
# Clasificaremos las películas en tres clases: high budget, medium budget, y low budget
df_jamesbond['movie_budget_segment'] = np.where(
    df_jamesbond.Budget > 100     # condition 1
    ,'high budget'                # value if condition 1 is true
    ,np.where(
        df_jamesbond.Budget > 50  # condition 2
        ,'medium budget'          # value if condition 2 is true
        ,'low budget'             # value if false
    )
)
# Nota: las condiciones se ejecutan en orden

In [None]:
df_jamesbond[['Film','Budget','movie_budget_segment']]

Unnamed: 0,Film,Budget,movie_budget_segment
0,Dr. No,7.0,low budget
1,From Russia with Love,12.6,low budget
2,Goldfinger,18.6,low budget
3,Thunderball,41.9,low budget
4,Casino Royale,85.0,medium budget
5,You Only Live Twice,59.9,medium budget
6,On Her Majesty's Secret Service,37.3,low budget
7,Diamonds Are Forever,34.7,low budget
8,Live and Let Die,30.8,low budget
9,The Man with the Golden Gun,27.7,low budget


# AGREGACIONES
---
En el contexto del análisis de datos, *agregar* data significa realizar cálculos que permitan resumir información, abstrayendo conocimiento de data que se encuentra en estado bruto. *Nota: Se trata del ejercicio que hacemos cada vez que utilizamos una tabla dinámica (pivot table) en Excel*.

Al realizar una agregación debemos establecer *el tipo de cálculo que buscamos realizar*. Para ello, utilizamos funciones específicas: *funciones de agregación*. 

*Funciones de agregación*

| Function    | Description                     |
|-------------|---------------------------------|
| count       | Number of non-null observations |
| nunique     | Number of unique values         |
| sum         | Sum of values                   |
| mean        | Mean of values                  |
| median      | Arithmetic median of values     |
| mode        | Mode                            |
| min         | Minimum                         |
| max         | Maximum                         |




In [None]:
# Importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv",index_col="Film")
df_jamesbond.dtypes

Year                   int64
Actor                 object
Director              object
Box Office           float64
Budget               float64
Bond Actor Salary    float64
dtype: object

### Agregaciones básicas
---
Comenzaremos realizando agregaciones simplemente utilizando funciones de aggregación sobre dataframes.

```
df.agg_func()
```



In [None]:
# Aplicamos una función de agregación sobre el dataframe
df_jamesbond.max()
# Obtenemos los valores max para cada una de las variables

Year                           2015
Actor                Timothy Dalton
Director              Terence Young
Box Office                    943.5
Budget                        206.3
Bond Actor Salary              17.9
dtype: object

In [None]:
# Seleccionamos una variable y aplicamos función de agregación
df_jamesbond.Budget.sum().round()
# Anidamos un .round() para redondear decimales

2099.0

In [None]:
# Seleccionamos una variable y aplicamos función de agregación
df_jamesbond.Actor.nunique()
# Existen 7 actores de James Bond (únicos) en el dataframe

7

### El método .agg()
---
Pandas incluye un método dedicado a agregar data.

```
df.agg({'column':'agg_func'})
```
* Utilizamos un *dictionary* para establacer sobre qué variable realizar qué operación



In [None]:
# Agregamos data utilizando .agg()
df_jamesbond.agg({'Actor':"nunique"})

Actor    7
dtype: int64

In [None]:
# Agregamos la columna "box office", aplicando funciones min(), max() y mean()
df_jamesbond.agg({'Box Office':["min","max","mean"]})
# En este caso, hemos utilizado más de una función de agregación sobre la misma variable

Unnamed: 0,Box Office
min,250.9
max,943.5
mean,491.611538


In [None]:
# Agregamos más de una columna añadiendo múltiples elementos en nuestro dictionary
df_jamesbond.agg({
    'Budget':["min","max","median"],           
    'Bond Actor Salary':["min","max","median"]   
    })

Unnamed: 0,Budget,Bond Actor Salary
min,7.0,0.6
max,206.3,17.9
median,60.05,5.5


### Agregaciones agrupadas
---

Al realizar agregaciones, frecuentemente agrupamos observaciones en una o más variables categóricas. 

El método *groupby()* permite agrupar observaciones para posteriormente agregar según grupos.

```
object.groupby("column")
```


In [None]:
# Agregamos dos métricas, según una variable agrupada
df_jamesbond.groupby("Actor")[["Bond Actor Salary","Box Office"]].max()

Unnamed: 0_level_0,Bond Actor Salary,Box Office
Actor,Unnamed: 1_level_1,Unnamed: 2_level_1
Daniel Craig,14.5,943.5
David Niven,,315.0
George Lazenby,0.6,291.5
Pierce Brosnan,17.9,518.5
Roger Moore,9.1,535.0
Sean Connery,5.8,848.1
Timothy Dalton,7.9,313.5


In [None]:
# Repetimos ejercicio utilizando la función .agg()
df_jamesbond.groupby("Actor").agg(
    {"Bond Actor Salary":"max","Box Office":"max"}
)

Unnamed: 0_level_0,Bond Actor Salary,Box Office
Actor,Unnamed: 1_level_1,Unnamed: 2_level_1
Daniel Craig,14.5,943.5
David Niven,,315.0
George Lazenby,0.6,291.5
Pierce Brosnan,17.9,518.5
Roger Moore,9.1,535.0
Sean Connery,5.8,848.1
Timothy Dalton,7.9,313.5


In [None]:
# Agregamos salario máximo y media de box office, según actor
## cambiamos los nombres de las variables agregadas
df = df_jamesbond.groupby("Actor").agg(
    {"Bond Actor Salary":"max","Box Office":"mean"}
).sort_values("Bond Actor Salary", ascending=False)

## muchas veces, los nombres que obtenemos por defecto no son representativos de la información que almacenan
df = df.rename(columns={'Bond Actor Salary':'total_bond_salary','Box Office':'total_box_office'})

df # invocamos el objeto

Unnamed: 0_level_0,total_bond_salary,total_box_office
Actor,Unnamed: 1_level_1,Unnamed: 2_level_1
Pierce Brosnan,17.9,471.65
Daniel Craig,14.5,691.475
Roger Moore,9.1,422.957143
Timothy Dalton,7.9,282.2
Sean Connery,5.8,571.114286
George Lazenby,0.6,291.5
David Niven,,315.0


In [None]:
# Agregamos múltiples métricas utilizando distintas funciones
## al momento de ordenar, debemos utilizar un tuple para poder especificar (i) variable y (ii) función
df_jamesbond.groupby("Actor").agg(
    {"Bond Actor Salary":["max","sum","mean","size"]
    ,"Budget":["max","min"]}
).sort_values(("Bond Actor Salary","max"),ascending=False) # al ordenar el df, debemos utilizar un "tuple" para definir criterio


Unnamed: 0_level_0,Bond Actor Salary,Bond Actor Salary,Bond Actor Salary,Bond Actor Salary,Budget,Budget
Unnamed: 0_level_1,max,sum,mean,size,max,min
Actor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Pierce Brosnan,17.9,46.5,11.625,4,158.3,76.9
Daniel Craig,14.5,25.9,8.633333,4,206.3,145.3
Roger Moore,9.1,16.9,8.45,7,91.5,27.7
Timothy Dalton,7.9,13.1,6.55,2,68.8,56.7
Sean Connery,5.8,20.3,3.383333,7,86.0,7.0
George Lazenby,0.6,0.6,0.6,1,37.3,37.3
David Niven,,0.0,,1,85.0,85.0


In [None]:
# Podemos utilizar más de una variable al agregar
## en tal caso, las observaciones se agruparán según estos dos campo combinados
df_jamesbond.groupby(["Director","Actor"]).agg(
    {"Box Office":"median"}
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Box Office
Director,Actor,Unnamed: 2_level_1
Guy Hamilton,Roger Moore,397.15
Guy Hamilton,Sean Connery,631.45
Irvin Kershner,Sean Connery,380.0
John Glen,Roger Moore,373.8
John Glen,Timothy Dalton,282.2
Ken Hughes,David Niven,315.0
Lee Tamahori,Pierce Brosnan,465.4
Lewis Gilbert,Roger Moore,534.0
Lewis Gilbert,Sean Connery,514.2
Marc Forster,Daniel Craig,514.2


# UNIR DATAFRAMES
---
Con frecuencia nos vemos obligados a unir dos o más dataframes. Al unir dos dataframes, podemos estar realizando dos operaciones distintas:
*   Concatenación (unir por filas, también denominado *unions*);
*   Joins (unir columnas según algún campo en común)



In [None]:
# Importamos df
df_jamesbond = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv",index_col="Film")
df_jamesbond.dtypes

Year                   int64
Actor                 object
Director              object
Box Office           float64
Budget               float64
Bond Actor Salary    float64
dtype: object

### Unir por filas (unions)
---

Uniremos dos dataframes utilizando la función *concat()*. Nota: los datasets deben contener las mismas columnas.

In [None]:
pd.concat([df_jamesbond.head(2),df_jamesbond.tail(2)])

Unnamed: 0_level_0,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
Film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


### Unir por columnas (joins)
---

La función *merge()* permite unir ("join") dos dataframes según columnas. Imitando la lógica en SQL, permite elegir entre distintos criterios para el join (*left, right, inner*).

```
df_1.merge(df_2,how='inner',on=None, ...)
```

En caso de que los *keys* (columnas que usamos para unir) tengan nombres distintos en cada tabla, 

```
df_1.merge(df_2,how='inner',left_on='key',right_on='key', ...)
```


In [None]:
# importamos dataframe con data de albumes
df_albums = pd.read_csv('https://data-wizards.s3.amazonaws.com/datasets/rolling_stones_top_metal_albums.csv')
df_albums.dtypes

AlbumID_Rank              int64
Artist                   object
Album                    object
Release_Year              int64
Spotify_Album            object
Description              object
wiki                     object
Duration                 object
Minutes                   int64
Seconds                   int64
Total_Seconds             int64
Label                    object
Sub_Metal_Genre          object
Rating                  float64
Rolling_Stone_Rating     object
dtype: object

In [None]:
# importamos dataframe con data de canciones
df_songs = pd.read_csv('https://data-wizards.s3.amazonaws.com/datasets/rolling_stones_top_metal_songs.csv')
df_songs.dtypes

Song Index       int64
Song            object
Artist          object
Track No.        int64
AlbumID_Rank     int64
BPM              int64
Energy           int64
Dance            int64
Loud             int64
Valence          int64
Duration        object
Acoustic         int64
Popularity       int64
Spotify_Song    object
dtype: object

In [None]:
df_songs[['Song','Artist','AlbumID_Rank']].merge(
    df_albums[['AlbumID_Rank','Album','Release_Year']]  # df secundario
    ,how='left'                                         # definimos el criterio en el join, en este caso elegimos "left"
    ,left_on='AlbumID_Rank'                             # definimos la key (columna) en la tabla principal 
    ,right_on='AlbumID_Rank'                            # key en nuestra tabla secundaria
)

Unnamed: 0,Song,Artist,AlbumID_Rank,Album,Release_Year
0,War Pigs / Luke's Wall - 2014 Remaster,Black Sabbath,1,Paranoid,1970
1,Paranoid - 2016 Remaster,Black Sabbath,1,Paranoid,1970
2,Planet Caravan - 2013 Remaster,Black Sabbath,1,Paranoid,1970
3,Iron Man - 2014 Remaster,Black Sabbath,1,Paranoid,1970
4,Electric Funeral - 2013 Remaster,Black Sabbath,1,Paranoid,1970
...,...,...,...,...,...
1045,Sidewinder,Avenged Sevenfold,100,City of Evil,2005
1046,The Wicked End,Avenged Sevenfold,100,City of Evil,2005
1047,Strength of the World,Avenged Sevenfold,100,City of Evil,2005
1048,Betrayed,Avenged Sevenfold,100,City of Evil,2005


# EJERCICIOS
---

##### EX 1: Campos condicionales
---

El dataset incluye datos de videojuegos. Las ventas figuran en USD millones y están divididas por regiones. 

Ejercicio:
* Crear un campo (*total_sales*) en el dataframe que englobe las ventas totales en todas las regiones 
* Crear otro campo (*video_game_segment*) que identifique videojuegos que hayan vendido en total más de 30MM ("top sales") vs. el resto ("not top sales")
* Filtrar por videojuegos para la plataforma 'N64' y desplegar columnas; *name*, *platform_code*, *total_sales*, *video_game_segment*

> Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_videogames_games.csv





In [None]:
import pandas as pd
import numpy as np
df_videogames = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/dataset_videogames_games.csv")
df_videogames.dtypes

rank               int64
name              object
platform_code     object
year               int64
genre             object
publisher         object
NA_sales         float64
EU_sales         float64
JP_sales         float64
Other_sales      float64
dtype: object

##### EX 2: Agregaciones
---

##### EX 2.1 Calcular suma total de facturación (revenue), según sector
##### EX 2.2 Repetir el ejercicio anterior, pero filtrando únicamente por sectores Technology, Energy y Retailing

> Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv


In [None]:
import pandas as pd
df_fortune = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv")
df_fortune.dtypes

Rank          int64
Company      object
Sector       object
Industry     object
Location     object
Revenue       int64
Profits       int64
Employees     int64
dtype: object

##### EX 3: Agregaciones
--- 

##### Extrear el top 5 planetas (homeworlds) con mayor número de personajes incluídos en el dataset.

> Dataset https://data-wizards.s3.amazonaws.com/datasets/starwarsdb_people.csv


In [None]:
import pandas as pd
df_starwars_people = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/starwarsdb_people.csv")
df_starwars_people.dtypes

name           object
height        float64
mass          float64
hair_color     object
skin_color     object
eye_color      object
birth_year    float64
gender         object
homeworld      object
species        object
sex            object
dtype: object

##### EX 4: Agregaciones 
---

##### Agregar las siguiente métricas según continente,

*   *Población total*
*   *PIB per cápita medio*
*   *media de % población viviendo por debajo de la línea de la pobreza*

> Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv


In [None]:
import pandas as pd
df_who = pd.read_csv('https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv')
df_who.dtypes

Country                                                    object
CountryID                                                   int64
ContinentID                                                 int64
Adolescent fertility rate (%)                             float64
Adult literacy rate (%)                                   float64
Gross national income per capita (PPP international $)    float64
Net primary school enrolment ratio female (%)             float64
Net primary school enrolment ratio male (%)               float64
Population (in thousands) total                           float64
Population annual growth rate (%)                         float64
Population in urban areas (%)                             float64
Population living below the poverty line                  float64
Continent                                                  object
dtype: object

##### EX 5: Agregaciones
--- 
##### Extrear el top 10 directores con mayor media de IMDB score. Incluir únicamente directores con más de 5 películas dirigidas.

> Dataset https://data-wizards.s3.amazonaws.com/datasets/movies.csv


In [None]:
import pandas as pd
df_movies = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/movies.csv",index_col="movie_title")
df_movies.dtypes

color                         object
director_name                 object
num_critic_for_reviews       float64
duration                     float64
director_facebook_likes      float64
actor_3_facebook_likes       float64
actor_2_name                  object
actor_1_facebook_likes       float64
gross                        float64
genres                        object
actor_1_name                  object
num_voted_users                int64
cast_total_facebook_likes      int64
actor_3_name                  object
facenumber_in_poster         float64
plot_keywords                 object
movie_imdb_link               object
num_user_for_reviews         float64
language                      object
country                       object
content_rating                object
budget                       float64
title_year                   float64
actor_2_facebook_likes       float64
imdb_score                   float64
aspect_ratio                 float64
movie_facebook_likes           int64
d

##### EX 6: Agregaciones
---
##### 6.1. Crear un nuevo campo ("company_size") que clasifique a las empresas según cantidad de empleados. Utilizar el siguiente criterio:

*   *large*, cuando la cantidad de empleados sea mayor o igual a 100.000
*   *mid-size*, cuando la cantidad de empleados sea mayor o igual a 10.000 y menor a 100.000
*   *small*, cuando la cantidad de empleados sea menor a 10.000

##### 6.2. Calcular mediana de ganancias (*profits*), según (i) sector y (ii) tamaño de empresa ("company_size")

> Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv


In [None]:
import pandas as pd
import numpy as np
df_fortune = pd.read_csv("https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv")
df_fortune.dtypes

Rank          int64
Company      object
Sector       object
Industry     object
Location     object
Revenue       int64
Profits       int64
Employees     int64
dtype: object