<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Estructuras de datos en Python

### Javier Cózar


A continuación trabajaremos con un dataset real y realizaremos algunas operaciones de transformación típicas con pandas.

El dataset lo obtendremos de una de las plataformas más relevantes en data sciene, __Kaggle__. Esta web organiza competiciones de data science y libera una serie de tutoriales, datasets y libretas muy interesantes para seguir aprendiendo.

Concretamente utilizaremos el dataset _salaries_ que contiene datos ficticios sobre los pagos de la plantilla de una empresa.

Lo tenéis descargado en la carpeta data, pero podéis obtenerlo de 

[SF Salaries Dataset](https://www.kaggle.com/kaggle/sf-salaries)

## Tareas

### Importa pandas

In [1]:
import pandas as pd

### Carga el fichero salaries.csv

In [2]:
df = pd.read_csv("Salaries.csv")

  df = pd.read_csv("Salaries.csv")


### Muestra las primeras filas de este fichero

In [3]:
df.head()

Unnamed: 0,Id,EmployeeName,JobTitle,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes,Agency,Status
0,1,NATHANIEL FORD,GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY,167411.18,0.0,400184.25,,567595.43,567595.43,2011,,San Francisco,
1,2,GARY JIMENEZ,CAPTAIN III (POLICE DEPARTMENT),155966.02,245131.88,137811.38,,538909.28,538909.28,2011,,San Francisco,
2,3,ALBERT PARDINI,CAPTAIN III (POLICE DEPARTMENT),212739.13,106088.18,16452.6,,335279.91,335279.91,2011,,San Francisco,
3,4,CHRISTOPHER CHONG,WIRE ROPE CABLE MAINTENANCE MECHANIC,77916.0,56120.71,198306.9,,332343.61,332343.61,2011,,San Francisco,
4,5,PATRICK GARDNER,"DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)",134401.6,9737.0,182234.59,,326373.19,326373.19,2011,,San Francisco,


### Comprueba las variables y su tipo

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 148654 entries, 0 to 148653
Data columns (total 13 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   Id                148654 non-null  int64  
 1   EmployeeName      148648 non-null  object 
 2   JobTitle          148650 non-null  object 
 3   BasePay           148045 non-null  float64
 4   OvertimePay       148650 non-null  float64
 5   OtherPay          148650 non-null  float64
 6   Benefits          112491 non-null  float64
 7   TotalPay          148654 non-null  float64
 8   TotalPayBenefits  148654 non-null  float64
 9   Year              148654 non-null  int64  
 10  Notes             0 non-null       float64
 11  Agency            148654 non-null  object 
 12  Status            38119 non-null   object 
dtypes: float64(7), int64(2), object(4)
memory usage: 14.7+ MB


In [5]:
df.describe()

Unnamed: 0,Id,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes
count,148654.0,148045.0,148650.0,148650.0,112491.0,148654.0,148654.0,148654.0,0.0
mean,74327.5,66325.44884,5066.059886,3648.767297,25007.893151,74768.321972,93692.554811,2012.522643,
std,42912.857795,42764.635495,11454.380559,8056.601866,15402.215858,50517.005274,62793.533483,1.117538,
min,1.0,-166.01,-0.01,-7058.59,-33.89,-618.13,-618.13,2011.0,
25%,37164.25,33588.2,0.0,0.0,11535.395,36168.995,44065.65,2012.0,
50%,74327.5,65007.45,0.0,811.27,28628.62,71426.61,92404.09,2013.0,
75%,111490.75,94691.05,4658.175,4236.065,35566.855,105839.135,132876.45,2014.0,
max,148654.0,319275.01,245131.88,400184.25,96570.66,567595.43,567595.43,2014.0,


### Comprueba el nombre de las columnas

In [6]:
df.columns

Index(['Id', 'EmployeeName', 'JobTitle', 'BasePay', 'OvertimePay', 'OtherPay',
       'Benefits', 'TotalPay', 'TotalPayBenefits', 'Year', 'Notes', 'Agency',
       'Status'],
      dtype='object')

### ¿Cual es la media del salario base (BasePay)?

In [7]:
df["BasePay"].mean()

66325.4488404877

### ¿Cuál es el mayor número de horas extra pagadas (OvertimePay)?

In [8]:
df["OvertimePay"].max()

245131.88

### ¿Cual es el titulo del trabajo (JobTitle) del empleado JOSEPH DRISCOLL?

In [9]:
df[df["EmployeeName"]=="JOSEPH DRISCOLL"]

Unnamed: 0,Id,EmployeeName,JobTitle,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes,Agency,Status
24,25,JOSEPH DRISCOLL,"CAPTAIN, FIRE SUPPRESSION",140546.86,97868.77,31909.28,,270324.91,270324.91,2011,,San Francisco,


In [10]:
df[df["EmployeeName"]=="JOSEPH DRISCOLL"]["JobTitle"]

24    CAPTAIN, FIRE SUPPRESSION
Name: JobTitle, dtype: object

### ¿Cuanto gana este empleado en total (TotalPayBenefits)?

In [11]:
df[df["EmployeeName"]=="JOSEPH DRISCOLL"]["TotalPayBenefits"]

24    270324.91
Name: TotalPayBenefits, dtype: float64

### ¿Cómo se llama la persona que más gana?

In [12]:
# Primero obtenemos el valor del salario maximo
max_salary = df["BasePay"].max()

In [13]:
# Despues filtramos por ese valor
df[df["BasePay"]==max_salary]["EmployeeName"]

72925    Gregory P Suhr
Name: EmployeeName, dtype: object

### ¿Cual es la paga media por años?

In [14]:
df.groupby("Year").mean()[["BasePay"]]

  df.groupby("Year").mean()[["BasePay"]]


Unnamed: 0_level_0,BasePay
Year,Unnamed: 1_level_1
2011,63595.956517
2012,65436.406857
2013,69630.030216
2014,66564.421924


### ¿Cuántos trabajos únicos hay?
Pista, busca en la documentación de pandas la función `drop_duplicates`

In [15]:
df[["JobTitle"]].drop_duplicates()

Unnamed: 0,JobTitle
0,GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY
1,CAPTAIN III (POLICE DEPARTMENT)
3,WIRE ROPE CABLE MAINTENANCE MECHANIC
4,"DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)"
5,ASSISTANT DEPUTY CHIEF II
...,...
140364,"Sr Cnselor, Juv Hall (SFERS)"
141362,Forensic Toxicologist Supervis
146498,Conversion
147293,Cashier 3


In [16]:
len(df[["JobTitle"]].drop_duplicates())

2159

### Combinar dos dataframes en uno solo

Por último vamos a combinar dos dataframes que contienen la misma información pero está dividida por años. Estos datos, que están almacenados en los ficheros `2014-baby-names-raw.csv` y `2015-baby-names-raw.csv`, contienen los nombres de bebes nacidos en los años 2014 y 2015 en Estados Unidos. Cargad ambos ficheros en DataFrames de pandas y combinadlos en un único DataFrame.

In [17]:
df_baby_names_2014 = pd.read_csv("2014-baby-names-raw.csv")
df_baby_names_2015 = pd.read_csv("2015-baby-names-raw.csv")
df_baby_names = pd.concat([df_baby_names_2014, df_baby_names_2015])
df_baby_names.shape

(201, 4)

In [18]:
# Usando comprehension lists
# https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions

df_baby_names = pd.concat(
    [
        pd.read_csv(f"{year}-baby-names-raw.csv")
        for year in [2014, 2015]
    ]
)
df_baby_names.shape

(201, 4)