<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Estructuras de datos en Python

### Javier Cózar


A continuación trabajaremos con un dataset real y realizaremos algunas operaciones de transformación típicas con pandas.

El dataset lo obtendremos de una de las plataformas más relevantes en data science, __Kaggle__. Esta web organiza competiciones de data science y libera una serie de tutoriales, datasets y libretas muy interesantes para seguir aprendiendo.

Concretamente utilizaremos el dataset _salaries_ que contiene datos ficticios sobre los pagos de la plantilla de una empresa.

Lo tenéis descargado en la carpeta data, pero podéis obtenerlo de 

[SF Salaries Dataset](https://www.kaggle.com/kaggle/sf-salaries)

## Tareas

### Importa pandas

In [1]:
import pandas as pd

### Carga el fichero salaries.csv

In [2]:
salaries = pd.read_csv('Salaries.csv')

  salaries = pd.read_csv('Salaries.csv')


### Muestra las primeras filas de este fichero

In [3]:
salaries.head()

Unnamed: 0,Id,EmployeeName,JobTitle,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes,Agency,Status
0,1,NATHANIEL FORD,GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY,167411.18,0.0,400184.25,,567595.43,567595.43,2011,,San Francisco,
1,2,GARY JIMENEZ,CAPTAIN III (POLICE DEPARTMENT),155966.02,245131.88,137811.38,,538909.28,538909.28,2011,,San Francisco,
2,3,ALBERT PARDINI,CAPTAIN III (POLICE DEPARTMENT),212739.13,106088.18,16452.6,,335279.91,335279.91,2011,,San Francisco,
3,4,CHRISTOPHER CHONG,WIRE ROPE CABLE MAINTENANCE MECHANIC,77916.0,56120.71,198306.9,,332343.61,332343.61,2011,,San Francisco,
4,5,PATRICK GARDNER,"DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)",134401.6,9737.0,182234.59,,326373.19,326373.19,2011,,San Francisco,


### Comprueba las variables y su tipo

In [4]:
salaries.dtypes

Id                    int64
EmployeeName         object
JobTitle             object
BasePay             float64
OvertimePay         float64
OtherPay            float64
Benefits            float64
TotalPay            float64
TotalPayBenefits    float64
Year                  int64
Notes               float64
Agency               object
Status               object
dtype: object

### Comprueba el nombre de las columnas

In [5]:
salaries.columns

Index(['Id', 'EmployeeName', 'JobTitle', 'BasePay', 'OvertimePay', 'OtherPay',
       'Benefits', 'TotalPay', 'TotalPayBenefits', 'Year', 'Notes', 'Agency',
       'Status'],
      dtype='object')

### ¿Cual es la media del salario base (BasePay)?

In [6]:
salaries['BasePay'].mean()

66325.4488404877

### ¿Cuál es el mayor número de horas extra pagadas (OvertimePay)?

In [7]:
salaries.OvertimePay.max()

245131.88

### ¿Cual es el titulo del trabajo (JobTitle) del empleado JOSEPH DRISCOLL?

In [9]:
salaries[salaries.EmployeeName == 'JOSEPH DRISCOLL']['JobTitle']

24    CAPTAIN, FIRE SUPPRESSION
Name: JobTitle, dtype: object

### ¿Cuanto gana este empleado en total (TotalPayBenefits)?

In [10]:
salaries[salaries.EmployeeName == 'JOSEPH DRISCOLL']['TotalPayBenefits']

24    270324.91
Name: TotalPayBenefits, dtype: float64

### ¿Cómo se llama la persona que más gana?

In [11]:
salaries[salaries.TotalPayBenefits == salaries.TotalPayBenefits.max()]['EmployeeName']

0    NATHANIEL FORD
Name: EmployeeName, dtype: object

### ¿Cual es la paga media por años?

In [15]:
salaries.groupby('Year')['TotalPay'].mean()

Year
2011    71744.103871
2012    74113.262265
2013    77611.443142
2014    75463.918140
Name: TotalPay, dtype: float64

### ¿Cuántos trabajos únicos hay?
Pista, busca en la documentación de pandas la función `drop_duplicates`

In [16]:
salaries.drop_duplicates().count()

Id                  148654
EmployeeName        148648
JobTitle            148650
BasePay             148045
OvertimePay         148650
OtherPay            148650
Benefits            112491
TotalPay            148654
TotalPayBenefits    148654
Year                148654
Notes                    0
Agency              148654
Status               38119
dtype: int64

### Combinar dos dataframes en uno solo

Por último vamos a combinar dos dataframes que contienen la misma información pero está dividida por años. Estos datos, que están almacenados en los ficheros `2014-baby-names-raw.csv` y `2015-baby-names-raw.csv`, contienen los nombres de bebes nacidos en los años 2014 y 2015 en Estados Unidos. Cargad ambos ficheros en DataFrames de pandas y combinadlos en un único DataFrame.

In [17]:
names2014 = pd.read_csv('2014-baby-names-raw.csv')
names2015 = pd.read_csv('2015-baby-names-raw.csv')
print(names2014.head())
print(names2015.head())

   rank       name  frequency   sex
0     1       Noah        837  Male
1     2  Alexander        747  Male
2     3    William        687  Male
3     4    Michael        680  Male
4     5       Liam        670  Male
   rank       name  frequency   sex
0     1       Noah        863  Male
1     2       Liam        709  Male
2     3  Alexander        703  Male
3     4      Jacob        650  Male
4     5    William        618  Male


In [18]:
names2014['year'] = 2014

In [19]:
names2014.head()

Unnamed: 0,rank,name,frequency,sex,year
0,1,Noah,837,Male,2014
1,2,Alexander,747,Male,2014
2,3,William,687,Male,2014
3,4,Michael,680,Male,2014
4,5,Liam,670,Male,2014


In [20]:
names2015['year'] = 2015

In [22]:
df = pd.concat([names2014, names2015])

In [23]:
print(names2014.count())
print(names2015.count())
print(df.count())

rank         101
name         101
frequency    101
sex          101
year         101
dtype: int64
rank         100
name         100
frequency    100
sex          100
year         100
dtype: int64
rank         201
name         201
frequency    201
sex          201
year         201
dtype: int64


In [24]:
df.sample(20)

Unnamed: 0,rank,name,frequency,sex,year
32,33,Ryan,399,Male,2014
6,7,Benjamin,616,Male,2015
14,15,Henry,514,Male,2015
2,3,William,687,Male,2014
30,31,Julian,407,Male,2014
75,76,Brayden,200,Male,2014
84,85,Colton,188,Male,2014
98,99,Jaxson,168,Male,2014
4,5,Liam,670,Male,2014
2,3,Alexander,703,Male,2015
