# Trabajando con Pandas

In [1]:
import pandas as pd # import pandas
import numpy as np # import numpy
import matplotlib.pyplot as plt # import libreria para plotear
pd.set_option('max_columns', 50) # maximo de columnas a mostrar cuando se muestra un pandas dataframe
# indica a python que plotee en el notebook
import seaborn as sns
%matplotlib inline

### Inspeccion

Inspeccion de dataframes. Primero cargamos el fichero.

In [2]:
salarios = pd.read_csv('city-of-chicago-salaries.csv')

_info()_ nos da la siguiente informaicon acerca del dataframe.  
1. Es una variable de tipo DataFrame
2. El numero de filas y el rango del indice (de 0 hasta N-1)
3. El numero de columnas
4. El nombre de las columnas y cuantos nulls hay en cada una
5. El tipo de datos de cada columna (tipo object se refiere principalmente a cadenas)
6. La cantidad de memoria RAM usada por el dataframe

In [3]:
salarios.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 32054 entries, 0 to 32053
Data columns (total 4 columns):
Name                      32054 non-null object
Position Title            32054 non-null object
Department                32054 non-null object
Employee Annual Salary    32054 non-null float64
dtypes: float64(1), object(3)
memory usage: 1.2+ MB


Si queremos saber los tipos de datos de las columnas podemos utilizar _dtypes_.

In [4]:
salarios.dtypes

Name                       object
Position Title             object
Department                 object
Employee Annual Salary    float64
dtype: object

Existe un metodo muy interesante que proporciona estadisticas basicas para las columnas numericas. Se llama _describe()_. Permite obtener una vision general muy  rapida del dataframe.

In [16]:
salarios.describe()

Unnamed: 0,Employee Annual Salary
count,32054.0
mean,75070.38571
std,23180.297928
min,0.96
25%,69576.0
50%,78012.0
75%,87303.0
max,260004.0


Para imprimir las primeras lineas del dataframe se utiliza _head()_ y para las ultimas _tail()_. Por defecto Python imprime 5 lineas. Tambien se le puede pasar el numero de lineas a imprimir a cualquiera de las funciones.

In [17]:
salarios.head() # por defecto 5 lineas

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,85512
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,75372
2,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,80916
3,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,99648
4,"ABBATACOLA, ROBERT J",ELECTRICAL MECHANIC,AVIATION,89440


In [18]:
salarios.tail(3) # le digo a tail que imprima las tres ultimas lineas

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
32051,"ZYMANTAS, MARK E",POLICE OFFICER,POLICE,78012
32052,"ZYRKOWSKI, CARLO E",POLICE OFFICER,POLICE,80724
32053,"ZYSKOWSKI, DARIUSZ",CHIEF DATA BASE ANALYST,DoIT,110352


Tambien se puede usar indexacion por trozos _slicing_ como hemos hecho anteriormente con listas y arrays.

In [19]:
salarios[20:22]

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
20,"ABDULLAH, LAKENYA N",CROSSING GUARD,POLICE,16286.4
21,"ABDULLAH, RASHAD J",ELECTRICAL MECHANIC-AUTO-POLICE MTR MNT,GENERAL SERVICES,89440.0


### Seleccion

Un dataframe no es mas que un conjunto de objetos _Series_ que comparten un indice. La seleccion de una columna en el dataframe devuelve como resultado una variable tipo _Series_.

In [20]:
salarios['Position Title'].head()

0            WATER RATE TAKER
1              POLICE OFFICER
2    CHIEF CONTRACT EXPEDITER
3           CIVIL ENGINEER IV
4         ELECTRICAL MECHANIC
Name: Position Title, dtype: object

Para indexar mas de una columna hay que pasar una lista con el nombre de las columnas al dataframe. La salida sera un dataframe.

In [23]:
print(salarios[['Name', 'Position Title']].head())
print('\n')

# se puede almacenar en una variable y usar despues
columns_you_want = ['Position Title', 'Department'] 
print(salarios[columns_you_want].head())

                    Name            Position Title
0        AARON,  ELVIA J          WATER RATE TAKER
1      AARON,  JEFFERY M            POLICE OFFICER
2    AARON,  KIMBERLEI R  CHIEF CONTRACT EXPEDITER
3    ABAD JR,  VICENTE M         CIVIL ENGINEER IV
4  ABBATACOLA,  ROBERT J       ELECTRICAL MECHANIC


             Position Title        Department
0          WATER RATE TAKER       WATER MGMNT
1            POLICE OFFICER            POLICE
2  CHIEF CONTRACT EXPEDITER  GENERAL SERVICES
3         CIVIL ENGINEER IV       WATER MGMNT
4       ELECTRICAL MECHANIC          AVIATION


La seleccion de filas se hace de diferentes formas. Se puede hacer una seleccion por indice individual pero lo mas comun es realizar un indexado booleano.

In [29]:
# usuarios que ganan mas de 30000
print(salarios[salarios['Employee Annual Salary'] > 30000].head(3))
print('\n')

# usuarios que ganan mas de 50000 y son policias
print(salarios[(salarios['Employee Annual Salary'] > 50000) & (salarios.Department=='POLICE')].head(3))
print('\n')

# usuarios 
print(salarios[(salarios.Department == 'WATER MGMNT') | (salarios.Department == 'POLICE')].head(3))
print(salarios[(salarios.Department.isin(['WATER MGMNT', 'POLICE']))].head(3)) #Tambien se puede hacer un OR con isin

                  Name            Position Title        Department  \
0      AARON,  ELVIA J          WATER RATE TAKER       WATER MGMNT   
1    AARON,  JEFFERY M            POLICE OFFICER            POLICE   
2  AARON,  KIMBERLEI R  CHIEF CONTRACT EXPEDITER  GENERAL SERVICES   

   Employee Annual Salary  
0                   85512  
1                   75372  
2                   80916  


                     Name  Position Title Department  Employee Annual Salary
1       AARON,  JEFFERY M  POLICE OFFICER     POLICE                   75372
6        ABBATE,  TERRY M  POLICE OFFICER     POLICE                   80724
11  ABDELHADI,  ABDALMAHD  POLICE OFFICER     POLICE                   75372


                  Name     Position Title   Department  Employee Annual Salary
0      AARON,  ELVIA J   WATER RATE TAKER  WATER MGMNT                   85512
1    AARON,  JEFFERY M     POLICE OFFICER       POLICE                   75372
3  ABAD JR,  VICENTE M  CIVIL ENGINEER IV  WATER MGMNT    

Se puede cambiar el indice y poner uno mas significativo. Por ejemplo el nombre de la persona.

In [7]:
salarios.head(2)

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,85512
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,75372


In [19]:
print(salarios.set_index('Name').head(2))
print('\n')

print(salarios.head(2))
print("\n^^^ No he cambiado el DataFrame. ^^^\n")

with_new_index = salarios.set_index('Name')
print(with_new_index.head(2))
print("\n^^^ set_index devuelve un nuevo DataFrame. ^^^\n")


                     Position Title   Department  Employee Annual Salary
Name                                                                    
AARON,  ELVIA J    WATER RATE TAKER  WATER MGMNT                   85512
AARON,  JEFFERY M    POLICE OFFICER       POLICE                   75372


                Name    Position Title   Department  Employee Annual Salary
0    AARON,  ELVIA J  WATER RATE TAKER  WATER MGMNT                   85512
1  AARON,  JEFFERY M    POLICE OFFICER       POLICE                   75372

^^^ No he cambiado el DataFrame. ^^^

                     Position Title   Department  Employee Annual Salary
Name                                                                    
AARON,  ELVIA J    WATER RATE TAKER  WATER MGMNT                   85512
AARON,  JEFFERY M    POLICE OFFICER       POLICE                   75372

^^^ set_index devuelve un nuevo DataFrame. ^^^



Si quieres modificar el DataFrame existente debes utilizar el parametro _inplace_. La mayoria de metodos retornan un nuevo DataFrame 

In [20]:
salarios.set_index('Name', inplace=True)
salarios.head()

Unnamed: 0_level_0,Position Title,Department,Employee Annual Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,85512
"AARON, JEFFERY M",POLICE OFFICER,POLICE,75372
"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,80916
"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,99648
"ABBATACOLA, ROBERT J",ELECTRICAL MECHANIC,AVIATION,89440


Podras notar que hemos perdido el indice que Pandas nos da por defecto. Puedes seleccionar todavia usando el metodo _iloc_.

In [21]:
print(salarios.iloc[10])
print('\n')
print(salarios.iloc[[10, 20, 30]])

Position Title            POLICE OFFICER
Department                        POLICE
Employee Annual Salary             43104
Name: ABDALLAH,  ZAID, dtype: object


                      Position Title Department  Employee Annual Salary
Name                                                                   
ABDALLAH,  ZAID       POLICE OFFICER     POLICE                 43104.0
ABDULLAH,  LAKENYA N  CROSSING GUARD     POLICE                 16286.4
ABRAMS,  HENRY L      POLICE OFFICER     POLICE                 86130.0


Y se pueden seleccionar filas a traves del indice con el metodo _loc_.

In [22]:
print(salarios.loc['AARON,  ELVIA J'])
print('\n')
print(salarios.loc[['AARON,  ELVIA J', 'ABRAMS,  HENRY L']])

Position Title            WATER RATE TAKER
Department                     WATER MGMNT
Employee Annual Salary               85512
Name: AARON,  ELVIA J, dtype: object


                    Position Title   Department  Employee Annual Salary
Name                                                                   
AARON,  ELVIA J   WATER RATE TAKER  WATER MGMNT                   85512
ABRAMS,  HENRY L    POLICE OFFICER       POLICE                   86130


La regla basica en general es:
* Usa _loc_ para indexado con indice
* Usa _iloc_ para para indexado por posicion de fila

Si queremos volver a tener el indice por defecto de Pandas podemos usar _reset\_index_ .

In [23]:
salarios.reset_index(inplace=True)
salarios.head()

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,85512
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,75372
2,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,80916
3,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,99648
4,"ABBATACOLA, ROBERT J",ELECTRICAL MECHANIC,AVIATION,89440


### Union

Cuando se hace analisis a menudo hay que mezclar/unir bases de datos o ficheros. Para eso podemos utilizar la sentencia _pandas.merge_ 

In [24]:
left_frame = pd.DataFrame({'key': range(5), 
                           'left_value': ['a', 'b', 'c', 'd', 'e']})
right_frame = pd.DataFrame({'key': range(2, 7), 
                           'right_value': ['f', 'g', 'h', 'i', 'j']})
print(left_frame)
print('\n')
print(right_frame)

   key left_value
0    0          a
1    1          b
2    2          c
3    3          d
4    4          e


   key right_value
0    2           f
1    3           g
2    4           h
3    5           i
4    6           j


**inner_join** realizado por defecto. Se unen las filas cuyo campo key coincide. Aquellas keys que no estan en ambos DataFrames se descartan.

In [56]:
pd.merge(left_frame, right_frame, on='key', how='inner')

Unnamed: 0,key,left_value,right_value
0,2,c,f
1,3,d,g
2,4,e,h


**left_outer_join** guarda todos los de la izquierda mas los que hay en comun con la derecha

In [58]:
pd.merge(left_frame, right_frame, on='key', how='left')

Unnamed: 0,key,left_value,right_value
0,0,a,
1,1,b,
2,2,c,f
3,3,d,g
4,4,e,h


**right_outer_join** guarda todos los de la derecha mas los que tiene en comun con la izquierda

In [59]:
pd.merge(left_frame, right_frame, on='key', how='right')

Unnamed: 0,key,left_value,right_value
0,2,c,f
1,3,d,g
2,4,e,h
3,5,,i
4,6,,j


**full_outer_join** guarda todos los valores de ambos lados

In [60]:
pd.merge(left_frame, right_frame, on='key', how='outer')

Unnamed: 0,key,left_value,right_value
0,0,a,
1,1,b,
2,2,c,f
3,3,d,g
4,4,e,h
5,5,,i
6,6,,j


En todos los aquellos valores cuyo indice no existen y son agregados en el _join_, se rellenan con _nulls_.

### Concatenacion (Combinacion)

Pandas provee de una funcion para concatenar DataFrames _pandas.concat_ que anexa un DataFrame a otro. Por defecto lo hace verticalmente.

In [61]:
pd.concat([left_frame, right_frame])

Unnamed: 0,key,left_value,right_value
0,0,a,
1,1,b,
2,2,c,
3,3,d,
4,4,e,
0,2,,f
1,3,,g
2,4,,h
3,5,,i
4,6,,j


Tambien se puede hacer horizontalmente utilizando el parametro _axis_ . La concatenacion se puede usar de diversas formas puedes mirar en la documentacion de Pandas para ver mas ejemplos.

In [62]:
pd.concat([left_frame, right_frame], axis=1)

Unnamed: 0,key,left_value,key.1,right_value
0,0,a,2,f
1,1,b,3,g
2,2,c,4,h
3,3,d,5,i
4,4,e,6,j


### Agrupado (split-apply-combine)

Uno de los grandes poderios de Pandas radica en su sencillez a la hora de dividir, aplicar funciones y combinar de nuevo. Esto se conoce como la metodologia _split-apply-combine_.

In [3]:
headers = ['name', 'title', 'department', 'salary']
chicago = pd.read_csv('city-of-chicago-salaries.csv', 
                      header=0,
                      names=headers)
chicago.head()

Unnamed: 0,name,title,department,salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,85512
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,75372
2,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,80916
3,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,99648
4,"ABBATACOLA, ROBERT J",ELECTRICAL MECHANIC,AVIATION,89440


El metodo **_groupby_** nos devuelve un DataFrameGroupBy que tiene una variedad de funciones

In [4]:
by_dept = chicago.groupby('department')
by_dept

<pandas.core.groupby.DataFrameGroupBy object at 0x104648a90>

Por ejemplo llamando a _count_ podemos contar el numero de valores dentro de cada columna que no son _nulls_. Si queremos contar el numero de filas para cada columna podemos usar _size_

In [5]:
print(by_dept.count().head()) # NOT NULL de cada columna
print('\n')
print(by_dept.size().tail()) # total registros totales por cada departamento

                   name  title  salary
department                            
ADMIN HEARNG         42     42      42
ANIMAL CONTRL        61     61      61
AVIATION           1218   1218    1218
BOARD OF ELECTION   110    110     110
BOARD OF ETHICS       9      9       9


department
PUBLIC LIBRARY     926
STREETS & SAN     2070
TRANSPORTN        1168
TREASURER           25
WATER MGMNT       1857
dtype: int64


La suma se realiza con la funcion _sum_ y la media con _mean_ y la mediana con _median_

In [6]:
print(by_dept.sum()[20:25]) # suma total de salarios por departamento
print('\n')
print(by_dept.mean()[20:25]) # salario medio de cada departamento
print('\n')
print(by_dept.median()[20:25]) # mediana del salario de cada departamento

                       salary
department                   
HUMAN RESOURCES     4850928.0
INSPECTOR GEN       4035150.0
IPRA                7006128.0
LAW                31883920.2
LICENSE APPL COMM     65436.0


                         salary
department                     
HUMAN RESOURCES    71337.176471
INSPECTOR GEN      80703.000000
IPRA               82425.035294
LAW                70853.156000
LICENSE APPL COMM  65436.000000


                   salary
department               
HUMAN RESOURCES     68496
INSPECTOR GEN       76116
IPRA                82524
LAW                 66492
LICENSE APPL COMM   65436


Tambien se puede realizar operaciones a nivel individual en cada objeto Series. Por ejemplo, podemos calcular los 5 departmentos con un numero mayor de _titles_ distintos

In [7]:
by_dept.title.nunique().sort_values(ascending=False)[:5]

department
WATER MGMNT    153
TRANSPORTN     150
POLICE         130
AVIATION       125
HEALTH         118
Name: title, dtype: int64

### split-apply-combine

El poder real de _groupby_ reside en el divide/aplica/combina.

Imagina que queremos calcular cual es la persona que mas cobra dentro de cada departamento. Usando _groupby_ podemos definir una funcion que llamaremos _ranker_ que etiquetara cada fila de 1 a N donde N es el numero de empleados de cada departamento. Despues, llamamos a _apply_ para aplicar la funcion a cada grupo (en este caso cada departamento). 

In [8]:
def ranker(df):
    """Asigna una posicion en el rankin a cada empleado segun su salario siendo 1 el mejor pagado.
    Asume que los datos estan ordenadors de forma descendente."""
    df['dept_rank'] = np.arange(len(df)) + 1
    return df

In [15]:
chicago.sort_values('salary', ascending=False, inplace=True)
chicago = chicago.groupby('department').apply(ranker)
#print(chicago[chicago.dept_rank == 1].head(5))
print(chicago[chicago['dept_rank'] < 3].head(5))
#chicago.sort_values(['department', 'salary'], ascending=[False,False]).groupby('department').head()

                        name                           title      department  \
18039    MC CARTHY,  GARRY F        SUPERINTENDENT OF POLICE          POLICE   
8004          EMANUEL,  RAHM                           MAYOR  MAYOR'S OFFICE   
25588      SANTIAGO,  JOSE A               FIRE COMMISSIONER            FIRE   
27594  STEWART III,  CHARLES  FIRST DEPUTY FIRE COMMISSIONER            FIRE   
31587     WYSINGER,  ALFONZA     FIRST DEPUTY SUPERINTENDENT          POLICE   

       salary  dept_rank  
18039  260004          1  
8004   216210          1  
25588  202728          1  
27594  188316          2  
31587  188316          2  


In [16]:
chicago.head(10)

Unnamed: 0,name,title,department,salary,dept_rank
18039,"MC CARTHY, GARRY F",SUPERINTENDENT OF POLICE,POLICE,260004,1
8004,"EMANUEL, RAHM",MAYOR,MAYOR'S OFFICE,216210,1
25588,"SANTIAGO, JOSE A",FIRE COMMISSIONER,FIRE,202728,1
27594,"STEWART III, CHARLES",FIRST DEPUTY FIRE COMMISSIONER,FIRE,188316,2
31587,"WYSINGER, ALFONZA",FIRST DEPUTY SUPERINTENDENT,POLICE,188316,2
763,"ANDOLINO, ROSEMARIE S",COMMISSIONER OF AVIATION,AVIATION,186576,1
19175,"MINIOTIS, CONSTANTINE",SUPERINTENDENT'S CHIEF OF STAFF,POLICE,185004,3
28955,"TRACY, ROBERT J",CHIEF,POLICE,185004,4
3733,"CALLAHAN, MICHAEL E",DEPUTY FIRE COMMISSIONER,FIRE,178740,3
8982,"FORD II, RICHARD C",DEPUTY FIRE COMMISSIONER,FIRE,178740,4


In [17]:
chicago.sort_values('salary', ascending=False, inplace=True)
chicago.head(50)

Unnamed: 0,name,title,department,salary,dept_rank
18039,"MC CARTHY, GARRY F",SUPERINTENDENT OF POLICE,POLICE,260004,1
8004,"EMANUEL, RAHM",MAYOR,MAYOR'S OFFICE,216210,1
25588,"SANTIAGO, JOSE A",FIRE COMMISSIONER,FIRE,202728,1
27594,"STEWART III, CHARLES",FIRST DEPUTY FIRE COMMISSIONER,FIRE,188316,2
31587,"WYSINGER, ALFONZA",FIRST DEPUTY SUPERINTENDENT,POLICE,188316,2
763,"ANDOLINO, ROSEMARIE S",COMMISSIONER OF AVIATION,AVIATION,186576,1
19175,"MINIOTIS, CONSTANTINE",SUPERINTENDENT'S CHIEF OF STAFF,POLICE,185004,3
28955,"TRACY, ROBERT J",CHIEF,POLICE,185004,4
3733,"CALLAHAN, MICHAEL E",DEPUTY FIRE COMMISSIONER,FIRE,178740,3
8982,"FORD II, RICHARD C",DEPUTY FIRE COMMISSIONER,FIRE,178740,4


In [18]:
chicago.groupby(['department','name']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,salary,dept_rank
department,name,Unnamed: 2_level_1,Unnamed: 3_level_1
ADMIN HEARNG,"ADAM, ELIZABETH",70380.0,13
ADMIN HEARNG,"BREWER, JAMIE",60600.0,25
ADMIN HEARNG,"BRIGHAM, DEBORAH A",63276.0,23
ADMIN HEARNG,"BROWN, ELOUISE V",63456.0,21
ADMIN HEARNG,"BURAGE, LORRIE A",50280.0,40
ADMIN HEARNG,"CASSELLA, CATHERINE",55212.0,30
ADMIN HEARNG,"ERVING, WILGENIA B",66492.0,18
ADMIN HEARNG,"ESPINOSA, YVONNE",60600.0,24
ADMIN HEARNG,"FLOURNOY, NICOLE A",50280.0,41
ADMIN HEARNG,"GAVIN, MARGARET H",73752.0,12


# Ejercicios

1 - Calcula el salario medio de los habitantes de chicago.

In [20]:
chicago.columns

Index([u'name', u'title', u'department', u'salary', u'dept_rank'], dtype='object')

In [21]:
chicago['salary'].mean()

75070.38571036198

2 - Calcula cuantos habitantes ganan mas que la media.

In [32]:
chicago[chicago['salary']>chicago['salary'].mean()].count()

name          21296
title         21296
department    21296
salary        21296
dept_rank     21296
dtype: int64

3 - Cual es el departamento que emplea a mayor numero de personas?

In [40]:
chicago[['department','name']].groupby('department').count().sort_values('name', ascending=False).head(5)

Unnamed: 0_level_0,name
department,Unnamed: 1_level_1
POLICE,13623
FIRE,4731
STREETS & SAN,2070
WATER MGMNT,1857
OEMC,1292


4 - Cual es el departamento que tiene un salario medio mayor?

5 - Averigua cuales son los 5 departamentos con una media de salario mayor.

6 - Cual es el departamento con mas puestos de trabajo distintos?

In [8]:
headers = ['name', 'title', 'department', 'salary']
chicago = pd.read_csv('city-of-chicago-salaries.csv', 
                      header=0,
                      names=headers)

chicago.groupby('department')['title'].nunique().nlargest(1)

department
WATER MGMNT    153
Name: title, dtype: int64

7 - Cual es el trabajo mejor remunerado y en que departamento se realiza? 

8 - Averigua cuales son los trabajos de cada departamento que emplean a mayor numero de personas.

In [15]:
chicago.groupby(['department',
                 'title']).count().sort_values('name',ascending=False).reset_index().groupby('department').head(1)

Unnamed: 0,department,title,name,salary
0,POLICE,POLICE OFFICER,9432,9432
1,FIRE,FIREFIGHTER-EMT,1303,1303
5,STREETS & SAN,SANITATION LABORER,837,837
7,OEMC,TRAFFIC CONTROL AIDE-HOURLY,523,523
10,WATER MGMNT,CONSTRUCTION LABORER,352,352
19,AVIATION,AVIATION SECURITY OFFICER,186,186
23,TRANSPORTN,CONCRETE LABORER,160,160
24,FAMILY & SUPPORT,FOSTER GRANDPARENT,150,150
29,LAW,ASST CORPORATION COUNSEL,134,134
30,PUBLIC LIBRARY,LIBRARY PAGE,132,132


9 - Cuantas personas que se llamen 'Emma' trabajan en Chicago?

In [18]:
chicago[chicago['name'].str.contains('EMMA ')].count()

name          7
title         7
department    7
salary        7
dtype: int64

10 - Calcula el intervalo de confianza al 95% de los salarios de la ciudad de Chicago

In [20]:
zs = 1.96
media = chicago['salary'].mean()
tipica = chicago['salary'].std()

print media - tipica*zs, media + tipica*zs,

29637.0017716 120503.769649


11 - Cual es el departamento con mayor variabiliad de salarios?

12 - Subir un 10% el salario a aquellas personas que esten en el top 5 de salarios mas bajos de su departamento

In [39]:
chicago = chicago.sort_values(['department','salary'])
df_test = chicago[['department','salary']].groupby('department')['salary'].unique()
df_test = df_test.to_dict()

In [None]:
def update_salary(df):
    if df['department'] == 

In [40]:
df_test

{'ADMIN HEARNG': array([  48048.,   50280.,   52740.,   55212.,   57828.,   60600.,
          63276.,   63456.,   66492.,   66696.,   68580.,   69648.,
          70380.,   73752.,   75240.,   88812.,   91980.,   93432.,
         111996.,  129108.,  156420.]),
 'ANIMAL CONTRL': array([  21548.8,   38748. ,   42516. ,   43320. ,   44568. ,   45240. ,
          45372. ,   46656. ,   47580. ,   49656. ,   49788. ,   51984. ,
          52200. ,   53628. ,   54432. ,   54672. ,   55212. ,   56208. ,
          57048. ,   57240. ,   57828. ,   59748. ,   59796. ,   62616. ,
          62664. ,   63456. ,   65436. ,   65568. ,   66564. ,   69648. ,
          71952. ,   80916. ,   90324. ,   94848. ,  110004. ,  115980. ,
         134124. ]),
 'AVIATION': array([   8580.  ,   13000.  ,   17290.  ,   21580.  ,   28080.  ,
          29120.  ,   33072.  ,   39520.  ,   39912.  ,   40248.  ,
          40726.4 ,   41784.  ,   42192.  ,   43740.  ,   44574.4 ,
          45372.  ,   45828.  ,   46134.4 

13 - Compara estadisticamente si existen diferencias significativas entre los salarios de los diferentes departamentos. Para ello deberas utilizar una ANOVA de 1 factor independiente.

14 - Calcula la media del salario de los departamentos 'POLICE', 'POLICE BOARD' y 'FIRE'