---
# Experto Big Data UNAV 2018 - Notebook 10 - Pandas I

---

# Series en Pandas

## Creacion de objetos Series

In [82]:
import pandas as pd # import pandas
import numpy as np # import numpy
import matplotlib.pyplot as plt # import libreria para plotear
pd.set_option('max_columns', 50) # maximo de columnas a mostrar cuando se muestra un pandas dataframe
# indica a python que plotee en el notebook
%matplotlib inline 

La _Series_ es un array unidimensional etiquetado capaz de contener cualquier tipo de datos (enteros, cadenas, números de coma flotante, objetos de Python, etc.). Las etiquetas de los ejes se denominan colectivamente como índices. En el fondo es como un array _NumPy_ pero su manejo es mucho mas intuitivo y sencillo.

Crear una estructura _Series_ desde una lista con indice por defecto que van desde _0_ hasta _n-1_ elementos. 

In [83]:
# crear una estructura Series desde una lista arbitraria
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'])
print(s)

0                7
1       Heisenberg
2             3.14
3      -1789710578
4    Happy Eating!
dtype: object


In [84]:
print(s[0])
print(s[1])
print(s[2])
print(s[3])
print(s[4])

7
Heisenberg
3.14
-1789710578
Happy Eating!


Crear una estructura _Series_ con indicando un indice.

In [85]:
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'],
              index=['A', 'Z', 'C', 'Y', 'E'])
print(s)

A                7
Z       Heisenberg
C             3.14
Y      -1789710578
E    Happy Eating!
dtype: object


## Parametros y argumentos

A una estructura _Series_ al definirla se le pueden pasar los parametros _data_ con un array like,  y _index_ con los indices.

In [86]:
frutas = ["Manzana", "Naranja", "Ciruela", "Uva", "Fresa"]
dias = ["Lunes", "Martes", "Miercoles", "Jueves", "Viernes"]

print(pd.Series(frutas, dias))
print(10 * '-')
print(pd.Series(data = frutas, index = dias))
print(10 * '-')
print(pd.Series(frutas, index = dias))

Lunes        Manzana
Martes       Naranja
Miercoles    Ciruela
Jueves           Uva
Viernes        Fresa
dtype: object
----------
Lunes        Manzana
Martes       Naranja
Miercoles    Ciruela
Jueves           Uva
Viernes        Fresa
dtype: object
----------
Lunes        Manzana
Martes       Naranja
Miercoles    Ciruela
Jueves           Uva
Viernes        Fresa
dtype: object


Se puede acceder a los elementos utilizando el indice.

In [87]:
print(s['A'])
print(s['Z'])
print(s['C'])
print(s['Y'])
print(s['E'])

7
Heisenberg
3.14
-1789710578
Happy Eating!


Se puede acceder a los elementos igualmente utilizando el indice numerico.

In [88]:
print(s[0])
print(s[1])
print(s[2])
print(s[3])
print(s[4])

7
Heisenberg
3.14
-1789710578
Happy Eating!


Tambien se puede convertir un diccionario a una estructura _Series_.

In [89]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
print(cities)

Austin            450.0
Boston              NaN
Chicago          1000.0
New York         1300.0
Portland          900.0
San Francisco    1100.0
dtype: float64


Se puede usar el indice para acceder a la estructura.

In [90]:
print(cities['Chicago'])

1000.0


In [91]:
print(cities[['Chicago', 'Portland', 'San Francisco']])

Chicago          1000.0
Portland          900.0
San Francisco    1100.0
dtype: float64


O se puede utilizar indexado booleano (como en numpy) para el acceso.

In [93]:
print (cities[cities < 1000])

Austin      450.0
Portland    900.0
dtype: float64


Que ocurrio arriba? cities < 1000 devuelve un _Series_ de valores _True/False_ que depues se pasan a la estructura _Series_ idexando los items que corresponden con los valore _True_.

In [94]:
less_than_1000 = cities < 1000
print(less_than_1000)
print('\n')
print(cities[less_than_1000])

Austin            True
Boston           False
Chicago          False
New York         False
Portland          True
San Francisco    False
dtype: bool


Austin      450.0
Portland    900.0
dtype: float64


Se puede cambiar el valor de _Series_.

In [95]:
# cambiando valores basado en el indice
print('Old value:', cities['Chicago'])
cities['Chicago'] = 1400
print('New value:', cities['Chicago'])

Old value: 1000.0
New value: 1400.0


In [96]:
# cambiando valores usando logica booleana
print(cities[cities < 1000])
print('\n')

cities[cities < 1000] = 750
print (cities[cities < 1000])

Austin      450.0
Portland    900.0
dtype: float64


Austin      750.0
Portland    750.0
dtype: float64


Se puede comprobar si un item esta contenido en la _Series_.

In [97]:
print('Seattle' in cities)
print('San Francisco' in cities)

False
True


Se pueden hacer operaciones aritmeticas.

In [99]:
# dividir por 3
print (cities / 3)

Austin           250.000000
Boston                  NaN
Chicago          466.666667
New York         433.333333
Portland         250.000000
San Francisco    366.666667
dtype: float64


In [100]:
# elevar al cuadrado
print (np.square(cities))

Austin            562500.0
Boston                 NaN
Chicago          1960000.0
New York         1690000.0
Portland          562500.0
San Francisco    1210000.0
dtype: float64


In [101]:
print(cities[['Chicago', 'New York', 'Portland']])
print('\n')
print(cities[['Austin', 'New York']])
print('\n')
print(cities[['Chicago', 'New York', 'Portland']] + cities[['Austin', 'New York']])

Chicago     1400.0
New York    1300.0
Portland     750.0
dtype: float64


Austin       750.0
New York    1300.0
dtype: float64


Austin         NaN
Chicago        NaN
New York    2600.0
Portland       NaN
dtype: float64


**Nota:** Austin, Chicago y Portlan no se encontraron en ambas _Series_, fueron retornadas con valores NULL/NaN.

Se puede comprobar si un valor es NULL a traves de _isnull_ y _notnull_ .

In [102]:
# devuelve una Serie booleana diciendo cuales no son Null
print (cities.notnull())

Austin            True
Boston           False
Chicago           True
New York          True
Portland          True
San Francisco     True
dtype: bool


Se puede usar logica booleana para indexar las ciudades que no son NULL

In [103]:
# usando logica booleana para indexar las ciudades que no son NULL
print(cities.isnull())
print('\n')
print(cities[cities.isnull()])

Austin           False
Boston            True
Chicago          False
New York         False
Portland         False
San Francisco    False
dtype: bool


Boston   NaN
dtype: float64


## Atributos de objetos Series

Los atributos son estructuras que los objetos contienen para almacenar informacion relativa al objeto en cuestion. Cualquier objeto tiene atributos definidos y se pueden acceder a ellos a traves del _._ y el nombre del atributo en cuestion. Veamos un ejemplo.

In [104]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
print(cities)

Austin            450.0
Boston              NaN
Chicago          1000.0
New York         1300.0
Portland          900.0
San Francisco    1100.0
dtype: float64


Podemos consultar los valores que hay en la _Series_ a traves del atributo _values_.

In [105]:
print(cities.values)

[  450.    nan  1000.  1300.   900.  1100.]


De igual forma podemos consultar los valores del indice que hay en la Series a traves del atributo _index_.

In [107]:
print(cities.index)

Index(['Austin', 'Boston', 'Chicago', 'New York', 'Portland', 'San Francisco'], dtype='object')


Y nos permite consultar el tipo de datos que guarda la _Series_ a traves de _dtype_.

In [108]:
print(cities.dtype)

float64


Mira si los elementos del la _Series_ son unicos (no hay repeticiones).

In [109]:
print(cities.is_unique) # mira elementos unicos en los valores
print(cities.index.is_unique) # mira elementos unicos en el indice

False
True


Habras notado que pese a tener elementos no repetidos cuando preguntamos si los valores del _Series_ son unicos la respuesta es False.

In [None]:
cities['Boston'] = 600
print(cities.is_unique)

## Metodos de objetos Series

Los metodos son funciones internas que los objetos tienen asociados. Los objetos _Series_ tienen una serie de metodos que nos permitiran realizar calculos en la estructura.

In [110]:
precios = [2.99, 4.45, 1.36]
s = pd.Series(precios)
print(s)

0    2.99
1    4.45
2    1.36
dtype: float64


Podemos realizar la suma de los elementos del la _Series_.

In [111]:
print(s.sum())

8.8


Tambien su multiplicacion.

In [112]:
print(s.product())

18.09548


O la media y su desviacion estandar.

In [113]:
print('La media es: {0}, y la STD es: {1}'.format(s.mean(),s.std()))

La media es: 2.9333333333333336, y la STD es: 1.5457791994115246


O podemos obtener una descripcion de los elementos usando el metodo _describe()_.

In [114]:
print(s.describe())

count    3.000000
mean     2.933333
std      1.545779
min      1.360000
25%      2.175000
50%      2.990000
75%      3.720000
max      4.450000
dtype: float64


Se puede echar un vistazo a los atributos y a los metodos disponibles en una clase usando el tabulador despues del _._.

In [None]:
s.

### Los metodos `.head()` y `.tail()` 

In [116]:
precios = pd.Series(np.arange(5,100,5))

El metodo head() nos va a permitir mostrar los primeros elementos del _Series_. Por defecto muestra 5 elementos aunque le podemos pasar un numero como parametro indicandole cuantos elementos debe mostrar.

In [117]:
print(precios.head())

0     5
1    10
2    15
3    20
4    25
dtype: int64


In [118]:
print(precios.head(8))

0     5
1    10
2    15
3    20
4    25
5    30
6    35
7    40
dtype: int64


El metodo tail() nos va a permitir mostrar los ultimos elementos del Series. Por defecto muestra 5 elementos aunque le podemos pasar un numero como parametro indicandole cuantos elementos debe mostrar.

In [119]:
precios.tail()

14    75
15    80
16    85
17    90
18    95
dtype: int64

In [120]:
print(precios.tail(8))

11    60
12    65
13    70
14    75
15    80
16    85
17    90
18    95
dtype: int64


### El metodo `.map()`

El metodo _map_ nos va a permitir iterar sobre cada elemento de la serie y aplicar una funcion. Podemos definir la funcion fuera o como vimos en la seccion de funciones a traves de un _lambda_.

In [121]:
precios = pd.Series(np.arange(-10,10,5))

In [122]:
print(precios)

0   -10
1    -5
2     0
3     5
dtype: int64


Vamos a cambiar los valores de precios y poner los negativos a 0 dado que no existen los precios negativos. Para ello nos definimos una funcion que nos permita realizar el cambio y luego la mapearemos.

In [123]:
def to_positive(elem):
    if elem < 0:
        return 0
    else:
        return elem

Ahora al aplicar _map_ se recorre toda la _Series_ y se aplica la funcion definida.

In [124]:
print(precios.map(to_positive))

0    0
1    0
2    0
3    5
dtype: int64


Esto tambien se puede hacer de manera sencilla con _lambda_.

In [125]:
print(precios.map(lambda elem: 0 if elem < 0 else elem))

0    0
1    0
2    0
3    5
dtype: int64


La utilizacion de _map_ es muy poderosa y nos va a permitir realizar y aplicar funciones a nuestros datos de forma rapida y sencilla.

# Dataframe

Puedes pensar en un _Dataframe_ como una estructura de datos tabular que almacena cualquier clase de informacion en filas y columnas. Por hacer un simil, uno podria pensar en un hoja de Excel como algo similar (no es lo mismo pero se parecen).

En realidad un _Dataframe_ no es mas que un conjunto de estructuras _Series_ que comparten un mismo indice (en realidad hay mas pero como aproximacion es valida). Por defecto el indice va de 0 hasta N-1 donde N es el numero de filas del _Dataframe_. Se puede crear de forma manual un _Dataframe_ como sigue.

In [126]:
data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Barca', 'Barca', 'Barca', 'Madrid', 'Madrid', 'Mallorca', 'Mallorca', 'Mallorca'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}
football = pd.DataFrame(data, columns=['year', 'team', 'wins', 'losses'])
football.head()

Unnamed: 0,year,team,wins,losses
0,2010,Barca,11,5
1,2011,Barca,8,8
2,2012,Barca,10,6
3,2011,Madrid,15,1
4,2012,Madrid,11,5


### Algunos metodos y atributos de los DataFrames

Existen una serie de atributos y metodos que son compartidos con los objetos _Series_ y _Numpy_. Por ejemplo, podemos consultar el _index_ y los _values_.

In [127]:
print(football.index)
print(20*'-')
football.values

RangeIndex(start=0, stop=8, step=1)
--------------------


array([[2010, 'Barca', 11, 5],
       [2011, 'Barca', 8, 8],
       [2012, 'Barca', 10, 6],
       [2011, 'Madrid', 15, 1],
       [2012, 'Madrid', 11, 5],
       [2010, 'Mallorca', 6, 10],
       [2011, 'Mallorca', 10, 6],
       [2012, 'Mallorca', 4, 12]], dtype=object)

Podemos ver la forma de nuestro _DataFrame_ y tambien el tipo de las columnas que contiene y su nombre.

In [128]:
print(football.shape)
print(20*'-')
print(football.columns)
print(20*'-')
print(football.axes)
print(20*'-')
football.dtypes

(8, 4)
--------------------
Index(['year', 'team', 'wins', 'losses'], dtype='object')
--------------------
[RangeIndex(start=0, stop=8, step=1), Index(['year', 'team', 'wins', 'losses'], dtype='object')]
--------------------


year       int64
team      object
wins       int64
losses     int64
dtype: object

Y tambien podemos ver la informacion que hay en el _DataFrame_ a traves del metodo _info_.

In [129]:
football.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
year      8 non-null int64
team      8 non-null object
wins      8 non-null int64
losses    8 non-null int64
dtypes: int64(3), object(1)
memory usage: 336.0+ bytes


Como puedes ver, tenemos columnas con enteros y un tipo object que en _Pandas_ se utiliza para guardar cadenas. Para simplificar puedes pensar en el como un tipo cadena.  

Los metodos head() y tail() tambien se pueden ejecutar en el DataFrame. La funcion _head()_ nos permite explorar las primeras filas del _Dataframe_ y la funcion _tail()_ las ultimas.

In [130]:
football.head()

Unnamed: 0,year,team,wins,losses
0,2010,Barca,11,5
1,2011,Barca,8,8
2,2012,Barca,10,6
3,2011,Madrid,15,1
4,2012,Madrid,11,5


In [131]:
football.tail()

Unnamed: 0,year,team,wins,losses
3,2011,Madrid,15,1
4,2012,Madrid,11,5
5,2010,Mallorca,6,10
6,2011,Mallorca,10,6
7,2012,Mallorca,4,12


De forma analoga a los _Series_ podemos obtener una descripcion de las columnas numericas del _DataFrame_.

In [132]:
football.describe()

Unnamed: 0,year,wins,losses
count,8.0,8.0,8.0
mean,2011.125,9.375,6.625
std,0.834523,3.377975,3.377975
min,2010.0,4.0,1.0
25%,2010.75,7.5,5.0
50%,2011.0,10.0,6.0
75%,2012.0,11.0,8.5
max,2012.0,15.0,12.0


### Lectura de un DataFrame

Ya ves que el metodo _head_ funciona y esto es porque debajo del dataframe tenemos _Series_ corriendo. Es mucho mas habitual leer un _Dataframe_ desde un fichero de texto _csv_ con la funcion de _Pandas_ *pd.read_csv*

In [133]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba.head() # por defecto 5 lineas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


### Accediendo a las columnas

Se puede acceder a las columnas a traves del operador de indexacion _[ ]_ o el operador _._ .

In [134]:
# Acceso a la columna salary con el punto
df_nba.Salary.head()

0    7730337.0
1    6796117.0
2          NaN
3    1148640.0
4    5000000.0
Name: Salary, dtype: float64

El operador de indexacion con corchetes es mas versatil y permite acceder a mas de una columna y columnas con nombres que tienen espacios.

In [135]:
# Acceso a la columna salary con [ ]
print(type(df_nba['Salary']))
df_nba['Salary'].head()

<class 'pandas.core.series.Series'>


0    7730337.0
1    6796117.0
2          NaN
3    1148640.0
4    5000000.0
Name: Salary, dtype: float64

Para acceder a dos o mas columnas se pone el nombre de las columnas encerrado en una lista.

In [136]:
# Acceso a la columna name, salary [ ]
print(type(df_nba[['Name', 'Salary']]))
df_nba[['Name', 'Salary']].head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Salary
0,Avery Bradley,7730337.0
1,Jae Crowder,6796117.0
2,John Holland,
3,R.J. Hunter,1148640.0
4,Jonas Jerebko,5000000.0


In [137]:
df_nba[['Salary', 'Name', 'Team']].head()

Unnamed: 0,Salary,Name,Team
0,7730337.0,Avery Bradley,Boston Celtics
1,6796117.0,Jae Crowder,Boston Celtics
2,,John Holland,Boston Celtics
3,1148640.0,R.J. Hunter,Boston Celtics
4,5000000.0,Jonas Jerebko,Boston Celtics


Existe un metodo que viene de las _Series_ que nos permite contar cuantas ocurrencias de cada elemento aparecen en nuestro _DataFrame_. Solo actua sobre una columna a cada vez, intentarlo con dos nos dara error.

In [138]:
# cuenta los jugadores que hay que cada position
df_nba['Position'].value_counts()

SG    102
PF    100
PG     92
SF     85
C      78
Name: Position, dtype: int64

### Agregando una columna nueva

Agregar una nueva columna a un _DataFrame_ es muy sencillo. Es tan sencillo como indicar el nombre de la columna y asignarle un valor.

In [139]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba.head() # por defecto 5 lineas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [140]:
# Vamos a crear una nueva columna
df_nba['Sport'] = 'Basket'
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Sport
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,Basket
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,Basket
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,Basket
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,Basket
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,Basket


Como puedes ver la columna se inserta al final del _DataFrame_. Para poder insertar la nueva columna en una posicion determinada debemos usar el metodo _insert_.

In [141]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba.head() # por defecto 5 lineas

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [142]:
# df_nba(posicion, column_name, value)
df_nba.insert(2, 'Sport', 'Basket')

df_nba.head()

Unnamed: 0,Name,Team,Sport,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,Basket,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,Basket,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,Basket,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,Basket,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,Basket,8.0,PF,29.0,6-10,231.0,,5000000.0


Ahora la columna esta en la posicion que nosotros le hemos indicado.

### Modificando los valores de una columna

Una columna puede ser modificada de forma sencilla seleccionandola y asignandole un nuevo valor.

In [143]:
# pongamos que la nba en realidad es baseball...
df_nba['Sport'] = 'Baseball'
df_nba.head()

Unnamed: 0,Name,Team,Sport,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,Baseball,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,Baseball,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,Baseball,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,Baseball,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,Baseball,8.0,PF,29.0,6-10,231.0,,5000000.0


Tambien se puede modificar valores en base a otra columna. El peso esta en libras, vamos a cambiarlo a KG y crear una nueva columna.

In [144]:
lb2kg = 0.453592 # una libra son 0.453592 kg
df_nba['Weight_kg'] = df_nba['Weight'] * lb2kg
df_nba.head()

Unnamed: 0,Name,Team,Sport,Number,Position,Age,Height,Weight,College,Salary,Weight_kg
0,Avery Bradley,Boston Celtics,Baseball,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,81.64656
1,Jae Crowder,Boston Celtics,Baseball,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,106.59412
2,John Holland,Boston Celtics,Baseball,30.0,SG,27.0,6-5,205.0,Boston University,,92.98636
3,R.J. Hunter,Boston Celtics,Baseball,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,83.91452
4,Jonas Jerebko,Boston Celtics,Baseball,8.0,PF,29.0,6-10,231.0,,5000000.0,104.779752


### Eliminando valores *Null* con `.dropna()` 

In [146]:
df_nba = pd.read_csv('pandas/nba.csv')

Probablemente a estas altura te habras dado cuenta que el salario de la tercera columna esta representado como *NaN*. Esto es lo que conocemos como missing o Null values. En Excel, esa celda apareceria vacia. Este tipo de valores pueden representar un problema cuando analizamos datos de modo que los podemos eliminar usando el metodo *dropna*.

In [147]:
# Eliminamos las filas que tienen uno o mas Null values
# Observa como la fila con indice 2 desaparece porque tiene un Null en el Salario
print(df_nba.dropna(how='any').shape)
df_nba.dropna(how='any').head()

(364, 9)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0


Tambien podemos eliminar columnas usando el parametro _axis_. Por defecto Python intenta eliminar filas (axis=0) pero podemos eliminar las columnas que tengan un valor Null.

In [148]:
# College y Salary se eliminan
print(df_nba.dropna(axis=1).shape)
df_nba.dropna(axis=1).head()

(457, 7)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0


Tambien podemos querer eliminar aquellas fillas que tengan un Null en una columna en concreto usando el parametro _subset_.

In [149]:
# Solo eliminamos las filas con Nulls en Salary
print(df_nba.dropna(subset=['Salary']).shape)
df_nba.dropna(subset=['Salary']).head()

(446, 9)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0


### Rellenando los valores Null con `.fillna()` 

Una alternativa a la eliminacion de _missing_ values es su sustitucion por valores. Esto en Python se puede hacer a traves del metodo _fillna_.

In [150]:
df_nba = pd.read_csv('pandas/nba.csv')

In [153]:
# sustituimos el salario por 0 y lo guardamos en el DataFrame a traves del parametro inplace
df_nba['Salary'].fillna(0, inplace=True)
df_nba['College'].fillna('N/A', inplace=True)

In [154]:
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


Y si queremos substituirlo por la media de los valores. Es sencillo hacer uso de los metodos para ello.

In [155]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba['Salary'].fillna(int(df_nba['Salary'].mean()), inplace=True)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,4842684.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


### Cambiando los tipos de las columnas con `.astype()` 

In [157]:
df_nba = pd.read_csv("pandas/nba.csv").dropna(how = "all")
df_nba["Salary"].fillna(0, inplace = True)
df_nba["College"].fillna("None", inplace = True)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [158]:
df_nba.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 457 entries, 0 to 456
Data columns (total 9 columns):
Name        457 non-null object
Team        457 non-null object
Number      457 non-null float64
Position    457 non-null object
Age         457 non-null float64
Height      457 non-null object
Weight      457 non-null float64
College     457 non-null object
Salary      457 non-null float64
dtypes: float64(4), object(5)
memory usage: 35.7+ KB


Podemos cambiar la columnas de edad, salario y numero a enteros para que sus tipos sean los adecuados.

In [159]:
df_nba["Salary"] = df_nba["Salary"].astype("int") # cambiamos columna salario a entero

In [160]:
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000


In [161]:
df_nba["Number"] = df_nba["Number"].astype("int") # a entero
df_nba["Age"] = df_nba["Age"].astype("int") # a entero
df_nba.head(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0,PG,25,6-2,180.0,Texas,7730337
1,Jae Crowder,Boston Celtics,99,SF,25,6-6,235.0,Marquette,6796117
2,John Holland,Boston Celtics,30,SG,27,6-5,205.0,Boston University,0


En cualquier momento podemos volver a cambiarlos a tipo _float_.

In [162]:
df_nba["Salary"] = df_nba["Salary"].astype("float") # cambiamos columna salario a float

Existen columna que contienen pocos elementos distintos. Por ejemplo, la columna Position solo contiene 5 elementos que son las posiciones que existen en la pista de baloncesto. Estos elementos se puede representar de una manera mas eficiente que como tipo _object_ si los cambiamos a categorias.

In [163]:
df_nba["Position"] = df_nba["Position"].astype("category")
df_nba["Team"] = df_nba["Team"].astype("category")
df_nba.head(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0,PG,25,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99,SF,25,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30,SG,27,6-5,205.0,Boston University,0.0


A la vista no cambia nada pero si accedemos a la informacion podemos ver como hemos ahorrado un 8% de memoria que te permitira cargar mas datos para tus analisis.

### Ordenando el DataFrame `.sort_values()` 

La ordenacion de un _DataFrame_ en base a una columna o columnas es un elemento muy potente que nos va a ser muy util cuando realicemos analisis. 

In [164]:
df_nba = pd.read_csv("pandas/nba.csv")

Veamos quienes son los 5 jugadores que menos cobran de la NBA.

In [165]:
df_nba.sort_values('Salary').head(5)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
32,Thanasis Antetokounmpo,New York Knicks,43.0,SF,23.0,6-7,205.0,,30888.0
291,Orlando Johnson,New Orleans Pelicans,0.0,SG,27.0,6-5,220.0,UC Santa Barbara,55722.0
130,Phil Pressey,Phoenix Suns,25.0,PG,25.0,5-11,175.0,Missouri,55722.0
135,Alan Williams,Phoenix Suns,15.0,C,23.0,6-8,260.0,UC Santa Barbara,83397.0
175,Jordan McRae,Cleveland Cavaliers,12.0,SG,25.0,6-5,179.0,Tennessee,111196.0


Y si queremos saber los que mas cobran?. Podemos utilizar el parametro _ascending=False_ (por defecto es True).

In [166]:
df_nba.sort_values('Salary', ascending=False).head(5)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
109,Kobe Bryant,Los Angeles Lakers,24.0,SF,37.0,6-6,212.0,,25000000.0
169,LeBron James,Cleveland Cavaliers,23.0,SF,31.0,6-8,250.0,,22970500.0
33,Carmelo Anthony,New York Knicks,7.0,SF,32.0,6-8,240.0,Syracuse,22875000.0
251,Dwight Howard,Houston Rockets,12.0,C,30.0,6-11,265.0,,22359364.0
339,Chris Bosh,Miami Heat,1.0,PF,32.0,6-11,235.0,Georgia Tech,22192730.0


Esto se puede combinar de multiples formas y agregar mas columnas y con simples reordenamientos ya podemos comenzar a realizar pequenios analisis.

In [167]:
# Primero ordena por edad y luego por salario
df_nba.sort_values(['Age', 'Salary'], ascending=[True, False]).head(5)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
122,Devin Booker,Phoenix Suns,1.0,SG,19.0,6-6,206.0,Kentucky,2127840.0
226,Rashad Vaughn,Milwaukee Bucks,20.0,SG,19.0,6-6,202.0,UNLV,1733040.0
410,Karl-Anthony Towns,Minnesota Timberwolves,32.0,C,20.0,7-0,244.0,Kentucky,5703600.0
116,D'Angelo Russell,Los Angeles Lakers,1.0,PG,20.0,6-5,195.0,Ohio State,5103120.0
56,Jahlil Okafor,Philadelphia 76ers,8.0,C,20.0,6-11,275.0,Duke,4582680.0


Por defecto los valores _Null_ se van al final aunque podemos cambiar este comportamiento. El parametro *na_position* nos ayudara a ello.

In [168]:
df_nba.sort_values('Salary').tail(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
353,Dorell Wright,Miami Heat,11.0,SF,30.0,6-9,205.0,,
397,Axel Toupane,Denver Nuggets,6.0,SG,23.0,6-7,210.0,,
409,Greg Smith,Minnesota Timberwolves,4.0,PF,25.0,6-10,250.0,Fresno State,


In [169]:
df_nba.sort_values('Salary', na_position='first').tail(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
33,Carmelo Anthony,New York Knicks,7.0,SF,32.0,6-8,240.0,Syracuse,22875000.0
169,LeBron James,Cleveland Cavaliers,23.0,SF,31.0,6-8,250.0,,22970500.0
109,Kobe Bryant,Los Angeles Lakers,24.0,SF,37.0,6-6,212.0,,25000000.0


### Ordenando el DataFrame `.sort_index()` 

Cuando ordenamos en base a los valores nuestro _Dataframe_ desordena los indices que tenemos. Si queremos volver al estado inicial podemos usar *sort_index()*.

In [170]:
df_nba = pd.read_csv("pandas/nba.csv")
df_nba = df_nba.sort_values(['Age', 'Salary'], ascending=[True, False])
# nuestro DataFrame tiene los indices desordenados
df_nba.head(5)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
122,Devin Booker,Phoenix Suns,1.0,SG,19.0,6-6,206.0,Kentucky,2127840.0
226,Rashad Vaughn,Milwaukee Bucks,20.0,SG,19.0,6-6,202.0,UNLV,1733040.0
410,Karl-Anthony Towns,Minnesota Timberwolves,32.0,C,20.0,7-0,244.0,Kentucky,5703600.0
116,D'Angelo Russell,Los Angeles Lakers,1.0,PG,20.0,6-5,195.0,Ohio State,5103120.0
56,Jahlil Okafor,Philadelphia 76ers,8.0,C,20.0,6-11,275.0,Duke,4582680.0


In [171]:
# reordenacion del indice de menor a mayor
df_nba.sort_index().head(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,


In [172]:
# reordenacion de mayor a menor
df_nba.sort_index(ascending=False).head(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0


### Rankeando el DataFrame `.rank()` 

Un metodo interesante que nos permite realizar un ranking de los jugadores mejor pagados es _rank()_.

In [173]:
df_nba = pd.read_csv("pandas/nba.csv").dropna(how = "all")
df_nba["Salary"] = df_nba["Salary"].fillna(0).astype("int")
df_nba.head(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0


In [175]:
# ranking de mayor a menor de los salarios de jugadores
# creamos nueva columna
df_nba['Salary Rank'] = df_nba['Salary'].rank(ascending = False).astype('int')

Vamos a comprobar que todo funcionando ordenando el _DataFrame_.

In [176]:
df_nba.sort_values('Salary', ascending=False).head(20)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Salary Rank
109,Kobe Bryant,Los Angeles Lakers,24.0,SF,37.0,6-6,212.0,,25000000,1
169,LeBron James,Cleveland Cavaliers,23.0,SF,31.0,6-8,250.0,,22970500,2
33,Carmelo Anthony,New York Knicks,7.0,SF,32.0,6-8,240.0,Syracuse,22875000,3
251,Dwight Howard,Houston Rockets,12.0,C,30.0,6-11,265.0,,22359364,4
339,Chris Bosh,Miami Heat,1.0,PF,32.0,6-11,235.0,Georgia Tech,22192730,5
100,Chris Paul,Los Angeles Clippers,3.0,PG,31.0,6-0,175.0,Wake Forest,21468695,6
414,Kevin Durant,Oklahoma City Thunder,35.0,SF,27.0,6-9,240.0,Texas,20158622,7
164,Derrick Rose,Chicago Bulls,1.0,PG,27.0,6-3,190.0,Memphis,20093064,8
349,Dwyane Wade,Miami Heat,3.0,SG,34.0,6-4,220.0,Marquette,20000000,9
174,Kevin Love,Cleveland Cavaliers,0.0,PF,27.0,6-10,251.0,UCLA,19689000,11


Lo interesante de todo esto es que valores iguales tendran el mismo ranking.

### Filtrando  `DataFrames` en base a una o mas condiciones

Vamos a ver como se puede realizar una seleccion precisa de valores en nuestro _DataFrame_ en base a una condicion.

In [177]:
df = pd.read_csv("pandas/employees.csv", parse_dates = ["Start Date", "Last Login Time"])
# convertimos Senior Management en bool
df["Senior Management"] = df["Senior Management"].astype("bool")
# cambiamos a category el genero que solo tiene dos valores distintos
df["Gender"] = df["Gender"].astype("category")
df.head(3)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-09 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
2,Maria,Female,1993-04-23,2018-02-09 11:17:00,130590,11.858,False,Finance


Para ello se utiliza los operadores logicos y creamos unas variables de filtrado. **El filtrado en el fondo no es mas que una indexacion booleana que accede a las filas donde las mascaras de filtrado son True.**

In [178]:
mask1 = df["Gender"] == "Male"
mask2 = df["Team"] == "Marketing"
# recupera aquellos empleados que sean hombres y cuyo equipo sea marketing
df[mask1 & mask2].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-09 12:42:00,97308,6.945,True,Marketing
21,Matthew,Male,1995-09-05,2018-02-09 02:12:00,100612,13.645,False,Marketing
26,Craig,Male,2000-02-27,2018-02-09 07:45:00,37598,7.757,True,Marketing
74,Thomas,Male,1995-06-04,2018-02-09 14:24:00,62096,17.029,False,Marketing
77,Charles,Male,2004-09-14,2018-02-09 20:13:00,107391,1.26,True,Marketing


O en una linea.

In [179]:
df[(df["Gender"] == "Male") & (df["Team"] == "Marketing")].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-09 12:42:00,97308,6.945,True,Marketing
21,Matthew,Male,1995-09-05,2018-02-09 02:12:00,100612,13.645,False,Marketing
26,Craig,Male,2000-02-27,2018-02-09 07:45:00,37598,7.757,True,Marketing
74,Thomas,Male,1995-06-04,2018-02-09 14:24:00,62096,17.029,False,Marketing
77,Charles,Male,2004-09-14,2018-02-09 20:13:00,107391,1.26,True,Marketing


El codigo anterior realizar un filtrado en base a dos condiciones que se han de cumplir utilizando el operador & que realiza un filtrado AND elemento a elemento en las _Series_. El siguiente lo hace en base a que una de las condiciones se cumplan. Esto se hace en base al operador | que hace las veces de OR.

In [183]:
# empleados que son hombres, o trabajan en marketing o ambos
df[(df["Gender"] == "Male") | (df["Team"] == "Marketing")].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-09 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
3,Jerry,Male,2005-03-04,2018-02-09 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2018-02-09 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2018-02-09 01:35:00,115163,10.125,False,Legal


Las condiciones de filtrado se pueden aplicar usando cualquiera de los operadores de comparacion que conocemos.

In [184]:
# salarios > 100000 $
df[(df["Salary"] > 100000)].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2018-02-09 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2018-02-09 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2018-02-09 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2018-02-09 01:35:00,115163,10.125,False,Legal
9,Frances,Female,2002-08-08,2018-02-09 06:51:00,139852,7.524,True,Business Development


In [185]:
# salarios > 100000 $ y que no son senior management
df[(df["Salary"] > 100000) & (df["Senior Management"] == False)].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2018-02-09 11:17:00,130590,11.858,False,Finance
5,Dennis,Male,1987-04-18,2018-02-09 01:35:00,115163,10.125,False,Legal
13,Gary,Male,2008-01-27,2018-02-09 23:40:00,109831,5.831,False,Sales
17,Shawn,Male,1986-12-07,2018-02-09 19:45:00,111737,6.414,False,Product
18,Diana,Female,1981-10-23,2018-02-09 10:27:00,132940,19.082,False,Client Services


Las combinaciones son infinitas y podemos obtener cualquier tipo de informacion. Por ejemplo.

In [186]:
mask1 = df["First Name"] == "Robert"
mask2 = df["Team"] == "Client Services"
mask3 = df["Start Date"] > "2016-06-01"

# recoge a Robert de Client Services 
#y aquellos empleados que empezaron despues de la fecha marcada
df[(mask1 & mask2) | mask3]

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
15,Lillian,Female,2016-06-05,2018-02-09 06:09:00,59414,1.256,False,Product
98,Tina,Female,2016-06-16,2018-02-09 19:47:00,100705,16.961,True,Marketing
387,Robert,Male,1994-10-29,2018-02-09 04:26:00,123294,19.894,False,Client Services
451,Terry,,2016-07-15,2018-02-09 00:29:00,140002,19.49,True,Marketing


### El metodo `.isin()`

In [187]:
df = pd.read_csv("employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.head(3)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-09 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
2,Maria,Female,1993-04-23,2018-02-09 11:17:00,130590,11.858,False,Finance


Que ocurre si queremos filtrar en base a varios valores de una columna.

In [188]:
mask1 = df["Team"] == "Legal"
mask2 = df["Team"] == "Sales"
mask3 = df["Team"] == "Product"

df[mask1 | mask2 | mask3].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
5,Dennis,Male,1987-04-18,2018-02-09 01:35:00,115163,10.125,False,Legal
6,Ruby,Female,1987-08-17,2018-02-09 16:20:00,65476,10.012,True,Product
11,Julie,Female,1997-10-26,2018-02-09 15:19:00,102508,12.637,True,Legal
13,Gary,Male,2008-01-27,2018-02-09 23:40:00,109831,5.831,False,Sales
15,Lillian,Female,2016-06-05,2018-02-09 06:09:00,59414,1.256,False,Product


El metodo _isin( )_ simplifica de forma significativa esta operacion. Ahora ya vamos con la forma pythonica.

In [189]:
df[df['Team'].isin(['Legal','Sales','Product'])].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
5,Dennis,Male,1987-04-18,2018-02-09 01:35:00,115163,10.125,False,Legal
6,Ruby,Female,1987-08-17,2018-02-09 16:20:00,65476,10.012,True,Product
11,Julie,Female,1997-10-26,2018-02-09 15:19:00,102508,12.637,True,Legal
13,Gary,Male,2008-01-27,2018-02-09 23:40:00,109831,5.831,False,Sales
15,Lillian,Female,2016-06-05,2018-02-09 06:09:00,59414,1.256,False,Product


### Los metodos `.isnull()` y `.notnull()`

Estos dos metodos complementarios nos van a permitir filtrar aquellas filas que tengan valores Null o las que no los tengan en base al indexado booleano.

In [190]:
# filas con el departamento Null (desconocido)
mask = df["Team"].isnull()

df[mask].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
10,Louise,Female,1980-08-12,2018-02-09 09:01:00,63241,15.132,True,
23,,Male,2012-06-14,2018-02-09 16:19:00,125792,5.042,True,
32,,Male,1998-08-21,2018-02-09 14:27:00,122340,6.417,True,
91,James,,2005-01-26,2018-02-09 23:00:00,128771,8.309,False,


In [191]:
# filas cuyo genero es conocido
condition = df["Gender"].notnull()

df[condition].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-09 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
2,Maria,Female,1993-04-23,2018-02-09 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2018-02-09 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2018-02-09 16:47:00,101004,1.389,True,Client Services


### El metodo `.between()`

Este metodo nos facilitara la vida para realizar un filtrado por rango de valores.

In [193]:
# aquellos que cobran entre (60000, 70000)
df[df["Salary"].between(60000, 70000)].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
6,Ruby,Female,1987-08-17,2018-02-09 16:20:00,65476,10.012,True,Product
10,Louise,Female,1980-08-12,2018-02-09 09:01:00,63241,15.132,True,
20,Lois,,1995-04-22,2018-02-09 19:18:00,64714,4.934,True,Legal
41,Christine,,2015-06-28,2018-02-09 01:08:00,66582,11.308,True,Business Development


In [194]:
# aquellos con un bonus entre 2% y 5%
df[df["Bonus %"].between(2.0, 5.0)].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
20,Lois,,1995-04-22,2018-02-09 19:18:00,64714,4.934,True,Legal
40,Michael,Male,2008-10-10,2018-02-09 11:25:00,99283,2.665,True,Distribution
49,Chris,,1980-01-24,2018-02-09 12:13:00,113590,3.055,False,Sales
60,Paula,,2005-11-23,2018-02-09 14:01:00,48866,4.271,False,Distribution


In [195]:
# o podemos seleccionar los empleados en que empezaron rango de fechas
df[df["Start Date"].between("1991-01-01", "1992-01-01")].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
27,Scott,,1991-07-11,2018-02-09 18:58:00,122367,5.218,False,Legal
75,Bonnie,Female,1991-07-02,2018-02-09 01:27:00,104897,5.118,True,Human Resources
88,Donna,Female,1991-11-27,2018-02-09 13:59:00,64088,6.155,True,Legal
116,,Male,1991-06-22,2018-02-09 20:58:00,76189,18.988,True,Legal
148,Patrick,,1991-07-14,2018-02-09 02:24:00,124488,14.837,True,Sales


In [None]:
# podemos chequear quienes se logearon entre las 8.30 y las 12 del mediodia
df[df["Last Login Time"].between("08:30AM", "12:00PM")]

### El methodo `.duplicated()`

In [197]:
df = pd.read_csv("pandas/employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.sort_values("First Name", inplace = True)
df.head(3)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2018-02-09 10:20:00,61602,11.849,True,Marketing
327,Aaron,Male,1994-01-29,2018-02-09 18:48:00,58755,5.097,True,Marketing
440,Aaron,Male,1990-07-22,2018-02-09 14:53:00,52119,11.343,True,Client Services


Este metodo nos servira extraer las filas repetidas en nuestro DataFrame. Por defecto si no ponemos nada, Pandas guarda la fila con el primer duplicado y nos devuelve el resto de duplicados.

In [198]:
df[df["First Name"].duplicated(keep='first')].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
327,Aaron,Male,1994-01-29,2018-02-09 18:48:00,58755,5.097,True,Marketing
440,Aaron,Male,1990-07-22,2018-02-09 14:53:00,52119,11.343,True,Client Services
937,Aaron,,1986-01-22,2018-02-09 19:39:00,63126,18.424,False,Client Services
141,Adam,Male,1990-12-24,2018-02-09 20:57:00,110194,14.727,True,Product
302,Adam,Male,2007-07-05,2018-02-09 11:59:00,71276,5.027,True,Human Resources


Podemos cambiar esto para que nos guarde el ultimo duplicado y nos devuelva el resto.

In [199]:
df[df["First Name"].duplicated(keep='last')].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2018-02-09 10:20:00,61602,11.849,True,Marketing
327,Aaron,Male,1994-01-29,2018-02-09 18:48:00,58755,5.097,True,Marketing
440,Aaron,Male,1990-07-22,2018-02-09 14:53:00,52119,11.343,True,Client Services
137,Adam,Male,2011-05-21,2018-02-09 01:45:00,95327,15.12,False,Distribution
141,Adam,Male,1990-12-24,2018-02-09 20:57:00,110194,14.727,True,Product


Si queremos acceder a aquellos registros que NO tienen duplicados lo podemos hacer de la siguiente manera. En este caso le indicamos a Pandas que no se guarde ningun duplicado y luego con el operador de NOT (de negacion) ~ invertimos el resultado.

In [200]:
# ~ hace que el resultado booleano se invierta y nos quedemos con los no duplicados
df[~df["First Name"].duplicated(keep = False)].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
8,Angela,Female,2005-11-22,2018-02-09 06:29:00,95570,18.523,True,Engineering
688,Brian,Male,2007-04-07,2018-02-09 22:47:00,93901,17.821,True,Legal
190,Carol,Female,1996-03-19,2018-02-09 03:39:00,57783,9.129,False,Finance
887,David,Male,2009-12-05,2018-02-09 08:48:00,92242,15.407,False,Legal
5,Dennis,Male,1987-04-18,2018-02-09 01:35:00,115163,10.125,False,Legal


**Cuidado que este metodo solo se puede aplicar en una columna (un objeto _Series_)**

### El metodo `.drop_duplicates()` 

In [201]:
df = pd.read_csv("employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.sort_values("First Name", inplace = True)
df.head(3)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2018-02-09 10:20:00,61602,11.849,True,Marketing
327,Aaron,Male,1994-01-29,2018-02-09 18:48:00,58755,5.097,True,Marketing
440,Aaron,Male,1990-07-22,2018-02-09 14:53:00,52119,11.343,True,Client Services


Este metodo es la version de _DataFrame_ para eliminar duplicados. 

Si no indicamos nada *drop_duplicates* intentara eliminar las filas que sean tengan todos los valores de sus columnas identicas. Si esto no ocurre, no eliminara ninguna.

In [203]:
# no existen filas duplicadas
#que tengan todas las columnas iguales
print(len(df.drop_duplicates()))
print(len(df))

1000
1000


Podemos sin embargo especificar una columna con duplicados y actuar sobre ella.

In [204]:
# elimina todos los duplicados de la columna nombre y guarda el primero
df.drop_duplicates(subset = ["First Name"], keep = 'first').head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2018-02-09 10:20:00,61602,11.849,True,Marketing
137,Adam,Male,2011-05-21,2018-02-09 01:45:00,95327,15.12,False,Distribution
300,Alan,Male,1988-06-26,2018-02-09 03:54:00,111786,3.592,True,Engineering
372,Albert,Male,1997-02-01,2018-02-09 16:20:00,67827,19.717,True,Engineering
988,Alice,Female,2004-10-05,2018-02-09 09:34:00,47638,11.209,False,Human Resources


In [205]:
# elimina todos los duplicados de la columna nombre y guarda el ultimo
df.drop_duplicates(subset = ["First Name"], keep = 'last').head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
937,Aaron,,1986-01-22,2018-02-09 19:39:00,63126,18.424,False,Client Services
538,Adam,Male,2010-10-08,2018-02-09 21:53:00,45181,3.491,False,Human Resources
610,Alan,Male,2012-02-17,2018-02-09 00:26:00,41453,10.084,False,Product
959,Albert,Male,1992-09-19,2018-02-09 02:35:00,45094,5.85,True,Business Development
693,Alice,Female,1995-10-16,2018-02-09 21:19:00,92799,2.782,False,Sales


Y podemos especificar mas de una columna sobre la que actuar.

In [207]:
# elimina todos los duplicados de la columna nombre y team guarda el ultimo
df.drop_duplicates(subset = ["First Name", "Team"], keep = 'first').head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2018-02-09 10:20:00,61602,11.849,True,Marketing
440,Aaron,Male,1990-07-22,2018-02-09 14:53:00,52119,11.343,True,Client Services
137,Adam,Male,2011-05-21,2018-02-09 01:45:00,95327,15.12,False,Distribution
141,Adam,Male,1990-12-24,2018-02-09 20:57:00,110194,14.727,True,Product
302,Adam,Male,2007-07-05,2018-02-09 11:59:00,71276,5.027,True,Human Resources


### Los metodos `.unique()` y `.nunique()` 

In [208]:
df = pd.read_csv("employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.head(3)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-09 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2018-02-09 06:53:00,61933,4.17,True,
2,Maria,Female,1993-04-23,2018-02-09 11:17:00,130590,11.858,False,Finance


Estos metodos nos permiten identificar aquellos valores unicos de las diferentes columnas que tenemos en nuestro DataFrame. Es un metodo que actual a nivel de columna (_Series_) de modo que si lo invocamos con mas de una columna obtendremos un error.

In [209]:
print(df["Gender"].unique())
print(len(df["Gender"].unique()))

[Male, Female, NaN]
Categories (2, object): [Male, Female]
3


In [210]:
print(df["Team"].unique())
print('Existen {0} departamentos en la empresa.'.format(len(df["Team"].unique())))

['Marketing' nan 'Finance' 'Client Services' 'Legal' 'Product'
 'Engineering' 'Business Development' 'Human Resources' 'Sales'
 'Distribution']
Existen 11 departamentos en la empresa.


Una manera mas elegante de calcular el numero de valores unicos es directamente a traves de la funcion _nunique_. **Cuidado con esta funcion que excluye en su cuenta por defecto los Nulls.**

In [211]:
print('Existen {0} nombres distintos de empleados en la empresa.'.format(
    df["First Name"].nunique(dropna = True)))
print('Existen {0} departamentos en la empresa.'.format(
    df["Team"].nunique(dropna = False)))

Existen 200 nombres distintos de empleados en la empresa.
Existen 11 departamentos en la empresa.


Al igual que en el modulo _Numpy_ se pueden realizar operaciones de forma muy sencilla con el indexado booleano

In [215]:
nuc_pob = pd.read_csv('pandas/NucleosPoblacion.csv')
print ('Mean Poblacion', nuc_pob['Poblacion'].mean())
print ('STD Poblacion', nuc_pob['Poblacion'].std())
print ('Min Poblacion', nuc_pob['Poblacion'].min())
print ('Max Poblacion', nuc_pob['Poblacion'].max())

Mean Poblacion 45710.85680751174
STD Poblacion 140598.14339650268
Min Poblacion 10037.0
Max Poblacion 3273049.0


Y se pueden combinar las operaciones para obtener resultados mas interesantes

In [216]:
nuc_pob[nuc_pob['Poblacion'] >50000].head()

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
2,2,3,Arrecife,58156.0,35004,Arrecife,35,Las Palmas,-13.551451,28.960649
9,9,10,Las Palmas de Gran Canaria,383308.0,35016,Las Palmas de Gran Canaria,35,Las Palmas,-15.413387,28.099775
13,13,14,Santa Lucía de Tirajana,64845.0,35022,Santa Lucía de Tirajana,35,Las Palmas,-15.540409,27.911841
16,16,17,Telde,100900.0,35026,Telde,35,Las Palmas,-15.416666,27.994202
22,22,23,Arona,79377.0,38006,Arona,38,Santa Cruz de Tenerife,-16.679684,28.099518


In [217]:
nuc_pob[(nuc_pob['Poblacion'] >50000) & (nuc_pob['Provincia'] == 'Granada') ].head()

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
272,272,273,Granada,239154.0,18087,Granada,18,Granada,-3.600019,37.176419
278,278,279,Motril,60884.0,18140,Motril,18,Granada,-3.521234,36.745746


Ordenar los valores en base a una columna nunca fue tan sencillo

In [218]:
nuc_pob.sort_values('Poblacion', ascending = False).head() # si pones ascending = True los ordena en orden ascendente 

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
355,355,356,Madrid,3273049.0,28079,Madrid,28,Madrid,-3.703797,40.41663
623,623,624,Barcelona,1619337.0,8019,Barcelona,8,Barcelona,2.176349,41.384247
561,561,562,Valencia,809267.0,46250,Valencia,46,València/Valencia,-0.375657,39.475344
492,492,493,Sevilla,704198.0,41091,Sevilla,41,Sevilla,-5.992514,37.386205
591,591,592,Zaragoza,675121.0,50297,Zaragoza,50,Zaragoza,-0.879287,41.656457


Puedes resetear el indice para que despues de ordenarlos cambie. Observa como cambia el indice y ahora se ha reseteado y aparece el nuevo indice con las ciudades ordenadas. 

In [219]:
# Esto puede servirte muy util para ordenar y encontrar luego posiciones
nuc_pob.sort_values('Poblacion', ascending = False).reset_index(drop=True).head() # con drop nos deshacemos del antiguo indice

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
0,355,356,Madrid,3273049.0,28079,Madrid,28,Madrid,-3.703797,40.41663
1,623,624,Barcelona,1619337.0,8019,Barcelona,8,Barcelona,2.176349,41.384247
2,561,562,Valencia,809267.0,46250,Valencia,46,València/Valencia,-0.375657,39.475344
3,492,493,Sevilla,704198.0,41091,Sevilla,41,Sevilla,-5.992514,37.386205
4,591,592,Zaragoza,675121.0,50297,Zaragoza,50,Zaragoza,-0.879287,41.656457


# Ejercicios

### Jugando nucleos de poblacion

El dataset se compone de:
- FID: es in identificador de numero linea lo puedes ignorar
- Texto: nombre de la poblacion
- Poblacion: numero de habitantes
- CodMun: codigo postal
- Municipio: nombre del municipio (usa este para los ejercicios)
- CodProvin: codigo provincia
- Provincia: nombre de la provincia
- X: Longitud en grados
- Y: Latitud en grados

1 - Carga el fichero 'NucleosPoblacion.csv' explora con las funciones _head_ y _tail_ el principio y el final.

In [214]:
nuc_pob = pd.read_csv('pandas/NucleosPoblacion.csv')

2 - Cual es la ciudad mas poblada?

3 - Que posicion ocupa Granada en las mas pobladas?. La funcion *sort_values* puede ayudarte en tu cometido

4 - Escribe el nombre de los 10 municipios con menor poblacion

5 - Cuantos municipios en Extremadura tienen mas de 5000 habitantes?

6 - ¿Cuál es el municipio situado más al Norte? (Usar el valor de la coordenada "Y" que representa la latitud en grados). Proporcione también la provincia a la que pertenece y su población.

7 - ¿Cual es el municipio de la provincia de Granada situado más al Este?. ¿Cual es el situado más al Oeste?.

8 - ¿Cuántos Municipios hay en un radio de 5 grados de la ciudad de Barcelona?.

9 - Obtenga la media, mediana, desviación estándar, valor máximo y valor mínimo de la población de los municipios de la provincia de Granada

### Volviendo al estudio del performance de los estudiantes ahora con DataFrames"

La descripcion del dataset es el siguiente, en columnas (recuerda que las columnas en Python empiezan en 0):

- 1: school - student's school (binary: 0 - Gabriel Pereira or 1 - Mousinho da Silveira) 
- 2: sex - student's sex (binary: 0 - female or 1 - male) 
- 3: age - student's age (numeric: from 15 to 22) 
- 4: address - student's home address type (binary: 0 - urban or 1 - rural) 
- 5: famsize - family size (binary: 0 - greater than 3 or 1 - less or equal to 3) 
- 6: Pstatus - parent's cohabitation status (binary: 0 - apart or 1 - living together) 
- 7: Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education) 
- 8: Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education) 
- 9: traveltime - home to school travel time (numeric: 1 - 15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - more than 1 hour) 
- 10: studytime - weekly study time (numeric: 1 - less than 2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - more than 10 hours) 
- 11: failures - number of past class failures (numeric: n if 1 less,equal than 3, else 4) 
- 12: schoolsup - extra educational support (binary: 1 - yes or 0 - no) 
- 13: famsup - family educational support (binary: 1 - yes or 0 - no) 
- 14: paid - extra paid classes within the course subject (binary: 1 - yes or 0 - no) 
- 15: activities - extra-curricular activities (binary: 1 - yes or 0 - no) 
- 16: nursery - attended nursery school (binary: 1 - yes or 0 - no) 
- 17: higher - wants to take higher education (binary: 1 - yes or 0 - no) 
- 18: internet - Internet access at home (binary: 1 - yes or 0 - no) 
- 19: romantic - with a romantic relationship (binary: 1 - yes or 0 - no) 
- 20: famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent) 
- 21: freetime - free time after school (numeric: from 1 - very low to 5 - very high) 
- 22: goout - going out with friends (numeric: from 1 - very low to 5 - very high) 
- 23: Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high) 
- 24: Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high) 
- 25: health - current health status (numeric: from 1 - very bad to 5 - very good) 
- 26: absences - number of school absences (numeric: from 0 to 93) 
- 27: G1 - first period grade (numeric: from 0 to 20) 
- 28: G2 - second period grade (numeric: from 0 to 20) 
- 29: G3 - final grade (numeric: from 0 to 20, output target)

10 - Calcula la media de notas finales (G3) para cada una de las escuelas junto con sus respectivas desviaciones estandar.

11 - De que forma influye el tiempo de estudio en los resultados de los estudiantes?. Por ahora puedes sacar las medias de las notas finales (G3) de cada asignatura. Puedes sacar las medias e imprimirlas de momento.

12 - El numero de ausencias al colegio parece influir en las notas de los alumnos?. Para ello puedes realizar el estudio a intervalos de [1-10, 11-20, 21-30...80-90]. Filtra aquellos que tengan mas de 90 faltas para que los rangos de estudio sean homogeneos.

13 - Cuanto estudiantes han sacado la maxima nota (20) en las notas finales (G3)?

14 - Compara las medias de aquellos que reciben clases extra y estudian mas de de 5 horas con aquellos que no reciben clases extra y estudian menos de 5 horas.

15 - Calcula la media y la desviacion estandar de las diferencias entre notas del segundo (G2) y primer semestre (G1). Han mejorado los alumnos sus notas?.

16 - Sacan mejores notas las chicas que tiene una relacion romantica que aquellas que no la tienen?. Realiza los calculos para la nota final (G3).

17 - Haz una comparacion de chicos y chicas y que beben y no beben los fines de semana para saber si hay diferencias en las notas. Puedes mostrar las medias de cada uno de los cuatro grupos.