# Python para el análisis de datos -  UNAV 2020-2021
---

# Notebook 5: Introducción a Pandas, Series y DataFrames.

## Índice  <a name="indice"></a>

- [Introducción](#introduccion)
- [Pandas Series](#pandas_series)
    - [Creación de objetos Series](#series_creacion)
    - [Parámetros y argumentos](#series_parametros_argumentos)
    - [Atributos](#series_atributos)
    - [Métodos](#series_metodos)
- [Pandas DataFrame](#pandas_dataframe)
    - [Creacion de objetos DataFrame](#pandas_creacion)
    - [Crear DataFrame desde ficheros .csv](#pandas_procesar_csv)
    - [Atributos y métodos](#pandas_atributos_metodos)

- [Ejercicios](#ejercicios)

## Introducción<a name="introduccion"></a> 
[Volver al índice](#indice)

¿Qué es Pandas? Pandas es la librería estándar de-facto para el tratamiento de datos en Python. Es el acrońimo de Python Data Analysis Library. Pandas es una librería open source, lo cuál explica su alto nivel de adopción en el campo de Data Science. Una de las características más interesantes de Pandas es que permite trabajar con ficheros de datos de distintos formatos (CSV, TXT, JSON, YAML), y cargar estos ficheros en memoria en un tipo de estructuras que permite trabajar directamente con ellos.

De esta forma se consigue trabajar con grandes volúmenes de datos de forma mucho mas práctica que usando listas, diccionarios y demás.

https://pandas.pydata.org/

## Pandas Series<a name="pandas_series"></a> 
[Volver al índice](#indice)

### Creación de objetos Series<a name="series_creacion"></a> 
[Volver al índice](#indice)

La _Series_ es un array unidimensional etiquetado, capaz de contener cualquier tipo de datos (enteros, cadenas, números de punto flotante, objetos de Python, etc.). Las etiquetas de los ejes se denominan de forma habitual índices. Es parecido a un array NumPy, pero su manejo es mucho más intuitivo y sencillo.

Por ejemplo, creamos un objeto _Series_ a partir de una lista, donde el índice por defecto va desde $0$ hasta $n-1$ elementos, siendo $n$ el número de elementos de la lista. 

In [2]:
import pandas as pd

In [3]:
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'])
print(s)

0                7
1       Heisenberg
2             3.14
3      -1789710578
4    Happy Eating!
dtype: object


In [9]:
type(s)

pandas.core.series.Series

Se puede acceder a los elementos de *Series* utilizando el índice posicional (entero).

In [10]:
print(s[0])
print(s[1])
print(s[2])
print(s[3])
print(s[4])

7
Heisenberg
3.14
-1789710578
Happy Eating!


In [11]:
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'],
              index=['A', 'Z', 'C', 'Y', 'E'])
print(s)

A                7
Z       Heisenberg
C             3.14
Y      -1789710578
E    Happy Eating!
dtype: object


In [12]:
print(s[0])
print(s[1])
print(s[2])
print(s[3])
print(s[4])

7
Heisenberg
3.14
-1789710578
Happy Eating!


Se puede acceder a los elementos de *Series* utilizando el índice.

In [8]:
print(s['A'])
print(s['Z'])
print(s['C'])
print(s['Y'])
print(s['E'])

7
Heisenberg
3.14
-1789710578
Happy Eating!


### Parámetros y argumentos<a name="series_parametros_argumentos"></a> 
[Volver al índice](#indice)

Al instanciar un objeto _Series_, se pueden pasar los parámetros _data_ con un *array-like*,  e _index_ con los índices (no necesariamente de tipo numérico).

In [13]:
frutas = ["Manzana", "Naranja", "Ciruela", "Uva", "Fresa"]
dias = ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes"]

print(pd.Series(frutas, dias))

Lunes        Manzana
Martes       Naranja
Miércoles    Ciruela
Jueves           Uva
Viernes        Fresa
dtype: object


In [None]:
print(pd.Series(data=frutas, index=dias))

In [None]:
print(pd.Series(frutas, index=dias))

Es posible convertir un diccionario a un objeto *Series*.

In [14]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
print(cities)

Chicago          1000.0
New York         1300.0
Portland          900.0
San Francisco    1100.0
Austin            450.0
Boston              NaN
dtype: float64


Se puede usar uno o varios índices para acceder a los elementos de *Series*. Siguiendo el estilo de indexación de NumPy.

In [19]:
cities['Chicago']

cities < 1000

Chicago          False
New York         False
Portland          True
San Francisco    False
Austin            True
Boston           False
dtype: bool

In [15]:
cities[['Chicago', 'Portland', 'San Francisco']]

Chicago          1000.0
Portland          900.0
San Francisco    1100.0
dtype: float64

O se puede utilizar una expresión condicional (como en NumPy), para el acceso. Esto genera una máscara booleano del tamaño de **cities** y muestra aquellos elementos que satisfacen la condición.

In [18]:
cities[cities < 1000]

Portland    900.0
Austin      450.0
dtype: float64

Los elementos de *Series* se puede modificar mediante re-asignación.

In [None]:
# cambiando valores basado en el indice
print('Old value:', cities['Chicago'])
cities['Chicago'] = 1400
print('New value:', cities['Chicago'])

In [None]:
# cambiando valores usando logica booleana
print(cities[cities < 1000])

# cambia todos elementos que cumplan la condicion
cities[cities < 1000] = 750

cities[cities < 1000]

El operador **in**, que ya hemos utilizado con otros tipos de estructuras de datos, también funciona con *Series*.

In [None]:
print('Seattle' in cities)
print('San Francisco' in cities)

Por otro lado, *Series* soporta el uso de operaciones aritméticas, que aplican a cada uno de sus elementos.

In [None]:
# dividir por 3
cities / 3

In [None]:
cities ** 2

In [22]:
print(cities[['Chicago', 'New York', 'Portland']], "\n")
print(cities[['Austin', 'New York']], "\n")
print(cities[['Chicago', 'New York', 'Portland']] + cities[['Austin', 'New York']])

Chicago     1000.0
New York    1300.0
Portland     900.0
dtype: float64 

Austin       450.0
New York    1300.0
dtype: float64 

Austin         NaN
Chicago        NaN
New York    2600.0
Portland       NaN
dtype: float64


**Nota:** Austin, Chicago y Portlan no se encontraron en ambas _Series_, fueron retornadas con valores NULL/NaN.

Se puede comprobar si un elemento tiene valor NULL a través de las funciones *.isnull()* y *.notnull()*.

In [23]:
cities.notnull()

Chicago           True
New York          True
Portland          True
San Francisco     True
Austin            True
Boston           False
dtype: bool

In [24]:
cities.isnull()

Chicago          False
New York         False
Portland         False
San Francisco    False
Austin           False
Boston            True
dtype: bool

También se puede utilizar como condición de indexación y obtener aquellos registros que son NULL.

In [25]:
cities[cities.isnull()]

Boston   NaN
dtype: float64

### Atributos<a name="series_atributos"></a> 
[Volver al índice](#indice)

Los atributos en objetos contienen información almacenada relativa al objeto en cuestión. Ya vimos en sesiones anteriores que la función *dir()* nos muestra todos los atributos y métodos disponibles en un objeto.

In [None]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)

cities

In [26]:
dir(cities)

['Austin',
 'Boston',
 'Chicago',
 'Portland',
 'T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 

Podemos consultar los valores que hay en la _Series_ a través del atributo _.values_.

In [27]:
cities.values, type(cities.values)  # devuelve un array de numpy

(array([1000., 1300.,  900., 1100.,  450.,   nan]), numpy.ndarray)

De igual forma, podemos consultar los valores del índice que hay en la *Series* a través del atributo _.index_.

In [28]:
cities.index, type(cities.index)

(Index(['Chicago', 'New York', 'Portland', 'San Francisco', 'Austin', 'Boston'], dtype='object'),
 pandas.core.indexes.base.Index)

Y nos permite consultar el tipo de datos que guarda la _Series_ a traves de _.dtype_.

In [29]:
cities.dtype


dtype('float64')

Podemos comprobar si los elementos de la _Series_ son únicos (no hay repeticiones), con el atributo *.is_unique*.

In [None]:
cities.is_unique

In [None]:
cities.index.is_unique

### Métodos<a name="series_metodos"></a> 
[Volver al índice](#indice)

#### Métodos para análisis descriptivo

Los objetos _Series_ tienen un conjunto de métodos que nos permiten realizar cálculos sobre sus elementos.

In [31]:
precios = [2.99, 4.45, 1.36]
s = pd.Series(precios)
s

0    2.99
1    4.45
2    1.36
dtype: float64

Podemos realizar la suma de los elementos del la _Series_.

In [32]:
s.sum()

8.8

También su multiplicación.

In [33]:
s.product()

18.095480000000006

O la media y su desviación estándar.

In [34]:
print("La media es: {0:.6f} y la desviación estándar es: {1:.6f}.".format(s.mean(), s.std()))

La media es: 2.933333 y la desviación estándar es: 1.545779.


Un método muy interesante es *.describe()*. Este método devuelve un análisis descriptivo básico en una única llamada.

In [41]:
s.describe()

s.describe().values #con el .values sacas los valores en forma de array de numpy
s.describe().index
s.value_counts()

4.45    1
2.99    1
1.36    1
dtype: int64

#### Métodos *.head()* y *.tail()*

El metodo *.head()* nos va a permitir mostrar los primeros elementos de la _Series_. Por defecto muestra 5 elementos, aunque le podemos pasar un argumento, de tipo entero positivo, indicando el número de elementos a mostrar.

In [42]:
import numpy as np

In [43]:
precios = pd.Series(np.random.randint(0, 10000, 100) / 4)

In [44]:
precios

0     1701.25
1      635.00
2     1128.25
3     2455.25
4     1741.50
       ...   
95     505.50
96     621.25
97    2372.50
98    2310.25
99     937.25
Length: 100, dtype: float64

In [45]:
precios.head()

0    1701.25
1     635.00
2    1128.25
3    2455.25
4    1741.50
dtype: float64

In [46]:
precios.head(10)

0    1701.25
1     635.00
2    1128.25
3    2455.25
4    1741.50
5     942.75
6    2432.25
7    1865.00
8    2161.25
9    1956.50
dtype: float64

El metodo *.tail()* nos va a permitir mostrar los últimos elementos de la _Series_.  Al igual que *.head()*, por defecto muestra 5 elementos, aunque le podemos pasar un argumento, de tipo entero positivo, indicando el número de elementos a mostrar.

In [47]:
precios.tail(15)

85     781.00
86    2144.00
87    1557.25
88     864.00
89    1992.50
90    2304.50
91    1946.50
92     618.00
93    1528.50
94     232.50
95     505.50
96     621.25
97    2372.50
98    2310.25
99     937.25
dtype: float64

#### Método *.map()*

El método *.map()* nos va a permitir iterar sobre cada elemento de la serie y aplicar una función. Podemos definir la función fuera, o como vimos en la seccion de funciones, a través de un _lambda_.

In [49]:
precios.tail(5)

95     505.50
96     621.25
97    2372.50
98    2310.25
99     937.25
dtype: float64

Vamos a limitar el precio máximo a 2000 €. Definimos la siguiente función y aplicamos con *.map()*.

In [50]:
def cap_max_price(price):
    max_price = 2000
    return min(price, max_price)


precios.map(cap_max_price).tail(5)

95     505.50
96     621.25
97    2000.00
98    2000.00
99     937.25
dtype: float64

Esto también se puede hacer de manera sencilla con _lambda_.

In [51]:
precios.map(lambda price: min(price, 2000)).tail(5)

95     505.50
96     621.25
97    2000.00
98    2000.00
99     937.25
dtype: float64

## Pandas DataFrame<a name="pandas_dataframe"></a> 
[Volver al índice](#indice)

TODO: Puedes pensar en un _Dataframe_ como una estructura de datos tabular, que almacena cualquier clase de informacion en filas y columnas. Por hacer un simil, uno podria pensar en un hoja de Excel como algo similar (no es lo mismo pero se parecen).

### Creacion de objetos DataFrame<a name="pandas_creacion"></a> 
[Volver al índice](#indice)

Se puede definir un _Dataframe_ como un conjunto de objetos _Series_ que comparten un mismo índice (en realidad hay más, pero como aproximación es válida). Por defecto el índice va de $0$ hasta $n-1$, donde $n$ es el número de filas del _Dataframe_. La forma manual de crear un _Dataframe_ es la siguiente:

In [52]:
data = {
    "zip": [91371, 90001, 90002, 90003, 90004, 90005, 90006, 90007, 90008, 90010],
    "population": [1, 57110, 51223, 66266, 62180, 37681, 59185, 40920, 32327, 3800],
    "avg_size": [1.0, 4.4, 4.36, 4.22, 2.73, 2.5, 3.13, 3.0, 2.33, 1.87]
}

df_population = pd.DataFrame(data, columns=["zip", "population", "avg_size"])
df_population.head()

Unnamed: 0,zip,population,avg_size
0,91371,1,1.0
1,90001,57110,4.4
2,90002,51223,4.36
3,90003,66266,4.22
4,90004,62180,2.73


In [56]:

df_population.values.shape
type(df_population)

(10, 3)

In [57]:
# vemos que a partir de un array de numpy podemos crear un dataframe
X = df_population.values
df_pop2  = pd.DataFrame(X, columns = ["zip", "population", "avg_size"])
df_pop2.head()

Unnamed: 0,zip,population,avg_size
0,91371.0,1.0,1.0
1,90001.0,57110.0,4.4
2,90002.0,51223.0,4.36
3,90003.0,66266.0,4.22
4,90004.0,62180.0,2.73


### Crear DataFrame desde ficheros .csv<a name="pandas_procesar_csv"></a> 
[Volver al índice](#indice)

Probablemente, lo más habitual es leer un _Dataframe_ desde un fichero de texto _.csv_ con la función de _Pandas_ *pd.read_csv()*:

In [58]:
df = pd.read_csv("S5_datos/2010_Census_Populations_by_Zip_Code.csv")

In [59]:
df.head()

Unnamed: 0,Zip Code,Total Population,Median Age,Total Males,Total Females,Total Households,Average Household Size
0,91371,1,73.5,0,1,1,1.0
1,90001,57110,26.6,28468,28642,12971,4.4
2,90002,51223,25.5,24876,26347,11731,4.36
3,90003,66266,26.3,32631,33635,15642,4.22
4,90004,62180,34.8,31302,30878,22547,2.73


In [None]:
type(df)

### Atributos y métodos<a name="pandas_atributos_metodos"></a> 
[Volver al índice](#indice)

Existen una serie de atributos y métodos que son compartidos por los objetos _Series_ y _DataFrame_. Por ejemplo, podemos consultar el _.index_ y los _.values_.

In [None]:
df_population.index

In [None]:
df_population.values, type(df_population.values)

Podemos ver la forma de nuestro _DataFrame_ y también el tipo de las columnas que contiene y su nombre.

In [None]:
df_population.shape

In [60]:
df_population.columns

Index(['zip', 'population', 'avg_size'], dtype='object')

In [61]:
df_population.axes

[RangeIndex(start=0, stop=10, step=1),
 Index(['zip', 'population', 'avg_size'], dtype='object')]

In [62]:
df_population.dtypes

zip             int64
population      int64
avg_size      float64
dtype: object

Y tambien podemos ver la información que hay en el _DataFrame_ con el método _.info()_. Como podemos ver, tenemos columnas con enteros y un tipo punto flotante.

In [63]:
df_population.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   zip         10 non-null     int64  
 1   population  10 non-null     int64  
 2   avg_size    10 non-null     float64
dtypes: float64(1), int64(2)
memory usage: 368.0 bytes


Los métodos *.head()* y *.tail()* también se pueden ejecutar en el _DataFrame_.

In [None]:
df_population.head()

In [None]:
df_population.tail()

De forma análoga a _Series_, podemos obtener un análisis descriptivo de las columnas numéricas de _DataFrame_.

In [64]:
df_population.describe()

Unnamed: 0,zip,population,avg_size
count,10.0,10.0,10.0
mean,90141.7,41069.3,2.954
std,431.940852,23410.947762,1.122618
min,90001.0,1.0,1.0
25%,90003.25,33665.5,2.3725
50%,90005.5,46071.5,2.865
75%,90007.75,58666.25,3.9475
max,91371.0,66266.0,4.4


#### Acceder a columnas

Podemos acceder a las columnas a través del operador de indexacion _["nombre columna"]_ o el operador _.nombre_columna_ .

In [66]:
df_nba = pd.read_csv("S5_datos/nba.csv")
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


Para acceder a la columna "Salary", lo haríamos con el punto.

In [None]:
df_nba.Salary.head()

El operador de indexación con corchetes es más versatil y permite acceder a más de una columna. Además, permite acceder a columnas que contienen espacios en sus nombres (es preferible no poner espacios en los nombres).

In [70]:
print(type(df_nba.values))
print(type(df_nba['Salary']))
df_nba['Salary'].head()

<class 'numpy.ndarray'>
<class 'pandas.core.series.Series'>


0    7730337.0
1    6796117.0
2          NaN
3    1148640.0
4    5000000.0
Name: Salary, dtype: float64

Para acceder a dos o más columnas ponemos el nombre de las columnas en una lista.

In [76]:
print(type(df_nba[['Name', 'Salary']]))
df_nba[['Name', 'Salary']].head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Salary
0,Avery Bradley,7730337.0
1,Jae Crowder,6796117.0
2,John Holland,
3,R.J. Hunter,1148640.0
4,Jonas Jerebko,5000000.0


In [None]:
df_nba[['Salary', 'Name', 'Team']].head()

Existe un método que viene de _Series_ que nos permite contar el número de ocurrencias de cada elemento 
en nuestro _DataFrame_. Sólo actúa sobre una columna a cada vez.

In [71]:
df_nba['Position'].value_counts()

SG    102
PF    100
PG     92
SF     85
C      78
Name: Position, dtype: int64

#### Agregar columnas

Agregar una nueva columna a un _DataFrame_ es muy sencillo, tanto como indicar el nombre de la columna y asignarle un valor. Si asignamos un único valor, la nueva columna es constante. Para asignar una nueva columna por completo es necesario pasar una lista o array NumPy de la misma longitud.

In [None]:
df_nba_2 = df_nba.copy()

In [None]:
df_nba_2['Sport'] = 'Basket'
df_nba_2.head()

Como podemos ver, la columna se inserta al final del _DataFrame_. Para poder insertar la nueva columna en una posición determinada debemos usar el método _.insert()_.

In [None]:
df_nba_3 = df_nba.copy()

df_nba_3.insert(2, "Sport", "Basket")
df_nba_3.head()

Ahora la columna está en la posición que le hemos indicado.

#### Modificar columnas

Una columna puede ser modificada de forma sencilla, al seleccionarla y asignarle un nuevo valor.

In [73]:
df_nba['Sport'] = 'Basketball'
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_kg,Sport
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,81.64656,Basketball
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,106.59412,Basketball
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,92.98636,Basketball
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,83.91452,Basketball
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,104.779752,Basketball


También podemos modificar valores en base a otra columna. El peso está en libras, vamos a cambiarlo a kg y crear una nueva columna.

In [78]:
lb2kg = 0.453592 # una libra son 0.453592 kg
df_nba['Weight_kg'] = df_nba['Weight'] * lb2kg
df_nba.head()

df_nba["ratio_salary_weight"] = df_nba["Salary"]/df_nba["Weight"]
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_kg,Sport,ratio_salary_weight
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,81.64656,Basketball,42946.316667
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,106.59412,Basketball,28919.646809
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,92.98636,Basketball,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,83.91452,Basketball,6208.864865
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,104.779752,Basketball,21645.021645


#### Eliminar valores Null con *.dropna()*

Podemos comprobar que el salario de la tercera fila esta representado como *NaN*. Esto es lo que conocemos como missing o Null values. En Excel, esa celda aparecería vacía. Este tipo de valores pueden representar un problema cuando analizamos datos, de manera que los podemos eliminar usando el método *.dropna()*.

In [79]:
print(df_nba.dropna(how='any').shape)
df_nba.dropna(how='any').head()

(364, 12)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_kg,Sport,ratio_salary_weight
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,81.64656,Basketball,42946.316667
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,106.59412,Basketball,28919.646809
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,83.91452,Basketball,6208.864865
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0,106.59412,Basketball,4982.808511
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0,107.954896,Basketball,9097.310924


También podemos eliminar columnas usando el parámetro _axis_. Por defecto Python intenta eliminar filas (axis=0), pero podemos eliminar las columnas que tengan un valor Null.

In [80]:
print(df_nba.dropna(axis=1).shape)
df_nba.dropna(axis=1).head()

(457, 9)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,Weight_kg,Sport
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,81.64656,Basketball
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,106.59412,Basketball
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,92.98636,Basketball
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,83.91452,Basketball
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,104.779752,Basketball


Para eliminar aquellas filas que tengan un Null en una columna en concreto usamos el parámetro _subset_.

In [81]:
print(df_nba.dropna(subset=['Salary']).shape)
df_nba.dropna(subset=['Salary']).head()

(446, 12)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Weight_kg,Sport,ratio_salary_weight
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,81.64656,Basketball,42946.316667
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,106.59412,Basketball,28919.646809
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,83.91452,Basketball,6208.864865
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,104.779752,Basketball,21645.021645
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0,108.86208,Basketball,50000.0


#### Rellenar valores Null con *.fillna()*

Una alternativa a la eliminación de _missing_ values, es su sustitución por valores. Esto en Python lo podemos hacer mediante el método _.fillna()_.

In [82]:
df_nba = pd.read_csv('S5_datos/nba.csv')

df_nba['Salary'].fillna(0, inplace=True) #inplace afecta al dataset
df_nba['College'].fillna('N/A', inplace=True)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


Y si queremos sustituirlo por la media de los valores, se puede utilizar el método *.mean()*.

In [83]:
df_nba = pd.read_csv('S5_datos/nba.csv')

df_nba['Salary'].fillna(round(df_nba['Salary'].mean(), 0), inplace=True)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,4842684.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


#### Cambiar el tipo de las columnas con *.astype()*

In [87]:
df_nba = pd.read_csv("S5_datos/nba.csv")

df_nba = df_nba.dropna(how="all")
df_nba["Salary"].fillna(0, inplace=True)
df_nba["College"].fillna("None", inplace=True)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [88]:
df_nba.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 457 entries, 0 to 456
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      457 non-null    object 
 1   Team      457 non-null    object 
 2   Number    457 non-null    float64
 3   Position  457 non-null    object 
 4   Age       457 non-null    float64
 5   Height    457 non-null    object 
 6   Weight    457 non-null    float64
 7   College   457 non-null    object 
 8   Salary    457 non-null    float64
dtypes: float64(4), object(5)
memory usage: 35.7+ KB


Podemos cambiar la columnas de Age, Salary y Number a **int** para que sus tipos sean los adecuados.

In [89]:
df_nba["Salary"] = df_nba["Salary"].astype(int)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000


In [None]:
df_nba["Number"] = df_nba["Number"].astype(int)
df_nba["Age"] = df_nba["Age"].astype(int)
df_nba.head()

En cualquier momento podemos volver a cambiarlos a tipo **float**.

In [90]:
df_nba["Salary"] = df_nba["Salary"].astype(float)
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


Existen columnas que contienen pocos elementos distintos. Por ejemplo, la columna Position sólo contiene 5 elementos, que son las posiciones que existen en la pista de baloncesto. Estos elementos se puede representar de una manera más eficiente que como tipo _object_, si los cambiamos a categorias (_category_).

In [93]:
print(df_nba["Position"].value_counts())
df_nba["Position"] = df_nba["Position"].astype("category") # se debe cambiar a categoria cuando el numero de datos diferentes son menos de la mitad del numero de registros
df_nba["Team"] = df_nba["Team"].astype("category")
df_nba.head()

SG    102
PF    100
PG     92
SF     85
C      78
Name: Position, dtype: int64


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [94]:
df_nba.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 457 entries, 0 to 456
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   Name      457 non-null    object  
 1   Team      457 non-null    category
 2   Number    457 non-null    float64 
 3   Position  457 non-null    category
 4   Age       457 non-null    float64 
 5   Height    457 non-null    object  
 6   Weight    457 non-null    float64 
 7   College   373 non-null    object  
 8   Salary    446 non-null    float64 
dtypes: category(2), float64(4), object(3)
memory usage: 27.7+ KB


#### Ordenar DataFrame con *.sort_values()*

In [92]:
df_nba = pd.read_csv("S5_datos/nba.csv")

La ordenación de un _DataFrame_ en base a una columna o columnas es un elemento muy potente, que nos va a ser muy útil cuando realicemos análisis. Por ejemplo, veamos quienes son los 5 jugadores que menos cobran de la NBA.

In [95]:
df_nba.sort_values('Salary').head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
32,Thanasis Antetokounmpo,New York Knicks,43.0,SF,23.0,6-7,205.0,,30888.0
291,Orlando Johnson,New Orleans Pelicans,0.0,SG,27.0,6-5,220.0,UC Santa Barbara,55722.0
130,Phil Pressey,Phoenix Suns,25.0,PG,25.0,5-11,175.0,Missouri,55722.0
135,Alan Williams,Phoenix Suns,15.0,C,23.0,6-8,260.0,UC Santa Barbara,83397.0
175,Jordan McRae,Cleveland Cavaliers,12.0,SG,25.0,6-5,179.0,Tennessee,111196.0


¿Y si queremos saber los que más cobran?. Podemos utilizar el parámetro _ascending=False_ (por defecto es True).

In [96]:
df_nba.sort_values('Salary', ascending=False).head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
109,Kobe Bryant,Los Angeles Lakers,24.0,SF,37.0,6-6,212.0,,25000000.0
169,LeBron James,Cleveland Cavaliers,23.0,SF,31.0,6-8,250.0,,22970500.0
33,Carmelo Anthony,New York Knicks,7.0,SF,32.0,6-8,240.0,Syracuse,22875000.0
251,Dwight Howard,Houston Rockets,12.0,C,30.0,6-11,265.0,,22359364.0
339,Chris Bosh,Miami Heat,1.0,PF,32.0,6-11,235.0,Georgia Tech,22192730.0


Esto se puede combinar de múltiples formas y agregar más columnas, y con simples reordenamientos ya podemos comenzar a realizar análisis sencillos.

In [97]:
df_nba.sort_values(['Age', 'Salary'], ascending=[True, False]).head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
122,Devin Booker,Phoenix Suns,1.0,SG,19.0,6-6,206.0,Kentucky,2127840.0
226,Rashad Vaughn,Milwaukee Bucks,20.0,SG,19.0,6-6,202.0,UNLV,1733040.0
410,Karl-Anthony Towns,Minnesota Timberwolves,32.0,C,20.0,7-0,244.0,Kentucky,5703600.0
116,D'Angelo Russell,Los Angeles Lakers,1.0,PG,20.0,6-5,195.0,Ohio State,5103120.0
56,Jahlil Okafor,Philadelphia 76ers,8.0,C,20.0,6-11,275.0,Duke,4582680.0


Por defecto los valores _Null_ se van al final, pero podemos cambiar este comportamiento. El parámetro *na_position* nos ayudará a ello.

In [98]:
df_nba.sort_values('Salary').tail()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
273,Alex Stepheson,Memphis Grizzlies,35.0,PF,28.0,6-10,270.0,USC,
350,Briante Weber,Miami Heat,12.0,PG,23.0,6-2,165.0,Virginia Commonwealth,
353,Dorell Wright,Miami Heat,11.0,SF,30.0,6-9,205.0,,
397,Axel Toupane,Denver Nuggets,6.0,SG,23.0,6-7,210.0,,
409,Greg Smith,Minnesota Timberwolves,4.0,PF,25.0,6-10,250.0,Fresno State,


In [100]:
df_nba.sort_values('Salary', na_position='first').tail()
df_nba.sort_values('Salary', na_position='first').head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
46,Elton Brand,Philadelphia 76ers,42.0,PF,37.0,6-9,254.0,Duke,
171,Dahntay Jones,Cleveland Cavaliers,30.0,SG,35.0,6-6,225.0,Duke,
264,Jordan Farmar,Memphis Grizzlies,4.0,PG,29.0,6-2,180.0,UCLA,
269,Ray McCallum,Memphis Grizzlies,5.0,PG,24.0,6-3,190.0,Detroit,


#### Ordenar DataFrame con *.sort_index()*

Cuando ordenamos en base a los valores nuestro _Dataframe_, se desordenan los índices. Si queremos volver al estado inicial podemos usar *sort_index()*.

In [101]:
df_nba = pd.read_csv("S5_datos/nba.csv")

df_nba = df_nba.sort_values(['Age', 'Salary'], ascending=[True, False])
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
122,Devin Booker,Phoenix Suns,1.0,SG,19.0,6-6,206.0,Kentucky,2127840.0
226,Rashad Vaughn,Milwaukee Bucks,20.0,SG,19.0,6-6,202.0,UNLV,1733040.0
410,Karl-Anthony Towns,Minnesota Timberwolves,32.0,C,20.0,7-0,244.0,Kentucky,5703600.0
116,D'Angelo Russell,Los Angeles Lakers,1.0,PG,20.0,6-5,195.0,Ohio State,5103120.0
56,Jahlil Okafor,Philadelphia 76ers,8.0,C,20.0,6-11,275.0,Duke,4582680.0


In [102]:
df_nba.sort_index().head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [None]:
df_nba.sort_index(ascending=False).head()

#### Rankear DataFrame con *.rank()*

Un método interesante que nos permite realizar un *ranking* de los jugadores mejor pagados es _.rank()_.

In [108]:
df_nba = pd.read_csv("S5_datos/nba.csv").dropna(how = "all")

df_nba["Salary"] = df_nba["Salary"].fillna(0).astype("int")
df_nba.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000


In [107]:
df_nba['Salary Rank'] = df_nba['Salary'].rank(ascending=False).astype('int')

Vamos a comprobar que todo funciona ordenando el _DataFrame_.

In [106]:
df_nba.sort_values("Salary", ascending=False).head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Salary Rank
109,Kobe Bryant,Los Angeles Lakers,24.0,SF,37.0,6-6,212.0,,25000000,1
169,LeBron James,Cleveland Cavaliers,23.0,SF,31.0,6-8,250.0,,22970500,2
33,Carmelo Anthony,New York Knicks,7.0,SF,32.0,6-8,240.0,Syracuse,22875000,3
251,Dwight Howard,Houston Rockets,12.0,C,30.0,6-11,265.0,,22359364,4
339,Chris Bosh,Miami Heat,1.0,PF,32.0,6-11,235.0,Georgia Tech,22192730,5


In [112]:
#np.argsort(df_nba["Salary"])

#### Filtrar DataFrame en base a una o más condiciones

In [215]:
df = pd.read_csv("S5_datos/employees.csv", parse_dates=["Start Date", "Last Login Time"])


df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2020-10-23 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2020-10-23 06:53:00,61933,4.17,True,
2,Maria,Female,1993-04-23,2020-10-23 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2020-10-23 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2020-10-23 16:47:00,101004,1.389,True,Client Services


Vamos a ver como se puede realizar una selección de filas en nuestro _DataFrame_ en base a una condición. Para ello se utiliza los operadores lógicos y creamos unas variables de filtrado. **El filtrado no es más que una indexación booleana, que accede a las filas donde las máscaras de filtrado son True.**

In [216]:
mask1 = df["Gender"] == "Male"
mask2 = df["Team"] == "Marketing"
df[mask1 & mask2].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2020-10-23 12:42:00,97308,6.945,True,Marketing
21,Matthew,Male,1995-09-05,2020-10-23 02:12:00,100612,13.645,False,Marketing
26,Craig,Male,2000-02-27,2020-10-23 07:45:00,37598,7.757,True,Marketing
74,Thomas,Male,1995-06-04,2020-10-23 14:24:00,62096,17.029,False,Marketing
77,Charles,Male,2004-09-14,2020-10-23 20:13:00,107391,1.26,True,Marketing


O en una línea.

In [217]:
df[(df["Gender"] == "Male") & (df["Team"] == "Marketing")].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2020-10-23 12:42:00,97308,6.945,True,Marketing
21,Matthew,Male,1995-09-05,2020-10-23 02:12:00,100612,13.645,False,Marketing
26,Craig,Male,2000-02-27,2020-10-23 07:45:00,37598,7.757,True,Marketing
74,Thomas,Male,1995-06-04,2020-10-23 14:24:00,62096,17.029,False,Marketing
77,Charles,Male,2004-09-14,2020-10-23 20:13:00,107391,1.26,True,Marketing


El código anterior realiza un filtrado en base a dos condiciones. Utilizamos el operador "&" para realizar un filtrado AND, elemento a elemento, en las _Series_. El siguiente código, filtra si una de las condiciones se cumple. Utilizamos el operador "|", que hace las veces de OR.

In [218]:
df[(df["Gender"] == "Male") | (df["Team"] == "Marketing")].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2020-10-23 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2020-10-23 06:53:00,61933,4.17,True,
3,Jerry,Male,2005-03-04,2020-10-23 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2020-10-23 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2020-10-23 01:35:00,115163,10.125,False,Legal


Las condiciones de filtrado se pueden aplicar usando cualquiera de los operadores de comparación que conocemos.

In [219]:
df[(df["Salary"] > 100000)].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2020-10-23 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2020-10-23 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2020-10-23 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2020-10-23 01:35:00,115163,10.125,False,Legal
9,Frances,Female,2002-08-08,2020-10-23 06:51:00,139852,7.524,True,Business Development


In [220]:
df[(df["Salary"] > 100000) & (df["Senior Management"] == False)].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2020-10-23 11:17:00,130590,11.858,False,Finance
5,Dennis,Male,1987-04-18,2020-10-23 01:35:00,115163,10.125,False,Legal
13,Gary,Male,2008-01-27,2020-10-23 23:40:00,109831,5.831,False,Sales
17,Shawn,Male,1986-12-07,2020-10-23 19:45:00,111737,6.414,False,Product
18,Diana,Female,1981-10-23,2020-10-23 10:27:00,132940,19.082,False,Client Services


Las combinaciones son multiples y podemos obtener cualquier tipo de información. Por ejemplo:

In [221]:
mask1 = df["First Name"] == "Robert"
mask2 = df["Team"] == "Client Services"
mask3 = df["Start Date"] > "2016-06-01"

# recoge a Robert de Client Services 
# y aquellos empleados que empezaron después de la fecha marcada
df[(mask1 & mask2) | mask3]

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
15,Lillian,Female,2016-06-05,2020-10-23 06:09:00,59414,1.256,False,Product
98,Tina,Female,2016-06-16,2020-10-23 19:47:00,100705,16.961,True,Marketing
387,Robert,Male,1994-10-29,2020-10-23 04:26:00,123294,19.894,False,Client Services
451,Terry,,2016-07-15,2020-10-23 00:29:00,140002,19.49,True,Marketing


#### Método *.isin()*

¿Qué ocurre si queremos filtrar en base a varios valores de una columna?

In [222]:
mask1 = df["Team"] == "Legal"
mask2 = df["Team"] == "Sales"
mask3 = df["Team"] == "Product"

df[mask1 | mask2 | mask3].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
5,Dennis,Male,1987-04-18,2020-10-23 01:35:00,115163,10.125,False,Legal
6,Ruby,Female,1987-08-17,2020-10-23 16:20:00,65476,10.012,True,Product
11,Julie,Female,1997-10-26,2020-10-23 15:19:00,102508,12.637,True,Legal
13,Gary,Male,2008-01-27,2020-10-23 23:40:00,109831,5.831,False,Sales
15,Lillian,Female,2016-06-05,2020-10-23 06:09:00,59414,1.256,False,Product


El método _.isin()_ simplifica de forma significativa esta operación.

In [223]:
df[df['Team'].isin(['Legal','Sales','Product'])].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
5,Dennis,Male,1987-04-18,2020-10-23 01:35:00,115163,10.125,False,Legal
6,Ruby,Female,1987-08-17,2020-10-23 16:20:00,65476,10.012,True,Product
11,Julie,Female,1997-10-26,2020-10-23 15:19:00,102508,12.637,True,Legal
13,Gary,Male,2008-01-27,2020-10-23 23:40:00,109831,5.831,False,Sales
15,Lillian,Female,2016-06-05,2020-10-23 06:09:00,59414,1.256,False,Product


#### Métodos *.isnul()* y *.notnull()*

Estos dos métodos complementarios nos van a permitir filtrar aquellas filas que tengan valores Null, o las que no tengan Null, realizando un indexado booleano.

In [None]:
mask = df["Team"].isnull()

df[mask].head()

In [None]:
mask = df["Gender"].notnull()

df[mask].head()

#### Método *.between()*

Este método nos facilitará realizar un filtrado por rango de valores.

In [None]:
df[df["Salary"].between(60000, 70000)].head()

In [None]:
df[df["Bonus %"].between(2.0, 5.0)].head()

In [None]:
df[df["Start Date"].between("1991-01-01", "1992-01-01")].head()

In [None]:
df[df["Last Login Time"].between("08:30AM", "12:00PM")]

#### Método *.duplicated()*

Este método nos sirve para extraer las filas repetidas en nuestro _DataFrame_. Por defecto, si no ponemos nada, Pandas guarda la fila con el primer duplicado y nos devuelve el resto de duplicados.

In [None]:
df.sort_values("First Name", inplace=True)
df.head()

In [None]:
df[df["First Name"].duplicated(keep='first')].head()

Podemos cambiar esto para que nos guarde el último duplicado y nos devuelva el resto.

In [None]:
df[df["First Name"].duplicated(keep='last')].head()

Si queremos acceder a aquellos registros que NO tienen duplicados lo podemos hacer de la siguiente manera: 

En este caso le indicamos a Pandas que no se guarde ningún duplicado, y luego con el operador de NOT (de negacion) ~ invertimos el resultado. 

**Cuidado: este método sólo se puede aplicar en una columna (un objeto _Series_).**

In [None]:
df[~df["First Name"].duplicated(keep=False)].head()

#### Método *.drop_duplicates()*

Este método es la versión de _DataFrame_ para eliminar duplicados. 
Si no indicamos nada *.drop_duplicates()* intenta eliminar las filas que tengan todos los valores de sus columnas idénticos. Si esto no ocurre, no eliminará ninguna.

In [117]:
df.sort_values("First Name", inplace=True)
df.head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2020-10-23 10:20:00,61602,11.849,True,Marketing
327,Aaron,Male,1994-01-29,2020-10-23 18:48:00,58755,5.097,True,Marketing
440,Aaron,Male,1990-07-22,2020-10-23 14:53:00,52119,11.343,True,Client Services
937,Aaron,,1986-01-22,2020-10-23 19:39:00,63126,18.424,False,Client Services
137,Adam,Male,2011-05-21,2020-10-23 01:45:00,95327,15.12,False,Distribution


In [118]:
print(len(df.drop_duplicates()))
print(len(df))

1000
1000


No obstante, podemos especificar una columna con duplicados y actuar sobre ella.

In [119]:
df.drop_duplicates(subset=["First Name"], keep='first').head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2020-10-23 10:20:00,61602,11.849,True,Marketing
137,Adam,Male,2011-05-21,2020-10-23 01:45:00,95327,15.12,False,Distribution
300,Alan,Male,1988-06-26,2020-10-23 03:54:00,111786,3.592,True,Engineering
372,Albert,Male,1997-02-01,2020-10-23 16:20:00,67827,19.717,True,Engineering
988,Alice,Female,2004-10-05,2020-10-23 09:34:00,47638,11.209,False,Human Resources


In [120]:
df.drop_duplicates(subset=["First Name"], keep='last').head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
937,Aaron,,1986-01-22,2020-10-23 19:39:00,63126,18.424,False,Client Services
538,Adam,Male,2010-10-08,2020-10-23 21:53:00,45181,3.491,False,Human Resources
610,Alan,Male,2012-02-17,2020-10-23 00:26:00,41453,10.084,False,Product
959,Albert,Male,1992-09-19,2020-10-23 02:35:00,45094,5.85,True,Business Development
693,Alice,Female,1995-10-16,2020-10-23 21:19:00,92799,2.782,False,Sales


Se puede especificar más de una columna sobre la que actuar.

In [121]:
df.drop_duplicates(subset=["First Name", "Team"], keep='last').head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
327,Aaron,Male,1994-01-29,2020-10-23 18:48:00,58755,5.097,True,Marketing
937,Aaron,,1986-01-22,2020-10-23 19:39:00,63126,18.424,False,Client Services
137,Adam,Male,2011-05-21,2020-10-23 01:45:00,95327,15.12,False,Distribution
141,Adam,Male,1990-12-24,2020-10-23 20:57:00,110194,14.727,True,Product
538,Adam,Male,2010-10-08,2020-10-23 21:53:00,45181,3.491,False,Human Resources


#### Métodos *.unique()* y *.nunique()*

Estos métodos nos permiten identificar aquellos valores únicos de las diferentes columnas que tenemos en nuestro _DataFrame_. Es un método que actúa a nivel columna (_Series_).

In [None]:
df = pd.read_csv("datos/employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")

In [124]:
gender_unique = df["Gender"].unique()
print(gender_unique, len(gender_unique))
print(gender_unique)

[Male, NaN, Female]
Categories (2, object): [Male, Female] 3
[Male, NaN, Female]
Categories (2, object): [Male, Female]


In [None]:
team_unique = df["Team"].unique()
print('Existen {0} departamentos en la empresa.'.format(", ".join(map(str, team_unique))))

Una manera más elegante de calcular el número de valores únicos, es directamente a través de la funcion _nunique_. 

**Cuidado: esta función excluye en su cuenta por defecto los Nulls.**

In [122]:
print('Existen {0} nombres distintos de empleados en la empresa.'.format(
    df["First Name"].nunique(dropna = True)))

print('Existen {0} departamentos en la empresa.'.format(
    df["Team"].nunique(dropna = False)))

Existen 200 nombres distintos de empleados en la empresa.
Existen 11 departamentos en la empresa.


## Ejercicios<a name="ejercicios"></a> 
[Volver al índice](#indice)

#### Bloque 1: nucleos de población (nucleos_poblacion.csv)

Columnas:
- FID: el identificador de registro.
- Texto: nombre de la población.
- Poblacion: número de habitantes.
- CodMun: código postal.
- Municipio: nombre del municipio (usa este para los ejercicios).
- CodProvin: código provincia.
- Provincia: nombre de la provincia.
- X: longitud en grados.
- Y: latitud en grados.

1 - Carga el fichero 'nucleos_poblacion.csv', explora con las funciones _head_ y _tail_ el principio y el final.

In [3]:
import pandas as pd
df = pd.read_csv("S5_datos/nucleos_poblacion.csv")

2 - ¿Cuál es la ciudad más poblada?

In [250]:
df.head()
df["Texto"][df["Poblacion"] == df["Poblacion"].max()]

355    Madrid
Name: Texto, dtype: object

3 - ¿Qué posición ocupa Granada en las más pobladas?. Las funciones *.sort_values()* y *.rank()* pueden ayudarte.

In [255]:
df.head()
df.sort_values("Poblacion", ascending=False).head(20)
df["rank_poblacion"] = df["Poblacion"].rank(ascending=False).astype(int)
df["rank_poblacion"][df['Texto']== 'Granada'].values[0]

18

4 - Escribe el nombre de los 10 municipios con menor población.

In [177]:
print(df[df["rank_poblacion"] >= len(df["rank_poblacion"]) - 10])
df["rank_poblacion_asc"] = df["Poblacion"].rank(ascending=True).astype(int)
df[df["rank_poblacion_asc"] <= 10]

     FID  OBJECTID           Texto  Poblacion  CodMun       Municipio  \
307  307       308       Zumarraga    10037.0   20080       Zumarraga   
115  115       116  Caldas de Reis    10045.0   36005  Caldas de Reis   
168  168       169         Amurrio    10050.0    1002         Amurrio   
746  746       747  Premià de Dalt    10064.0    8230  Premià de Dalt   
525  525       526           Buñol    10077.0   46077           Buñol   
97    97        98        Bembibre    10097.0   24014        Bembibre   
503  503       504           Ocaña    10098.0   45121           Ocaña   
193  193       194             Sax    10099.0    3123             Sax   
841  841       842    Marina-Oasis    10196.0    3118   San Fulgencio   
756  756       757     Playa Honda    10220.0   35018   San Bartolomé   
826  826       827       S' Arenal    10242.0    7031       Llucmajor   

     CodProvin          Provincia          X          Y  rank_poblacion  \
307         20          Guipúzcoa  -2.323006  43

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y,rank_poblacion,rank_poblacion_asc
307,307,308,Zumarraga,10037.0,20080,Zumarraga,20,Guipúzcoa,-2.323006,43.087693,852,1
115,115,116,Caldas de Reis,10045.0,36005,Caldas de Reis,36,Pontevedra,-8.642007,42.605883,851,2
168,168,169,Amurrio,10050.0,1002,Amurrio,1,Álava,-3.000073,43.054278,850,3
746,746,747,Premià de Dalt,10064.0,8230,Premià de Dalt,8,Barcelona,2.34158,41.50802,849,4
525,525,526,Buñol,10077.0,46077,Buñol,46,València/Valencia,-0.789866,39.418014,848,5
97,97,98,Bembibre,10097.0,24014,Bembibre,24,León,-6.416701,42.615072,847,6
503,503,504,Ocaña,10098.0,45121,Ocaña,45,Toledo,-3.499578,39.960229,846,7
193,193,194,Sax,10099.0,3123,Sax,3,Alacant/Alicante,-0.816923,38.538496,845,8
841,841,842,Marina-Oasis,10196.0,3118,San Fulgencio,3,Alacant/Alicante,-0.69297,38.136116,844,9
756,756,757,Playa Honda,10220.0,35018,San Bartolomé,35,Las Palmas,-13.591042,28.954392,843,10


5 - ¿Cuántos municipios en Extremadura tienen más de 15000 habitantes?

In [262]:
mask1 = df["Provincia"] == "Cáceres"
mask2 = df["Provincia"] == "Badajoz"
mask3 = df["Poblacion"] >= 15000
mask_all = (mask1 | mask2) & mask3

df[df["Provincia"].isin(["Cáceres","Badajoz"]) & (df["Poblacion"] > 15000)]

df[mask_all].count()

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y,rank_poblacion
41,41,42,Almendralejo,33975.0,6011,Almendralejo,6,Badajoz,-6.40778,38.684453,222
42,42,43,Badajoz,150376.0,6015,Badajoz,6,Badajoz,-6.970997,38.878743,44
43,43,44,Mérida,57127.0,6083,Mérida,6,Badajoz,-6.344172,38.917388,132
44,44,45,Montijo,16279.0,6088,Montijo,6,Badajoz,-6.617585,38.909787,533
47,47,48,Zafra,16433.0,6158,Zafra,6,Badajoz,-6.419306,38.426179,523
48,48,49,Cáceres,94179.0,10037,Cáceres,10,Cáceres,-6.371211,39.473168,68
50,50,51,Plasencia,41447.0,10148,Plasencia,10,Cáceres,-6.092682,40.029405,171
210,210,211,Don Benito,36227.0,6044,Don Benito,6,Badajoz,-5.861275,38.954101,204
211,211,212,Villanueva de la Serena,26111.0,6153,Villanueva de la Serena,6,Badajoz,-5.799819,38.973908,306
216,216,217,Navalmoral de la Mata,17309.0,10131,Navalmoral de la Mata,10,Cáceres,-5.540442,39.891062,499


6 - ¿Cuál es el municipio situado más al Norte? Proporciona también la provincia a la que pertenece y su población.

In [268]:
df.head(10)

max(df["Y"])
# df.loc[df['Y'].idxmax()]
df[df['Y']==df['Y'].max()]

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y,rank_poblacion
104,104,105,Viveiro,16211.0,27066,Viveiro,27,Lugo,-7.588768,43.625578,535


7 - ¿Cuál es el municipio de la provincia de Granada situado más al Este?. ¿Cuál es el situado más al Oeste?.

In [285]:
mask1 = df['X'] == df['X'].max()
mask2 = df["Provincia"] == "Cáceres"
mask3 = df["Provincia"] == "Badajoz"


df_granada = df[mask2 | mask3]
df_granada_este = df_granada[mask1]
df_granada_este

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y,rank_poblacion
607,607,608,Maó,29050.0,7032,Maó,7,Cáceres,4.265466,39.887522,270


0      False
1      False
2      False
3      False
4      False
       ...  
847    False
848    False
849    False
850    False
851    False
Name: Provincia, Length: 852, dtype: bool

8 - ¿Cuántos Municipios hay en un radio de 5 grados de la ciudad de Barcelona?.

In [7]:
df.head()

df["Texto"] == "Barcelona"
#df_barcelona = df[mask3]

0      False
1      False
2      False
3      False
4      False
       ...  
847    False
848    False
849    False
850    False
851    False
Name: Texto, Length: 852, dtype: bool

9 - Calcula la media, mediana, desviación estándar, valor máximo y valor mínimo de la población de los municipios de la provincia de Granada.

In [4]:
df.describe()

Unnamed: 0,FID,OBJECTID,Poblacion,CodMun,CodProvin,X,Y
count,852.0,852.0,852.0,852.0,852.0,852.0,852.0
mean,425.5,426.5,45710.86,25064.747653,24.974178,-3.449561,39.168865
std,246.09551,246.09551,140598.1,14288.756872,14.289414,4.602387,3.682011
min,0.0,1.0,10037.0,1002.0,1.0,-17.914361,27.77034
25%,212.75,213.75,13689.75,11027.0,11.0,-5.692163,37.591777
50%,425.5,426.5,19865.0,28059.5,28.0,-3.253442,39.593034
75%,638.25,639.25,34950.75,36056.25,36.0,-0.418458,41.630062
max,851.0,852.0,3273049.0,52001.0,52.0,4.265466,43.625578


#### Bloque 2: estudio de rendimiento de estudiantes (student_performance_dataset.csv)

Columnas:
- 1: school - student's school (binary: 0 - Gabriel Pereira or 1 - Mousinho da Silveira). 
- 2: sex - student's sex (binary: 0 - female or 1 - male).
- 3: age - student's age (numeric: from 15 to 22).
- 4: address - student's home address type (binary: 0 - urban or 1 - rural). 
- 5: famsize - family size (binary: 0 - greater than 3 or 1 - less or equal to 3).
- 6: Pstatus - parent's cohabitation status (binary: 0 - apart or 1 - living together).
- 7: Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education).
- 8: Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education).
- 9: traveltime - home to school travel time (numeric: 1 - 15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - more than 1 hour).
- 10: studytime - weekly study time (numeric: 1 - less than 2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - more than 10 hours).
- 11: failures - number of past class failures (numeric: n if 1 less,equal than 3, else 4).
- 12: schoolsup - extra educational support (binary: 1 - yes or 0 - no).
- 13: famsup - family educational support (binary: 1 - yes or 0 - no).
- 14: paid - extra paid classes within the course subject (binary: 1 - yes or 0 - no).
- 15: activities - extra-curricular activities (binary: 1 - yes or 0 - no).
- 16: nursery - attended nursery school (binary: 1 - yes or 0 - no).
- 17: higher - wants to take higher education (binary: 1 - yes or 0 - no).
- 18: internet - Internet access at home (binary: 1 - yes or 0 - no).
- 19: romantic - with a romantic relationship (binary: 1 - yes or 0 - no).
- 20: famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent).
- 21: freetime - free time after school (numeric: from 1 - very low to 5 - very high).
- 22: goout - going out with friends (numeric: from 1 - very low to 5 - very high).
- 23: Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high).
- 24: Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high).
- 25: health - current health status (numeric: from 1 - very bad to 5 - very good).
- 26: absences - number of school absences (numeric: from 0 to 93).
- 27: G1 - first period grade (numeric: from 0 to 20).
- 28: G2 - second period grade (numeric: from 0 to 20). 
- 29: G3 - final grade (numeric: from 0 to 20, output target).

10 - ¿Cuántos estudiantes han sacado la máxima nota (20) en las notas finales (G3)?

11 - Compara las medias de aquellos que reciben clases extra y estudian más de de 5 horas con aquellos que no reciben clases extra y estudian menos de 5 horas.

12 - Calcula la media y la desviación estándar de las diferencias entre notas del segundo (G2) y primer semestre (G1). ¿Han mejorado los alumnos sus notas?