![](../images/itam_logo.png)
<br> 

M.Sc. Liliana Millán Núñez liliana.millan@itam.mx

Agosto 2020

### Agenda 

+ Pandas
  + Estructuras de datos
  + Series
    + Creación
    + I/O
    + Indexado
    + Operaciones frecuentes
  + DataFrames
    + Creación
    + I/O
    + Indexado
    + Operaciones frecuentes



### Pandas 
https://pandas.pydata.org/pandas-docs/version/1.0.0/reference/index.html
Pandas es una librería de Python que nos permite realizar limpieza, manipulación y análisis de datos. 

Para instalar Pandas solo requieres de correr la instrucción `pip install pandas` **dentro** de tu ambiente de la clase `itam_md`.

Como todas las librerías oficiales de Python, Pandas tiene su Documentación Técnica en su [API de referencia](https://pandas.pydata.org/pandas-docs/version/1.0.0/reference/index.html) que se encuentra en la página oficial de Pandas. Dependiendo de la versión que ocupes de Pandas podrás encontrar su respectiva documentación técnica. Nosotros ocuparemos la versión 1.0.0 que acaba de liberarse el 29 de enero de este año! Ha sido un largo camino para poder liberar la versión 1!.

En Pandas hay dos estructuras de datos básicas: los *DataFrame* y los *Series*. 

Un  *DataFrame* te permite tener los datos acomodados en formato tabular -una tabla-, conformada por renglones o filas, y por columnas. Cada renglón corresponde a una observación y cada columna corresponde a una variable que describe cierta información asociada a la observación. 

![](./images/tidy_data.png)
<br>

|Id|Nombre|Edad|
|:---:|:--------------|:----:|
|1|Maria|35|
|2|Luis|31|
|3|José|33|
|4|Martha|29|
|5|Ana|25|


Esta es la forma más "común" de acomodar los datos cuando queremos analizarlos -así los usamos en Excel-.

Puedes pensar en un DataFrame como una tabla de Excel. 

Dado que una tabla -matriz- será la base de trabajo, todo en Pandas se indica primero hablando de los renglones (índice 0) y luego de las columnas (índice 1)! en pares (renglón, columna) ... tendrá sentido más adelante...

Por otro lado están los *Series*, los *Series* son las columnas del *DataFrame*, y pueden existir independientemente de un *DataFrame*. 

Todos los elementos dentro de un *Series* **deben** ser del mismo tipo. 

### Series 


#### Creación 

Se puede crear un *series* a través de una lista de python o a través de un arreglo de numpy `pip install numpy`, en ambos casos puedes (debes) agregar un nombre a esta columna (variable) a través del atributo `name`. 

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'1.0.3'

In [4]:
ages = [35,31,33,29,25]

In [5]:
age = pd.Series(ages, name="age")
age

0    35
1    31
2    33
3    29
4    25
Name: age, dtype: int64

In [5]:
age_np = pd.Series(np.array([35,31,33,29,25]), name = "age")
age_np

0    35
1    31
2    33
3    29
4    25
Name: age, dtype: int64

In [6]:
print(type(age), type(age_np))

<class 'pandas.core.series.Series'> <class 'pandas.core.series.Series'>


**Atributos** 

+ **Tamaño**: Para conocer el tamaño de un series (su longitud) ocupamos el atributo `size`. Nota que `size` **no** es una función!, es un atributo, y por eso no lleva paréntesis en su llamada. 

In [19]:
age.size

5

+ **Dimensiones**: Para conocer las dimensiones de un *Series* ocupamos el atributo `shape`. 

¿Qué te regresó este atributo? 

In [39]:
age.shape

(5,)

+ **Contenido**: Para que puedas interactuar con el contenido de un *Series*, sus valores, necesitaremos ocupar su atributo `values`, esto te regresará un **arreglo de numpy** de los valores del *Series*.

In [40]:
age.values

array([35, 31, 33, 29, 25])

#### I/O

Es posible guardar el contenido de un *Series* en algún formato más permanente que solo el *scope* de tu programa, por lo que puedes guardar un *Series* en un archivo csv, un excel, un pickle -lo verás más adelante cuando veamos algoritmos de aprendizaje de máquina-, o un *Dataframe* entre otros formatos. 

En cualquiera de estos casos necesitamos indicar la ruta donde quieres que se guarde este *Series*, el nombre del archivo, si deseas que se guarde incluyendo el nombre de tu columna y si deseas que se guarda el nombre de cada renglón -su índice-.  

In [7]:
#Si dejas el index en True, los índices que agregó en automático Series se guardarán como parte de tus datos.
age.to_csv('/home/silil/Documents/itam/mineria_datos_licenciatura/md_ene_may_20/test.csv', 
                 sep=',', header=True, index=False)


#### Indexado

Por *default*, cuando creas un objeto *Series* se genera un índice numérico que inicia en 0 y que va aumentando secuencialmente. Este índice nos permite identificar cada elemento de tu *Series* de manera única. 

Es posible  cambiar el índice, siempre y cuando lo sustituyamos por uno que cumpla que siga siendo un identificador único a cada observación sin importar si es numérico o string. 

En Pandas existen dos maneras de buscar un elemento particular en cualquiera de sus dos estructuras básicas: *DataFrame* y *Series*. Puedes regresar una observación a través del lugar numérico o bien el nombre de su índice. 

+ `iloc`: Nos permite regresar la observación que se encuentra en el índice numérico x. 

Por ejemplo, en el siguiente código el índice del Series name es numérico y va de 0 a 3, al solicitar la observación con el índice 2 utilizando iloc, nos regresa la observación con el valor Juan, correspondiente a ese índice. 


In [11]:
name = pd.Series(['Laura','Roberto','Juan','Maria', "Jorge"],name='name')
name

0      Laura
1    Roberto
2       Juan
3      Maria
4      Jorge
Name: name, dtype: object

In [21]:
name.iloc[2]

'Juan'

In [22]:
name[2]

'Juan'

In [26]:
name.loc[2]

'Juan'

+ `loc`: Nos permite regresar la observación que se encuentra en el índice con nombre y.

In [9]:
id = pd.Series([1,2,3,4], name='id', index=name)
id

name
Laura      1
Roberto    2
Juan       3
Maria      4
Name: id, dtype: int64

In [24]:
id.loc['Maria']

4

In [10]:
(name, age)

(0      Laura
 1    Roberto
 2       Juan
 3      Maria
 Name: name, dtype: object, 0    35
 1    31
 2    33
 3    29
 4    25
 Name: age, dtype: int64)

In [30]:
test = pd.Series(name.values, name='edad_nombre', index=age.values)
test

35      Laura
31    Roberto
33       Juan
29      Maria
25      Jorge
Name: edad_nombre, dtype: object


#### Operaciones frecuentes 

##### Estadísticas 

Dependiendo del tipo de datos que contenga el *Series* serán las diferentes estadísticas que puedes obtener de ellos. Si el *Series* es numérico, puedes obtener varias estadísticas del mismo como el valor mínimo, máximo, promedio, mediana, número de valores únicos, entre otras operaciones. 

Si el *Series* es categórico, puedes obtener la moda, el número de valores únicos entre otras operaciones. 


In [10]:
#cuando hay empate, las regresará ordenadas alfabéticamente. En este caso todos son moda 1.
name.mode()

0       Juan
1      Laura
2      Maria
3    Roberto
dtype: object

In [15]:
age

0    35
1    31
2    33
3    29
4    25
Name: age, dtype: int64

In [11]:
age.min()

25

In [16]:
age.max()

35

In [17]:
age.mean()

30.6

In [34]:
print(" edad mínima: {} \n edad máxima: {}\n \
edad promedio: {}\n mediana de la edad {}".\
      format(age.min(),age.max(),age.mean(),age.median()))

 edad mínima: 25 
 edad máxima: 35
 edad promedio: 30.6
 mediana de la edad 31.0


In [26]:
q = "algo por aqui {}".format("otra cosa")
q

'algo por aqui otra cosa'

##### Filtrado y selección de datos

+ `head` y `tail`: Nos permiten ver los primero $n$ elementos de un Series y los últimos $n$. Por default $n=5$

In [56]:
age.head(3)

0    35
1    31
2    33
Name: age, dtype: int64

In [35]:
age.head()

0    35
1    31
2    33
3    29
4    25
Name: age, dtype: int64

In [57]:
age.tail(3)

2    33
3    29
4    25
Name: age, dtype: int64

+ Puedes seleccionar solo valores que cumplen con cierta condición a través del método `get()`.

In [36]:
name

0      Laura
1    Roberto
2       Juan
3      Maria
Name: name, dtype: object

In [45]:
# NOTA: Acceso a métodos de un string normal de python! 
name.get(name.str.contains('a'))

0    Laura
2     Juan
3    Maria
Name: name, dtype: object

In [46]:
name.str.contains("a")

0     True
1    False
2     True
3     True
Name: name, dtype: bool

In [47]:
type(name.get(name.str.contains('a')))

pandas.core.series.Series

In [48]:
u = name.get(name.str.contains('a'))
type(u)

pandas.core.series.Series

In [49]:
u

0    Laura
2     Juan
3    Maria
Name: name, dtype: object

¿De qué tipo es lo que te regresó el código anterior? 

+ **Filter**: Este método te permite regresar elementos cuyo **índice** cumple con cierta condición.

In [51]:
type(id)

pandas.core.series.Series

In [50]:
id

name
Laura      1
Roberto    2
Juan       3
Maria      4
Name: id, dtype: int64

In [52]:
id.index

Index(['Laura', 'Roberto', 'Juan', 'Maria'], dtype='object', name='name')

In [54]:
id.filter(like='M')

name
Maria    4
Name: id, dtype: int64

##### Manipulación de datos

+ `where`: Esta función nos permite modificar los valores de las observaciones que **no** cumplen con alguna condición. El cambio se puede dejar registrado en el mismo *Series* ocupando la opción `inplace=True`, o se puede guardar en un *Series* nuevo.

In [55]:
age

0    35
1    31
2    33
3    29
4    25
Name: age, dtype: int64

In [70]:
age_modified = age.where(age < 30, other=35)
age_modified

0    35
1    35
2    35
3    29
4    25
Name: age, dtype: int64

In [61]:
age

0    35
1    31
2    33
3    29
4    25
Name: age, dtype: int64

In [None]:
age_modified = age.mask(age < 30, other=30)

In [59]:
name.mask(name != 'Maria', other="Maria", inplace=True)

In [60]:
name

0    Maria
1    Maria
2    Maria
3    Maria
Name: name, dtype: object

In [63]:
age_l = age.to_list()

In [65]:
age_l

[35, 31, 33, 29, 25]

+ `fillna`: Podemos rellenar los valores faltantes de un *Series* ocupando un procedimiento particular, o bien estableciendo el valor por *default* a ocupar -como -1,0 <- ¡cuidado con esto!- cuando se encuentre un na, o bien qué poner de acuerdo al índice. 

+ `dropna`: Podemos eliminar observaciones que tengan na $\leftarrow$ más que eliminarlos, en análisis de datos nos gusta ponerlos en otro lugar para saber cuáles borramos y luego preguntar por qué están en na, tal vez haya un error en el proceso que llena estos datos. 

+ `drop_duplicates`: Esta función nos permite eliminar los duplicados existentes en un *Series*, muy útil para el análisis de datos. 

### DataFrames

#### Creación 

Existen diversas maneras de crear un *DataFrame*, las más comunes son a través de un diccionario, o  a través de leer un conjunto de datos externos a Pandas como Excel, CSV -archivos separados por coma (comma separated values)-.

Si utilizamos un diccionario para crear el *DataFrame*, cada llave se convertirá en una columna -con ese nombre- y el valor asociado a la llave, los valores de esa columna. 

In [2]:
census_df = pd.DataFrame(data=[[1,'Laura',45,'F'], 
                               [2,'Roberto',37,'M'], 
                               [3,'Juan',25,'M'],
                               [4,'Maria',33,'F']],
                        columns=['id', 'name', 'age', 'sex'])
census_df

Unnamed: 0,id,name,age,sex
0,1,Laura,45,F
1,2,Roberto,37,M
2,3,Juan,25,M
3,4,Maria,33,F


In [102]:
type(census_df)

pandas.core.frame.DataFrame

In [104]:
type(census_df.age)

pandas.core.series.Series

In [105]:
census_df.age.values

array([45, 37, 25, 33])

In [67]:
census_df.age

0    45
1    37
2    25
3    33
Name: age, dtype: int64

In [70]:
census_df.size

16

In [77]:
census_df.shape

(4, 4)

In [76]:
# renglones
census_df.shape[0]

4

In [80]:
# columnas
census_df.shape[1]

4

Al igual que con los *Series*, los *DataFrames* también tiene un índice que inicia en 0 y va aumentando secuencialmente, el índice funciona como nombre de la observación (*label*). 


##### Atributos

Los atributos más utilizados de un *DataFrame* consisten en:

+ Conocer su tamaño: `size`
+ Conocer su forma: `shape`
+ Conocer las columnas que lo conforman: `columns`
+ Conocer los tipos de datos de cada columna: `dtypes`


#### Input/Output

La otra forma de crear un *DataFrame* tiene que ver con ingestar datos desde fuentes externas a Pandas, donde las más comunes son leer datos desde Excel y leer datos desde archivos separados por coma (CSV). 

Para leer datos desde Excel necesitaremos ocupar el método `read_excel` de pandas, indicando la ruta donde se encuentra el archivo que quieremos leer y la hoja en particular a leer.  La ruta puede ser un URL, un FTP e incluso un *bucket* de almacenamiento distribuido como S3. Para poder ocupar este método tendremos que instalar la librería `xlrd` que Pandas ocupa como auxiliar. 


In [33]:
census_df.size 

16

In [34]:
census_df.shape

(4, 4)

In [35]:
census_df.columns

Index(['id', 'name', 'age', 'sex'], dtype='object')

In [36]:
census_df.columns.values

array(['id', 'name', 'age', 'sex'], dtype=object)

In [109]:
census_df.dtypes

id       int64
name    object
age      int64
sex     object
dtype: object

In [24]:
grades = pd.read_excel("/home/silil/Documents/ejemplo.xlsx", 
                       sheet_name="Calificaciones")
grades

Unnamed: 0,Alumno,Nombre,Tarea 1
0,1,Juan Perez,10
1,2,María López,5
2,3,Marco Rodríguez,7
3,4,Luis Ramírez,7
4,5,Sofía Martínez,6


Para leer datos desde un archivo separado por comas necesitaremos ocupar el método `read_csv` de pandas, indicando la ruta donde se encuentra el archivo que quieres leer, el separador que quieres ocupar que por *default* es una coma `,` -aunque tu lo puedes cambiar a cualquier otro caracter-, puedes indicar si el primer renglón será tomado con el nombre de las columnas. 

In [25]:
pollution = pd.read_csv("/home/silil/Documents/itam/mineria_datos_licenciatura/data/beijing_pollution/pollution.csv")
pollution.head()

Unnamed: 0,No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
0,1,2010,1,1,0,,-21,-11.0,1021.0,NW,1.79,0,0
1,2,2010,1,1,1,,-21,-12.0,1020.0,NW,4.92,0,0
2,3,2010,1,1,2,,-21,-11.0,1019.0,NW,6.71,0,0
3,4,2010,1,1,3,,-21,-14.0,1019.0,NW,9.84,0,0
4,5,2010,1,1,4,,-20,-12.0,1018.0,NW,12.97,0,0


In [40]:
pollution.shape

(43824, 13)

In [48]:
pollution.month.nunique()

12

In [50]:
# contar cuantos missings hay en pm2.5
pollution['pm2.5'].isna().sum()

2067

$\rightarrow$ Nota que Pandas identifica cuando una columna tiene valores faltantes y los identifica como `NaN` (Not a Number).

#### Indexado 

Al igual que con el indexado de *Series* puedes seleccionar observaciones a través de los métodos `iloc` y `loc`. 

Sin embargo, debido a que los *DataFrames* tienen más de una columna, es posible hacer otro tipos de indexados. Por ejemplo, es posible agregar columnas al *DataFrame* en un índice en particular, para ello podemos ocupar el método `insert`, donde tendremos que indicar el índice en donde agregaremos la columna, el nombre que tendrá y qué valores. 


In [57]:
ages = [19,20,19,18,19]
grades.insert(loc=2, column="Edad", value=ages)
grades

Unnamed: 0,Alumno,Nombre,Edad,Tarea 1
0,1,Juan Perez,19,10
1,2,María López,20,5
2,3,Marco Rodríguez,19,7
3,4,Luis Ramírez,18,7
4,5,Sofía Martínez,19,6


In [52]:
grades['Estatura'] = [1.75, 1.65, 1.70, 1.67, 1.70]

In [53]:
grades

Unnamed: 0,Alumno,Nombre,Tarea 1,Edad,Estatura
0,1,Juan Perez,10,19,1.75
1,2,María López,5,20,1.65
2,3,Marco Rodríguez,7,19,1.7
3,4,Luis Ramírez,7,18,1.67
4,5,Sofía Martínez,6,19,1.7


También es posible acceder a una celda en particular utilizando los métodos `at` y `iat`, `at` nos permite utilizar las etiquetas de los renglones y las columnas, mientras que `iat` requiere que solo ocupemos posiciones enteras. 

In [54]:
grades.at[4, 'Nombre']

'Sofía Martínez'

In [55]:
grades.iat[4, 1]

'Sofía Martínez'

#### Operaciones frecuentes

##### Estadísticas

Podemos obtener una descripción estadística básica de un *DataFrame* para las variables numéricas utilizando el método `describe` que nos regresará el número de observaciones que tenemos en el *DataFrame*, el valor mínimo y máximo para cada variable, el promedio, la mediana, el cuartil 25% y el cuartil 75% así como la desviación estándar. 

In [58]:
grades.describe()

Unnamed: 0,Alumno,Edad,Tarea 1
count,5.0,5.0,5.0
mean,3.0,19.0,7.0
std,1.581139,0.707107,1.870829
min,1.0,18.0,5.0
25%,2.0,19.0,6.0
50%,3.0,19.0,7.0
75%,4.0,19.0,7.0
max,5.0,20.0,10.0


In [60]:
pollution.describe()

Unnamed: 0,No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,Iws,Is,Ir
count,43824.0,43824.0,43824.0,43824.0,43824.0,41757.0,43824.0,43824.0,43824.0,43824.0,43824.0,43824.0
mean,21912.5,2012.0,6.523549,15.72782,11.5,98.613215,1.817246,12.448521,1016.447654,23.88914,0.052734,0.194916
std,12651.043435,1.413842,3.448572,8.799425,6.922266,92.050387,14.43344,12.198613,10.268698,50.010635,0.760375,1.415867
min,1.0,2010.0,1.0,1.0,0.0,0.0,-40.0,-19.0,991.0,0.45,0.0,0.0
25%,10956.75,2011.0,4.0,8.0,5.75,29.0,-10.0,2.0,1008.0,1.79,0.0,0.0
50%,21912.5,2012.0,7.0,16.0,11.5,72.0,2.0,14.0,1016.0,5.37,0.0,0.0
75%,32868.25,2013.0,10.0,23.0,17.25,137.0,15.0,23.0,1025.0,21.91,0.0,0.0
max,43824.0,2014.0,12.0,31.0,23.0,994.0,28.0,42.0,1046.0,585.6,27.0,36.0


También podemos obtener otras métricas estadísticas como la correlación `corr`, la covarianza `cov`,  un ranqueo `rank`, porcentajes de cambio entre observaciones `pct_change`, etc.

In [79]:
grades.corr()

Unnamed: 0,Alumno,Tarea 1,Edad
Alumno,1.0,-0.507093,-0.447214
Tarea 1,-0.507093,1.0,-0.377964
Edad,-0.447214,-0.377964,1.0


In [80]:
grades.cov()

Unnamed: 0,Alumno,Tarea 1,Edad
Alumno,2.5,-1.5,-0.5
Tarea 1,-1.5,3.5,-0.5
Edad,-0.5,-0.5,0.5


In [61]:
grades

Unnamed: 0,Alumno,Nombre,Edad,Tarea 1
0,1,Juan Perez,19,10
1,2,María López,20,5
2,3,Marco Rodríguez,19,7
3,4,Luis Ramírez,18,7
4,5,Sofía Martínez,19,6


In [63]:
grades['Tarea 1'].rank(method='dense', ascending=True)

0    4.0
1    1.0
2    3.0
3    3.0
4    2.0
Name: Tarea 1, dtype: float64

In [82]:
grades['Tarea 1'].sort_values().pct_change()

1         NaN
4    0.200000
2    0.166667
3    0.000000
0    0.428571
Name: Tarea 1, dtype: float64

##### Filtrado y selección de datos

Podemos ver las primeras $n$ observaciones de un *DataFrame* ocupando el método `head`, si no le indicamos cuántos, por *default* nos regresará los primeros 5. 

In [67]:
pollution.head()

Unnamed: 0,No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
0,1,2010,1,1,0,,-21,-11.0,1021.0,NW,1.79,0,0
1,2,2010,1,1,1,,-21,-12.0,1020.0,NW,4.92,0,0
2,3,2010,1,1,2,,-21,-11.0,1019.0,NW,6.71,0,0
3,4,2010,1,1,3,,-21,-14.0,1019.0,NW,9.84,0,0
4,5,2010,1,1,4,,-20,-12.0,1018.0,NW,12.97,0,0


In [85]:
pollution.tail()

Unnamed: 0,No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
43819,43820,2014,12,31,19,8.0,-23,-2.0,1034.0,NW,231.97,0,0
43820,43821,2014,12,31,20,10.0,-22,-3.0,1034.0,NW,237.78,0,0
43821,43822,2014,12,31,21,10.0,-22,-3.0,1034.0,NW,242.7,0,0
43822,43823,2014,12,31,22,8.0,-22,-4.0,1034.0,NW,246.72,0,0
43823,43824,2014,12,31,23,12.0,-21,-3.0,1034.0,NW,249.85,0,0


In [70]:
pollution.year.unique()

array([2010, 2011, 2012, 2013, 2014])

In [71]:
pollution.No.nunique()

43824

In [73]:
pollution.nunique()

No       43824
year         5
month       12
day         31
hour        24
pm2.5      581
DEWP        69
TEMP        64
PRES        60
cbwd         4
Iws       2788
Is          28
Ir          37
dtype: int64

In [72]:
pollution.shape

(43824, 13)

##### Manipulación de datos

+ `drop_duplicates`: Nos permite eliminar observaciones repetidas del *DataFrame*, para que sean consideradas como repetidas tienen que tener los mismos valores en **todas** las variables del *DataFrame* 

In [74]:
grades

Unnamed: 0,Alumno,Nombre,Edad,Tarea 1
0,1,Juan Perez,19,10
1,2,María López,20,5
2,3,Marco Rodríguez,19,7
3,4,Luis Ramírez,18,7
4,5,Sofía Martínez,19,6


In [81]:
grades_2 = pd.DataFrame([[1, 'Juan Perez', 19, 10],[4, 'Luis Ramírez', 18, 7]],
                       columns=['Alumno', 'Nombre', 'Edad', 'Tarea 1'], index=[5,6])
grades_2

Unnamed: 0,Alumno,Nombre,Edad,Tarea 1
5,1,Juan Perez,19,10
6,4,Luis Ramírez,18,7


In [82]:
## append!
other_grades = grades.append(grades_2)
other_grades

Unnamed: 0,Alumno,Nombre,Edad,Tarea 1
0,1,Juan Perez,19,10
1,2,María López,20,5
2,3,Marco Rodríguez,19,7
3,4,Luis Ramírez,18,7
4,5,Sofía Martínez,19,6
5,1,Juan Perez,19,10
6,4,Luis Ramírez,18,7


In [83]:
other_grades.shape

(7, 4)

In [84]:
other_grades.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
6     True
dtype: bool

In [125]:
other_grades.duplicated().sum()

2

In [85]:
unique_grades = other_grades.drop_duplicates()
unique_grades

Unnamed: 0,Alumno,Nombre,Edad,Tarea 1
0,1,Juan Perez,19,10
1,2,María López,20,5
2,3,Marco Rodríguez,19,7
3,4,Luis Ramírez,18,7
4,5,Sofía Martínez,19,6


In [86]:
unique_grades.duplicated().sum()

0

+ `rename`: Nos permite cambiar el nombre de las columnas de un DataFrame, lo ocuparemos bastante en el curso. 

Parte de la limpieza inicial de cualquier *set* de datos requiere de limpiar los nombres de las columnas, para ello pasamos todo a minúsculas y cambiamos los espacions por guiónes bajos para cumplir con la guía de estilo. 

En este momento realizaremos el cambio de forma "manual" cuando lo veamos en EDA lo haremos de forma programática.

In [6]:
grades.columns.values

array(['Alumno', 'Nombre', 'Tarea 1'], dtype=object)

In [7]:
grades.rename(columns={'Alumno': 'alumno', 
                       'Nombre': 'nombre',
                       'Tarea 1': 'tarea_1'},
             inplace=True)
grades

Unnamed: 0,alumno,nombre,tarea_1
0,1,Juan Perez,10
1,2,María López,5
2,3,Marco Rodríguez,7
3,4,Luis Ramírez,7
4,5,Sofía Martínez,6


In [14]:
def rename_columns(column):
    new_name = column.lower().\
    replace(" ","_").\
    replace("/","_").\
    replace("á","a").\
    replace("é","e").\
    replace("í","i").\
    replace("ó","o").\
    replace("ú","u")
    
    return new_name

In [15]:
grades.rename(columns={element: rename_columns(element) for element in grades.columns.values}, 
             inplace=True)

grades.head()

Unnamed: 0,alumno,nombre,tarea_1
0,1,Juan Perez,10
1,2,María López,5
2,3,Marco Rodríguez,7
3,4,Luis Ramírez,7
4,5,Sofía Martínez,6


In [24]:
grades[(grades.tarea_1 > 5) & (grades.alumno < 4)]

Unnamed: 0,alumno,nombre,tarea_1
0,1,Juan Perez,10
2,3,Marco Rodríguez,7


+ `groupby`/`aggregate`: Nos permite realizar grupos de los datos a través de diferentes condiciones en las variables del *DataFrame*, normalmente a cada grupo le aplicamos alguna operación a la que llamamos agregación. 

Cuando ocupamos un `groupby`, la salida será un *DataFrame* más pequeño, pues el número de observaciones dependerá del número de grupos y el número de variables del número de agregaciones realizadas a cada grupo. 

In [25]:
pollution.head()

Unnamed: 0,No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
0,1,2010,1,1,0,,-21,-11.0,1021.0,NW,1.79,0,0
1,2,2010,1,1,1,,-21,-12.0,1020.0,NW,4.92,0,0
2,3,2010,1,1,2,,-21,-11.0,1019.0,NW,6.71,0,0
3,4,2010,1,1,3,,-21,-14.0,1019.0,NW,9.84,0,0
4,5,2010,1,1,4,,-20,-12.0,1018.0,NW,12.97,0,0


In [26]:
pollution.rename(columns={element: rename_columns(element) for element in pollution.columns.values}, 
                inplace=True)
pollution.head()

Unnamed: 0,no,year,month,day,hour,pm2.5,dewp,temp,pres,cbwd,iws,is,ir
0,1,2010,1,1,0,,-21,-11.0,1021.0,NW,1.79,0,0
1,2,2010,1,1,1,,-21,-12.0,1020.0,NW,4.92,0,0
2,3,2010,1,1,2,,-21,-11.0,1019.0,NW,6.71,0,0
3,4,2010,1,1,3,,-21,-14.0,1019.0,NW,9.84,0,0
4,5,2010,1,1,4,,-20,-12.0,1018.0,NW,12.97,0,0


In [28]:
pollution.year.unique()

array([2010, 2011, 2012, 2013, 2014])

In [37]:
pm_2_5_per_group = pollution.groupby(['year'])['pm2.5', 'iws']\
.agg(['mean', 'std'])\
.reset_index()

pm_2_5_per_group

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,year,pm2.5,pm2.5,iws,iws
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,std
0,2010,104.04573,92.281185,28.393053,55.016186
1,2011,99.07134,92.967298,26.232765,52.961233
2,2012,90.545871,81.745087,24.143322,49.116161
3,2013,101.712376,98.070477,21.057219,47.48679
4,2014,97.734557,93.531528,19.618643,44.221399


In [142]:
pm_2_5_per_group.shape

(5, 5)

In [42]:
pollution.groupby(['year'], as_index=False)\
.count()

Unnamed: 0,year,no,month,day,hour,pm2.5,dewp,temp,pres,cbwd,iws,is,ir
0,2010,8760,8760,8760,8760,8091,8760,8760,8760,8760,8760,8760,8760
1,2011,8760,8760,8760,8760,8032,8760,8760,8760,8760,8760,8760,8760
2,2012,8784,8784,8784,8784,8295,8784,8784,8784,8784,8784,8784,8784
3,2013,8760,8760,8760,8760,8678,8760,8760,8760,8760,8760,8760,8760
4,2014,8760,8760,8760,8760,8661,8760,8760,8760,8760,8760,8760,8760


In [43]:
pollution.describe()

Unnamed: 0,no,year,month,day,hour,pm2.5,dewp,temp,pres,iws,is,ir
count,43824.0,43824.0,43824.0,43824.0,43824.0,41757.0,43824.0,43824.0,43824.0,43824.0,43824.0,43824.0
mean,21912.5,2012.0,6.523549,15.72782,11.5,98.613215,1.817246,12.448521,1016.447654,23.88914,0.052734,0.194916
std,12651.043435,1.413842,3.448572,8.799425,6.922266,92.050387,14.43344,12.198613,10.268698,50.010635,0.760375,1.415867
min,1.0,2010.0,1.0,1.0,0.0,0.0,-40.0,-19.0,991.0,0.45,0.0,0.0
25%,10956.75,2011.0,4.0,8.0,5.75,29.0,-10.0,2.0,1008.0,1.79,0.0,0.0
50%,21912.5,2012.0,7.0,16.0,11.5,72.0,2.0,14.0,1016.0,5.37,0.0,0.0
75%,32868.25,2013.0,10.0,23.0,17.25,137.0,15.0,23.0,1025.0,21.91,0.0,0.0
max,43824.0,2014.0,12.0,31.0,23.0,994.0,28.0,42.0,1046.0,585.6,27.0,36.0


In [46]:
# otro ejemplo, haciendo grupos con más de una variable a la vez, sin aggregate (una sola operación)
group_by_month_year = pollution.groupby(['month','year'], as_index=False)['pm2.5', 'iws']\
.mean()

group_by_month_year

  


Unnamed: 0,month,year,pm2.5,iws
0,1,2010,90.442573,41.227325
1,1,2011,44.891369,75.956142
2,1,2012,119.310448,24.060538
3,1,2013,193.273342,20.068575
4,1,2014,118.557666,19.93
5,2,2010,97.233979,13.466786
6,2,2011,150.321429,15.951637
7,2,2012,83.997101,30.219282
8,2,2013,123.801788,13.382813
9,2,2014,174.617339,16.920446


In [47]:
group_by_month_year.shape

(60, 4)

+ `transform`: Ocupamos esta operación  en conjunto con un `groupby` y `aggregate`. Es lo mismo que un `groupby` pero no hacemos una reducción en las dimensiones del *DataFrame*, aquí por cada observación se pone la salida de la operación aplicada a cada grupo. 

In [53]:
pollution.groupby(['year'])['year','pm2.5', 'iws'].transform('mean')

  """Entry point for launching an IPython kernel.


Unnamed: 0,year,pm2.5,iws
0,2010,104.045730,28.393053
1,2010,104.045730,28.393053
2,2010,104.045730,28.393053
3,2010,104.045730,28.393053
4,2010,104.045730,28.393053
...,...,...,...
43819,2014,97.734557,19.618643
43820,2014,97.734557,19.618643
43821,2014,97.734557,19.618643
43822,2014,97.734557,19.618643


Podemos ocupar dentro del transform **cualquier** función, incluso una lambda. 

+ `apply`: Nos permite aplicar una función a un DataFrame, puedes aplicarlo a renglones (`axis=0`) o a columnas (`axis=1`)

In [54]:
pollution.dtypes

no         int64
year       int64
month      int64
day        int64
hour       int64
pm2.5    float64
dewp       int64
temp     float64
pres     float64
cbwd      object
iws      float64
is         int64
ir         int64
dtype: object

In [56]:
pollution_2010 = pollution[pollution.year==2010]
pollution_2010.shape

(8760, 13)

In [57]:
pollution_2010.year.unique()

array([2010])

In [65]:
pollution_2010[['pm2.5','iws']].tail()

Unnamed: 0,pm2.5,iws
8755,27.0,534.65
8756,17.0,543.59
8757,19.0,552.53
8758,16.0,559.68
8759,22.0,565.49


In [70]:
pollution_2010_b = pollution_2010[['pm2.5', 'iws']]\
.apply(lambda x: x * 100)\
.tail()

In [71]:
other_pollution_2010

Unnamed: 0,pm2.5,iws
8755,2700.0,53465.0
8756,1700.0,54359.0
8757,1900.0,55253.0
8758,1600.0,55968.0
8759,2200.0,56549.0


In [68]:
pollution_2010[['pm2.5','iws']].tail(5)

Unnamed: 0,pm2.5,iws
8755,27.0,534.65
8756,17.0,543.59
8757,19.0,552.53
8758,16.0,559.68
8759,22.0,565.49


##### Transformación

+ `merge`: Nos permite unir dos DataFrames de forma vertical, tendremos que tener alguna llave para poder hacer la unión. 

**Joins** 

![](../images/sql_join.jpeg)
<br>
Fuente: [Jordi Cabot](https://ingenieriadesoftware.es/tipos-sql-join-guia-referencia/)

In [55]:
grades

Unnamed: 0,Alumno,Nombre,Tarea 1
0,1,Juan Perez,10
1,2,María López,5
2,3,Marco Rodríguez,7
3,4,Luis Ramírez,7
4,5,Sofía Martínez,6


In [56]:
hw_2_grades = pd.DataFrame([[1, 8], [3, 7], [4, 10]], 
                          columns=['alumno', 'tarea_2'])
hw_2_grades

Unnamed: 0,alumno,tarea_2
0,1,8
1,3,7
2,4,10


In [57]:
## Join
all_grades = grades.merge(hw_2_grades, how="inner", left_on="Alumno", right_on="alumno")
all_grades

Unnamed: 0,Alumno,Nombre,Tarea 1,alumno,tarea_2
0,1,Juan Perez,10,1,8
1,3,Marco Rodríguez,7,3,7
2,4,Luis Ramírez,7,4,10


In [58]:
all_grades.drop("alumno", inplace=True, axis=1)
all_grades

Unnamed: 0,Alumno,Nombre,Tarea 1,tarea_2
0,1,Juan Perez,10,8
1,3,Marco Rodríguez,7,7
2,4,Luis Ramírez,7,10


In [59]:
## Left join
left_grades = grades.merge(hw_2_grades, how='left', left_on="Alumno", right_on="alumno")
left_grades

Unnamed: 0,Alumno,Nombre,Tarea 1,alumno,tarea_2
0,1,Juan Perez,10,1.0,8.0
1,2,María López,5,,
2,3,Marco Rodríguez,7,3.0,7.0
3,4,Luis Ramírez,7,4.0,10.0
4,5,Sofía Martínez,6,,


In [60]:
hw_2_grades = pd.DataFrame([[1, 8], [3, 7], [4, 10]], 
                          columns=['Alumno', 'tarea_2'])
hw_2_grades

Unnamed: 0,Alumno,tarea_2
0,1,8
1,3,7
2,4,10


In [61]:
## Right join
right_grades = hw_2_grades.merge(grades, how='right')
right_grades

Unnamed: 0,Alumno,tarea_2,Nombre,Tarea 1
0,1,8.0,Juan Perez,10
1,3,7.0,Marco Rodríguez,7
2,4,10.0,Luis Ramírez,7
3,2,,María López,5
4,5,,Sofía Martínez,6


In [62]:
#también puedes ser con un on
right_grades = grades.merge(hw_2_grades, how='right', on="Alumno")
right_grades

Unnamed: 0,Alumno,Nombre,Tarea 1,tarea_2
0,1,Juan Perez,10,8
1,3,Marco Rodríguez,7,7
2,4,Luis Ramírez,7,10


**NOTA**: En caso de que las columnas con las que queremos hacer el join no se llamen igual en los dos DataFrames podemos ocupar los parámetros `on`, `left_on` o `right_on`.

+ `melt`: Nos permite modificar la forma de nuestro DataFrame ya sea a un formato ancho -*wide*- o a un formato largo -*large*-. En un formato ancho, ocupamos los valores de una columna y convertimos cada uno a una columna, en el formato largo, juntamos varias columnas como valores de una sola. 

In [190]:
pollution_2010_1h = pollution[(pollution.year == 2010) & (pollution.month < 7)]
pollution_2010_1h.head()

Unnamed: 0,No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
0,1,2010,1,1,0,,-21,-11.0,1021.0,NW,1.79,0,0
1,2,2010,1,1,1,,-21,-12.0,1020.0,NW,4.92,0,0
2,3,2010,1,1,2,,-21,-11.0,1019.0,NW,6.71,0,0
3,4,2010,1,1,3,,-21,-14.0,1019.0,NW,9.84,0,0
4,5,2010,1,1,4,,-20,-12.0,1018.0,NW,12.97,0,0


In [194]:
print(pollution_2010_1h.year.unique(), 
      pollution_2010_1h.month.unique())

[2010] [1 2 3 4 5 6]


El set de datos ocupado en estos ejercicios lo puedes encontrar aquí: [Bejing Pollution Data, Kaggle](https://www.kaggle.com/parikshitdasgupta/raw-data-beijing-pollution)

### Referencias 

+ [10 minutes to Pandas](https://pandas.pydata.org/pandas-docs/version/1.0.0/getting_started/10min.html)
+ [Padas API](https://pandas.pydata.org/pandas-docs/version/1.0.0/reference/series.html)