# Pandas: Práctica

## Objetivos

* Crear objetos de tipo `Series` y `DataFrame` a partir de datos de Python. 
* Crear objetos de tipo `DataFrame` a partir de archivos.
* Indexar y cortar objetos con `pandas`.
* Agregar datos en el `DataFrame`s.
* Unir múltiples objetos de tipo `DataFrame`.

## ¿Qué es Pandas?

Una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos para datos tabulares de muchos tipos. Piensa en un `DataFrame` como una tabla en SQL. 

Usaremos esto prácticamente todos los días de aquí en adelante. Así que asegúrate de completar la tarea, e incluso hacerla de nuevo si no te sientes cómodo.

## Beneficios

  * Almacenamiento y procesamiento eficiente de los datos.
  * Incluye muchas funciones incorporadas para la transformación de datos, agregaciones y gráficos.
  * Excelente para el trabajo exploratorio.

## No tan buenas

  * No se adapta muy bien a conjuntos de datos muy grandes.

## Documentación:

Documentación de pandas:

  * http://pandas.pydata.org/pandas-docs/stable/index.html
  
  
Cheatsheet de utilidad:

  * https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf


Lectura extra:


  * [Indexing and Selecting](https://pandas.pydata.org/pandas-docs/stable/indexing.html)
  * [Advanced Indexing](http://pandas.pydata.org/pandas-docs/stable/advanced.html#advanced-mi-slicers)
  * [Group-by](https://pandas.pydata.org/pandas-docs/stable/groupby.html)

## Imports

In [1]:
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('ggplot')

## Numpy

`pandas` se construye a partir de los tipos de datos de `numpy` una biblioteca de nivel inferior.

El objeto básico de `numpy` es un `array`.

In [2]:
x = np.array([0, 1, 2, 3, 4, 5])
x

array([0, 1, 2, 3, 4, 5])

Los arrays cuentan con operaciones muy útiles.

In [3]:
x.sum()  # <-- Suma de números

15

Los arrays pueden ser multidimensionales. Un array **bidimensional** es una matriz.

In [4]:
M = np.array([
    [0, 1, 2],
    [1, 2, 3],
    [2, 3, 4],
    [5, 6, 7]
])

M

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [5, 6, 7]])

In [5]:
print(x.shape)
print(M.shape)

(6,)
(4, 3)


## Serie

In [6]:
heights = np.array([34, 35, 36, 37, 38])
student_heights = pd.Series(heights)
student_heights

0    34
1    35
2    36
3    37
4    38
dtype: int32

Para acceder al array debe ser a través de '.values'.

In [7]:
student_heights.values

array([34, 35, 36, 37, 38])

Losnúmeros '0,1,2,3,4' son el índice por defecto. 

Se puede acceder al índice a través de '.index'

In [8]:
student_heights.index

RangeIndex(start=0, stop=5, step=1)

El índice es un [iterable](https://www.programiz.com/python-programming/iterator).

In [9]:
type(student_heights.index)

pandas.core.indexes.range.RangeIndex

In [10]:
list(student_heights.index)

[0, 1, 2, 3, 4]

Es posible cambiar el índice manualmente

In [11]:
student_heights.index = ["Tomas", "Angel", "Stacy", "Michaela", "Haden"]

In [12]:
student_heights

Tomas       34
Angel       35
Stacy       36
Michaela    37
Haden       38
dtype: int32

Ahora es posible utilizar palabras para acceder a los ítems de la Serie.

In [13]:
student_heights['Michaela']

37

También se puede acceder a un ítem por su orden.

In [14]:
student_heights[2]

36

Utilizar métodos de numpy.

In [15]:
student_heights.mean()

36.0

Se pueden ver los parámetros de una función escribiendo
```python
pd.Series()
```
colocando el cursor dentro del paréntesis y presionando 'shift+tab'.

In [16]:
#Código:
pd.Series()

  pd.Series()


Series([], dtype: float64)

### 1.- Cuáles son los parámetros de pd.Series()?

In [17]:
#Código:


> POR FAVOR, NUNCA JAMÁS COPIE Y PEGUE MIENTRAS HACE ESTAS PREGUNTAS. No aprenderás a codificar de memoria. Y en tres semanas te darás cuenta de que no lo sabes. Lo hemos visto una y otra vez. Vale la pena. Abre una segunda ventana si necesitas copiar código.

> Para las variables que has definido o cargado utiliza el 'tabulador'. Por ejemplo:
>
>
> Abajo escribe 'bra' + tabulador y observa cómo se rellena el resto. Puede ser difícil de recordar, pero realmente ayuda.


## 2.- Hacer una serie 'brag_vow' con índice 'i am a numpy champ'. And values 'So Pandas here I come".

```python 

print(brag_vow)

I            So
am       Pandas
a          here
numpy         I
champ      come
dtype: object
```

In [18]:
#Código:

brag_vow=pd.Series(data=["So","Pandas","here","I","come"],index=["I","am","a","numpy","champ"])
brag_vow

I            So
am       Pandas
a          here
numpy         I
champ      come
dtype: object

### 3.- Imprimir los últimos tres elementos de 'brag_vow'

```python 
a          here
numpy         I
champ      come
dtype: object
```

In [19]:
#Código:
brag_vow[-3:]

a        here
numpy       I
champ    come
dtype: object

### 4.- Imprimir los elementos relacionados al index 'I a champ' (No utilizar índice numérico)

```python 
I          So
a        here
champ    come
dtype: object
```

In [20]:
#Código:
brag_vow[["I","a","champ"]]

I          So
a        here
champ    come
dtype: object

### 5.- De "student_heights", imprimir los estudiantes cuya estatura es un numero par por medio de un índice booleano.

```python 
Tomas    34
Stacy    36
Haden    38
dtype: int64
```

In [21]:
#Código:
student_heights[student_heights.values%2==0]


Tomas    34
Stacy    36
Haden    38
dtype: int32

### 6.- Imprimir los valores de brag_vow:

```python 
array(['So', 'Pandas', 'here', 'I', 'come'], dtype=object)
```

In [22]:
#Código:
brag_vow.values


array(['So', 'Pandas', 'here', 'I', 'come'], dtype=object)

### 7.- Imprimir el index de brag_vow:

```python 
Index(['I', 'am', 'a', 'numpy', 'champ'], dtype='object')
```

In [23]:
#Código:
brag_vow.index


Index(['I', 'am', 'a', 'numpy', 'champ'], dtype='object')

# Nombre de una Serie

Las Series pueden tener un nombre

In [24]:
student_grades = pd.Series([45,56,78,89,90], 
                           index=['Tomas', 'Angel', 'Stacy', 'Michaela', 'Haden'], 
                           name='grades')

In [25]:
student_grades

Tomas       45
Angel       56
Stacy       78
Michaela    89
Haden       90
Name: grades, dtype: int64

Observe el Name:

### Crear Dataframes a partir de objetos

Tenemos dos series: student_heights y student_grades. Cada una tiene los mismos estudiantes en el índice. ¿No sería genial si pudiéramos acceder a todos los datos de los estudiantes a la vez?

Para ello, utilizaremos un dataframe.

In [26]:
students = pd.DataFrame({'grade':student_grades, 'height':student_heights})
students


Unnamed: 0,grade,height
Tomas,45,34
Angel,56,35
Stacy,78,36
Michaela,89,37
Haden,90,38


Hay al menos dos maneras de pensar en un dataframe.

Una es como una serie múltiple con índice coincidente. La otra es como un array de numpy con columnas y filas explícitamente etiquetadas.

La verdad es que un dataframe es AMBAS.

In [27]:
# numpy array:
students.values

array([[45, 34],
       [56, 35],
       [78, 36],
       [89, 37],
       [90, 38]], dtype=int64)

In [28]:
# pandas series:
students['grade']

Tomas       45
Angel       56
Stacy       78
Michaela    89
Haden       90
Name: grade, dtype: int64

También podemos crear DataFrames a partir de arrays de numpy o listas con etiquetas e índices proporcionados. El parámetro `columns=` especifica los nombres de las columnas; el `index=` especifica los nombres de las filas.

In [29]:
pd.DataFrame(
    data = [[1, 2, 3], 
            [4, 5, 6]], 
    columns=['a', 'b', 'c'], 
    index=['foo', 'bar'])

Unnamed: 0,a,b,c
foo,1,2,3
bar,4,5,6


Hay MUCHAS maneras de hacer cualquier cosa. Esto hace que el aprendizaje sea más difícil. Pero aquí vamos de todos modos.

### 8.- Hacer un DataFrame 'classrooms' que contenga:

```python 
> print(classrooms)

         chairs  projectors
gym           0           1
history       2           3
math          4           5
english       6           7
```

In [30]:
#Código:
classrooms=pd.DataFrame({"chairs": [0,2,4,6],"projectors":[1,3,5,7]},index=["gym","history","math","english"])
classrooms


Unnamed: 0,chairs,projectors
gym,0,1
history,2,3
math,4,5
english,6,7


### 9.- Hacer la Serie 'Chairs':

```python 
gym        0
history    2
math       4
english    6
Name: chairs, dtype: int64
```

In [31]:
#Código:
Chairs=pd.Series(classrooms["chairs"])
Chairs


gym        0
history    2
math       4
english    6
Name: chairs, dtype: int64

### 10.- Hacer la serie 'projectors' 

```python 
gym        1
history    3
math       5
english    7
Name: projectors, dtype: int64
```

In [32]:
#Código:
projectors=pd.Series(classrooms["projectors"])
projectors

gym        1
history    3
math       5
english    7
Name: projectors, dtype: int64

### 11.- Hacer de nuevo el DataFrame 'classrooms' , pero esta vez utilizando las series 'chairs' y 'projectors'

```python 
> print(classrooms)

         chairs  projectors
gym           0           1
history       2           3
math          4           5
english       6           7
```

In [33]:
#Código:
classrooms=pd.concat([Chairs,projectors],axis=1)
classrooms

Unnamed: 0,chairs,projectors
gym,0,1
history,2,3
math,4,5
english,6,7


### 12.- Crear el DataFrame 'down_up' con dos columnas: 'decreasing' e 'increasing' con los números 1-10 en cada orden


```python
> print(down_up)

   decreasing  increasing
0          10           1
1           9           2
2           8           3
3           7           4
4           6           5
5           5           6
6           4           7
7           3           8
8           2           9
9           1          10
```

In [34]:
#Código:
increasing=np.array(range(1,11))
decreasing=np.flip(increasing)
down_up=pd.concat([pd.Series(decreasing,name="decreasing"),pd.Series(increasing,name="increasing")],axis=1)
down_up

Unnamed: 0,decreasing,increasing
0,10,1
1,9,2
2,8,3
3,7,4
4,6,5
5,5,6
6,4,7
7,3,8
8,2,9
9,1,10


También puede poner una Serie en un DataFrame siempre que tenga un índice que coincida.

## Modificar DataFrames

Los dataframes son MUY parecidos a los arrays de numpy con columnas e índices añadidos.

Pero a diferencia de los arrays (que tienen un tamaño fijo), ¡podemos añadir columnas a un dataframe!

In [35]:
students['was_late'] = [True, False, True, False, False]
students

Unnamed: 0,grade,height,was_late
Tomas,45,34,True
Angel,56,35,False
Stacy,78,36,True
Michaela,89,37,False
Haden,90,38,False


Tambien es posible a través de un array

In [36]:
students['was_late'] = np.array([True, False, True, False, False])
students

Unnamed: 0,grade,height,was_late
Tomas,45,34,True
Angel,56,35,False
Stacy,78,36,True
Michaela,89,37,False
Haden,90,38,False


Pero el arry debe tener una forma de (n, ) o (1, n). No (n, 1). Lo que tiene un poco de sentido, porque eso es tratar de encajar una fila en una columna.

In [37]:
students['was_late'] = np.array([True, False, True, False, False]).reshape(-1,1)
students

Unnamed: 0,grade,height,was_late
Tomas,45,34,True
Angel,56,35,False
Stacy,78,36,True
Michaela,89,37,False
Haden,90,38,False


```python
# Esto debe dar un error
students['was_late'] = np.array([True, False, True, False, False]).reshape(1,-1)
students
```

### 13.- Agregar la columna 'top_crush' a 'students'. El cual es el nombre del crush de cada estudiante

```python
> print(students)

          grade  height  was_late     top_crush
Tomas        45      34      True         Angel
Angel        56      35     False         Haden
Stacy        78      36      True      Michaela
Michaela     89      37     False         Tomas
Haden        90      38     False  Edgar A. Poe
```

In [38]:
#Código:
students["top_crush"]=np.array(["Angel","Haden","Michaela","Tomas","Edgar A. Poe"])
students


Unnamed: 0,grade,height,was_late,top_crush
Tomas,45,34,True,Angel
Angel,56,35,False,Haden
Stacy,78,36,True,Michaela
Michaela,89,37,False,Tomas
Haden,90,38,False,Edgar A. Poe


## Proyección

Al igual que en numpy, es posible hacer una proyección de una serie

In [39]:
students['grade']>75

Tomas       False
Angel       False
Stacy        True
Michaela     True
Haden        True
Name: grade, dtype: bool

Para crear la columna 'above_75_percent'

In [40]:
students['above_75_percent'] = students['grade']>75
students

Unnamed: 0,grade,height,was_late,top_crush,above_75_percent
Tomas,45,34,True,Angel,False
Angel,56,35,False,Haden,False
Stacy,78,36,True,Michaela,True
Michaela,89,37,False,Tomas,True
Haden,90,38,False,Edgar A. Poe,True


Este tipo de proyecciones resultan de gran utilidad.

### 14.- Agregar la columna 'taller_than_35' a students

```python
> print(students[['grade', 'height', 'taller_than_35']])

          grade  height  taller_than_35
Tomas        45      34           False
Angel        56      35           False
Stacy        78      36            True
Michaela     89      37            True
Haden        90      38            True
```

In [41]:
#Código:
students["taller_than_35"]=students["height"]>35
print(students[["grade","height","taller_than_35"]])


          grade  height  taller_than_35
Tomas        45      34           False
Angel        56      35           False
Stacy        78      36            True
Michaela     89      37            True
Haden        90      38            True


Los elementos se emparejan por **index**.

## Índices

In [42]:
df = pd.DataFrame(
    [[1, 2, 3], [4, 5, 6]], 
    columns=['a', 'b', 'c'], 
    index=['foo', 'bar'])

In [43]:
# El índice está invertido
df['d'] = pd.Series([4, 5], index=['bar', 'foo'])
df

Unnamed: 0,a,b,c,d
foo,1,2,3,5
bar,4,5,6,4


Si el índice no coincide el valor se convierte en NaN

In [44]:
df['d'] = pd.Series([4, 5], index=['bar', 'baz'])
df

Unnamed: 0,a,b,c,d
foo,1,2,3,
bar,4,5,6,4.0


Al agregar una lista o vector en un DataFrame sin índice la columna se inserta en orden

In [45]:
df['e'] = [1, 2]
df

Unnamed: 0,a,b,c,d,e
foo,1,2,3,,1
bar,4,5,6,4.0,2


Utilizando una Serie se debe tener cuidado ya que si no existe un índice, todos los valores se convierten a NaN

In [46]:
students['was_late'] = pd.Series([True, False, True, False, False])
students

Unnamed: 0,grade,height,was_late,top_crush,above_75_percent,taller_than_35
Tomas,45,34,,Angel,False,False
Angel,56,35,,Haden,False,False
Stacy,78,36,,Michaela,True,True
Michaela,89,37,,Tomas,True,True
Haden,90,38,,Edgar A. Poe,True,True


Agregar el índice:

In [47]:
students['was_late'] = pd.Series([True, False, True, False, False], index=students.index)
students

Unnamed: 0,grade,height,was_late,top_crush,above_75_percent,taller_than_35
Tomas,45,34,True,Angel,False,False
Angel,56,35,False,Haden,False,False
Stacy,78,36,True,Michaela,True,True
Michaela,89,37,False,Tomas,True,True
Haden,90,38,False,Edgar A. Poe,True,True


### 15.- Crear el  dataframe 'numbers' con la columna `increasing`, la cual contenga numeros de 1-50 en este orden. Después, insertar una columna `evens`, que contenga solo números pares si el número es par en `increasing` 

```python
> print(numbers)

    increasing  evens
0            0    0.0
1            1    NaN
2            2    2.0
3            3    NaN
4            4    4.0
5            5    NaN
6            6    6.0
7            7    NaN
8            8    8.0
9            9    NaN
10          10   10.0
.            .      .
.            .      .
.            .      .

```

In [48]:
#Código:
numbers=pd.DataFrame({"increasing":np.array(range(0,51))})
numbers["even"]=numbers[numbers["increasing"]%2==0]
numbers

Unnamed: 0,increasing,even
0,0,0.0
1,1,
2,2,2.0
3,3,
4,4,4.0
5,5,
6,6,6.0
7,7,
8,8,8.0
9,9,


### 16.- Agregar la siguiente información en una columna 'pickup_time'

Haden = 4,
Tomas = 5,
Stacy = 3


```python
> print(students[['grade', 'height', 'pickup_time']])

          grade  height  pickup_time
Tomas        45      34          5.0
Angel        56      35          NaN
Stacy        78      36          3.0
Michaela     89      37          NaN
Haden        90      38          4.0

```

In [49]:
#Código:
pickup_time=pd.Series(data=["4","5","3"],index=["Haden","Tomas","Stacy"])
pickup_time
students["pickup_time"]=pickup_time
# students["Tomas"]#['pickup_time']=5
print(students[['grade', 'height', 'pickup_time']])

          grade  height pickup_time
Tomas        45      34           5
Angel        56      35         NaN
Stacy        78      36           3
Michaela     89      37         NaN
Haden        90      38           4


### 17.- Agregar la siguiente informaión para los primeros tres estudiantes, el resto puede ser NaN

4,5,3


```python
> print(students[['grade', 'height', 'pickup_time']])

          grade  height  pickup_time
Tomas        45      34          4.0
Angel        56      35          5.0
Stacy        78      36          2.0
Michaela     89      37          NaN
Haden        90      38          NaN

```

(NaN is input as np.NaN)

In [50]:
#Código:
students.iloc[:3,-1]=[4,5,3]
print(students[['grade', 'height', 'pickup_time']])


          grade  height pickup_time
Tomas        45      34           4
Angel        56      35           5
Stacy        78      36           3
Michaela     89      37         NaN
Haden        90      38           4


## Carga de información

Para cargar información externa en Pandas primero debemos localizarla

El comando 'ls' es de ayuda para esto

In [51]:
ls

 El volumen de la unidad C es OS
 El nÃºmero de serie del volumen es: 6838-013C

 Directorio de C:\Users\JJIMENEZG\Documents\Data Translator\Actividades\Actividad1Review2

19/10/2022  10:40 p. m.    <DIR>          .
19/10/2022  10:40 p. m.    <DIR>          ..
14/10/2022  10:35 p. m.    <DIR>          .ipynb_checkpoints
19/10/2022  10:40 p. m.           179,220 Actividad 1 R2.ipynb
19/10/2022  09:52 p. m.    <DIR>          csvFiles
               1 archivos        179,220 bytes
               4 dirs  184,222,097,408 bytes libres


probablemente se encuentre en 'data/'

In [52]:
ls csvFiles\Review2-Files

 El volumen de la unidad C es OS
 El nÃºmero de serie del volumen es: 6838-013C

 Directorio de C:\Users\JJIMENEZG\Documents\Data Translator\Actividades\Actividad1Review2\csvFiles\Review2-Files

19/10/2022  09:52 p. m.    <DIR>          .
19/10/2022  09:52 p. m.    <DIR>          ..
19/10/2022  09:52 p. m.         7,672,655 chess_games.csv
19/10/2022  09:52 p. m.         3,704,887 exo_planet.csv
19/10/2022  09:52 p. m.        53,613,051 hospital-costs.csv
19/10/2022  09:52 p. m.               502 playgolf.csv
19/10/2022  09:52 p. m.            85,799 winequality-red.csv
19/10/2022  09:52 p. m.           269,325 winequality-white.csv
               6 archivos     65,346,219 bytes
               2 dirs  184,222,097,408 bytes libres


Pandas puede cargar csv, aunque algunas veces el csv no está separado por comas. Revisemos lo que está dentro de playgolf.csv

In [53]:
# '!' significa que estamos ejecutando un comando de bash

!head -1 csvFiles/Review2-Files/playgolf.csv

Date,Outlook,Temperature,Humidity,Windy,Result
7/1/14,sunny,85,85,FALSE,Don't Play
7/2/14,sunny,80,90,TRUE,Don't Play
7/3/14,overcast,83,78,FALSE,Play
7/4/14,rain,70,96,FALSE,Play
7/5/14,rain,68,80,FALSE,Play
7/6/14,rain,65,70,TRUE,Don't Play
7/7/14,overcast,64,65,TRUE,Play
7/8/14,sunny,72,95,FALSE,Don't Play
7/9/14,sunny,69,70,FALSE,Play
7/10/14,rain,75,80,FALSE,Play
7/11/14,sunny,75,70,TRUE,Play
7/12/14,overcast,72,90,TRUE,Play
7/13/14,overcast,81,75,FALSE,Play
7/14/14,rain,71,80,TRUE,Don't Play


In [54]:
!head -1 csvFiles/Review2-Files/playgolf.csv

Date,Outlook,Temperature,Humidity,Windy,Result
7/1/14,sunny,85,85,FALSE,Don't Play
7/2/14,sunny,80,90,TRUE,Don't Play
7/3/14,overcast,83,78,FALSE,Play
7/4/14,rain,70,96,FALSE,Play
7/5/14,rain,68,80,FALSE,Play
7/6/14,rain,65,70,TRUE,Don't Play
7/7/14,overcast,64,65,TRUE,Play
7/8/14,sunny,72,95,FALSE,Don't Play
7/9/14,sunny,69,70,FALSE,Play
7/10/14,rain,75,80,FALSE,Play
7/11/14,sunny,75,70,TRUE,Play
7/12/14,overcast,72,90,TRUE,Play
7/13/14,overcast,81,75,FALSE,Play
7/14/14,rain,71,80,TRUE,Don't Play


###  Cargar datos desde csv

Un csv (valores separados por comas) es un formato de archivo utilizado para almacenar datos separados por un **delimitador**.

Un delimitador es el **carácter único** que divide los elementos de datos en un archivo.  La coma es una opción tradicional de delimitador, pero relativamente pobre porque a menudo forma parte de los propios elementos.  Las mejores opciones son el pipe (`|`) y el tabulador (`\t`).

En un extraño giro de la historia, los archivos separados por comas a menudo se separan con caracteres diferentes a las comas.  No hay una convención consistente de usar una extensión de archivo diferente, pero algunas personas usan `.psv` o `.tsv`.

Pandas tiene una función `read_csv` que carga un fichero delimitado en un `DataFrame`.  

In [55]:
pth="csvFiles/Review2-Files/"
golf_df = pd.read_csv(pth+'playgolf.csv', delimiter=',')

In [56]:
golf_df

Unnamed: 0,Date,Outlook,Temperature,Humidity,Windy,Result
0,7/1/14,sunny,85,85,False,Don't Play
1,7/2/14,sunny,80,90,True,Don't Play
2,7/3/14,overcast,83,78,False,Play
3,7/4/14,rain,70,96,False,Play
4,7/5/14,rain,68,80,False,Play
5,7/6/14,rain,65,70,True,Don't Play
6,7/7/14,overcast,64,65,True,Play
7,7/8/14,sunny,72,95,False,Don't Play
8,7/9/14,sunny,69,70,False,Play
9,7/10/14,rain,75,80,False,Play


### 18.- Cargar hospital-costs.csv como 'hospital_costs'.


In [57]:
#Código:
hospital_costs=pd.read_csv(pth+"hospital-costs.csv")
hospital_costs

Unnamed: 0,Year,Facility Id,Facility Name,APR DRG Code,APR Severity of Illness Code,APR DRG Description,APR Severity of Illness Description,APR Medical Surgical Code,APR Medical Surgical Description,Discharges,Mean Charge,Median Charge,Mean Cost,Median Cost
0,2011,324,Adirondack Medical Center-Saranac Lake Site,4,4,Tracheostomy W MV 96+ Hours W Extensive Proced...,Extreme,P,Surgical,3,361289.0,210882.0,196080.0,123347.0
1,2011,324,Adirondack Medical Center-Saranac Lake Site,5,4,Tracheostomy W MV 96+ Hours W/O Extensive Proc...,Extreme,P,Surgical,1,102190.0,102190.0,59641.0,59641.0
2,2011,324,Adirondack Medical Center-Saranac Lake Site,24,2,Extracranial Vascular Procedures,Moderate,P,Surgical,6,14172.0,13506.0,6888.0,6445.0
3,2011,324,Adirondack Medical Center-Saranac Lake Site,26,1,Other Nervous System & Related Procedures,Minor,P,Surgical,1,8833.0,8833.0,4259.0,4259.0
4,2011,324,Adirondack Medical Center-Saranac Lake Site,41,1,Nervous System Malignancy,Minor,M,Medical,1,5264.0,5264.0,1727.0,1727.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
383488,2009,1153,Wyoming County Community Hospital,951,3,Moderately Extensive Procedure Unrelated To Pr...,Major,P,Surgical,5,13572.0,12615.0,14433.0,15835.0
383489,2009,1153,Wyoming County Community Hospital,952,3,Nonextensive Procedure Unrelated To Principal ...,Major,P,Surgical,4,8323.0,8179.0,9520.0,8674.0
383490,2009,1153,Wyoming County Community Hospital,952,2,Nonextensive Procedure Unrelated To Principal ...,Moderate,P,Surgical,5,7746.0,5120.0,7257.0,5321.0
383491,2009,1153,Wyoming County Community Hospital,952,1,Nonextensive Procedure Unrelated To Principal ...,Minor,P,Surgical,1,7892.0,7892.0,6528.0,6528.0


### 19.- Cargar winnequality-white.csv como 'wine_quality_white'.

In [58]:
#Código:
wine_quality_white=pd.read_csv(pth+"winequality-white.csv",delimiter=";")
wine_quality_white

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.00100,3.00,0.45,8.8,6
1,6.3,0.30,0.34,1.6,0.049,14.0,132.0,0.99400,3.30,0.49,9.5,6
2,8.1,0.28,0.40,6.9,0.050,30.0,97.0,0.99510,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
...,...,...,...,...,...,...,...,...,...,...,...,...
4893,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.50,11.2,6
4894,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.99490,3.15,0.46,9.6,5
4895,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6
4896,5.5,0.29,0.30,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7


## Extraer información del DataFrame

#### Índices de Fila y Columna

Como hemos visto, se pueden extraer columnas individuales de un `DataFrame` como una `Serie` utilizando la indexación habitual de estilo `__getitem__` utilizando el nombre de la columna.  

Esto es similar a cómo indexamos un diccionario.

In [59]:
golf_df['Temperature']

0     85
1     80
2     83
3     70
4     68
5     65
6     64
7     72
8     69
9     75
10    75
11    72
12    81
13    71
Name: Temperature, dtype: int64

Para extraer valores individuales

In [60]:
golf_df['Temperature'][0]

85

Para extraer múltiples columnas

In [61]:
golf_df[['Temperature', 'Humidity']]

Unnamed: 0,Temperature,Humidity
0,85,85
1,80,90
2,83,78
3,70,96
4,68,80
5,65,70
6,64,65
7,72,95
8,69,70
9,75,80


Para extraer un número limitado de filas

In [62]:
short_df = golf_df[0:5]
short_df

Unnamed: 0,Date,Outlook,Temperature,Humidity,Windy,Result
0,7/1/14,sunny,85,85,False,Don't Play
1,7/2/14,sunny,80,90,True,Don't Play
2,7/3/14,overcast,83,78,False,Play
3,7/4/14,rain,70,96,False,Play
4,7/5/14,rain,68,80,False,Play


### 20.- Extraer las columnas Facility Id, Year, Discharges, and Mean Charge de hospital_costs

```python
        Facility Id  Year  Discharges  Mean Charge
0               324  2011           3     361289.0
1               324  2011           1     102190.0
2               324  2011           6      14172.0
3               324  2011           1       8833.0
4               324  2011           1       5264.0
...             ...   ...         ...          ...
383488         1153  2009           5      13572.0
383489         1153  2009           4       8323.0
383490         1153  2009           5       7746.0
383491         1153  2009           1       7892.0
383492         1153  2009           3       1069.0
```

In [63]:
#Código:
hospital_costs[["Facility Id", "Year", "Discharges","Mean Charge"]]


Unnamed: 0,Facility Id,Year,Discharges,Mean Charge
0,324,2011,3,361289.0
1,324,2011,1,102190.0
2,324,2011,6,14172.0
3,324,2011,1,8833.0
4,324,2011,1,5264.0
...,...,...,...,...
383488,1153,2009,5,13572.0
383489,1153,2009,4,8323.0
383490,1153,2009,5,7746.0
383491,1153,2009,1,7892.0


## Índie Booleano / Logico

También podemos indexar un `DataFrame` utilizando una lista de **booleanos** (es decir, valores `True` y `False`). Esto también operará sobre las filas.

In [64]:
# Filas 0, 2, y 4.
short_df[[True, False, True, False, True]]

Unnamed: 0,Date,Outlook,Temperature,Humidity,Windy,Result
0,7/1/14,sunny,85,85,False,Don't Play
2,7/3/14,overcast,83,78,False,Play
4,7/5/14,rain,68,80,False,Play


Es de utilidad para crear `Series` booleanas a partir de una comparación

In [65]:
# A series of booleans.
golf_df['Temperature'] > 70

0      True
1      True
2      True
3     False
4     False
5     False
6     False
7      True
8     False
9      True
10     True
11     True
12     True
13     True
Name: Temperature, dtype: bool

Y después elegir las columnas del DataFrame

In [66]:
golf_df[golf_df['Temperature'] > 70][["Date", "Windy"]]

Unnamed: 0,Date,Windy
0,7/1/14,False
1,7/2/14,True
2,7/3/14,False
7,7/8/14,False
9,7/10/14,False
10,7/11/14,True
11,7/12/14,True
12,7/13/14,False
13,7/14/14,True


Esto es esencialmente aplicar una condición lógica para seleccionar filas de un `DataFrame`.  Este es uno de los patrones más comunes en Pandas.

Para repasar: si indexas un `DataFrame` con un **valor único** o una **lista de valores**, selecciona las **columnas**.

Si utilizas un **corte** o una **secuencia de booleanos**, selecciona las **filas**. 

### 21.- Seleccionar los días en que la humedad es mayor a 90 en 'golf_df'.

```python
     Date Outlook  Temperature  Humidity  Windy      Result
3  7/4/14    rain           70        96  False        Play
7  7/8/14   sunny           72        95  False  Don't Play
```

In [67]:
#Código:
golf_df[golf_df["Humidity"]>90]


Unnamed: 0,Date,Outlook,Temperature,Humidity,Windy,Result
3,7/4/14,rain,70,96,False,Play
7,7/8/14,sunny,72,95,False,Don't Play


## Operadores lógicos

In [68]:
(golf_df['Humidity']>90) | (golf_df['Outlook']=="sunny") # '|' es 'OR'

0      True
1      True
2     False
3      True
4     False
5     False
6     False
7      True
8      True
9     False
10     True
11    False
12    False
13    False
dtype: bool

In [69]:
(golf_df['Result']=="Don't Play") & golf_df['Windy'] # '&' es 'AND'

0     False
1      True
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13     True
dtype: bool

### 22.- Seleccionar los días lluviosos con una temperatura menor a 70 grados en 'play_golf'

In [70]:
#Código:
(golf_df["Temperature"]<70) & (golf_df["Outlook"]=="rain")


0     False
1     False
2     False
3     False
4      True
5      True
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
dtype: bool

### 23.- Seleccionar la fecha y el resultado de los días lluviosos en que la humedad es mayor a 90 en 'play_golf'

```python
     Date Result
3  7/4/14   Play
```

In [71]:
#Código:
golf_df[(golf_df["Humidity"]>90) & (golf_df["Outlook"]=="rain")][["Date","Result"]]


Unnamed: 0,Date,Result
3,7/4/14,Play


## Doble índice

Supongamos que queremos establecer el valor de la columna `Windy` donde `Temperature > 70` como True.

In [72]:
golf_df[golf_df['Temperature'] > 70]["Windy"] = True

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  golf_df[golf_df['Temperature'] > 70]["Windy"] = True


Vaya, un error

In [73]:
golf_df[golf_df['Temperature'] > 70]["Windy"]

0     False
1      True
2     False
7     False
9     False
10     True
11     True
12    False
13     True
Name: Windy, dtype: bool

Al parecer, aún es Falso

Este patrón se llama doble indexación, ¡y es un antipatrón!  ¡Pandas no puede garantizar que las asignaciones se mantengan cuando se indexa dos veces!

Para solucionar estos problemas, tenemos que estudiar las otras opciones de indexación que proporciona Pandas.

#### .loc e .iloc

Hay algunos otros objetos de indexación en pandas, los cuales toman un valor para elegir las filas y un valor para elegir las columnas.

  - `df.iloc` está **basado en la posición**.  Este indexador acepta enteros y trozos de enteros, y esencialmente trata el marco de datos como si fuera una simple matriz.
  - `df.loc` está **basado en etiquetas**.  Este indexador trabaja con índices/etiquetas de filas y columnas.

In [74]:
df = pd.DataFrame({
    'some_integers': [0, 0, 1, 1, 2, 2],
    'some_strings': ['x', 'y', 'z', 'x', 'y', 'z'],
    'some_booleans': [0, 0, 1, 0, 1, 1]},
    index=['a', 'b', 'c', 'd', 'e', 'f']
)
df

Unnamed: 0,some_integers,some_strings,some_booleans
a,0,x,0
b,0,y,0
c,1,z,1
d,1,x,0
e,2,y,1
f,2,z,1


In [75]:
df.iloc[2:4, 0:2]

Unnamed: 0,some_integers,some_strings
c,1,z
d,1,x


In [76]:
df.loc['b':'e', ['some_integers', 'some_booleans']]

Unnamed: 0,some_integers,some_booleans
b,0,0
c,1,1
d,1,0
e,2,1


### 24.- Seleccionar las filas a,b,c, y f 

```python
   some_integers some_strings  some_booleans
a              0            x              0
b              0            y              0
c              1            z              1
f              2            z              1
```

In [77]:
#Código:
df.loc[['a','b','c','f'],:]


Unnamed: 0,some_integers,some_strings,some_booleans
a,0,x,0
b,0,y,0
c,1,z,1
f,2,z,1


### 25.- Seleccionar la fila 0, 1a y 5a

```python
   some_integers some_strings  some_booleans
a              0            x              0
b              0            y              0
f              2            z              1
```

In [78]:
#Código:
df.iloc[[0,1,5],:]


Unnamed: 0,some_integers,some_strings,some_booleans
a,0,x,0
b,0,y,0
f,2,z,1


### 26.- Seleccionar los estudiantes 0 y 4o

```python
       grade  height was_late     top_crush   ...
Tomas     45      34      NaN         Angel
Haden     90      38      NaN  Edgar A. Poe
```

In [80]:
#Código:
students.iloc[[0,4],:]



Unnamed: 0,grade,height,was_late,top_crush,above_75_percent,taller_than_35,pickup_time
Tomas,45,34,True,Angel,False,False,4
Haden,90,38,False,Edgar A. Poe,True,True,4


### 27.- Seleccionar a Haden, Angel y Micaela en ese orden

```python
          grade  height was_late     top_crush
Haden        90      38      NaN  Edgar A. Poe
Angel        56      35      NaN         Haden
Michaela     89      37      NaN         Tomas
```

In [81]:
#Código:

students.loc[['Haden','Angel','Michaela']]

Unnamed: 0,grade,height,was_late,top_crush,above_75_percent,taller_than_35,pickup_time
Haden,90,38,False,Edgar A. Poe,True,True,4.0
Angel,56,35,False,Haden,False,False,5.0
Michaela,89,37,False,Tomas,True,True,


## Índice mixto

Entonces, ¿qué hacemos si queremos obtener las filas por posición, y obtener las columnas por etiqueta?  Es decir, si tenemos un uso para la **indexación mixta**.

```python
# Mixto con iloc: no funciona.
>>> df.iloc[2:4, ['some_integers', 'some_booleans']]

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-337-dcc694afee25> in <module>
      1 # Mixto con iloc: no funciona.
----> 2 df.iloc[2:4, ['some_integers', 'some_booleans']]
```

Hacer una indexación mixta en los pandas modernos es más explícito, menos mágico.  Es necesario utilizar los atributos `df.index` y `df.columns` para convertir explícitamente las posiciones en etiquetas.

#### Filas por posición, Columnas por nombre

In [82]:
df.index[2:4]

Index(['c', 'd'], dtype='object')

In [83]:
df.loc[df.index[2:4], ['some_integers', 'some_booleans']]

Unnamed: 0,some_integers,some_booleans
c,1,1
d,1,0


#### Filas por nombre, Columnas por posición

In [84]:
df.columns[[0, 2]]

Index(['some_integers', 'some_booleans'], dtype='object')

In [85]:
df.loc[['c', 'd'], df.columns[[0, 2]]]

Unnamed: 0,some_integers,some_booleans
c,1,1
d,1,0


### 28.- Utilizar el índice mixto para obtener la fila 0, 2a y 4a row de top_crush y pickup_time

```python
          top_crush  pickup_time
Tomas         Angel          4.0
Stacy      Michaela          2.0
Haden  Edgar A. Poe          NaN
```

In [92]:
#Código:
students.loc[students.index[[0,2,4]],['top_crush','pickup_time']]


Unnamed: 0,top_crush,pickup_time
Tomas,Angel,4
Stacy,Michaela,3
Haden,Edgar A. Poe,4


### 29.- Utilizar el índice mixto para obtener el siguiente dataframe, utilizando posición en columns y nombre en filas

```python
       grade  was_late  above_75_percent  grade
Stacy     78      True              True     78
Haden     90     False              True     90
```

In [93]:
students

Unnamed: 0,grade,height,was_late,top_crush,above_75_percent,taller_than_35,pickup_time
Tomas,45,34,True,Angel,False,False,4.0
Angel,56,35,False,Haden,False,False,5.0
Stacy,78,36,True,Michaela,True,True,3.0
Michaela,89,37,False,Tomas,True,True,
Haden,90,38,False,Edgar A. Poe,True,True,4.0


In [95]:
#Código:
students.loc[['Stacy','Haden'],students.columns[[0,2,4,0]]]


Unnamed: 0,grade,was_late,above_75_percent,grade.1
Stacy,78,True,True,78
Haden,90,False,True,90


## Transformaciones

Las operaciones aritméticas se aplican a las `Series` elemento a elemento. (como las matrices)

In [96]:
# Ejemplo
golf_df["TempHumid"] = golf_df['Temperature'] + golf_df['Humidity']

In [97]:
golf_df.head()

Unnamed: 0,Date,Outlook,Temperature,Humidity,Windy,Result,TempHumid
0,7/1/14,sunny,85,85,False,Don't Play,170
1,7/2/14,sunny,80,90,True,Don't Play,170
2,7/3/14,overcast,83,78,False,Play,161
3,7/4/14,rain,70,96,False,Play,166
4,7/5/14,rain,68,80,False,Play,148


In [98]:
# Calcular el índice de calor

#    https://en.wikipedia.org/wiki/Heat_index
temp = golf_df['Temperature']
humid = golf_df['Humidity']
golf_df['HeatIndex'] = (-42.37 + 2.05*temp + 10.14*humid
                        - 0.225*temp*humid
                        - 6.84e-3*temp**2 
                        - 5.482e-2*humid**2
                        + 1.23e-3*temp**2*humid
                        + 8.53e-4*temp*humid**2
                        - 1.99e-6*temp**2*humid**2
)
golf_df[['Temperature', 'Humidity', 'HeatIndex']].head()

Unnamed: 0,Temperature,Humidity,HeatIndex
0,85,85,98.004631
1,80,90,84.4744
2,83,78,89.669911
3,70,96,62.847024
4,68,80,69.089776


### 30.- Crear una columna 'smarty_pants' que devuelva 'Verdadero' si el grade de un estudiante es mayor a 2.2 veces su estatura

```python
>>> print(students[['grade','height', 'smarty_pants']])
          grade  height  smarty_pants
Tomas        45      34         False
Angel        56      35         False
Stacy        78      36         False
Michaela     89      37          True
Haden        90      38          True
```

In [115]:
#Código:
students['smarty_pants']=students['grade']>2.2*students['height']
print(students[['grade','height','smarty_pants']])


          grade  height  smarty_pants
Tomas        45      34         False
Angel        56      35         False
Stacy        78      36         False
Michaela     89      37          True
Haden        90      38          True


### 31.- Crear una columna 'percent fixed acidity' que calcule la cantidad de acidez total que se encuentra en wine_quality_white.

```python
>>> print(wine_quality_white[['fixed acidity', 'volatile acidity', 'citric acid', 'percent fixed acidity']])
      fixed acidity  volatile acidity  citric acid  percent fixed acidity
0               7.0              0.27         0.36               0.917431
1               6.3              0.30         0.34               0.907781
2               8.1              0.28         0.40               0.922551
3               7.2              0.23         0.32               0.929032
4               7.2              0.23         0.32               0.929032
...             ...               ...          ...                    ...
4893            6.2              0.21         0.29               0.925373
4894            6.6              0.32         0.36               0.906593
4895            6.5              0.24         0.19               0.937951
4896            5.5              0.29         0.30               0.903120
4897            6.0              0.21         0.38               0.910470
```

In [124]:
#Código:
wine_quality_white['percent fixed acidity']=wine_quality_white['fixed acidity']/np.sum(wine_quality_white.loc[:,'fixed acidity':'citric acid'],axis=1)
print(wine_quality_white[['fixed acidity', 'volatile acidity', 'citric acid', 'percent fixed acidity']])

      fixed acidity  volatile acidity  citric acid  percent fixed acidity
0               7.0              0.27         0.36               0.917431
1               6.3              0.30         0.34               0.907781
2               8.1              0.28         0.40               0.922551
3               7.2              0.23         0.32               0.929032
4               7.2              0.23         0.32               0.929032
...             ...               ...          ...                    ...
4893            6.2              0.21         0.29               0.925373
4894            6.6              0.32         0.36               0.906593
4895            6.5              0.24         0.19               0.937951
4896            5.5              0.29         0.30               0.903120
4897            6.0              0.21         0.38               0.910470

[4898 rows x 4 columns]


## Apply

Es posible crear una nueva Serie al aplicar una función a una Serie existente

Ejemplo: Extraer el día del mes en la columna 'date'

In [125]:
golf_df

Unnamed: 0,Date,Outlook,Temperature,Humidity,Windy,Result,TempHumid,HeatIndex
0,7/1/14,sunny,85,85,False,Don't Play,170,98.004631
1,7/2/14,sunny,80,90,True,Don't Play,170,84.4744
2,7/3/14,overcast,83,78,False,Play,161,89.669911
3,7/4/14,rain,70,96,False,Play,166,62.847024
4,7/5/14,rain,68,80,False,Play,148,69.089776
5,7/6/14,rain,65,70,True,Don't Play,135,73.668025
6,7/7/14,overcast,64,65,True,Play,129,75.987116
7,7/8/14,sunny,72,95,False,Don't Play,167,66.247396
8,7/9/14,sunny,69,70,False,Play,139,72.843649
9,7/10/14,rain,75,80,False,Play,155,74.557


In [126]:
golf_df['Date'].apply(lambda x: x.split('/')[1])

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
Name: Date, dtype: object

Apply toma cada elemento de la serie 'date' y le *aplica* la función. Las salidas se ordenan en un array de la misma forma e índice.

Así que podemos guardarlo así

In [127]:
golf_df['day'] = golf_df['Date'].apply(lambda x: x.split('/')[1])
golf_df

Unnamed: 0,Date,Outlook,Temperature,Humidity,Windy,Result,TempHumid,HeatIndex,day
0,7/1/14,sunny,85,85,False,Don't Play,170,98.004631,1
1,7/2/14,sunny,80,90,True,Don't Play,170,84.4744,2
2,7/3/14,overcast,83,78,False,Play,161,89.669911,3
3,7/4/14,rain,70,96,False,Play,166,62.847024,4
4,7/5/14,rain,68,80,False,Play,148,69.089776,5
5,7/6/14,rain,65,70,True,Don't Play,135,73.668025,6
6,7/7/14,overcast,64,65,True,Play,129,75.987116,7
7,7/8/14,sunny,72,95,False,Don't Play,167,66.247396,8
8,7/9/14,sunny,69,70,False,Play,139,72.843649,9
9,7/10/14,rain,75,80,False,Play,155,74.557,10


lambda es sólo una forma de hacer una función. También podemos aplicar una función previamente definida.

In [128]:
def get_day(x):
    return x.split('/')[1]

golf_df['Date'].apply(get_day)

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
Name: Date, dtype: object

Es posible aplicar una función a cada fila del DataFrame especificando la columna y su eje=1

In [129]:
golf_df.apply(lambda x: x['Temperature'] + x['Humidity'], axis=1)

0     170
1     170
2     161
3     166
4     148
5     135
6     129
7     167
8     139
9     155
10    145
11    162
12    156
13    151
dtype: int64

En general, `.apply` es útil para mapear funciones complejas en sus datos.

### 32.- Crear una columna 'report_card' que muestre 'FAILURE' si el 'grade' de un estudiante es menor a 60, y que muestre su calificación si es mayor a 60

```python
>>> print(students[['grade','height', 'report_card']])
          grade  height report_card
Tomas        45      34     FAILURE
Angel        56      35     FAILURE
Stacy        78      36          78
Michaela     89      37          89
Haden        90      38          90
```

In [133]:
#Código:
students['report_card']=students.apply(lambda x: "FAILURE" if x['grade']<60 else x['grade'], axis=1)
print(students[['grade','height', 'report_card']])

          grade  height report_card
Tomas        45      34     FAILURE
Angel        56      35     FAILURE
Stacy        78      36          78
Michaela     89      37          89
Haden        90      38          90


### 33.- Crear una columna 'even_height' que muestre 'Even' si su estatura es un numero par, y que muestre 'odd' si su estatura es un número impar.

```python
>>> print(students[['grade','height', 'even_height']])
          grade  height even_height
Tomas        45      34        Even
Angel        56      35         Odd
Stacy        78      36        Even
Michaela     89      37         Odd
Haden        90      38        Even
```

In [135]:
#Código:
students['even_height']=students.apply(lambda x: 'Even' if x['height']%2==0 else 'Odd',axis=1)
print(students[['grade','height', 'even_height']])

          grade  height even_height
Tomas        45      34        Even
Angel        56      35         Odd
Stacy        78      36        Even
Michaela     89      37         Odd
Haden        90      38        Even


## Agregaciones

Existen MUCHOS métodos disponibles para nosotros dentro de cada dataframe. Algunos de ellos son agregaciones, al igual que en numpy.

In [136]:
golf_df.count() #Cuenta items que no son None

Date           14
Outlook        14
Temperature    14
Humidity       14
Windy          14
Result         14
TempHumid      14
HeatIndex      14
day            14
dtype: int64

In [137]:
golf_df.count(axis=1)

0     9
1     9
2     9
3     9
4     9
5     9
6     9
7     9
8     9
9     9
10    9
11    9
12    9
13    9
dtype: int64

In [138]:
golf_df.mean()

  golf_df.mean()


Temperature    7.357143e+01
Humidity       8.028571e+01
Windy          4.285714e-01
TempHumid      1.538571e+02
HeatIndex      7.616314e+01
day            8.818342e+16
dtype: float64

In [139]:
golf_df.sum()

Date           7/1/147/2/147/3/147/4/147/5/147/6/147/7/147/8/...
Outlook        sunnysunnyovercastrainrainrainovercastsunnysun...
Temperature                                                 1030
Humidity                                                    1124
Windy                                                          6
Result         Don't PlayDon't PlayPlayPlayPlayDon't PlayPlay...
TempHumid                                                   2154
HeatIndex                                            1066.283922
day                                          1234567891011121314
dtype: object

In [140]:
golf_df.aggregate(min)

Date               7/1/14
Outlook          overcast
Temperature            64
Humidity               65
Windy               False
Result         Don't Play
TempHumid             129
HeatIndex       62.847024
day                     1
dtype: object

¿Qué pasa si queremos calcular la temperatura mínima en días nublados, lluviosos o soleados? 

¡Usamos una sentencia groupby! Como en sql.

In [141]:
golf_df.groupby('Outlook').aggregate(min)

Unnamed: 0_level_0,Date,Temperature,Humidity,Windy,Result,TempHumid,HeatIndex,day
Outlook,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
overcast,7/12/14,64,65,False,Play,129,68.106944,12
rain,7/10/14,65,70,False,Don't Play,135,62.847024,10
sunny,7/1/14,69,70,False,Don't Play,139,66.247396,1


Esto toma el mínimo de cada __Outlook__ de *cada* otra columna. ¡Y ahora __Outlook__ es el índice! 

Veamos lo que nos interesa, la temperatura.

In [142]:
golf_df.groupby('Outlook').aggregate(min)[['Temperature']]

Unnamed: 0_level_0,Temperature
Outlook,Unnamed: 1_level_1
overcast,64
rain,65
sunny,69


### 34.- Calcular los datos promedio de clima para cada Outlook.

```python
          Temperature  Humidity  Windy  TempHumid  HeatIndex
Outlook                                                     
overcast         75.0      77.0    0.5      152.0  79.571853
rain             69.8      81.2    0.4      151.0  70.129762
sunny            76.2      82.0    0.4      158.2  79.469540
```

In [146]:
#Código:
golf_df.groupby('Outlook').aggregate(np.mean)[['Temperature','Humidity','Windy','TempHumid','HeatIndex']]


  golf_df.groupby('Outlook').aggregate(np.mean)[['Temperature','Humidity','Windy','TempHumid','HeatIndex']]


Unnamed: 0_level_0,Temperature,Humidity,Windy,TempHumid,HeatIndex
Outlook,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
overcast,75.0,77.0,0.5,152.0,79.571853
rain,69.8,81.2,0.4,151.0,70.129762
sunny,76.2,82.0,0.4,158.2,79.46954


### 35.- Calcular la temperatura Máxima en días windy y non-windy

```python
Windy
False    85
True     80
```

In [147]:
#Código:
golf_df.groupby('Windy').aggregate(max)[['Temperature']]


Unnamed: 0_level_0,Temperature
Windy,Unnamed: 1_level_1
False,85
True,80


Documentación de ayuda para groupby: http://pandas.pydata.org/pandas-docs/stable/groupby.html



## Summaries

`info` funciona para revisar los tipos de datos por columna y revisar al mismo tiempo si existen NaN's

In [148]:
golf_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Date         14 non-null     object 
 1   Outlook      14 non-null     object 
 2   Temperature  14 non-null     int64  
 3   Humidity     14 non-null     int64  
 4   Windy        14 non-null     bool   
 5   Result       14 non-null     object 
 6   TempHumid    14 non-null     int64  
 7   HeatIndex    14 non-null     float64
 8   day          14 non-null     object 
dtypes: bool(1), float64(1), int64(3), object(4)
memory usage: 1.0+ KB


`describe` brinda un análisis descriptivo básico

In [149]:
golf_df.describe()

Unnamed: 0,Temperature,Humidity,TempHumid,HeatIndex
count,14.0,14.0,14.0,14.0
mean,73.571429,80.285714,153.857143,76.163137
std,6.571667,9.840486,13.242456,9.77144
min,64.0,65.0,129.0,62.847024
25%,69.25,71.25,145.75,69.439078
50%,72.0,80.0,155.5,74.112513
75%,78.75,88.75,165.0,82.352579
max,85.0,96.0,170.0,98.004631


### 36.- Qué columna de wine_quality_white tiene la mayor desviación estándar?

In [179]:
wine_quality_white.describe().loc['std',:].min()

0.0029909069169369337

In [180]:
#Código:
wine_quality_white.describe().loc['std',:][wine_quality_white.describe().loc['std',:]==wine_quality_white.describe().loc['std',:].min()]


density    0.002991
Name: std, dtype: float64

### 37.- Qué columnas son enteros en wine_quality_white?


In [192]:
#Código:
wine_quality_white.dtypes[wine_quality_white.dtypes=='int64']

quality    int64
dtype: object

### 38.- Qué columna tiene el percentil 75 más bajo?

In [196]:
#Código:
wine_quality_white.describe().loc['75%',:][wine_quality_white.describe().loc['75%',:]==wine_quality_white.describe().loc['75%',:].min()]

chlorides    0.05
Name: 75%, dtype: float64

## Crosstab

`crosstab` devuelve un conteo de frecuencia entre dos columnas

In [197]:
pd.crosstab(golf_df['Outlook'], golf_df['Result'])

Result,Don't Play,Play
Outlook,Unnamed: 1_level_1,Unnamed: 2_level_1
overcast,0,4
rain,2,3
sunny,3,2


## DateTimes

Para convertir cadenas de texto a una columna de tipo fecha se utiliza la función `to_datetime`

In [198]:
golf_df['DateTime'] = pd.to_datetime(golf_df['Date'])
golf_df['DateTime']

0    2014-07-01
1    2014-07-02
2    2014-07-03
3    2014-07-04
4    2014-07-05
5    2014-07-06
6    2014-07-07
7    2014-07-08
8    2014-07-09
9    2014-07-10
10   2014-07-11
11   2014-07-12
12   2014-07-13
13   2014-07-14
Name: DateTime, dtype: datetime64[ns]

`day` vs `dayofweek` 

In [199]:
golf_df['DateTime'].dt.day

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
Name: DateTime, dtype: int64

In [200]:
golf_df['DateTime'].dt.dayofweek

0     1
1     2
2     3
3     4
4     5
5     6
6     0
7     1
8     2
9     3
10    4
11    5
12    6
13    0
Name: DateTime, dtype: int64

Month

In [201]:
golf_df['DateTime'].dt.month

0     7
1     7
2     7
3     7
4     7
5     7
6     7
7     7
8     7
9     7
10    7
11    7
12    7
13    7
Name: DateTime, dtype: int64

Operaciones

In [202]:
golf_df['DateTime'][0] - golf_df['DateTime'][5]

Timedelta('-5 days +00:00:00')

In [203]:
golf_df['DateTime'] - golf_df['DateTime']

0    0 days
1    0 days
2    0 days
3    0 days
4    0 days
5    0 days
6    0 days
7    0 days
8    0 days
9    0 days
10   0 days
11   0 days
12   0 days
13   0 days
Name: DateTime, dtype: timedelta64[ns]

### 39.- Calcular el último día de la semana con y sin juego

```python
Result
Don't Play    6
Play          6
Name: dayofweek, dtype: int64
```

In [217]:
#Código:
golf_df['weekday']=golf_df["DateTime"].dt.dayofweek
golf_df.groupby('Result').aggregate(max).weekday
# golf_df["DateTime"].dt.dayofweek


Result
Don't Play    6
Play          6
Name: weekday, dtype: int64

## Cambio de índice

Para configurar una columna existente como índice

In [218]:
date_df = golf_df.set_index('DateTime')
date_df

Unnamed: 0_level_0,Date,Outlook,Temperature,Humidity,Windy,Result,TempHumid,HeatIndex,day,dayOfWeek,weekday
DateTime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2014-07-01,7/1/14,sunny,85,85,False,Don't Play,170,98.004631,1,1,1
2014-07-02,7/2/14,sunny,80,90,True,Don't Play,170,84.4744,2,2,2
2014-07-03,7/3/14,overcast,83,78,False,Play,161,89.669911,3,3,3
2014-07-04,7/4/14,rain,70,96,False,Play,166,62.847024,4,4,4
2014-07-05,7/5/14,rain,68,80,False,Play,148,69.089776,5,5,5
2014-07-06,7/6/14,rain,65,70,True,Don't Play,135,73.668025,6,6,6
2014-07-07,7/7/14,overcast,64,65,True,Play,129,75.987116,7,0,0
2014-07-08,7/8/14,sunny,72,95,False,Don't Play,167,66.247396,8,1,1
2014-07-09,7/9/14,sunny,69,70,False,Play,139,72.843649,9,2,2
2014-07-10,7/10/14,rain,75,80,False,Play,155,74.557,10,3,3


In [219]:
date_df.index

DatetimeIndex(['2014-07-01', '2014-07-02', '2014-07-03', '2014-07-04',
               '2014-07-05', '2014-07-06', '2014-07-07', '2014-07-08',
               '2014-07-09', '2014-07-10', '2014-07-11', '2014-07-12',
               '2014-07-13', '2014-07-14'],
              dtype='datetime64[ns]', name='DateTime', freq=None)

Si el índice es de tipo datetime se puede utilizar `resample` para hacer agregaciones o cortes

In [220]:
# W de weekly.
date_df.resample('W').mean()

  date_df.resample('W').mean()


Unnamed: 0_level_0,Temperature,Humidity,Windy,TempHumid,HeatIndex,dayOfWeek,weekday
DateTime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2014-07-06,75.166667,83.166667,0.333333,158.333333,79.625628,3.5,3.5
2014-07-13,72.571429,77.857143,0.428571,150.428571,74.006167,3.0,3.0
2014-07-20,71.0,80.0,1.0,151.0,70.486984,0.0,0.0


## Escribir Datos

En un archivo csv.

```python 
>>> golf_df.to_csv('new_playgolf.csv', index=False)

>>> !cat new_playgolf.csv 

Date,Outlook,Temperature,Humidity,Windy,Result,TempHumid,HeatIndex,day,DateTime
7/1/14,sunny,85,85,False,Don't Play,170,98.0046312500001,1,2014-07-01
7/2/14,sunny,80,90,True,Don't Play,170,84.47439999999996,2,2014-07-02
7/3/14,overcast,83,78,False,Play,161,89.66991075999985,3,2014-07-03
7/4/14,rain,70,96,False,Play,166,62.84702400000019,4,2014-07-04
7/5/14,rain,68,80,False,Play,148,69.08977600000006,5,2014-07-05
7/6/14,rain,65,70,True,Don't Play,135,73.66802499999999,6,2014-07-06
7/7/14,overcast,64,65,True,Play,129,75.9871160000001,7,2014-07-07
7/8/14,sunny,72,95,False,Don't Play,167,66.2473960000001,8,2014-07-08
7/9/14,sunny,69,70,False,Play,139,72.84364900000003,9,2014-07-09
7/10/14,rain,75,80,False,Play,155,74.55700000000012,10,2014-07-10
7/11/14,sunny,75,70,True,Play,145,75.777625,11,2014-07-11
7/12/14,overcast,72,90,True,Play,162,68.10694399999996,12,2014-07-12
7/13/14,overcast,81,75,False,Play,156,84.52344124999973,13,2014-07-13
7/14/14,rain,71,80,True,Don't Play,151,70.48698400000002,14,2014-07-14
```

## Análisis Exploratorio de los Datos

### 40.- Efectuar un Análisis Exploratorio (EDA)

Abrir el archivo chess_games.csv y responder las siguientes preguntas en cuadros de código separados:

1. ¿Cuántas filas de datos tiene?
2. ¿Qué representa cada fila?
3. ¿Quién ganó más, los blancos o los negros?
4. ¿Cuántas jugadas por partida hay en promedio?
5. ¿Cuál fue la "primera jugada" más probable?
6. ¿Cuántas partidas terminan en jaque mate? (la alternativa es la rendición o el tiempo muerto)
7. ¿Qué porcentaje de partidas es?
8. ¿Cuánto duró la partida media?
9. ¿Cuánto duró la partida media que ganaron las blancas? 
10. ¿Cuánto duró la partida media que fue un empate?
11. ¿Qué es un código de incremento?
12. Haz tres preguntas propias *por escrito*. Luego contéstalas. (escribimos nuestras preguntas porque si vuelves más tarde olvidarás qué pregunta estabas respondiendo)

In [226]:
chess_games=pd.read_csv(pth+'chess_games.csv')
chess_games.head()

Unnamed: 0,id,rated,created_at,last_move_at,turns,victory_status,winner,increment_code,white_id,white_rating,black_id,black_rating,moves,opening_eco,opening_name,opening_ply
0,TZJHLljE,False,1504210000000.0,1504210000000.0,13,outoftime,white,15+2,bourgris,1500,a-00,1191,d4 d5 c4 c6 cxd5 e6 dxe6 fxe6 Nf3 Bb4+ Nc3 Ba5...,D10,Slav Defense: Exchange Variation,5
1,l1NXvwaE,True,1504130000000.0,1504130000000.0,16,resign,black,5+10,a-00,1322,skinnerua,1261,d4 Nc6 e4 e5 f4 f6 dxe5 fxe5 fxe5 Nxe5 Qd4 Nc6...,B00,Nimzowitsch Defense: Kennedy Variation,4
2,mIICvQHh,True,1504130000000.0,1504130000000.0,61,mate,white,5+10,ischia,1496,a-00,1500,e4 e5 d3 d6 Be3 c6 Be2 b5 Nd2 a5 a4 c5 axb5 Nc...,C20,King's Pawn Game: Leonardis Variation,3
3,kWKvrqYL,True,1504110000000.0,1504110000000.0,61,mate,white,20+0,daniamurashov,1439,adivanov2009,1454,d4 d5 Nf3 Bf5 Nc3 Nf6 Bf4 Ng4 e3 Nc6 Be2 Qd7 O...,D02,Queen's Pawn Game: Zukertort Variation,3
4,9tXo1AUZ,True,1504030000000.0,1504030000000.0,95,mate,white,30+3,nik221107,1523,adivanov2009,1469,e4 e5 Nf3 d6 d4 Nc6 d5 Nb4 a3 Na6 Nc3 Be7 b4 N...,C41,Philidor Defense,5


### 1. 

In [225]:
chess_games.shape[0]

20058

### 2.

Cada fila es un juego

### 3.

In [240]:
pd.DataFrame(chess_games['winner'].value_counts()).idxmax()

winner    white
dtype: object

### 4.

In [241]:
chess_games['turns'].mean()

60.46599860404826

### 5. 

In [246]:
chess_games['opening_name'].value_counts().idxmax()

"Van't Kruijs Opening"

###  6.

In [262]:
jaque_mate=chess_games['victory_status'].value_counts().loc[['mate']]
print('Partidas que terminan en jaque mate: ',jaque_mate[0])

Partidas que terminan en jaque mate:  6325


###  7.

In [268]:
jaque_mate/np.sum(chess_games['victory_status'].value_counts().values)

mate    0.315336
Name: victory_status, dtype: float64

### 8.

In [273]:
chess_games.apply(lambda x: x['last_move_at']-x['created_at'],axis=1).mean()

869707.0496061422

### 9. 

In [274]:
chess_games[chess_games['winner']=='white'].apply(lambda x: x['last_move_at']-x['created_at'],axis=1).mean()

851295.4430556945

### 10. 

In [275]:
chess_games[chess_games['winner']=='draw'].apply(lambda x: x['last_move_at']-x['created_at'],axis=1).mean()

1398628.1421052632

### 11.

De internet: When it becomes a player's turn to move, the delay (or increment) is added to the player's remaining time. For example, if the delay is five seconds and the player has ten minutes remaining on his clock when his clock is activated, he now has ten minutes and five seconds remaining.

### 12.

Estado del juego de mayor duración

In [289]:
i_max_duration=chess_games.apply(lambda x: x['last_move_at']-x['created_at'],axis=1).idxmax()
chess_games.loc[i_max_duration,'victory_status']

'resign'

Cuántas veces el juego terminó en jaque mate con la jugada de apertura más frecuente 

In [300]:
chess_games[chess_games["opening_name"]==chess_games['opening_name'].value_counts().idxmax()]["victory_status"].value_counts()['mate']

154

Rating medio de blancos que empataron 

In [303]:
chess_games[chess_games['victory_status']=='draw']['white_rating'].mean()

1658.1545253863135

### 41.- Efectuar un análisis exploratorio

Abrir el archivo exo.csv, https://exoplanetarchive.ipac.caltech.edu/docs/API_kepcandidate_columns.html y contestar las siguientes preguntas escribiendo headers, divisiones de celdas e identaciones necesarias

1. ¿cuántas filas de datos tiene?
2. ¿Qué representa cada fila?
3. ¿Cuántos planetas están confirmados?
4. ¿Cuál es la temperatura máxima de los planetas?
5. ¿Cuál es la temperatura máxima de las estrellas?
6. ¿Cuál es la distancia entre el planeta y la estrella?
7. ¿Cuántos planetas hay en cada sistema?
8. ¿Cuánto varía la temperatura de los planetas?
9. ¿Cuánto varían las temperaturas de las estrellas?
10. ¿Cuántos NaN hay en cada categoría?
11. Haz tres preguntas propias *por escrito*. Luego contéstalas. (escribimos nuestras preguntas porque si vuelves más tarde olvidarás qué pregunta estabas respondiendo)

## Unión de DataFrames

Es posible unir DataFrames como se haría en SQL.

Ejemplo

In [None]:
mood_df = pd.DataFrame([['overcast', 'sad'], ['rainy', 'sad'], ['sunny', 'happy']],
                       columns=['Weather', 'Mood'])

mood_df

In [None]:
golf_df.merge(mood_df, how='inner', left_on='Outlook', right_on='Weather')

## Concatenar

Este método es equivalente a una unión de SQL

In [None]:
df1 = pd.DataFrame(
    {'Col3': range(5), 'Col2': range(5), 'Col1': range(5)},
    index=range(0, 5))
df2 = pd.DataFrame(
    {'Col1': range(5), 'Col2': range(5), 'Col4': range(5)},
    index=range(3, 8))

In [None]:
df1

In [None]:
df2

#### Vertical
`sort` controla el orden de las columnas

In [None]:
pd.concat([df1, df2], axis=0, join='outer', sort=True)

`inner` limita las columnas de ambas entradas

In [None]:
pd.concat([df1, df2], axis=0, join='inner', sort=True)

#### Horizontal

In [None]:
pd.concat([df1, df2], axis=1)

**Extra:** Por qué algunos números son flotantes y otros no?

Documentación: https://pandas.pydata.org/pandas-docs/stable/merging.html