# Pandas: Práctica

## Objetivos

* Crear objetos de tipo `Series` y `DataFrame` a partir de datos de Python. 
* Crear objetos de tipo `DataFrame` a partir de archivos.
* Indexar y cortar objetos con `pandas`.
* Agregar datos en el `DataFrame`s.
* Unir múltiples objetos de tipo `DataFrame`.

## ¿Qué es Pandas?

Una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos para datos tabulares de muchos tipos. Piensa en un `DataFrame` como una tabla en SQL. 

Usaremos esto prácticamente todos los días de aquí en adelante. Así que asegúrate de completar la tarea, e incluso hacerla de nuevo si no te sientes cómodo.

## Beneficios

  * Almacenamiento y procesamiento eficiente de los datos.
  * Incluye muchas funciones incorporadas para la transformación de datos, agregaciones y gráficos.
  * Excelente para el trabajo exploratorio.

## No tan buenas

  * No se adapta muy bien a conjuntos de datos muy grandes.

## Documentación:

Documentación de pandas:

  * http://pandas.pydata.org/pandas-docs/stable/index.html
  
  
Cheatsheet de utilidad:

  * https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf


Lectura extra:


  * [Indexing and Selecting](https://pandas.pydata.org/pandas-docs/stable/indexing.html)
  * [Advanced Indexing](http://pandas.pydata.org/pandas-docs/stable/advanced.html#advanced-mi-slicers)
  * [Group-by](https://pandas.pydata.org/pandas-docs/stable/groupby.html)

## Imports

In [None]:
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('ggplot')

## Numpy

`pandas` se construye a partir de los tipos de datos de `numpy` una biblioteca de nivel inferior.

El objeto básico de `numpy` es un `array`.

In [None]:
x = np.array([0, 1, 2, 3, 4, 5])
x

Los arrays cuentan con operaciones muy útiles.

In [None]:
x.sum()  # <-- Suma de números

Los arrays pueden ser multidimensionales. Un array **bidimensional** es una matriz.

In [None]:
M = np.array([
    [0, 1, 2],
    [1, 2, 3],
    [2, 3, 4],
    [5, 6, 7]
])

M

In [None]:
print(x.shape)
print(M.shape)

## Serie

In [None]:
heights = np.array([34, 35, 36, 37, 38])
student_heights = pd.Series(heights)
student_heights

Para acceder al array debe ser a través de '.values'.

In [None]:
student_heights.values

Losnúmeros '0,1,2,3,4' son el índice por defecto. 

Se puede acceder al índice a través de '.index'

In [None]:
student_heights.index

El índice es un [iterable](https://www.programiz.com/python-programming/iterator).

In [None]:
type(student_heights.index)

In [None]:
list(student_heights.index)

Es posible cambiar el índice manualmente

In [None]:
student_heights.index = ["Tomas", "Angel", "Stacy", "Michaela", "Haden"]

In [None]:
student_heights

Ahora es posible utilizar palabras para acceder a los ítems de la Serie.

In [None]:
student_heights['Michaela']

También se puede acceder a un ítem por su orden.

In [None]:
student_heights[2]

Utilizar métodos de numpy.

In [None]:
student_heights.mean()

Se pueden ver los parámetros de una función escribiendo
```python
pd.Series()
```
colocando el cursor dentro del paréntesis y presionando 'shift+tab'.

In [None]:
#Código:


### 1.- Cuáles son los parámetros de pd.Series()?

In [None]:
#Código:


> POR FAVOR, NUNCA JAMÁS COPIE Y PEGUE MIENTRAS HACE ESTAS PREGUNTAS. No aprenderás a codificar de memoria. Y en tres semanas te darás cuenta de que no lo sabes. Lo hemos visto una y otra vez. Vale la pena. Abre una segunda ventana si necesitas copiar código.

> Para las variables que has definido o cargado utiliza el 'tabulador'. Por ejemplo:
>
>
> Abajo escribe 'bra' + tabulador y observa cómo se rellena el resto. Puede ser difícil de recordar, pero realmente ayuda.


## 2.- Hacer una serie 'brag_vow' con índice 'i am a numpy champ'. And values 'So Pandas here I come".

```python 

print(brag_vow)

I            So
am       Pandas
a          here
numpy         I
champ      come
dtype: object
```

In [None]:
# Crear una serie con el índice y los valores dados
serie_brag_vow = pd.Series(['So Pandas here I come'], index=['i am a numpy champ'], name='brag_vow')

# Mostrar la serie
print(serie_brag_vow)

### 3.- Imprimir los últimos tres elementos de 'brag_vow'

```python 
a          here
numpy         I
champ      come
dtype: object
```

In [None]:
#Código:

print(serie_brag_vow.tail(3))


### 4.- Imprimir los elementos relacionados al index 'I a champ' (No utilizar índice numérico)

```python 
I          So
a        here
champ    come
dtype: object
```

In [None]:
#Código:
print(serie_brag_vow['i am a numpy champ'])


### 5.- De "student_heights", imprimir los estudiantes cuya estatura es un numero par por medio de un índice booleano.

```python 
Tomas    34
Stacy    36
Haden    38
dtype: int64
```

In [None]:
#Código:



### 6.- Imprimir los valores de brag_vow:

```python 
array(['So', 'Pandas', 'here', 'I', 'come'], dtype=object)
```

In [None]:
#Código:

print(serie_brag_vow.values)

### 7.- Imprimir el index de brag_vow:

```python 
Index(['I', 'am', 'a', 'numpy', 'champ'], dtype='object')
```

In [None]:
#Código:



# Nombre de una Serie

Las Series pueden tener un nombre

In [None]:
student_grades = pd.Series([45,56,78,89,90], 
                           index=['Tomas', 'Angel', 'Stacy', 'Michaela', 'Haden'], 
                           name='grades')

In [None]:
student_grades

Observe el Name:

### Crear Dataframes a partir de objetos

Tenemos dos series: student_heights y student_grades. Cada una tiene los mismos estudiantes en el índice. ¿No sería genial si pudiéramos acceder a todos los datos de los estudiantes a la vez?

Para ello, utilizaremos un dataframe.

In [None]:
students = pd.DataFrame({'grade':student_grades, 'height':student_heights})
students

Hay al menos dos maneras de pensar en un dataframe.

Una es como una serie múltiple con índice coincidente. La otra es como un array de numpy con columnas y filas explícitamente etiquetadas.

La verdad es que un dataframe es AMBAS.

In [None]:
# numpy array:
students.values

In [None]:
# pandas series:
students['grade']

También podemos crear DataFrames a partir de arrays de numpy o listas con etiquetas e índices proporcionados. El parámetro `columns=` especifica los nombres de las columnas; el `index=` especifica los nombres de las filas.

In [None]:
pd.DataFrame(
    data = [[1, 2, 3], 
            [4, 5, 6]], 
    columns=['a', 'b', 'c'], 
    index=['foo', 'bar'])

Hay MUCHAS maneras de hacer cualquier cosa. Esto hace que el aprendizaje sea más difícil. Pero aquí vamos de todos modos.

### 8.- Hacer un DataFrame 'classrooms' que contenga:

```python 
> print(classrooms)

         chairs  projectors
gym           0           1
history       2           3
math          4           5
english       6           7
```

In [None]:
#Código:



### 9.- Hacer la Serie 'Chairs':

```python 
gym        0
history    2
math       4
english    6
Name: chairs, dtype: int64
```

In [None]:
#Código:



### 10.- Hacer la serie 'projectors' 

```python 
gym        1
history    3
math       5
english    7
Name: projectors, dtype: int64
```

In [None]:
#Código:



### 11.- Hacer de nuevo el DataFrame 'classrooms' , pero esta vez utilizando las series 'chairs' y 'projectors'

```python 
> print(classrooms)

         chairs  projectors
gym           0           1
history       2           3
math          4           5
english       6           7
```

In [None]:
#Código:



### 12.- Crear el DataFrame 'down_up' con dos columnas: 'decreasing' e 'increasing' con los números 1-10 en cada orden


```python
> print(down_up)

   decreasing  increasing
0          10           1
1           9           2
2           8           3
3           7           4
4           6           5
5           5           6
6           4           7
7           3           8
8           2           9
9           1          10
```

In [None]:
#Código:



También puede poner una Serie en un DataFrame siempre que tenga un índice que coincida.

## Modificar DataFrames

Los dataframes son MUY parecidos a los arrays de numpy con columnas e índices añadidos.

Pero a diferencia de los arrays (que tienen un tamaño fijo), ¡podemos añadir columnas a un dataframe!

In [None]:
students['was_late'] = [True, False, True, False, False]
students

Tambien es posible a través de un array

In [None]:
students['was_late'] = np.array([True, False, True, False, False])
students

Pero el arry debe tener una forma de (n, ) o (1, n). No (n, 1). Lo que tiene un poco de sentido, porque eso es tratar de encajar una fila en una columna.

In [None]:
students['was_late'] = np.array([True, False, True, False, False]).reshape(-1,1)
students

```python
# Esto debe dar un error
students['was_late'] = np.array([True, False, True, False, False]).reshape(1,-1)
students
```

### 13.- Agregar la columna 'top_crush' a 'students'. El cual es el nombre del crush de cada estudiante

```python
> print(students)

          grade  height  was_late     top_crush
Tomas        45      34      True         Angel
Angel        56      35     False         Haden
Stacy        78      36      True      Michaela
Michaela     89      37     False         Tomas
Haden        90      38     False  Edgar A. Poe
```

In [None]:
#Código:



## Proyección

Al igual que en numpy, es posible hacer una proyección de una serie

In [None]:
students['grade']>75

Para crear la columna 'above_75_percent'

In [None]:
students['above_75_percent'] = students['grade']>75
students

Este tipo de proyecciones resultan de gran utilidad.

### 14.- Agregar la columna 'taller_than_35' a students

```python
> print(students[['grade', 'height', 'taller_than_35']])

          grade  height  taller_than_35
Tomas        45      34           False
Angel        56      35           False
Stacy        78      36            True
Michaela     89      37            True
Haden        90      38            True
```

In [None]:
#Código:



Los elementos se emparejan por **index**.

## Índices

In [None]:
df = pd.DataFrame(
    [[1, 2, 3], [4, 5, 6]], 
    columns=['a', 'b', 'c'], 
    index=['foo', 'bar'])

In [None]:
# El índice está invertido
df['d'] = pd.Series([4, 5], index=['bar', 'foo'])
df

Si el índice no coincide el valor se convierte en NaN

In [None]:
df['d'] = pd.Series([4, 5], index=['bar', 'baz'])
df

Al agregar una lista o vector en un DataFrame sin índice la columna se inserta en orden

In [None]:
df['e'] = [1, 2]
df

Utilizando una Serie se debe tener cuidado ya que si no existe un índice, todos los valores se convierten a NaN

In [None]:
students['was_late'] = pd.Series([True, False, True, False, False])
students

Agregar el índice:

In [None]:
students['was_late'] = pd.Series([True, False, True, False, False], index=students.index)
students

### 15.- Crear el  dataframe 'numbers' con la columna `increasing`, la cual contenga numeros de 1-50 en este orden. Después, insertar una columna `evens`, que contenga solo números pares si el número es par en `increasing` 

```python
> print(numbers)

    increasing  evens
0            0    0.0
1            1    NaN
2            2    2.0
3            3    NaN
4            4    4.0
5            5    NaN
6            6    6.0
7            7    NaN
8            8    8.0
9            9    NaN
10          10   10.0
.            .      .
.            .      .
.            .      .

```

In [None]:
#Código:



### 16.- Agregar la siguiente información en una columna 'pickup_time'

Haden = 4,
Tomas = 5,
Stacy = 3


```python
> print(students[['grade', 'height', 'pickup_time']])

          grade  height  pickup_time
Tomas        45      34          5.0
Angel        56      35          NaN
Stacy        78      36          3.0
Michaela     89      37          NaN
Haden        90      38          4.0

```

In [None]:
#Código:



### 17.- Agregar la siguiente informaión para los primeros tres estudiantes, el resto puede ser NaN

4,5,3


```python
> print(students[['grade', 'height', 'pickup_time']])

          grade  height  pickup_time
Tomas        45      34          4.0
Angel        56      35          5.0
Stacy        78      36          2.0
Michaela     89      37          NaN
Haden        90      38          NaN

```

(NaN is input as np.NaN)

In [None]:
#Código:



## Carga de información

Para cargar información externa en Pandas primero debemos localizarla

El comando 'ls' es de ayuda para esto

In [None]:
ls

probablemente se encuentre en 'data/'

In [None]:
ls data

Pandas puede cargar csv, aunque algunas veces el csv no está separado por comas. Revisemos lo que está dentro de playgolf.csv

In [None]:
# '!' significa que estamos ejecutando un comando de bash
!head -1 data/playgolf.csv

In [None]:
!head -1 data/playgolf.csv

###  Cargar datos desde csv

Un csv (valores separados por comas) es un formato de archivo utilizado para almacenar datos separados por un **delimitador**.

Un delimitador es el **carácter único** que divide los elementos de datos en un archivo.  La coma es una opción tradicional de delimitador, pero relativamente pobre porque a menudo forma parte de los propios elementos.  Las mejores opciones son el pipe (`|`) y el tabulador (`\t`).

En un extraño giro de la historia, los archivos separados por comas a menudo se separan con caracteres diferentes a las comas.  No hay una convención consistente de usar una extensión de archivo diferente, pero algunas personas usan `.psv` o `.tsv`.

Pandas tiene una función `read_csv` que carga un fichero delimitado en un `DataFrame`.  

In [None]:
golf_df = pd.read_csv('data/playgolf.csv', delimiter=',')

In [None]:
golf_df

### 18.- Cargar hospital-costs.csv como 'hospital_costs'.


In [None]:
#Código:



### 19.- Cargar winnequality-white.csv como 'wine_quality_white'.

In [None]:
#Código:



## Extraer información del DataFrame

#### Índices de Fila y Columna

Como hemos visto, se pueden extraer columnas individuales de un `DataFrame` como una `Serie` utilizando la indexación habitual de estilo `__getitem__` utilizando el nombre de la columna.  

Esto es similar a cómo indexamos un diccionario.

In [None]:
golf_df['Temperature']

Para extraer valores individuales

In [None]:
golf_df['Temperature'][0]

Para extraer múltiples columnas

In [None]:
golf_df[['Temperature', 'Humidity']]

Para extraer un número limitado de filas

In [None]:
short_df = golf_df[0:5]
short_df

### 20.- Extraer las columnas Facility Id, Year, Discharges, and Mean Charge de hospital_costs

```python
        Facility Id  Year  Discharges  Mean Charge
0               324  2011           3     361289.0
1               324  2011           1     102190.0
2               324  2011           6      14172.0
3               324  2011           1       8833.0
4               324  2011           1       5264.0
...             ...   ...         ...          ...
383488         1153  2009           5      13572.0
383489         1153  2009           4       8323.0
383490         1153  2009           5       7746.0
383491         1153  2009           1       7892.0
383492         1153  2009           3       1069.0
```

In [None]:
#Código:



## Índie Booleano / Logico

También podemos indexar un `DataFrame` utilizando una lista de **booleanos** (es decir, valores `True` y `False`). Esto también operará sobre las filas.

In [None]:
# Filas 0, 2, y 4.
short_df[[True, False, True, False, True]]

Es de utilidad para crear `Series` booleanas a partir de una comparación

In [None]:
# A series of booleans.
golf_df['Temperature'] > 70

Y después elegir las columnas del DataFrame

In [None]:
golf_df[golf_df['Temperature'] > 70][["Date", "Windy"]]

Esto es esencialmente aplicar una condición lógica para seleccionar filas de un `DataFrame`.  Este es uno de los patrones más comunes en Pandas.

Para repasar: si indexas un `DataFrame` con un **valor único** o una **lista de valores**, selecciona las **columnas**.

Si utilizas un **corte** o una **secuencia de booleanos**, selecciona las **filas**. 

### 21.- Seleccionar los días en que la humedad es mayor a 90 en 'golf_df'.

```python
     Date Outlook  Temperature  Humidity  Windy      Result
3  7/4/14    rain           70        96  False        Play
7  7/8/14   sunny           72        95  False  Don't Play
```

In [None]:
#Código:



## Operadores lógicos

In [None]:
(golf_df['Humidity']>90) | (golf_df['Outlook']=="Sunny") # '|' es 'OR'

In [None]:
(golf_df['Result']=="Don't Play") & golf_df['Windy'] # '&' es 'AND'

### 22.- Seleccionar los días lluviosos con una temperatura menor a 70 grados en 'play_golf'

In [None]:
#Código:



### 23.- Seleccionar la fecha y el resultado de los días lluviosos en que la humedad es mayor a 90 en 'play_golf'

```python
     Date Result
3  7/4/14   Play
```

In [None]:
#Código:


## Doble índice

Supongamos que queremos establecer el valor de la columna `Windy` donde `Temperature > 70` como True.

In [None]:
golf_df[golf_df['Temperature'] > 70]["Windy"] = True

Vaya, un error

In [None]:
golf_df[golf_df['Temperature'] > 70]["Windy"]

Al parecer, aún es Falso

Este patrón se llama doble indexación, ¡y es un antipatrón!  ¡Pandas no puede garantizar que las asignaciones se mantengan cuando se indexa dos veces!

Para solucionar estos problemas, tenemos que estudiar las otras opciones de indexación que proporciona Pandas.

#### .loc e .iloc

Hay algunos otros objetos de indexación en pandas, los cuales toman un valor para elegir las filas y un valor para elegir las columnas.

  - `df.iloc` está **basado en la posición**.  Este indexador acepta enteros y trozos de enteros, y esencialmente trata el marco de datos como si fuera una simple matriz.
  - `df.loc` está **basado en etiquetas**.  Este indexador trabaja con índices/etiquetas de filas y columnas.

In [None]:
df = pd.DataFrame({
    'some_integers': [0, 0, 1, 1, 2, 2],
    'some_strings': ['x', 'y', 'z', 'x', 'y', 'z'],
    'some_booleans': [0, 0, 1, 0, 1, 1]},
    index=['a', 'b', 'c', 'd', 'e', 'f']
)
df

In [None]:
df.iloc[2:4, 0:2]

In [None]:
df.loc['b':'e', ['some_integers', 'some_booleans']]

### 24.- Seleccionar las filas a,b,c, y f 

```python
   some_integers some_strings  some_booleans
a              0            x              0
b              0            y              0
c              1            z              1
f              2            z              1
```

In [None]:
#Código:



### 25.- Seleccionar la fila 0, 1a y 5a

```python
   some_integers some_strings  some_booleans
a              0            x              0
b              0            y              0
f              2            z              1
```

In [None]:
#Código:



### 26.- Seleccionar los estudiantes 0 y 4o

```python
       grade  height was_late     top_crush   ...
Tomas     45      34      NaN         Angel
Haden     90      38      NaN  Edgar A. Poe
```

In [None]:
#Código:



### 27.- Seleccionar a Haden, Angel y Micaela en ese orden

```python
          grade  height was_late     top_crush
Haden        90      38      NaN  Edgar A. Poe
Angel        56      35      NaN         Haden
Michaela     89      37      NaN         Tomas
```

In [None]:
#Código:



## Índice mixto

Entonces, ¿qué hacemos si queremos obtener las filas por posición, y obtener las columnas por etiqueta?  Es decir, si tenemos un uso para la **indexación mixta**.

```python
# Mixto con iloc: no funciona.
>>> df.iloc[2:4, ['some_integers', 'some_booleans']]

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-337-dcc694afee25> in <module>
      1 # Mixto con iloc: no funciona.
----> 2 df.iloc[2:4, ['some_integers', 'some_booleans']]
```

Hacer una indexación mixta en los pandas modernos es más explícito, menos mágico.  Es necesario utilizar los atributos `df.index` y `df.columns` para convertir explícitamente las posiciones en etiquetas.

#### Filas por posición, Columnas por nombre

In [None]:
df.index[2:4]

In [None]:
df.loc[df.index[2:4], ['some_integers', 'some_booleans']]

#### Filas por nombre, Columnas por posición

In [None]:
df.columns[[0, 2]]

In [None]:
df.loc[['c', 'd'], df.columns[[0, 2]]]

### 28.- Utilizar el índice mixto para obtener la fila 0, 2a y 4a row de top_crush y pickup_time

```python
          top_crush  pickup_time
Tomas         Angel          4.0
Stacy      Michaela          2.0
Haden  Edgar A. Poe          NaN
```

In [None]:
#Código:



### 29.- Utilizar el índice mixto para obtener el siguiente dataframe, utilizando posición en columns y nombre en filas

```python
       grade  was_late  above_75_percent  grade
Stacy     78      True              True     78
Haden     90     False              True     90
```

In [None]:
#Código:



## Transformaciones

Las operaciones aritméticas se aplican a las `Series` elemento a elemento. (como las matrices)

In [None]:
# Ejemplo
golf_df["TempHumid"] = golf_df['Temperature'] + golf_df['Humidity']

In [None]:
golf_df.head()

In [None]:
# Calcular el índice de calor

#    https://en.wikipedia.org/wiki/Heat_index
temp = golf_df['Temperature']
humid = golf_df['Humidity']
golf_df['HeatIndex'] = (-42.37 + 2.05*temp + 10.14*humid
                        - 0.225*temp*humid
                        - 6.84e-3*temp**2 
                        - 5.482e-2*humid**2
                        + 1.23e-3*temp**2*humid
                        + 8.53e-4*temp*humid**2
                        - 1.99e-6*temp**2*humid**2
)
golf_df[['Temperature', 'Humidity', 'HeatIndex']].head()

### 30.- Crear una columna 'smarty_pants' que devuelva 'Verdadero' si el grade de un estudiante es mayor a 2.2 veces su estatura

```python
>>> print(students[['grade','height', 'smarty_pants']])
          grade  height  smarty_pants
Tomas        45      34         False
Angel        56      35         False
Stacy        78      36         False
Michaela     89      37          True
Haden        90      38          True
```

In [None]:
#Código:



### 31.- Crear una columna 'percent fixed acidity' que calcule la cantidad de acidez total que se encuentra en wine_quality_white.

```python
>>> print(wine_quality_white[['fixed acidity', 'volatile acidity', 'citric acid', 'percent fixed acidity']])
      fixed acidity  volatile acidity  citric acid  percent fixed acidity
0               7.0              0.27         0.36               0.917431
1               6.3              0.30         0.34               0.907781
2               8.1              0.28         0.40               0.922551
3               7.2              0.23         0.32               0.929032
4               7.2              0.23         0.32               0.929032
...             ...               ...          ...                    ...
4893            6.2              0.21         0.29               0.925373
4894            6.6              0.32         0.36               0.906593
4895            6.5              0.24         0.19               0.937951
4896            5.5              0.29         0.30               0.903120
4897            6.0              0.21         0.38               0.910470
```

In [None]:
#Código:



## Apply

Es posible crear una nueva Serie al aplicar una función a una Serie existente

Ejemplo: Extraer el día del mes en la columna 'date'

In [None]:
golf_df

In [None]:
golf_df['Date'].apply(lambda x: x.split('/')[1])

Apply toma cada elemento de la serie 'date' y le *aplica* la función. Las salidas se ordenan en un array de la misma forma e índice.

Así que podemos guardarlo así

In [None]:
golf_df['day'] = golf_df['Date'].apply(lambda x: x.split('/')[1])
golf_df

lambda es sólo una forma de hacer una función. También podemos aplicar una función previamente definida.

In [None]:
def get_day(x):
    return x.split('/')[1]

golf_df['Date'].apply(get_day)

Es posible aplicar una función a cada fila del DataFrame especificando la columna y su eje=1

In [None]:
golf_df.apply(lambda x: x['Temperature'] + x['Humidity'], axis=1)

En general, `.apply` es útil para mapear funciones complejas en sus datos.

### 32.- Crear una columna 'report_card' que muestre 'FAILURE' si el 'grade' de un estudiante es menor a 60, y que muestre su calificación si es mayor a 60

```python
>>> print(students[['grade','height', 'report_card']])
          grade  height report_card
Tomas        45      34     FAILURE
Angel        56      35     FAILURE
Stacy        78      36          78
Michaela     89      37          89
Haden        90      38          90
```

In [None]:
#Código:



### 33.- Crear una columna 'even_height' que muestre 'Even' si su estatura es un numero par, y que muestre 'odd' si su estatura es un número impar.

```python
>>> print(students[['grade','height', 'even_height']])
          grade  height even_height
Tomas        45      34        Even
Angel        56      35         Odd
Stacy        78      36        Even
Michaela     89      37         Odd
Haden        90      38        Even
```

In [None]:
#Código:



## Agregaciones

Existen MUCHOS métodos disponibles para nosotros dentro de cada dataframe. Algunos de ellos son agregaciones, al igual que en numpy.

In [None]:
golf_df.count() #Cuenta items que no son None

In [None]:
golf_df.count(axis=1)

In [None]:
golf_df.mean()

In [None]:
golf_df.sum()

In [None]:
golf_df.aggregate(min)

¿Qué pasa si queremos calcular la temperatura mínima en días nublados, lluviosos o soleados? 

¡Usamos una sentencia groupby! Como en sql.

In [None]:
golf_df.groupby('Outlook').aggregate(min)

Esto toma el mínimo de cada __Outlook__ de *cada* otra columna. ¡Y ahora __Outlook__ es el índice! 

Veamos lo que nos interesa, la temperatura.

In [None]:
golf_df.groupby('Outlook').aggregate(min)[['Temperature']]

### 34.- Calcular los datos promedio de clima para cada Outlook.

```python
          Temperature  Humidity  Windy  TempHumid  HeatIndex
Outlook                                                     
overcast         75.0      77.0    0.5      152.0  79.571853
rain             69.8      81.2    0.4      151.0  70.129762
sunny            76.2      82.0    0.4      158.2  79.469540
```

In [None]:
#Código:



### 35.- Calcular la temperatura Máxima en días windy y non-windy

```python
Windy
False    85
True     80
```

In [None]:
#Código:



Documentación de ayuda para groupby: http://pandas.pydata.org/pandas-docs/stable/groupby.html



## Summaries

`info` funciona para revisar los tipos de datos por columna y revisar al mismo tiempo si existen NaN's

In [None]:
golf_df.info()

`describe` brinda un análisis descriptivo básico

In [None]:
golf_df.describe()

### 36.- Qué columna de wine_quality_white tiene la mayor desviación estándar?

In [None]:
#Código:



### 37.- Qué columnas son enteros en wine_quality_white?


In [None]:
#Código:



### 38.- Qué columna tiene el percentil 75 más bajo?

In [None]:
#Código:



## Crosstab

`crosstab` devuelve un conteo de frecuencia entre dos columnas

In [None]:
pd.crosstab(golf_df['Outlook'], golf_df['Result'])

## DateTimes

Para convertir cadenas de texto a una columna de tipo fecha se utiliza la función `to_datetime`

In [None]:
golf_df['DateTime'] = pd.to_datetime(golf_df['Date'])
golf_df['DateTime']

`day` vs `dayofweek` 

In [None]:
golf_df['DateTime'].dt.day

In [None]:
golf_df['DateTime'].dt.dayofweek

Month

In [None]:
golf_df['DateTime'].dt.month

Operaciones

In [None]:
golf_df['DateTime'][0] - golf_df['DateTime'][5]

In [None]:
golf_df['DateTime'] - golf_df['DateTime']

### 39.- Calcular el último día de la semana con y sin juego

```python
Result
Don't Play    6
Play          6
Name: dayofweek, dtype: int64
```

In [None]:
#Código:



## Cambio de índice

Para configurar una columna existente como índice

In [None]:
date_df = golf_df.set_index('DateTime')
date_df

In [None]:
date_df.index

Si el índice es de tipo datetime se puede utilizar `resample` para hacer agregaciones o cortes

In [None]:
# W de weekly.
date_df.resample('W').mean()

## Escribir Datos

En un archivo csv.

```python 
>>> golf_df.to_csv('new_playgolf.csv', index=False)

>>> !cat new_playgolf.csv 

Date,Outlook,Temperature,Humidity,Windy,Result,TempHumid,HeatIndex,day,DateTime
7/1/14,sunny,85,85,False,Don't Play,170,98.0046312500001,1,2014-07-01
7/2/14,sunny,80,90,True,Don't Play,170,84.47439999999996,2,2014-07-02
7/3/14,overcast,83,78,False,Play,161,89.66991075999985,3,2014-07-03
7/4/14,rain,70,96,False,Play,166,62.84702400000019,4,2014-07-04
7/5/14,rain,68,80,False,Play,148,69.08977600000006,5,2014-07-05
7/6/14,rain,65,70,True,Don't Play,135,73.66802499999999,6,2014-07-06
7/7/14,overcast,64,65,True,Play,129,75.9871160000001,7,2014-07-07
7/8/14,sunny,72,95,False,Don't Play,167,66.2473960000001,8,2014-07-08
7/9/14,sunny,69,70,False,Play,139,72.84364900000003,9,2014-07-09
7/10/14,rain,75,80,False,Play,155,74.55700000000012,10,2014-07-10
7/11/14,sunny,75,70,True,Play,145,75.777625,11,2014-07-11
7/12/14,overcast,72,90,True,Play,162,68.10694399999996,12,2014-07-12
7/13/14,overcast,81,75,False,Play,156,84.52344124999973,13,2014-07-13
7/14/14,rain,71,80,True,Don't Play,151,70.48698400000002,14,2014-07-14
```

## Análisis Exploratorio de los Datos

### 40.- Efectuar un Análisis Exploratorio (EDA)

Abrir el archivo chess_games.csv y responder las siguientes preguntas en cuadros de código separados:

1. ¿Cuántas filas de datos tiene?
2. ¿Qué representa cada fila?
3. ¿Quién ganó más, los blancos o los negros?
4. ¿Cuántas jugadas por partida hay en promedio?
5. ¿Cuál fue la "primera jugada" más probable?
6. ¿Cuántas partidas terminan en jaque mate? (la alternativa es la rendición o el tiempo muerto)
7. ¿Qué porcentaje de partidas es?
8. ¿Cuánto duró la partida media?
9. ¿Cuánto duró la partida media que ganaron las blancas? 
10. ¿Cuánto duró la partida media que fue un empate?
11. ¿Qué es un código de incremento?
12. Haz tres preguntas propias *por escrito*. Luego contéstalas. (escribimos nuestras preguntas porque si vuelves más tarde olvidarás qué pregunta estabas respondiendo)

### 41.- Efectuar un análisis exploratorio

Abrir el archivo exo.csv, https://exoplanetarchive.ipac.caltech.edu/docs/API_kepcandidate_columns.html y contestar las siguientes preguntas escribiendo headers, divisiones de celdas e identaciones necesarias

1. ¿cuántas filas de datos tiene?
2. ¿Qué representa cada fila?
3. ¿Cuántos planetas están confirmados?
4. ¿Cuál es la temperatura máxima de los planetas?
5. ¿Cuál es la temperatura máxima de las estrellas?
6. ¿Cuál es la distancia entre el planeta y la estrella?
7. ¿Cuántos planetas hay en cada sistema?
8. ¿Cuánto varía la temperatura de los planetas?
9. ¿Cuánto varían las temperaturas de las estrellas?
10. ¿Cuántos NaN hay en cada categoría?
11. Haz tres preguntas propias *por escrito*. Luego contéstalas. (escribimos nuestras preguntas porque si vuelves más tarde olvidarás qué pregunta estabas respondiendo)

## Unión de DataFrames

Es posible unir DataFrames como se haría en SQL.

Ejemplo

In [None]:
mood_df = pd.DataFrame([['overcast', 'sad'], ['rainy', 'sad'], ['sunny', 'happy']],
                       columns=['Weather', 'Mood'])

mood_df

In [None]:
golf_df.merge(mood_df, how='inner', left_on='Outlook', right_on='Weather')

## Concatenar

Este método es equivalente a una unión de SQL

In [None]:
df1 = pd.DataFrame(
    {'Col3': range(5), 'Col2': range(5), 'Col1': range(5)},
    index=range(0, 5))
df2 = pd.DataFrame(
    {'Col1': range(5), 'Col2': range(5), 'Col4': range(5)},
    index=range(3, 8))

In [None]:
df1

In [None]:
df2

#### Vertical
`sort` controla el orden de las columnas

In [None]:
pd.concat([df1, df2], axis=0, join='outer', sort=True)

`inner` limita las columnas de ambas entradas

In [None]:
pd.concat([df1, df2], axis=0, join='inner', sort=True)

#### Horizontal

In [None]:
pd.concat([df1, df2], axis=1)

**Extra:** Por qué algunos números son flotantes y otros no?

Documentación: https://pandas.pydata.org/pandas-docs/stable/merging.html