In [33]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')


## dar nombres a las columnas.
Si no indicamos nada, la primera fila de datos se convierte en nombres de columna (en modo texto)

In [31]:
df.head(3)

Unnamed: 0,"""2022-02-06T16:37:15.711Z""",23.00,35.00
0,"""2022-02-06T16:41:05.533Z""",23.0,35.0
1,"""2022-02-06T16:47:08.500Z""",23.0,35.0
2,"""2022-02-06T16:50:08.318Z""",23.0,35.0


In [32]:
df['23.00'].head(3)

0    23.0
1    23.0
2    23.0
Name: 23.00, dtype: float64

Si copiamos las columnas con dentro del atributo *columns* (es una variable asociada al *tipo* DataFrame), desaparece la primera fila de datos, sustituida por la lista de nombres que hayamos escrito.

In [23]:
df.columns =['hora', 'temperatura', 'humedad']

In [24]:
df.head(3)

Unnamed: 0,hora,temperatura,humedad
0,"""2022-02-06T16:41:05.533Z""",23.0,35.0
1,"""2022-02-06T16:47:08.500Z""",23.0,35.0
2,"""2022-02-06T16:50:08.318Z""",23.0,35.0


Pero si añadimos los nombres como parámetro dentro de la función de lectura del archivo, la primera fila permanece, y los nombres se añaden encima.

In [41]:
df = pd.read_csv('data.csv', names=['hora', 'temperatura', 'humedad'])
df.head(3)

Unnamed: 0,hora,temperatura,humedad
0,"""2022-02-06T16:37:15.711Z""",23.0,35.0
1,"""2022-02-06T16:41:05.533Z""",23.0,35.0
2,"""2022-02-06T16:47:08.500Z""",23.0,35.0


# Atributos y métodos
Con la instrucción `dir(variable)` podemos ver todos los atributos y métodos disponibles, aunque es más cómodo buscar en Internet la documentación del tipo de variable.

Algunos de los más útiles en los *DataFrames* son `describe()`, `size()`, `sort_values()`, `count()`, `groupby()`, `mean()` o `sum()`  

In [None]:
print(df.describe())
print()
print(df.size)
print()
print(df.shape)

# Selección de datos
## Columnas
Se puede filtrar una columna poniendo su nombre entre corchetes:
```python
df['temperatura']
```
o se puede usar la notación de atributos:
```python
df.temperatura
```

También se pueden aplicar los métodos tras el filtrado:
```python
df.temperatura.size()
```
Averigua, siguiendo este último ejemplo, la media (`mean()`) de la humedad, en la siguiente celda, y los últimos 4 datos de temperatura en la celda tras ella.

In [None]:
# Media de la humedad:


In [None]:
# cola (tail) de los datos de temperatura:


Para filtrar dos columnas, hay que poner una lista de nombres de columna dentro de los corchetes. Las listas se escriben también con corchetes, así que tendremos que escribir corchetes dobles. `[['fcolumna1', 'columna2']]`.

Muestra los cinco primeros datos (`head()`) de temperatura y humedad en la siguiente celda.

Y ahora muestra el tamaño (size) de los cinco primeros datos (head()) de temperatura y humedad en la siguiente celda.

## Filas
Para seleccionar filas concretas, se puede usar un rango de índices:

In [106]:
df[2:4]

Unnamed: 0,hora,temperatura,humedad
2,"""2022-02-06T16:47:08.500Z""",23.0,35.0
3,"""2022-02-06T16:50:08.318Z""",23.0,35.0


## Ambas
Se deben usar dos secuencias de corchetes:

In [111]:
df[4:7]['temperatura']

4    23.0
5    23.0
6    23.0
Name: temperatura, dtype: float64

Si indicamos el filtro de columnas en forma de lista, la visualización cambia:

In [None]:
df['temperatura']

In [None]:
df[['temperatura']]

In [None]:
df[['temperatura']][4:7]

Podemos usar índices negativos para contar desde el final de los datos. Si omitimos uno de los índices, se tomará ese extremo:

`df['temperatura'][:4]` mostrará los cuatro primeros.

`df['temperatura'][745:]` mostrará los últimos desde el 745.

`df['temperatura'][-4:]` mostrará los cuatro últimos.

`df['temperatura'][-10:-3]` mostrará los 7 últimos anteriores a los tres últimos.

Los índices de las filas deben estar en orden creciente, o no se seleccionará ningún dato.

`df['temperatura'][745:740]` da solo un resultado resumen vacío.

### Ejercicio:
Comprueba el funcionamiento de los cinco ejemplos anteriores:

Se pueden usar métodos y atributos en los resultados de estas operaciones de selección, añadiendo la función que queremos tras la expresión de filtrado, usando la *notación* del **punto**:

```python
df[['temperatura']][0:5].describe()
```

### Ejercicio:
En las siguientes tres celdas:
1. Muestra los últimos 20 datos de humedad.
1. Averigua la media de temperatura de las 10 segundas celdas, usando la notación de selección por filas.
1. Muestra la mediana (*median()*) de los 30 primeros datos de humedad y temperatura.

## Simplificar la selección de filas y columnas: función *loc*
Se puede usar dentro de los mismos corchetes el filtro de filas y columnas, usando la coma como separador, con la función **loc**:
```python
df.loc[1:4, 'temperatura']
```

In [None]:
df.loc[10:29, ['temperatura','humedad']].value_counts()

## Filtrar por valores
Observa esta expresión:
```python
df.temperatura == 19.0
```
El resultado es la comparación de cada valor de temperatura con el valor 19.0. Tiene un índice, igual al del *DataFrama*, y una columna con el resultado, que será **True** o **False** según el contenido de cada fila.


In [None]:
df.temperatura == 19.0

También podemos usar la notación `df['temperatura'] == 19.0`.

Si ahora colocamos esa expresión dentro de unos corchetes del *DataFrame*, se mostrarán aquellas filas que coinciden con el valor que hemos propuesto

In [None]:
df[df.temperatura == 19.0]

Para filtrar varios valores podemos usar dos enfoques:
- **query** es un método que admite una cadena de texto como parámetro, y allí ponemos la combinación de expresiones que queremos utilizar.
- **isin** es otro método, en el que escribimos los valores dentro de una lista.

In [None]:
df.query('temperatura == 20.0 | temperatura == 19.0')

In [None]:
df[df.temperatura.isin([19.0, 20,0])]

El filtrado por valores puede usar gran cantidad de funciones, especialmente cuando se trabaja con texto.

## Agrupar datos
El método `groupby()` permite realizar recuentos y otras tareas con los datos agrupados. Veamos primero en qué consiste:
```python
df.groupby('temperatura').describe()
```
Copia el código anterior a la celda siguiente y comprueba el funcionamiento:

In [217]:
df.groupby('temperatura').describe()

Unnamed: 0_level_0,humedad,humedad,humedad,humedad,humedad,humedad,humedad,humedad
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
temperatura,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
17.0,3.0,32.333333,0.57735,32.0,32.0,32.0,32.5,33.0
18.0,5.0,32.4,0.894427,32.0,32.0,32.0,32.0,34.0
19.0,13.0,35.153846,2.192645,32.0,33.0,34.0,37.0,38.0
20.0,47.0,36.319149,1.519531,34.0,35.0,36.0,37.0,39.0
21.0,222.0,38.914414,1.706222,34.0,38.0,39.0,40.0,42.0
22.0,180.0,37.566667,1.603418,33.0,37.0,38.0,38.25,42.0
23.0,254.0,36.492126,1.424634,30.0,36.0,36.0,37.0,41.0
24.0,35.0,35.857143,0.974464,33.0,35.5,36.0,36.0,37.0


Muchas de las operaciones que estamos haciendo aquí sobre nuestro *DataFrame* dan como resultado también un *DataFrame*, o bien, una *Serie* si es el caso que el resultado tiene una sola columna.

Por este motivo, podemos aplicar los filtros vistos antes también a este resultado. Tened en cuenta que aquí, el grupo de temperaturas se convierte en el índice, de manera que hay que usar estos valores de índice para filtrar las filas:

```python
df.groupby('temperatura').describe()[17:18]
df.groupby('temperatura').describe()[('humedad', 'mean')]
```
La segunda línea de arriba debe usar o bien solamente los corchetes, o encerrar -tal y como está- los nombres de índices entre paréntesis, ya que se trata de un *DataFrame* que tiene dos niveles de columnas.

Prueba estos ejemplos en las cedas siguientes:

Prueba otra vez este último ejemplo, pero ahora encerrando las columnas 'humedad' y 'mean' entre dobles corchetes:

También podríamos recalcular la media de este último ejemplo, usando el filtrado de columnas tras el agrupamiento, en vez de utilizar el resumen que proporciona `describe()`:

In [None]:
df.groupby('temperatura')[['humedad']].mean()

También se puede usar la función `loc` para pasar los índices por nombre, o la función `iloc` para pasarlos por orden de fila o columna.

In [None]:
df.groupby('temperatura').describe().loc[17:19,:].loc[:,('humedad', 'mean')]

Finalmente, comprueba las siguientes expresiones:

In [None]:
print('Tamaño de cada grupo de distintas temperaturas (es un recuento)')
df.groupby('temperatura').size()

In [None]:
print("Recuento, cantidad de veces que aparece la temperatura de 19.0")
print('   ',df['temperatura'][df.temperatura == 19.0].count(), " veces.")

In [None]:
print("Lo mismo, usando 'size'.")
df.temperatura[df.temperatura == 19.0].size

In [None]:
print("Si se filtran dos columnas, el tamaño será el doble, por lo que no es adecuado para contar:")
df[['temperatura', 'humedad']][df.temperatura == 19.0].size

In [None]:
print("Usando 'value_counts' se puede contar por subagrupamientos:")
df[['temperatura', 'humedad']][df.temperatura == 19.0].value_counts()

In [None]:
print("Aunque podemos usar también 'count' si agrupamos con 'groupby' antes:")
df[['temperatura', 'humedad']][df.temperatura == 19.0].groupby('humedad').count()

### Ejercicios:
1. Imprime la cantidad de filas que tienen temperatura de 20.0 y humedad de 35.0
1. Calcula la media de temperatura de todos los datos cuya humedad es de 33.0
1. Y ahora la media de temperatura de los datos con humedad de 36.0
1. Suma la cantidad de filas que tienen humedad mayor que 35

## Ordenar los datos.
Si te has fijado en las instrucciones `groupby` anteriores, habrás observado que los grupos se ordenan crecientemente.

Sin embargo, cuando hicimos `value_counts`, no ocurre así. Con las selecciones por corchetes, los datos se agrupan (si la operación lo exige) según el orden en el que van apareciendo.

Para corregir esto, se usa `sort_values`.

In [290]:
df[df.temperatura == 19.0][['humedad']].sort_values(by=('humedad'), ascending=True).value_counts()

humedad
37.0       4
33.0       3
34.0       3
38.0       2
32.0       1
dtype: int64

In [None]:
plt.figure(figsize=(20,20))

print(df)

In [None]:
#df.in

plt.plot(df['temperatura'])


In [None]:
df.sort_values('humedad', ascending=True).head(5)

In [None]:
plt.plot(df.humedad)

In [None]:
plt.xticks(rotation='vertical')

In [None]:
df.temperatura.mean()

In [None]:
df['humedad'].mean()