# Temperatura
Inteligencia Artificial - Facundo A. Lucianna - CEIA - FIUBA

En este ejercicio estaremos explorando el archivo *temperature.csv* con datos de ciudades de países de todo el mundo. Fuente: [Kaggle](https://www.kaggle.com/datasets/sudalairajkumar/daily-temperature-of-major-cities) 

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

---

## Configuración y eliminación de índices

Pandas permite designar columnas como un índice. Esto permite un código más limpio al tomar subconjuntos (además de proporcionar una búsqueda más eficiente en algunas circunstancias).

1. Importa `pandas` como `pd` 

2. Lea el csv en un DataFrame y llame al DataFrame `temperatures`

In [None]:
___ = pd.___("./temperatures.csv")

3. Vea la cabecera de `temperatures`. Ademas, explore la información sobre columnas y valores faltantes.

4. Cambie el índice de temperatures usando la columna `"city"`, asignándolo a `temperatures_ind`.

In [None]:
___ = ___.set_index(["city"])

5. Resetee el indice de `temperatures_ind`  sin perder la columna `city`.

In [None]:
___.reset_index()

6. Resetee el indice de `temperatures_ind`  perdiendo la columna `"city"`.

In [None]:
___.reset_index(drop=True)

---

## Slicing usando .loc[]

`.loc[]` es un método de creación de subconjuntos que acepta valores de índice. Cuando se le pasa un solo argumento, tomará un subconjunto de filas y por defecto a todas las columnas.

1. Crea una lista llamada `cities` que contenga a `'Paris'` y  `'Bordeaux'`

In [None]:
__ = [__, __]

2. En `temperatures` use filtrado de columnas para que se filtren a las filas en donde la columna `"city"` tome los valores de la lista `"cities"`.

In [None]:
__[__["city"].isin(__)]

3. Use `.loc[]` para filtras en `temperatures_ind` para las filas en donde el indice coincide con las ciudades de la lista `cities`.

In [None]:
temperatures_ind.loc[__]

---

## Índice de multi-niveles

Los índices también se pueden crear a partir de varias columnas, formando un índice de varios niveles (a veces denominado índice jerárquico).

El beneficio es que los índices multinivel hacen que sea más natural razonar sobre variables categóricas anidadas. Por ejemplo, en un ensayo clínico, podes tener grupos de control y de tratamiento. Entonces cada sujeto de prueba pertenece a uno u otro grupo, y podemos decir que un sujeto de prueba está anidado dentro del grupo de tratamiento. De manera similar, en el conjunto de datos de temperatura, la ciudad está ubicada en el país, por lo que podemos decir que una ciudad está anidada dentro del país.

El principal inconveniente es que el código para manipular índices es diferente del código para manipular columnas, por lo que debe aprender dos sintaxis y realizar un seguimiento de cómo se representan sus datos.

1. Establezca el índice de `temperatures` en las columnas `"country"` y `"city"`; asígnelo a `temperatures_ind`

In [None]:
___ = temperatures.set_index(__)

2. Arme una lista de tuplas. Cada tupla debe contener un país y ciudad: `"Argentina"/"Buenos Aires"` y `"Brazil"/"Brasilia"`. Llame a la lista de tupla como `rows_to_keep`.

In [None]:
rows_to_keep = [("Argentina", ___), ___]

3. Filtre `temperatures_ind` usando `rows_to_keep` usando `.loc[]`. Imprima el resultado. 

In [None]:
temperatures_ind.___

---

## Ordenando por valores de índices

En el notebook *Homeless*, se cambió el orden de las filas usando `.sort_values()`. También se puede ordenar por elementos del índice. Para esto, necesita usar `.sort_index()`.

La sintaxis es muy similar a la de `.sort_values()`:

| Ordenar usando... | Sintaxis  |
|---|---|
| todos los índices  | `df.sort_index()`   |
| usando algunos elementos del índice  | `df.sort_index(level=["peso"])`  |
| cambiando a modo descendente  | `df.sort_index(ascending=False)`  |
| cambiando a modo descendente en uno de los niveles jerárquicos  | `df.sort_index(level=["altura","peso"], ascending=[False, True])`  |

1. Ordene a `temperatures_ind` por los valores del índice.

In [None]:
___.sort_index()

2. Ordene a `temperatures_ind` por los valores de índice en el nivel de `"city"`.

In [None]:
temperatures_ind.___(level=[___])

3. Ordene a `temperatures_ind` por `country` ascendente y luego `city` descendente.

In [None]:
___.___(___, ascending=[__, __])

---

## Slicing más avanzado

Slicing en Python, tal como vimos, permite seleccionar elementos consecutivos de un objeto utilizando la sintaxis `first:last`. Los DataFrames se pueden dividir por valores de índice o por número de fila/columna. Viendo el primer caso:

Comparando cuando hacemos slicing de listas, hay cosa que debemos tener en cuenta, sobretodo si tenemos índices jerárquicos:

Solo puede dividir un índice si el índice está ordenado (usando `.sort_index()`).
Para cortar en el nivel exterior, `first:last` pueden ser strings.
Para cortar en niveles internos, `first:last` deben ser tuplas.

Trabajando con `temperatures_ind`

1. Ordenar el índice de `temperatures_ind`

In [None]:
temperatures_ind.___(inplace=True)

2. Use el corte con `.loc[]` para obtener estos subconjuntos:
    
A. de `"Pakistan"` a `"Russia"`

In [None]:
temperatures_ind.__["Pakistan":___]

B. de `"Islamabad"` a `"Moscow"` (Esto va a devolver algo sin sentido)

In [None]:
__.loc[__:__]

C. de `("Pakistan", "Islamabad")` a `("Russia", "Moscow")`

---

## Slicing tanto en filas como en columnas

Hasta ahora has dividido el DataFrame en filas o columnas, pero a menudo es natural dividir en ambas dimensiones a la vez. Es decir, al pasar dos argumentos a `.loc[]`, puede crear subconjuntos por filas y columnas de una sola vez.

Trabajando con `temperatures_ind`

1. Utilice `.loc[]` para crear subconjuntos de filas desde `("India", "Delhi")` hasta `("Indonesia", "Jakarta")`.

2. Use `.loc[]` para crear subconjuntos de columnas desde `"day"` hasta `"avg_temp_F"`.

In [None]:
temperatures_ind.loc[:, ___:___]

3. Use `.loc[]` para crear el subconjunto desde `("India", "Delhi")` hasta `("Indonesia", "Jakarta")`, y desde `"day"` hasta `"avg_temp_F"`

---

## Creando filas de fechas

Pandas proporciona un objeto DateTime con una precisión de nanosegundos llamado Timestamp para trabajar con valores de fecha y hora. Este objeto nos da la posibilidad de incorporarlo a DataFrames para realizar operaciones avanzadas de fechas sin preocuparnos de pormenores propios de las fechas (por ejemplo, podemos aplicar filtrados que teniendo solo nos quedemos con fechas con dia laborales, o despreocuparse si un año es bisiesto o no). 

La forma de convertir o crear una columna en una que utilice Timestamp, debemos usar `pd.to_datetime()`. `pd.to_datetime()` acepta diferentes Series, tales como formadas por strings, enteros, o combinación de columnas con enteros: 

``` Python
pd.to_datetime(df["date_as_str"])
```

En los casos de strings, las fechas deben estar en algún formato lógico y consistente. Pandas va a resolver la mayoría de los casos, pero llegado al caso se puede especificar el formato:

``` Python
pd.to_datetime(df["date_as_str"], format="%Y-%m-%d %H:%M:%S")
```

En general para evitar problemas, se recomienda utilizar el formato de fechas [ISO 8601](https://es.wikipedia.org/wiki/ISO_8601).
 
Si tenemos números enteros,

``` Python
pd.to_datetime(df["date_as_int"], unit='s')
```

Va a considerar a los enteros en segundos, y a una distancia del tiempo de [Unix](https://www.unixtimestamp.com/) (`1970-01-01`). 

OBS: El concepto de Unix es similar a la referencia del nacimiento de cristo.

Si tenemos múltiples columnas desagregado año, mes, dia, hora, minutos, etc:

``` Python
pd.to_datetime(df[["year", "month","day"]])
```

Trabajando con `temperature`

1. Cree la columna `"date"` en el DataFrame `temperature` que sea formato timestamp utilizando las columnas `"year"`, `"month"` y `"day"`

In [None]:
temperature[___] = pd.to_datetime(___[["year", ___, ___]])

---

## Slicing series de tiempo

Hacer slicing de series de tiempo es útil para series de tiempo, ya que es común querer filtrar los datos dentro de un rango de fechas. Lo importante a la hora de filtrar es utilizar el formato *ISO 8601*, es decir, `"yyyy-mm-dd"` para año-mes-día, `"yyyy-mm"` para año-mes y `"yyyy"` para año.

Trabajando con `temperature`

1. Use filtrado por condiciones y la fecha completa `"yyyy-mm-dd"` en temperature para recortar las filas que van desde principio del 2010 a finales de 2011. Muestre el resultado.

In [None]:
___[(___["date"] >= "2010-___-___") & ___]

2. Establezca como índice de `temperature` a la columna de `"date"` y ordénelo. Asignelo a `temperatures_ind`.

3. Filtre usando `.loc[]` a `temperatures_ind` para las filas que van desde 2010 a 2011.

In [None]:
___.loc["2010":___]

4. Filtre usando `.loc[]` a `temperatures_ind` para las filas que van desde agosto de 2010 a febrero de 2011.

In [None]:
___.loc[___:"2011-__"]

----

## Slicing por número de fila/columna

Las formas más comunes de hacer slicing de filas son las formas que hemos visto anteriormente: usando una condición booleana o mediante etiquetas de índice. Sin embargo, ocasionalmente también es útil pasar números de fila.

Esto se hace usando `.iloc[]`, y al igual que `.loc[]`, puede tomar dos argumentos para permitirle dividir por filas y columnas.

Use `.iloc[]` en `temperatures` para tomar subconjuntos.

1. Obtenga la fila 23, columna 2 (posiciones de índice 22 y 1).

In [None]:
___.iloc[___, ___]

2. Obtenga las primeras 5 filas (posiciones de índice 0 a 5).

In [None]:
___.iloc[:___]

3. Obtenga todas las filas, columnas 3 y 4 (posiciones de índice 2 a 4).

In [None]:
___.iloc[___, ___:___]

4. Obtenga las primeras 5 filas, columnas 3 y 4.

----

## Transformando tipos de variables

Un problema típico es que una columna que deberían ser valores numéricos sean strings. Entonces al hacer sumas conducen a la concatenación de strings, no a resultados numéricos.

Con el atributo `.dtypes` podemos ver el tipo de nuestra columnas. Ademas, podemos cambiar el tipo usando el metodo `.astype()` y en el paréntesis podemos especificar que tipo de variable que queremos convertir.

`df.dtypes` -> Nos devuelve los tipos de cada columnas 

Cambiamos el tipo de variable:

``` Python
df["peso"] = df["peso"].astype(int)
```

En nuesto `temperatures` vamos a realizar lo siguiente:

1. Convierta la columna `"avg_temp_F"` en tipo string (`str`) y guárdelo en la columna `"avg_temp_F_as_string"`.


In [None]:
temperatures[___] = temperatures[___].astype(___)

2. Usando `.loc[]`, sume las primeras dos filas de la columna `"avg_temp_F"`.

In [None]:
temperatures.loc[0, ___] + ___

3. Usando `.loc[]`, sume las primeras dos filas de la columna `"avg_temp_F_as_string"`.

¿Qué pasa en cada caso? ¿Cuál de los dos casos es la opción correcta para este problema?

----

## Transformando avanzadas

Recordando el notebook *Homeless*, uno no está atascado únicamente con los datos que provienen del Dataset. Se pueden crear columnas desde cero, pero también, tal como vimos de clase, es común obtenerlas de otras columnas.

Si vemos, el DataFrame `temperatures`, la temperatura está en grados *Fahrenheit*, podemos cambiar las unidades de temperatura ([Link con los tipos de conversiones](https://www.how-to-study.com/metodos-de-estudio/escalas-de-temperatura.asp)):

1. Convierta los grados de Fahrenheit a Centigrados y guardelo en la columna `"avg_temp_C"`.

In [None]:
temperatures["avg_temp_C"] = 

2. Convierta los grados de Fahrenheit a Kelvin y guardelo en la columna `"avg_temp_K"`.

3. Realice un slicing, filtrando a `"city"` con `"Buenos Aires"` y vea los tres tipos de grados obtenidos para esa ciudad.

---

## Buscando duplicados

Hay situaciones en las que nuestra información puede aparecer duplicada, o hacemos transformaciones que nos terminan duplicando la información. 

Pandas nos da varios métodos para manejar estos datos:

`.duplicated()` el cual nos retorna una Serie de booleanos. Esto se puede usar en transformaciones o en `.loc[]`. 

``` Python
df.duplicated() # Nos devuelve una serie de booleanos indicando si está duplicado o no.

df[df.duplicated()] # Filtra y obtiene todas las filas que están duplicadas.

df.duplicated(subset=["peso", "altura"]) # Nos devuelve una serie de booleanos indicando si está duplicado o no, pero solamente se fija la columnas "peso" y "altura".
```

Si queremos eliminar a los duplicados y solo quedarmos con un solo valor, podemos usar `.duplicated()` combinandolo con `.loc[]` o `.drop_duplicated()`:

``` Python
df.loc[df.duplicated(), :] #Devuelve un dataframe sin duplicados. Por defecto se queda con los primeros valores que encuentre.

df.loc[df.duplicated(subset=["peso", "altura"]), :]  #Devuelve un dataframe sin duplicados de las columnas "peso" y "altura".

df.loc[df.duplicated(keep="last"), :] #Devuelve un dataframe sin duplicados. En este caso, se queda con la última ocurrencia.

df.drop_duplicates() #Devuelve un dataframe sin duplicados. Por defecto se queda con los primeros valores que encuentre.

df.drop_duplicates() #Devuelve un dataframe sin duplicados. Por defecto se queda con los primeros valores que encuentre.

df.drop_duplicates(subset=["peso”, “altura"]) #Devuelve un dataframe sin duplicados de las columnas "peso" y "altura".

df.drop_duplicates(keep="last") #Devuelve un dataframe sin duplicados. En este caso, se queda con la última ocurrencia.

df.drop_duplicates(inplace=True) #Quita de df los duplicados.
```

En `temperature` hay algunas filas que se repiten (es decir, presentan la misma información):

1. Filtre el DataFrame a las filas duplicadas de `temperature` y asígnelo a `temperature_dup`


In [None]:
___ = ___[___.duplicated()]

2. Imprima el numero de filas duplicadas

3. Quite los duplicados de `temperature`

In [None]:
___.drop_duplicates(inplace=___) 