# Temperatura
Inteligencia Artificial - Facundo A. Lucianna - CEIA - FIUBA

En este ejercicio estaremos explorando el archivo *temperature.csv* con datos de ciudades de países de todo el mundo. Fuente: [Kaggle](https://www.kaggle.com/datasets/sudalairajkumar/daily-temperature-of-major-cities) 

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

---

## Configuración y eliminación de índices

Pandas permite designar columnas como un índice. Esto permite un código más limpio al tomar subconjuntos (además de proporcionar una búsqueda más eficiente en algunas circunstancias).

1. Importa `pandas` como `pd` 

In [1]:
import pandas as pd

2. Lea el csv en un DataFrame y llame al DataFrame `temperatures`

In [2]:
temperatures = pd.read_csv("./datasets/temperatures.csv")

3. Vea la cabecera de `temperatures`. Ademas, explore la información sobre columnas y valores faltantes.

In [3]:
temperatures.head()

Unnamed: 0,year,month,day,city,country,avg_temp_F
0,2000,1,1,Algiers,Algeria,43.9
1,2000,1,2,Algiers,Algeria,46.5
2,2000,1,3,Algiers,Algeria,46.1
3,2000,1,4,Algiers,Algeria,45.7
4,2000,1,5,Algiers,Algeria,46.2


In [4]:
temperatures.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2311229 entries, 0 to 2311228
Data columns (total 6 columns):
 #   Column      Dtype  
---  ------      -----  
 0   year        int64  
 1   month       int64  
 2   day         int64  
 3   city        object 
 4   country     object 
 5   avg_temp_F  float64
dtypes: float64(1), int64(3), object(2)
memory usage: 105.8+ MB


4. Cambie el índice de temperatures usando la columna `"city"`, asignándolo a `temperatures_ind`.

In [5]:
temperatures_ind = temperatures.set_index(["city"])
temperatures_ind.head()

Unnamed: 0_level_0,year,month,day,country,avg_temp_F
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Algiers,2000,1,1,Algeria,43.9
Algiers,2000,1,2,Algeria,46.5
Algiers,2000,1,3,Algeria,46.1
Algiers,2000,1,4,Algeria,45.7
Algiers,2000,1,5,Algeria,46.2


5. Resetee el indice de `temperatures_ind`  sin perder la columna `city`.

In [6]:
temperatures_ind.reset_index()

Unnamed: 0,city,year,month,day,country,avg_temp_F
0,Algiers,2000,1,1,Algeria,43.9
1,Algiers,2000,1,2,Algeria,46.5
2,Algiers,2000,1,3,Algeria,46.1
3,Algiers,2000,1,4,Algeria,45.7
4,Algiers,2000,1,5,Algeria,46.2
...,...,...,...,...,...,...
2311224,Algiers,2000,1,6,Algeria,43.8
2311225,Algiers,2000,1,7,Algeria,44.9
2311226,Algiers,2000,1,8,Algeria,46.2
2311227,Algiers,2000,1,9,Algeria,45.7


6. Resetee el indice de `temperatures_ind`  perdiendo la columna `"city"`.

In [7]:
temperatures_ind.reset_index(drop=True)

Unnamed: 0,year,month,day,country,avg_temp_F
0,2000,1,1,Algeria,43.9
1,2000,1,2,Algeria,46.5
2,2000,1,3,Algeria,46.1
3,2000,1,4,Algeria,45.7
4,2000,1,5,Algeria,46.2
...,...,...,...,...,...
2311224,2000,1,6,Algeria,43.8
2311225,2000,1,7,Algeria,44.9
2311226,2000,1,8,Algeria,46.2
2311227,2000,1,9,Algeria,45.7


---

## Slicing usando .loc[]

`.loc[]` es un método de creación de subconjuntos que acepta valores de índice. Cuando se le pasa un solo argumento, tomará un subconjunto de filas y por defecto a todas las columnas.

1. Crea una lista llamada `cities` que contenga a `'Paris'` y  `'Bordeaux'`

In [8]:
cities = ["Paris", "Bordeaux"]

2. En `temperatures` use filtrado de columnas para que se filtren a las filas en donde la columna `"city"` tome los valores de la lista `"cities"`.

In [9]:
temperatures[temperatures["city"].isin(cities)]

Unnamed: 0,year,month,day,city,country,avg_temp_F
568655,2000,1,1,Paris,France,47.1
568656,2000,1,2,Paris,France,46.9
568657,2000,1,3,Paris,France,45.3
568658,2000,1,4,Paris,France,47.7
568659,2000,1,5,Paris,France,46.9
...,...,...,...,...,...,...
583530,2020,5,9,Bordeaux,France,61.5
583531,2020,5,10,Bordeaux,France,56.4
583532,2020,5,11,Bordeaux,France,48.9
583533,2020,5,12,Bordeaux,France,50.2


3. Use `.loc[]` para filtras en `temperatures_ind` para las filas en donde el indice coincide con las ciudades de la lista `cities`.

In [10]:
temperatures_ind.loc[cities]

Unnamed: 0_level_0,year,month,day,country,avg_temp_F
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Paris,2000,1,1,France,47.1
Paris,2000,1,2,France,46.9
Paris,2000,1,3,France,45.3
Paris,2000,1,4,France,47.7
Paris,2000,1,5,France,46.9
...,...,...,...,...,...
Bordeaux,2020,5,9,France,61.5
Bordeaux,2020,5,10,France,56.4
Bordeaux,2020,5,11,France,48.9
Bordeaux,2020,5,12,France,50.2


---

## Índice de multi-niveles

Los índices también se pueden crear a partir de varias columnas, formando un índice de varios niveles (a veces denominado índice jerárquico).

El beneficio es que los índices multinivel hacen que sea más natural razonar sobre variables categóricas anidadas. Por ejemplo, en un ensayo clínico, podes tener grupos de control y de tratamiento. Entonces cada sujeto de prueba pertenece a uno u otro grupo, y podemos decir que un sujeto de prueba está anidado dentro del grupo de tratamiento. De manera similar, en el conjunto de datos de temperatura, la ciudad está ubicada en el país, por lo que podemos decir que una ciudad está anidada dentro del país.

El principal inconveniente es que el código para manipular índices es diferente del código para manipular columnas, por lo que debe aprender dos sintaxis y realizar un seguimiento de cómo se representan sus datos.

1. Establezca el índice de `temperatures` en las columnas `"country"` y `"city"`; asígnelo a `temperatures_ind`

In [11]:
temperatures_ind = temperatures.set_index(["country","city"])

2. Arme una lista de tuplas. Cada tupla debe contener un país y ciudad: `"Argentina"/"Buenos Aires"` y `"Brazil"/"Brasilia"`. Llame a la lista de tupla como `rows_to_keep`.

In [12]:
rows_to_keep = [("Argentina", "Buenos Aires"), ("Brazil", "Brasilia")]

3. Filtre `temperatures_ind` usando `rows_to_keep` usando `.loc[]`. Imprima el resultado. 

In [13]:
temperatures_ind.loc[rows_to_keep]

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Argentina,Buenos Aires,2000,1,1,79.5
Argentina,Buenos Aires,2000,1,2,78.8
Argentina,Buenos Aires,2000,1,3,74.3
Argentina,Buenos Aires,2000,1,4,79.0
Argentina,Buenos Aires,2000,1,5,77.1
...,...,...,...,...,...
Brazil,Brasilia,2020,5,9,68.4
Brazil,Brasilia,2020,5,10,67.8
Brazil,Brasilia,2020,5,11,68.6
Brazil,Brasilia,2020,5,12,67.9


---

## Ordenando por valores de índices

En el notebook *Homeless*, se cambió el orden de las filas usando `.sort_values()`. También se puede ordenar por elementos del índice. Para esto, necesita usar `.sort_index()`.

La sintaxis es muy similar a la de `.sort_values()`:

| Ordenar usando... | Sintaxis  |
|---|---|
| todos los índices  | `df.sort_index()`   |
| usando algunos elementos del índice  | `df.sort_index(level=["peso"])`  |
| cambiando a modo descendente  | `df.sort_index(ascending=False)`  |
| cambiando a modo descendente en uno de los niveles jerárquicos  | `df.sort_index(level=["altura","peso"], ascending=[False, True])`  |

1. Ordene a `temperatures_ind` por los valores del índice.

In [14]:
temperatures_ind.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Albania,Tirana,2000,1,1,-99.0
Albania,Tirana,2000,1,2,33.8
Albania,Tirana,2000,1,3,35.6
Albania,Tirana,2000,1,4,36.5
Albania,Tirana,2000,1,5,37.4
...,...,...,...,...,...
Zambia,Lusaka,2014,1,18,71.3
Zambia,Lusaka,2014,1,19,77.5
Zambia,Lusaka,2014,1,20,73.4
Zambia,Lusaka,2014,1,21,73.1


2. Ordene a `temperatures_ind` por los valores de índice en el nivel de `"city"`.

In [15]:
temperatures_ind.sort_index(level=["city"])

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ivory Coast,Abidjan,2000,1,1,80.7
Ivory Coast,Abidjan,2000,1,2,78.1
Ivory Coast,Abidjan,2000,1,3,79.0
Ivory Coast,Abidjan,2000,1,4,80.4
Ivory Coast,Abidjan,2000,1,5,79.8
...,...,...,...,...,...
Switzerland,Zurich,2020,5,9,67.1
Switzerland,Zurich,2020,5,10,64.7
Switzerland,Zurich,2020,5,11,52.0
Switzerland,Zurich,2020,5,12,43.5


3. Ordene a `temperatures_ind` por `country` ascendente y luego `city` descendente.

In [16]:
temperatures_ind.sort_index(level=["country","city"], ascending=[True, False])

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Albania,Tirana,2000,1,1,-99.0
Albania,Tirana,2000,1,2,33.8
Albania,Tirana,2000,1,3,35.6
Albania,Tirana,2000,1,4,36.5
Albania,Tirana,2000,1,5,37.4
...,...,...,...,...,...
Zambia,Lusaka,2014,1,18,71.3
Zambia,Lusaka,2014,1,19,77.5
Zambia,Lusaka,2014,1,20,73.4
Zambia,Lusaka,2014,1,21,73.1


---

## Slicing más avanzado

Slicing en Python, tal como vimos, permite seleccionar elementos consecutivos de un objeto utilizando la sintaxis `first:last`. Los DataFrames se pueden dividir por valores de índice o por número de fila/columna. Viendo el primer caso:

Comparando cuando hacemos slicing de listas, hay cosa que debemos tener en cuenta, sobretodo si tenemos índices jerárquicos:

Solo puede dividir un índice si el índice está ordenado (usando `.sort_index()`).
Para cortar en el nivel exterior, `first:last` pueden ser strings.
Para cortar en niveles internos, `first:last` deben ser tuplas.

Trabajando con `temperatures_ind`

1. Ordenar el índice de `temperatures_ind`

In [17]:
temperatures_ind.sort_index(inplace=True)

2. Use el corte con `.loc[]` para obtener estos subconjuntos:
    
A. de `"Pakistan"` a `"Russia"`

In [18]:
temperatures_ind.loc["Pakistan":"Rusia"]

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pakistan,Islamabad,2000,1,1,46.5
Pakistan,Islamabad,2000,1,2,53.8
Pakistan,Islamabad,2000,1,3,49.2
Pakistan,Islamabad,2000,1,4,51.0
Pakistan,Islamabad,2000,1,5,51.1
...,...,...,...,...,...
Romania,Bucharest,2020,5,9,61.8
Romania,Bucharest,2020,5,10,66.2
Romania,Bucharest,2020,5,11,71.6
Romania,Bucharest,2020,5,12,70.8


B. de `"Islamabad"` a `"Moscow"` (Esto va a devolver algo sin sentido)

In [19]:
temperatures_ind.loc["Islamabad":"Moscow"]

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Israel,Tel Aviv,2000,1,1,64.9
Israel,Tel Aviv,2000,1,2,64.2
Israel,Tel Aviv,2000,1,3,64.7
Israel,Tel Aviv,2000,1,4,59.6
Israel,Tel Aviv,2000,1,5,51.4
...,...,...,...,...,...
Morocco,Rabat,2020,5,9,62.8
Morocco,Rabat,2020,5,10,65.8
Morocco,Rabat,2020,5,11,65.3
Morocco,Rabat,2020,5,12,64.9


C. de `("Pakistan", "Islamabad")` a `("Russia", "Moscow")`

In [20]:
temperatures_ind.loc[("Pakistan", "Islamabad"):("Russia", "Moscow")]

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pakistan,Islamabad,2000,1,1,46.5
Pakistan,Islamabad,2000,1,2,53.8
Pakistan,Islamabad,2000,1,3,49.2
Pakistan,Islamabad,2000,1,4,51.0
Pakistan,Islamabad,2000,1,5,51.1
...,...,...,...,...,...
Russia,Moscow,2020,5,9,52.7
Russia,Moscow,2020,5,10,55.6
Russia,Moscow,2020,5,11,59.5
Russia,Moscow,2020,5,12,61.5


---

## Slicing tanto en filas como en columnas

Hasta ahora has dividido el DataFrame en filas o columnas, pero a menudo es natural dividir en ambas dimensiones a la vez. Es decir, al pasar dos argumentos a `.loc[]`, puede crear subconjuntos por filas y columnas de una sola vez.

Trabajando con `temperatures_ind`

1. Utilice `.loc[]` para crear subconjuntos de filas desde `("India", "Delhi")` hasta `("Indonesia", "Jakarta")`.

In [21]:
temperatures_ind.loc[("India", "Delhi"):("Indonesia", "Jakarta")]

Unnamed: 0_level_0,Unnamed: 1_level_0,year,month,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
India,Delhi,2000,1,1,51.9
India,Delhi,2000,1,2,51.1
India,Delhi,2000,1,3,48.9
India,Delhi,2000,1,4,47.7
India,Delhi,2000,1,5,50.2
...,...,...,...,...,...
Indonesia,Jakarta,2020,5,8,86.0
Indonesia,Jakarta,2020,5,9,83.0
Indonesia,Jakarta,2020,5,10,84.4
Indonesia,Jakarta,2020,5,11,85.3


2. Use `.loc[]` para crear subconjuntos de columnas desde `"day"` hasta `"avg_temp_F"`.

In [22]:
temperatures_ind.loc[:, "day":"avg_temp_F"]

Unnamed: 0_level_0,Unnamed: 1_level_0,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1
Albania,Tirana,1,-99.0
Albania,Tirana,2,33.8
Albania,Tirana,3,35.6
Albania,Tirana,4,36.5
Albania,Tirana,5,37.4
...,...,...,...
Zambia,Lusaka,18,71.3
Zambia,Lusaka,19,77.5
Zambia,Lusaka,20,73.4
Zambia,Lusaka,21,73.1


3. Use `.loc[]` para crear el subconjunto desde `("India", "Delhi")` hasta `("Indonesia", "Jakarta")`, y desde `"day"` hasta `"avg_temp_F"`

In [23]:
temperatures_ind.loc[("India", "Delhi"):("Indonesia", "Jakarta"), "day":"avg_temp_F"]

Unnamed: 0_level_0,Unnamed: 1_level_0,day,avg_temp_F
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1
India,Delhi,1,51.9
India,Delhi,2,51.1
India,Delhi,3,48.9
India,Delhi,4,47.7
India,Delhi,5,50.2
...,...,...,...
Indonesia,Jakarta,8,86.0
Indonesia,Jakarta,9,83.0
Indonesia,Jakarta,10,84.4
Indonesia,Jakarta,11,85.3


---

## Creando filas de fechas

Pandas proporciona un objeto DateTime con una precisión de nanosegundos llamado Timestamp para trabajar con valores de fecha y hora. Este objeto nos da la posibilidad de incorporarlo a DataFrames para realizar operaciones avanzadas de fechas sin preocuparnos de pormenores propios de las fechas (por ejemplo, podemos aplicar filtrados que teniendo solo nos quedemos con fechas con dia laborales, o despreocuparse si un año es bisiesto o no). 

La forma de convertir o crear una columna en una que utilice Timestamp, debemos usar `pd.to_datetime()`. `pd.to_datetime()` acepta diferentes Series, tales como formadas por strings, enteros, o combinación de columnas con enteros: 

``` Python
pd.to_datetime(df["date_as_str"])
```

En los casos de strings, las fechas deben estar en algún formato lógico y consistente. Pandas va a resolver la mayoría de los casos, pero llegado al caso se puede especificar el formato:

``` Python
pd.to_datetime(df["date_as_str"], format="%Y-%m-%d %H:%M:%S")
```

En general para evitar problemas, se recomienda utilizar el formato de fechas [ISO 8601](https://es.wikipedia.org/wiki/ISO_8601).
 
Si tenemos números enteros,

``` Python
pd.to_datetime(df["date_as_int"], unit='s')
```

Va a considerar a los enteros en segundos, y a una distancia del tiempo de [Unix](https://www.unixtimestamp.com/) (`1970-01-01`). 

OBS: El concepto de Unix es similar a la referencia del nacimiento de cristo.

Si tenemos múltiples columnas desagregado año, mes, dia, hora, minutos, etc:

``` Python
pd.to_datetime(df[["year", "month","day"]])
```

Trabajando con `temperature`

1. Cree la columna `"date"` en el DataFrame `temperature` que sea formato timestamp utilizando las columnas `"year"`, `"month"` y `"day"`

In [24]:
temperatures["date"] = pd.to_datetime(temperatures[["year", "month", "day"]])
temperatures

Unnamed: 0,year,month,day,city,country,avg_temp_F,date
0,2000,1,1,Algiers,Algeria,43.9,2000-01-01
1,2000,1,2,Algiers,Algeria,46.5,2000-01-02
2,2000,1,3,Algiers,Algeria,46.1,2000-01-03
3,2000,1,4,Algiers,Algeria,45.7,2000-01-04
4,2000,1,5,Algiers,Algeria,46.2,2000-01-05
...,...,...,...,...,...,...,...
2311224,2000,1,6,Algiers,Algeria,43.8,2000-01-06
2311225,2000,1,7,Algiers,Algeria,44.9,2000-01-07
2311226,2000,1,8,Algiers,Algeria,46.2,2000-01-08
2311227,2000,1,9,Algiers,Algeria,45.7,2000-01-09


---

## Slicing series de tiempo

Hacer slicing de series de tiempo es útil para series de tiempo, ya que es común querer filtrar los datos dentro de un rango de fechas. Lo importante a la hora de filtrar es utilizar el formato *ISO 8601*, es decir, `"yyyy-mm-dd"` para año-mes-día, `"yyyy-mm"` para año-mes y `"yyyy"` para año.

Trabajando con `temperature`

1. Use filtrado por condiciones y la fecha completa `"yyyy-mm-dd"` en temperature para recortar las filas que van desde principio del 2010 a finales de 2011. Muestre el resultado.

In [25]:
temperatures[(temperatures["date"] >= "2010-01-01") & (temperatures["date"] <= "2011-12-31")]

Unnamed: 0,year,month,day,city,country,avg_temp_F,date
3653,2010,1,1,Algiers,Algeria,59.1,2010-01-01
3654,2010,1,2,Algiers,Algeria,55.6,2010-01-02
3655,2010,1,3,Algiers,Algeria,51.5,2010-01-03
3656,2010,1,4,Algiers,Algeria,53.3,2010-01-04
3657,2010,1,5,Algiers,Algeria,58.8,2010-01-05
...,...,...,...,...,...,...,...
2310636,2011,12,27,San Juan Puerto Rico,US,77.5,2011-12-27
2310637,2011,12,28,San Juan Puerto Rico,US,76.0,2011-12-28
2310638,2011,12,29,San Juan Puerto Rico,US,77.0,2011-12-29
2310639,2011,12,30,San Juan Puerto Rico,US,78.3,2011-12-30


2. Establezca como índice de `temperature` a la columna de `"date"` y ordénelo. Asignelo a `temperatures_ind`.

In [26]:
temperatures_ind = temperatures.set_index(["date"]).sort_index()
temperatures_ind.sort_index(inplace=True)
temperatures_ind

Unnamed: 0_level_0,year,month,day,city,country,avg_temp_F
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000-01-01,2000,1,1,Algiers,Algeria,43.9
2000-01-01,2000,1,1,West Palm Beach,US,66.9
2000-01-01,2000,1,1,Tampa St. Petersburg,US,66.9
2000-01-01,2000,1,1,Tallahassee,US,62.3
2000-01-01,2000,1,1,Orlando,US,62.9
...,...,...,...,...,...,...
2020-05-13,2020,5,13,Milan,Italy,58.1
2020-05-13,2020,5,13,Boise,US,57.4
2020-05-13,2020,5,13,Fairbanks,US,55.6
2020-05-13,2020,5,13,Fort Smith,US,52.7


3. Filtre usando `.loc[]` a `temperatures_ind` para las filas que van desde 2010 a 2011.

In [27]:
temperatures_ind.loc["2010":"2011"]

Unnamed: 0_level_0,year,month,day,city,country,avg_temp_F
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-01-01,2010,1,1,West Palm Beach,US,69.1
2010-01-01,2010,1,1,La Paz,Bolivia,49.6
2010-01-01,2010,1,1,Casper,US,25.4
2010-01-01,2010,1,1,Charleston,US,33.6
2010-01-01,2010,1,1,Billings,US,6.4
...,...,...,...,...,...,...
2011-12-31,2011,12,31,Belgrade,Yugoslavia,35.5
2011-12-31,2011,12,31,Brisbane,Australia,70.7
2011-12-31,2011,12,31,Sacramento,US,48.3
2011-12-31,2011,12,31,Quito,Equador,59.4


4. Filtre usando `.loc[]` a `temperatures_ind` para las filas que van desde agosto de 2010 a febrero de 2011.

In [28]:
temperatures_ind.loc["2010-08":"2011-02"]

Unnamed: 0_level_0,year,month,day,city,country,avg_temp_F
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-08-01,2010,8,1,Syracuse,US,69.4
2010-08-01,2010,8,1,Hamburg,Germany,-99.0
2010-08-01,2010,8,1,Bern,Switzerland,71.9
2010-08-01,2010,8,1,Montvideo,Uruguay,43.8
2010-08-01,2010,8,1,Washington,US,74.5
...,...,...,...,...,...,...
2011-02-28,2011,2,28,Lubbock,US,47.1
2011-02-28,2011,2,28,Tegucigalpa,Honduras,72.3
2011-02-28,2011,2,28,Toronto,Canada,35.2
2011-02-28,2011,2,28,Hamburg,Germany,35.8


----

## Slicing por número de fila/columna

Las formas más comunes de hacer slicing de filas son las formas que hemos visto anteriormente: usando una condición booleana o mediante etiquetas de índice. Sin embargo, ocasionalmente también es útil pasar números de fila.

Esto se hace usando `.iloc[]`, y al igual que `.loc[]`, puede tomar dos argumentos para permitirle dividir por filas y columnas.

Use `.iloc[]` en `temperatures` para tomar subconjuntos.

1. Obtenga la fila 23, columna 2 (posiciones de índice 22 y 1).

In [29]:
temperatures.info()
temperatures.iloc[23, 2]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2311229 entries, 0 to 2311228
Data columns (total 7 columns):
 #   Column      Dtype         
---  ------      -----         
 0   year        int64         
 1   month       int64         
 2   day         int64         
 3   city        object        
 4   country     object        
 5   avg_temp_F  float64       
 6   date        datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(3), object(2)
memory usage: 123.4+ MB


24

2. Obtenga las primeras 5 filas (posiciones de índice 0 a 5).

In [30]:
temperatures.iloc[:5]

Unnamed: 0,year,month,day,city,country,avg_temp_F,date
0,2000,1,1,Algiers,Algeria,43.9,2000-01-01
1,2000,1,2,Algiers,Algeria,46.5,2000-01-02
2,2000,1,3,Algiers,Algeria,46.1,2000-01-03
3,2000,1,4,Algiers,Algeria,45.7,2000-01-04
4,2000,1,5,Algiers,Algeria,46.2,2000-01-05


3. Obtenga todas las filas, columnas 3 y 4 (posiciones de índice 2 a 4).

In [31]:
temperatures.iloc[:, 2:4]

Unnamed: 0,day,city
0,1,Algiers
1,2,Algiers
2,3,Algiers
3,4,Algiers
4,5,Algiers
...,...,...
2311224,6,Algiers
2311225,7,Algiers
2311226,8,Algiers
2311227,9,Algiers


4. Obtenga las primeras 5 filas, columnas 3 y 4.

In [32]:
temperatures.iloc[:5, 2:4]

Unnamed: 0,day,city
0,1,Algiers
1,2,Algiers
2,3,Algiers
3,4,Algiers
4,5,Algiers


----

## Transformando tipos de variables

Un problema típico es que una columna que deberían ser valores numéricos sean strings. Entonces al hacer sumas conducen a la concatenación de strings, no a resultados numéricos.

Con el atributo `.dtypes` podemos ver el tipo de nuestra columnas. Ademas, podemos cambiar el tipo usando el metodo `.astype()` y en el paréntesis podemos especificar que tipo de variable que queremos convertir.

`df.dtypes` -> Nos devuelve los tipos de cada columnas 

Cambiamos el tipo de variable:

``` Python
df["peso"] = df["peso"].astype(int)
```

En nuesto `temperatures` vamos a realizar lo siguiente:

1. Convierta la columna `"avg_temp_F"` en tipo string (`str`) y guárdelo en la columna `"avg_temp_F_as_string"`.


In [33]:
temperatures["avg_temp_F_as_string"] = temperatures["avg_temp_F"].astype(str)
temperatures

Unnamed: 0,year,month,day,city,country,avg_temp_F,date,avg_temp_F_as_string
0,2000,1,1,Algiers,Algeria,43.9,2000-01-01,43.9
1,2000,1,2,Algiers,Algeria,46.5,2000-01-02,46.5
2,2000,1,3,Algiers,Algeria,46.1,2000-01-03,46.1
3,2000,1,4,Algiers,Algeria,45.7,2000-01-04,45.7
4,2000,1,5,Algiers,Algeria,46.2,2000-01-05,46.2
...,...,...,...,...,...,...,...,...
2311224,2000,1,6,Algiers,Algeria,43.8,2000-01-06,43.8
2311225,2000,1,7,Algiers,Algeria,44.9,2000-01-07,44.9
2311226,2000,1,8,Algiers,Algeria,46.2,2000-01-08,46.2
2311227,2000,1,9,Algiers,Algeria,45.7,2000-01-09,45.7


2. Usando `.loc[]`, sume las primeras dos filas de la columna `"avg_temp_F"`.

In [34]:
temperatures.loc[0, "avg_temp_F"] + temperatures.loc[1, "avg_temp_F"]

90.4

3. Usando `.loc[]`, sume las primeras dos filas de la columna `"avg_temp_F_as_string"`.

In [35]:
temperatures.loc[0, "avg_temp_F_as_string"] + temperatures.loc[1, "avg_temp_F_as_string"]

'43.946.5'

¿Qué pasa en cada caso? ¿Cuál de los dos casos es la opción correcta para este problema? La correcta es la suma de avg_temp_F

----

## Transformando avanzadas

Recordando el notebook *Homeless*, uno no está atascado únicamente con los datos que provienen del Dataset. Se pueden crear columnas desde cero, pero también, tal como vimos de clase, es común obtenerlas de otras columnas.

Si vemos, el DataFrame `temperatures`, la temperatura está en grados *Fahrenheit*, podemos cambiar las unidades de temperatura ([Link con los tipos de conversiones](https://www.how-to-study.com/metodos-de-estudio/escalas-de-temperatura.asp)):

1. Convierta los grados de Fahrenheit a Centigrados y guardelo en la columna `"avg_temp_C"`.

In [36]:
temperatures["avg_temp_C"] = (temperatures["avg_temp_F"] - 32 ) * (5/9)
temperatures

Unnamed: 0,year,month,day,city,country,avg_temp_F,date,avg_temp_F_as_string,avg_temp_C
0,2000,1,1,Algiers,Algeria,43.9,2000-01-01,43.9,6.611111
1,2000,1,2,Algiers,Algeria,46.5,2000-01-02,46.5,8.055556
2,2000,1,3,Algiers,Algeria,46.1,2000-01-03,46.1,7.833333
3,2000,1,4,Algiers,Algeria,45.7,2000-01-04,45.7,7.611111
4,2000,1,5,Algiers,Algeria,46.2,2000-01-05,46.2,7.888889
...,...,...,...,...,...,...,...,...,...
2311224,2000,1,6,Algiers,Algeria,43.8,2000-01-06,43.8,6.555556
2311225,2000,1,7,Algiers,Algeria,44.9,2000-01-07,44.9,7.166667
2311226,2000,1,8,Algiers,Algeria,46.2,2000-01-08,46.2,7.888889
2311227,2000,1,9,Algiers,Algeria,45.7,2000-01-09,45.7,7.611111


2. Convierta los grados de Fahrenheit a Kelvin y guardelo en la columna `"avg_temp_K"`.

In [37]:
temperatures["avg_temp_K"] = ((temperatures["avg_temp_F"] - 32 ) * (5/9)) + 273.15
temperatures

Unnamed: 0,year,month,day,city,country,avg_temp_F,date,avg_temp_F_as_string,avg_temp_C,avg_temp_K
0,2000,1,1,Algiers,Algeria,43.9,2000-01-01,43.9,6.611111,279.761111
1,2000,1,2,Algiers,Algeria,46.5,2000-01-02,46.5,8.055556,281.205556
2,2000,1,3,Algiers,Algeria,46.1,2000-01-03,46.1,7.833333,280.983333
3,2000,1,4,Algiers,Algeria,45.7,2000-01-04,45.7,7.611111,280.761111
4,2000,1,5,Algiers,Algeria,46.2,2000-01-05,46.2,7.888889,281.038889
...,...,...,...,...,...,...,...,...,...,...
2311224,2000,1,6,Algiers,Algeria,43.8,2000-01-06,43.8,6.555556,279.705556
2311225,2000,1,7,Algiers,Algeria,44.9,2000-01-07,44.9,7.166667,280.316667
2311226,2000,1,8,Algiers,Algeria,46.2,2000-01-08,46.2,7.888889,281.038889
2311227,2000,1,9,Algiers,Algeria,45.7,2000-01-09,45.7,7.611111,280.761111


3. Realice un slicing, filtrando a `"city"` con `"Buenos Aires"` y vea los tres tipos de grados obtenidos para esa ciudad.

In [38]:
buenos_aires_temperatures = temperatures[temperatures["city"] == "Buenos Aires"]
buenos_aires_temperatures[["avg_temp_F", "avg_temp_C", "avg_temp_K"]]

Unnamed: 0,avg_temp_F,avg_temp_C,avg_temp_K
974160,79.5,26.388889,299.538889
974161,78.8,26.000000,299.150000
974162,74.3,23.500000,296.650000
974163,79.0,26.111111,299.261111
974164,77.1,25.055556,298.205556
...,...,...,...
981595,61.3,16.277778,289.427778
981596,67.0,19.444444,292.594444
981597,62.4,16.888889,290.038889
981598,52.2,11.222222,284.372222


---

## Buscando duplicados

Hay situaciones en las que nuestra información puede aparecer duplicada, o hacemos transformaciones que nos terminan duplicando la información. 

Pandas nos da varios métodos para manejar estos datos:

`.duplicated()` el cual nos retorna una Serie de booleanos. Esto se puede usar en transformaciones o en `.loc[]`. 

``` Python
df.duplicated() # Nos devuelve una serie de booleanos indicando si está duplicado o no.

df[df.duplicated()] # Filtra y obtiene todas las filas que están duplicadas.

df.duplicated(subset=["peso", "altura"]) # Nos devuelve una serie de booleanos indicando si está duplicado o no, pero solamente se fija la columnas "peso" y "altura".
```

Si queremos eliminar a los duplicados y solo quedarmos con un solo valor, podemos usar `.duplicated()` combinandolo con `.loc[]` o `.drop_duplicated()`:

``` Python
df.loc[df.duplicated(), :] #Devuelve un dataframe sin duplicados. Por defecto se queda con los primeros valores que encuentre.

df.loc[df.duplicated(subset=["peso", "altura"]), :]  #Devuelve un dataframe sin duplicados de las columnas "peso" y "altura".

df.loc[df.duplicated(keep="last"), :] #Devuelve un dataframe sin duplicados. En este caso, se queda con la última ocurrencia.

df.drop_duplicates() #Devuelve un dataframe sin duplicados. Por defecto se queda con los primeros valores que encuentre.

df.drop_duplicates() #Devuelve un dataframe sin duplicados. Por defecto se queda con los primeros valores que encuentre.

df.drop_duplicates(subset=["peso”, “altura"]) #Devuelve un dataframe sin duplicados de las columnas "peso" y "altura".

df.drop_duplicates(keep="last") #Devuelve un dataframe sin duplicados. En este caso, se queda con la última ocurrencia.

df.drop_duplicates(inplace=True) #Quita de df los duplicados.
```

En `temperature` hay algunas filas que se repiten (es decir, presentan la misma información):

1. Filtre el DataFrame a las filas duplicadas de `temperature` y asígnelo a `temperature_dup`


In [39]:
temperatures_dup = temperatures[temperatures.duplicated()]

2. Imprima el numero de filas duplicadas

In [40]:
len(temperatures_dup)

17069

3. Quite los duplicados de `temperature`

In [41]:
temperatures.drop_duplicates(inplace=True)