[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/matog/Flacso_ciencia_de_datos_python_2022/blob/main/Clase2/1%20-%20Introducción%20a%20pandas.ipynb)

# Introducción al analisis y manipulación de datos con Python y Pandas


## Qué es pandas?

[pandas](https://pandas.pydata.org/) es una librería open source que permite analizar y manipular datos.Python, you're going to use pandas.

## Por qué Pandas?

Pandas brinda un conjunto de funciones simples, pero potentes, que podemos utilizar en con nuestros datos.

Se integra con otras herramientas de ciencia de datos y machine learning, por lo que es muy útils aprender su uso.

## 0. Importando pandas

Para usar pandas, lo primero que hay que hacer es importarlo. Esto hay que hacerlo cada vez que se abre el notebook.

En caso de no tenerlo installado, primero hay que correr:

In [None]:
!pip install pandas

Sólo es necesario instalarlo una vez, salvo que se desinstale voluntaria o involuntariamente.

La forma mas sencilla es importar pandas con la abreviación `pd`, que es la utilizada en la mayoría de los notebooks sobre ciencia de datos. 

In [1]:
import pandas as pd

## 1. Datatypes

Pandas tiene dos datatypes principales, `Series` y `DataFrame`.
* `Series` - Una columna uni-dimensional de datos.
* `DataFrame` (el mas común) - Una tabla bidimensional con files y columnas.

Se puede crear una `Series` y utilizar `pd.Series()`, y pasarle una lista de Python.

In [None]:
# Creando una serie con modelos de autos
cars = pd.Series(["BMW", "Toyota", "Honda"])
cars

In [None]:
# Creando una serie con colores
colours = pd.Series(["Blue", "Red", "White"])
colours

Podemos crear un `DataFrame` utilizando `pd.DataFrame()` y pasandole un diccionario de Python.

Vamos a utilizar las dos `Series` como los valores.

In [None]:
# Creando un dataframe de autos y colores.
car_data = pd.DataFrame({"Car type": cars, 
                         "Colour": colours})

In [None]:
car_data

Vemos que las `keys` del diccionario son los nombres de las columnas, y los valores de las dos `Series`son los valores del dataframe.

Es importante destacar que varios tipos de datos diferentes pueden ir como valores del dataframe (floats, integers y más).

### Exercises

1. Make a `Series` of different foods.
2. Make a `Series` of different dollar values (these can be integers).
3. Combine your `Series`'s of foods and dollar values into a `DataFrame`.

Try it out for yourself first, then see how your code goes against the solution.

**Note:** Make sure your two `Series` are the same size before combining them in a DataFrame.

In [None]:
# Your code here

In [None]:
# Example solution

# Make a Series of different foods
foods = pd.Series(["Almond butter", "Eggs", "Avocado"])

# Make a Series of different dollar values 
prices = pd.Series([9, 6, 2])

# Combine your Series of foods and dollar values into a DataFrame
food_data = pd.DataFrame({"Foods": foods,
                          "Price": prices})

food_data

## 2. Importando datos

Una forma mas sencilla de tener datos en pandas, es importandolos en forma de `csv` (_comma separated value_) o algún otro formato de planilla de cálculo.


In [2]:
# Importando tabla de ventas de autos
# Si lo corremos desde Colab
car_sales = pd.read_csv('https://raw.githubusercontent.com/matog/Flacso_ciencia_de_datos_python_2022/main/Clase2/data/car-sales.csv')

# Si lo corremos desde nuestra máquina
# car_sales = pd.read_csv('data/car-sales.csv') # Toma el nombre del archivo como una cádena como _input_
car_sales

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"
5,Toyota,Green,99213,4,"$4,500.00"
6,Honda,Blue,45698,4,"$7,500.00"
7,Honda,Blue,54738,4,"$7,000.00"
8,Toyota,White,60000,4,"$6,250.00"
9,Nissan,White,31600,4,"$9,700.00"


Ahora, al contar con toda la información en un `DataFrame`, podemos aprovechar todas las ventajas de pandas.

Otra práctica común (no obligatoria, pero recomendable) es denominar al `DataFrame` generado con la importación importada como `df` (abreviación de `DataFrame`).

In [None]:
# Importamos nuevamente la tabla y la guardamos en df.
# Si lo corremos desde Colab
car_sales = pd.read_csv('https://raw.githubusercontent.com/matog/Flacso_ciencia_de_datos_python_2022/main/Clase2/data/car-sales.csv')

# Si lo corremos desde nuestra máquina
# car_sales = pd.read_csv('data/car-sales.csv') 
df

Ahora, `car_sales` y `df` contienen exactamente la misma información. La única diferencia es el nombre. Como con cualquier otra variable, podemos denominar al `DataFrame`de la forma que se quiera. Pero es mejor elegir una forma sencilla.

### Anatomía de un DataFrame

Distintas funciones utilizan distintas etiquetas para distintas tareas. El siguiente gráfico resume algunos de los componenes de un `DataFrame` y sus diferentes nombres.

<img src="https://raw.githubusercontent.com/matog/Flacso_ciencia_de_datos_python_2022/main/Clase1/img/pandas-dataframe-anatomy.png" alt="pandas dataframe with different sections labelled" width="800"/>


## 3. Exportando datos

Luego de efectuar algunas modificaciones en los datos, tal vez se quiera exportar la tabla, y grabarla.

pandas permite exportar `DataFrame` a al formato `.csv` utilizando `.to_csv()` o a una planilla utilizando `.to_excel()`.

Aunque no hagamos realizado ningún cambio aún, vamos a exportarlo.

In [None]:
# Exportar el dataframe car sales a csv
car_sales.to_csv("data/exported-car-sales.csv")

El código precedente va a generar un archivo denominado `export-car-sales.csv` en la misma carpeta del notebook.


## 4. Describiendo los datos

Una vez importados los datos a un `DataFrame`, lo primero que vamos a hacer es explorarlo.

Pandas tiene muchas funciones que permiten de manera rápida obtener información en el `DataFrame`.


In [None]:
car_sales

`.dtypes` muestra que tipo de datos tenemos en cada columna.

In [None]:
car_sales.dtypes

Observar que la columna `Price` no es una integer como `Odometer` o `Doors`. Pero no hay que preocuparse, con pandas es muy sencillo arreglarlo.

`.describe()` nos da una vista rápida con información estadística de las columnas numéricas.

In [None]:
car_sales.describe()

`.info()` muestra información útil sobre el `DataFrame`, como por ejemplo: 
* Cuantos registros (rows, filas) tiene 
* Si tiene _missing values_(si los valores no nulos de una columna es menor a la cantidad de registros, entonces tiene _missing values_)
* Los tipo de datos de cada columna

In [None]:
car_sales.info()

Sumado a esto, se pueden utilizar varios métodos estadísticos y matemáticos como `.mean()` o `.sum()` de forma directa sobre un `DataFrame` o `Series`.

In [None]:
# .mean() en un DataFrame
car_sales.mean()

In [None]:
# .mean() en Series
car_prices = pd.Series([3000, 3500, 11250])
car_prices.mean()

In [None]:
# .sum() en un DataFrame
car_sales.sum()

In [None]:
# .sum() en Series
car_prices.sum()

Tal vez utilizar estas funciones sobre un `DataFrame` no sea de demasiada utilidad. Lo mejor es utilizarlas en columnas individuales.

`.columns` muestra todas las columnas del `DataFrame`.

In [None]:
car_sales.columns

Podemos guardar la lista de columnas en una lista para utilizarla mas tarde.

In [None]:
# Columnas a una lista
car_columns = car_sales.columns
car_columns[0]

`.index` muestra los valores del indice de un `DataFrame`. (la primer columna de la izquierda).

In [None]:
car_sales.index

Los `DataFrame` de pandas, al igual que las listas de Python, comienzan a indexarse desde el 0 (_0-indexed_)

In [None]:
# Mostramos la longitud de un DataFrame
len(car_sales)

Dado que la longitud de nuestro datarame `car_sales` es 10, significa que los indices van de 0-9.

## 5. Mostrando y selecccionado datos
* `head()`
* `tail()`
* `loc`
* `iloc`
* `columns` - `df['A']`
* _boolean indexing_ - `df[df['A'] > 5]`
* `crosstab()`
* `.plot()`
* `hist()`

En la práctica, vamos a estar constantemente moficiando los datos, mostrándolos, y modificandolos nuevamente.

Para mostrar datos, la forma mas sencilla es utilizar `.head()`, que muestra las primeras 5 filas del `DataFrame`. 

In [None]:
# Mostrar las primeros 5 filas de car_sales
car_sales.head()

Why 5 rows? Good question. I don't know the answer. But 5 seems like a good amount.

Want more than 5?

No worries, you can pass `.head()` an integer to display more than or less than 5 rows.

In [None]:
# Mostrar las primeros 7 filas de car_sales
car_sales.head(7)

`.tail()` muestra las últimas 5 filas del `DataFrame`.

In [None]:
# Muestras la últimas 5 filas de car_sales
car_sales.tail()

Para seleccionar datos de las `Series` o del `Dataframe`, se puede utilizar `.loc[]` y `.iloc[]`.


In [None]:
# Creamos una serie de ejemplo
animals = pd.Series(["cat", "dog", "bird", "snake", "ox", "lion"], 
                   index=[0, 3, 9, 8, 67, 3])
animals

`.loc[]` toma un _integer_ como argumento. Y seleccionar de la `Series` o del `DataFrame`el indice que coincide con el _integer.

In [None]:
# Selecciona todos los indices 3
animals.loc[3]

In [None]:
# Selecciona el indice 9
animals.loc[9]

Ahora vamos a utilizar el dataframe `car_sales`

In [None]:
car_sales

In [None]:
# Seleccionar la fila en el indice 3
car_sales.loc[3]

`iloc[]` realizar una tarea similar pero trabaja con la posiciones exactas.


In [None]:
animals

In [None]:
# Seleccionar la fila de la position 3
animals.iloc[3]

A pesar que `'snake'`figura en el indice 8 en la seria, se muestra utilizando `.iloc[3]` debudi a que se encuentra en la tercer posición (arrancando de cero).


In [None]:
# File en la posición 3
car_sales.iloc[3]

Podemos ver que es lo mismo que `.loc[]` debido a que el indice está ordenado. La posición 3 es a su vez, el indice 3.

También podemos hacer _slicing_ con `.loc[]` y `.iloc[]`.

In [None]:
# Todas las filas hasta la posición 3
animals.iloc[:3]

In [None]:
# Todas las filas hasta (e incluyendo) el índice 3
car_sales.loc[:3]

Cuando utilizar `.loc[]` o `.iloc[]`?
* Utilizamos `.loc[]` cuando nos referimos a **índeces**.
* Utilizamos `.iloc[]` cuando nos referimos a **posiciones** en el `DataFrame`.

Si queremos seleccionar alguna columna particular, utilizamos `['NOMBRE_DE_COLUMNA']`.

In [None]:
# Columna Make
car_sales['Make']

In [None]:
# Select Colour column
car_sales['Colour']

Boolean indexing works with column selection too. Using it will select the rows which fulfill the condition in the brackets.

In [None]:
# Seleccionamos automóviles con mas de 100,000 en Odometer
car_sales[car_sales["Odometer (KM)"] > 100000]

In [None]:
# Autos que son fabricados por Toyota
car_sales[car_sales["Make"] == "Toyota"]

`pd.crosstab()` es una forma de ver dos columnas diferentes, juntas, y compararlas.

In [None]:
# Comparamos Make con Doors
pd.crosstab(car_sales["Make"], car_sales["Doors"])

Si queremos comparar mas columnas, podemos utilizar `.groupby()`.

In [None]:
car_sales

In [None]:
# Agrupamos por la columna Make, y calculamos la media del resto de las columnas. 
car_sales.groupby(["Make"]).mean()

Pandas permite graficar columnas de forma rápida, de forma de ver los datos de manera gráfica. Para esto, es necesario importar `matplotlib`. En caso que los gráficos no se muestren, se puede intentar corriendo `%matplotlib inline`, que es un comando especial que le indica a Jupyter que muestre los gráficos. Los comandos con `%` en el inicio se llaman _comandos mágicos_ (_magic commands_).

In [None]:
#!pip install matplotlib

In [None]:
# Import matplotlib and tell Jupyter to show plots
import matplotlib.pyplot as plt
%matplotlib inline

Podemos graficar una columna llamando al comando `.plot()`.

In [None]:
car_sales["Odometer (KM)"].plot()

Para graficar un histograma utilizamos `.hist()`.

La distribución de cualquier columna es una forma de ver la dispersión de los valores.

In [None]:
car_sales["Odometer (KM)"].hist()

En este caso, la mayoría de la **distribution** de la columna `"Odometer"` está sesgada hacia la izquierda del gráfico. Y tiene dos valores mas sobre la derecha. Estos dos valores pueden considerarse **outliers**.

Que pasa si queremos graficar la columna `"Price"`?


In [None]:
car_sales["Price"].plot()

Trying to run it leaves us with an error. This is because the `"Price"` column of `car_sales` isn't in numeric form. We can tell this because of the `TypeError: no numeric data to plot` at the bottom of the cell.

We can check this with `.info()`.

In [None]:
car_sales.info()

Cómo podemos solucionarlo?

Necesitamos convertir la columna `"Price"` a una de tipo numérico.

Cómo lo hacemos?

Podemos probar algunas cosas, pero mejor aprender investigando...


**1.** Abrimos un navegador con un buscador, y tipeamos algo asi como "how to convert a pandas column price to integer", o "como convertir una columna de precio a un número en pandas" (que seguramente traiga menor cantidad de resultados)

Entre los primeros resultados, encontré [Stack Overflow question and answer](https://stackoverflow.com/questions/44469313/price-column-object-to-int-in-pandas), donde alguien tiene un problema similar, y otro usuario le brinda una solución.

**Observación:** A veces la respuesta que buscamos no es la primer respuesta, ni la segunda ni la tercera. Tenemos que combinar algunas propuestas de diferentes soluciones.

**2.** En la práctica, leemos las respuestas, y analizamos si está relacionado a nuestro problema.

**3.** En caso que así sea, se puede modificar y ajustar el código de las respuestas de Stack Overflow a nuestro problema.


Lo importante no es recordar cada detalle de memoria, pero si saber donde buscar. Ante la duda, correr el código y ver que resultado arroja.

Copiamos el código de la respuesta y analizamos si resulve el problema.

Respuesta: ```dataframe['amount'] = dataframe['amount'].str.replace('[\$\,\.]', '').astype(int)```

Hay demasiadas "cosas" en esa respuesta, pero podemos ir modificando por partes, y ver como se ajusta,

Nuestro `DataFrame` se llama `car_sales`, no `dataframe`.

```car_sales['amount'] = car_sales['amount'].str.replace('[\$\,\.]', '').astype(int)```

Y nuestra la columna `'amount'`, en nuestro set de datos se llama `"Price"`.

```car_sales["Price"] = car_sales["Price"].str.replace('[\$\,\.]', '').astype(int)```

Lo que indica el código final es "borrar el signo $, el punto y la coma, y convertir la columna a int"

Corramos el código y veamos que pasa.

In [None]:
# Change Price column to integers
car_sales["Price"] = car_sales["Price"].str.replace('[\$\,\.]', '').astype(int)

In [None]:
car_sales

Perfecto! Ahora, grafiquemos

In [None]:
car_sales["Price"].plot()

Esta es una forma de manipular datos utilizando pandas. 

Cuando el código presenta diferentes funciones en una fila, se denomina **chaining** (encadenamiento). Esto significa que podemos sumar una serie de funciones para que se ejecuten en la misma tarea.

Veamos como manipular los datos.

## 6. Manipulando datos

Ya vimos un caso de manipulación de datos, pero hay muchos mas. Cuantos mas? Todos los que necesitemos. Si hay un problema, pandas tiene una solución

Comencemos con los métodos sobre cadenas de texto (_strings_). Dado que panda está basado en  Python, como se manipulan _strings_ en Python, lo podemos hacer también en pandas.

Podemos acceder al valor _string_ de una columna con `.str`. Entonces, para convertir una columna a minúscula, utilizamos:

In [None]:
# Columna Make en minúscula
car_sales["Make"].str.lower()

Notar que no cambiar el valor original de la  `DataFrame` `car_sales`, hasta tanto no indiquemos que es igual al resultado.

In [None]:
# Mostrar las 5 filas superiores de la columna Make
car_sales.head()

In [None]:
# Convertimos columna Make en minúscula
car_sales["Make"] = car_sales["Make"].str.lower()
car_sales.head()

De esta forma, tomamos los cambios en la columna Make, modificando el `DataFrame` original. 

Algunas funciones tienen un parametro denominado `inplace`, que indica que el `DataFrame`es actualizado al momento de correr la función, sin necesidad de reasiganrlo con la igualdad.

Analicemos el caso de `.fillna()`, una función que copleta los valores `missing` del `DataFrame`. El problema es que nuestros datos no poseen valores `missing`.

En la práctica, es muy probable que tengamos que lidiar con valores `missing`..

Vamos a cargar un dataset con valores `missing` para testear.

In [3]:
# Import car sales data with missing values
# Si lo corremos desde Colab
car_sales_missing = pd.read_csv('https://raw.githubusercontent.com/matog/Flacso_ciencia_de_datos_python_2022/main/Clase2/data/car-sales-missing-data.csv')

# Si lo corremos desde nuestra máquina
# car_sales = pd.read_csv('data/car-sales.csv') 
#car_sales_missing = pd.read_csv("data/car-sales-missing-data.csv")
car_sales_missing

Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,,4.0,"$4,500"
6,Honda,,,4.0,"$7,500"
7,Honda,Blue,,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


Los valores `missing` se muestran como `NaN` en Pandas.

Vamos a utilizar la función `.fillna()` para completar los NaN de la columna `Odometer` con los promedios de los otros valores de la misma columna.

Lo haremos con y sin `inplace`.

In [None]:
# Completamos Odometer con la media 
car_sales_missing["Odometer"].fillna(car_sales_missing["Odometer"].mean(), 
                                     inplace=False) # inplace es False por defecto.

Verifiquemos la columna `car_sales_missing`

In [None]:
car_sales_missing

Como `inplace` está seteado en `False`, todavía tenemos valores `missing` en la columna `"Odometer"`. 

In [None]:
# Completamos Odometer con la media, inplace=True
car_sales_missing["Odometer"].fillna(car_sales_missing["Odometer"].mean(),
                                     inplace=True)

In [None]:
car_sales_missing

Los valores `missing` de la columna `Odometer` se completaron con el valor medio de la misma columna.

En la práctica, tal vez no se quiera completar con la media, pero esto fue sólo un ejemplo.


Todavía existen valores `missing` en `car_sales_missing`. Supongamos que queremos eliminar cualquier fila (observación) que posea un NaN y sólo trabajar con las observaciones que tiene info completa.

Esto lo podemos hacer con `.dropna()`.

In [None]:
# Borramos missing values
car_sales_missing.dropna()

Parece que las columnas con NaN se borraron. Verifiquemos

In [None]:
car_sales_missing

Todavía aparecen valores NaN. Esto es porque `.dropna()` tiene `inplace=False` por default. Podemos utilizar `inplace=True` o reasignar los valores en el `DataFrame` `car_sales_missing`

In [None]:
# Cada una de las lineas de código hacen lo mismo
car_sales_missing.dropna(inplace=True) 
car_sales_missing = car_sales_missing.dropna() 

Ahora verifiquemos si continuan los valores NaN.

In [None]:
car_sales_missing

En vez de eliminar la información incompleta, como podríamos completar info en el `DataFrame`?

Por ejemplo, podemos crear una columna `Seats` para indicar el número de asientos.

Pandas permite agregar columnas de tres sencillas formas: desde una serie, con una lista de Python o utilizando otras columnas.

In [None]:
# Crear columna desde una serie de pandas
seats_column = pd.Series([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])
car_sales["Seats"] = seats_column
car_sales

In [None]:
# Crear columna desde una lista de Python 
engine_sizes = [1.3, 2.0, 3.0, 4.2, 1.6, 1, 2.0, 2.3, 2.0, 3.0]
car_sales["Engine Size"] = engine_sizes
car_sales

También podemos crear columnas combinando valres de otras. Ejemplo: precio por kilometro.

In [None]:
# Crear columna desde otra columna
car_sales["Price per KM"] = car_sales["Price"] / car_sales["Odometer (KM)"]
car_sales

La última columna creada, realmente suma información y simplifica el análisis?

Es contradictorio que un auto con menos kilómetros tenga un precio por km mayor que otro con mas kilómetros. Cuando compramos un auto, por lo general, que tenga menos kilómetros es mejor.

Esta forma de creación de columnas se denomina **feature engineering**. Si `Make`, `Colour`, `Doors` son características (_features_) de los datos, crear `Price per KM` puede ser otra. Pero en este caso, no es una buena *feature*

Cuando creamos columnas, también es posible crear una nueva con un valor standard para todas las observaciones.

In [None]:
# Columna con un valor standartd (number of wheels)
car_sales["Number of wheels"] = 4
car_sales

In [None]:
car_sales["Passed road safety"] = True
car_sales

Si no estamos conformes con algunas de las _features_ de la base, podemos eliminarla utilizando `.drop('COLUMN_NAME', axis=1)`.

In [None]:
# "Droppeamos" la columna Price per KM
car_sales = car_sales.drop("Price per KM", axis=1)
car_sales

Que implica el término `axis=1`? Porque representa a las columnas. Las filas se toman como `axis=0`.

Supongamos que queremos ordenar de forma aleatoria nuestro `DataFrame`, para poder dividirlo para correr algun algoritmo de _machine learning_ (_train, validation y test_). Por mas que consideremos que no tiene ningún orden lógico, queremos asegurarnos.

Para hacerlo, utilizamos `.sample(frac=1)`. 

`.sample()` toma filas de forma aleatoria del `DataFrame`. El parámetro `frac` indica la fracción, donde 1 = 100% de las filas, 0.5 = 50% de las filas, 0.01 = 1% de las filas.

In [None]:
# Muestra de car_sales
car_sales_sampled = car_sales.sample(frac=1)
car_sales_sampled

Observar que las filas son las mismas, pero el orden es difernte (mirar los ínidices).


`.sample(frac=X)` también es de gran ayuda si estamos trabajando con una `DataFrame` extenso. Por ejemplo 2.000.000 filas.

Correr test, analisis y algoritmos de machine learning en 2.000.000 de observaciones puede tomar mucho tiempo, y a veces es conveniente arrancar con una pequeña muestra.

Por ejemplo, podemos utilizar `40k_rows = 2_millones_filas.sample(frac=0.05)` para trabajar con 40.000 filas del  `DataFrame` denominado `2_millones_filas` que contiene 2.000.000 de filas.

Como hacemos para tener los índices en orden nuevamente? Utilizamos `.reset_index()`.

In [None]:
# Reseteo de los índices de car_sales_sampled
car_sales_sampled.reset_index()

Corriendo `.reset_index()` en un `DataFrame` resetea los números de los indices a los default. También crea una nueva columna `Index` que contiene el valor anterior de los índices.

Por último, que ocurre si queremos aplicar una función en una columna? Por ejemplo, convertir la columna `Odometer` column de kilometers a millas.

Lo hacemos utilizando la función `.apply()` y pasandole una función lambda. Teniendo en cuenta que la milla es 1,6km, si dividimos la columna `Odometer`por 1,6, debería convertirla en millas.

También, podemos crear una función ad-hoc, y llamarla desde el mismo `.apply()`

In [None]:
# Función ad-hoc
def millas(x):
    return (x / 1.6)

In [None]:
# Alternativa con función ad-hoc
# Llamamos a la función millas y generamos la nueva variable Odometer Miles
car_sales["Odometer (miles)"] = car_sales["Odometer (KM)"].apply(millas)

In [None]:
# Alternativa LAMBDA
# Cambiamos Odometer a millas, con lambda
car_sales["Odometer (KM)"].apply(lambda x: x / 1.6)

In [None]:
car_sales

La columna `Odometer` no se modificó. Por qué?

Porque no la reasignamos.

In [None]:
# Reasignando Odometer 
car_sales["Odometer (KM)"] = car_sales["Odometer (KM)"].apply(lambda x: x / 1.6)
car_sales

La función lambda en la función anterior implica que  "tomemos los valores la columna `Odometer (KM)` ( que dentro de la función denominamos `x`) y dividamoslá por 1.6".


### Ejercicios
Es recomendable intentar codear algo de pandas.

Sugiero el primer link (escribiendo el código desde cero), algunos del punto 2 (de nuevo, escribiendo el código de cero) e invertir una hora leyendo el punto 3.

1. [10-minute introduction to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)
2. [Pandas getting started tutorial](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/index.html)

3. [Pandas essential basic functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html)
