# Práctica de la librería Pandas

En este notebook, se desarrollarán una serie de tareas utilizando la librería Pandas (el "Excel" de Python).

Se proponen y documentan posibles formas de resolver los ejercicios, pero pueden existir varias formas de lograr los mismos resultados.

Siempre es una buena idea verificar la [Documentación Oficial de Pandas](https://pandas.pydata.org/pandas-docs/stable/), donde es posible encontrar todo tipo de información referida a esta librería. Y si te quedas trabado, busca en Google "como hacer [algo] con Pandas". Hay enormes probabilidades de que esa pregunta ya haya sido respondida!

In [1]:
# Importamos Pandas
import pandas as pd

In [2]:
# Creamos una serie de números y hallamos su media
numbers = pd.Series([1,2,3,4,5,6,34,3,4,34,3])
numbers.mean()

np.float64(9.0)

In [3]:
# Hallamos la suma de dichos números
numbers.sum()

np.int64(99)

In [6]:
# Creamos una SERIE de tres colores diferentes
colors = pd.Series(["red", "green", "blue"])


In [7]:
# Visualizamos la serie creada
colors

Unnamed: 0,0
0,red
1,green
2,blue


In [8]:
# Creamos una serie con tipos de autos, y la visualizamos
cars = pd.Series(["Toyota", "BMW", "Honda"])
cars

Unnamed: 0,0
0,Toyota
1,BMW
2,Honda


In [10]:
# Combinamos las series de tipos de autos y colores en un DATAFRAME
df = pd.DataFrame({"Cars": cars, "Colors": colors})
df

Unnamed: 0,Cars,Colores
0,Toyota,red
1,BMW,green
2,Honda,blue


In [11]:
# Conectamos el cuaderno actual con nuestro Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [13]:
# Importar "ventas-autos.csv" y convertirlo en un nuevo DATAFRAME
cars_sales = pd.read_csv("/content/drive/MyDrive/ventas-autos.csv")
cars_sales

Unnamed: 0,Fabricante,Color,Kilometraje,Puertas,Precio (USD)
0,Toyota,Blanco,150043,4,"$4,000.00"
1,Honda,Rojo,87899,4,"$5,000.00"
2,Toyota,Azul,32549,3,"$7,000.00"
3,BMW,Negro,11179,5,"$22,000.00"
4,Nissan,Blanco,213095,4,"$3,500.00"
5,Toyota,Rojo,99213,4,"$4,500.00"
6,Honda,Blanco,45698,4,"$7,500.00"
7,Honda,Blanco,54738,4,"$7,000.00"
8,Toyota,Blanco,60000,4,"$6,250.00"
9,Nissan,Rojo,31600,4,"$9,700.00"


Este será nuestro "Dataframe de Flujo Vehicular"

In [15]:
# Exportar el Dataframe como un archivo CSV a mi carpeta "/content/drive/MyDrive/Colab Notebooks/pruebas/"
cars_sales.to_csv("/content/drive/MyDrive/Colab Notebooks/cars_sales.csv")

In [16]:
# Analicemos los tipos de datos disponibles en el dataset de ventas autos
cars_sales.dtypes

Unnamed: 0,0
Fabricante,object
Color,object
Kilometraje,int64
Puertas,int64
Precio (USD),object


In [17]:
# Apliquemos estadística descriptiva (cantidad de valores, media, desviación estándar, valores mínimos y máximos, cuartiles) al dataset
cars_sales.describe()

Unnamed: 0,Kilometraje,Puertas
count,10.0,10.0
mean,78601.4,4.0
std,61983.471735,0.471405
min,11179.0,3.0
25%,35836.25,4.0
50%,57369.0,4.0
75%,96384.5,4.0
max,213095.0,5.0


In [18]:
# Obtenemos información del dataset utilizando info()
cars_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Fabricante    10 non-null     object
 1   Color         10 non-null     object
 2   Kilometraje   10 non-null     int64 
 3   Puertas       10 non-null     int64 
 4   Precio (USD)  10 non-null     object
dtypes: int64(2), object(3)
memory usage: 532.0+ bytes


In [19]:
# Listamos los nombres de las columnas de nuestro dataset
cars_sales.columns

Index(['Fabricante', 'Color', 'Kilometraje', 'Puertas', 'Precio (USD)'], dtype='object')

In [20]:
# Averiguamos el "largo" de nuestro dataset
len(cars_sales)

10

In [21]:
# Mostramos las primeras 5 filas del dataset
cars_sales.head()

Unnamed: 0,Fabricante,Color,Kilometraje,Puertas,Precio (USD)
0,Toyota,Blanco,150043,4,"$4,000.00"
1,Honda,Rojo,87899,4,"$5,000.00"
2,Toyota,Azul,32549,3,"$7,000.00"
3,BMW,Negro,11179,5,"$22,000.00"
4,Nissan,Blanco,213095,4,"$3,500.00"


In [22]:
# Mostramos las primeras 7 filas del dataset
cars_sales.head(7)

Unnamed: 0,Fabricante,Color,Kilometraje,Puertas,Precio (USD)
0,Toyota,Blanco,150043,4,"$4,000.00"
1,Honda,Rojo,87899,4,"$5,000.00"
2,Toyota,Azul,32549,3,"$7,000.00"
3,BMW,Negro,11179,5,"$22,000.00"
4,Nissan,Blanco,213095,4,"$3,500.00"
5,Toyota,Rojo,99213,4,"$4,500.00"
6,Honda,Blanco,45698,4,"$7,500.00"


In [23]:
# Mostramos las últimas 5 filas del dataset
cars_sales.tail()

Unnamed: 0,Fabricante,Color,Kilometraje,Puertas,Precio (USD)
5,Toyota,Rojo,99213,4,"$4,500.00"
6,Honda,Blanco,45698,4,"$7,500.00"
7,Honda,Blanco,54738,4,"$7,000.00"
8,Toyota,Blanco,60000,4,"$6,250.00"
9,Nissan,Rojo,31600,4,"$9,700.00"


In [24]:
# Utilizamos .loc para seleccionar la fila de índice 3 del DataFrame
cars_sales.loc[3]

Unnamed: 0,3
Fabricante,BMW
Color,Negro
Kilometraje,11179
Puertas,5
Precio (USD),"$22,000.00"


In [25]:
# Utilizamos .iloc para seleccionar las filas 3, 7 y 9
cars_sales.iloc[[3,7,9]]

Unnamed: 0,Fabricante,Color,Kilometraje,Puertas,Precio (USD)
3,BMW,Negro,11179,5,"$22,000.00"
7,Honda,Blanco,54738,4,"$7,000.00"
9,Nissan,Rojo,31600,4,"$9,700.00"


En la documentación podrás observar la diferencia entre el funcionamiento de [.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) e [.iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html).

In [26]:
# Seleccionar la columna "Kilometraje"
cars_sales["Kilometraje"]

Unnamed: 0,Kilometraje
0,150043
1,87899
2,32549
3,11179
4,213095
5,99213
6,45698
7,54738
8,60000
9,31600


In [27]:
# Encontrar el valor medio de la columnas "Kilometraje"
cars_sales["Kilometraje"].mean()

np.float64(78601.4)

In [28]:
# Seleccionar aquellas columnas que tengan valores superiores a 100,000 kilómetros en la columna Kilometraje
cars_sales[cars_sales["Kilometraje"] > 100000]

Unnamed: 0,Fabricante,Color,Kilometraje,Puertas,Precio (USD)
0,Toyota,Blanco,150043,4,"$4,000.00"
4,Nissan,Blanco,213095,4,"$3,500.00"


In [29]:
# Creamos una tabla cruzada de doble entrada entre Fabricante y cantidad de puertas
pd.crosstab(cars_sales["Fabricante"], cars_sales["Puertas"])

Puertas,3,4,5
Fabricante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BMW,0,0,1
Honda,0,3,0
Nissan,0,2,0
Toyota,1,3,0


In [38]:
# Agrupamos las columnas por fabricante y buscandos el valor medio de las columnas numéricas
cars_sales.groupby('Fabricante').mean(numeric_only=True)


Unnamed: 0_level_0,Kilometraje,Puertas
Fabricante,Unnamed: 1_level_1,Unnamed: 2_level_1
BMW,11179.0,5.0
Honda,62778.333333,4.0
Nissan,122347.5,4.0
Toyota,85451.25,3.75


In [None]:
# Importamos Matplotlib y creamos un gráfico con los valores de la columna Kilometraje

In [None]:
# Puede que un gráfico más apropiado en este caso sea un histograma?

In [None]:
# Intentamos graficar la columna de precios

No funcionó, verdad? Alguna idea de por qué esto puede ocurrir?

Una pista es buscar: "cómo convertir strings de Pandas a números"

[Aqui hay un enlace a StackOverflow referido a este tema](https://stackoverflow.com/questions/44469313/price-column-object-to-int-in-pandas).

In [None]:
# Elimina la puntuación de la columna de precios