# Pandas

In [3]:
# importa las bibliotecas pandas y numpy
import pandas as pd
import numpy as np

## Leer datos

Se utilizará la función `pandas.read_csv()` para leer el archivo *csv*.

Como los datos en el archivo de entrada no incluyen los encabezados, se puede agregar el argumento `headers = None` dentro del método `read_csv()` para que **pandas** no configure de forma automática que la primera fila corresponde al encabezado de los datos en el archivo de entrada.

El conjunto de datos se puede asignar a alguna variable para su creación.

In [5]:
# Lee el archivo de entrada y lo asigna a la variable "df"
ubicacion = "./datos/auto.csv"
df = pd.read_csv(ubicacion, header=None)

Después de leer el conjunto de datos, se puede empezar a utilizar el método `dataframe.head(n)` para verificar las primeras `n` filas del *dataframe*, donde `n` es un entero. Por otro lado, el método `dataframe.tail(n)` mostrará las últimas `n` filas del *dataframe*.


In [6]:
# muestra las primeras 5 filas usando el método dataframe.head()

print("Las primeras 5 filas del dataframe") 
df.head(5)

Las primeras 5 filas del dataframe


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


### Agrega encabezados

Al observar el conjunto de datos leído se puede notar que **Pandas** automáticamente le asigna un encabezado con números enteros comenzando desde el 0.

Para una mejor descripción de los datos de entrada, se puede agregar un encabezado. Esta información está disponible en: [https://archive.ics.uci.edu/ml/datasets/Automobile](https://archive.ics.uci.edu/ml/datasets/Automobile).

Así, se podría agregar manualmente un encabezado.

Primero, se crea una lista "encabezado" que incluye todos los nombres de columnas en orden. Entonces, se utiliza `dataframe.columns = encabezado` para reemplazar los encabezados numéricos con la lista ya creada.

In [7]:
# crea una lista con el encabezado
encabezado = ["symboling","normalized-losses","make","fuel-type","aspiration","num-of-doors","body-style", "drive-wheels","engine-location","wheel-base","length","width","height","curb-weight","engine-type","num-of-cylinders","engine-size","fuel-system","bore","stroke","compression-ratio","horsepower","peak-rpm","city-mpg","highway-mpg","price"]
print("headers\n", encabezado)

headers
 ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']


Se reemplaza el encabezado y se verifica que la tarea se realizó con éxito en el dataframe:

In [8]:
df.columns = encabezado
df.head(47)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


Ahora se necesita reemplazar los signos de interrogación **?** con **NaN** así el método `dropna()` puede remover los valores perdidos.:


In [9]:
df1=df.replace('?',np.NaN)
df1.head(47)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450.0
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250.0
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710.0
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920.0
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875.0
9,0,,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,


Así, ahora se pueden liberar los valores perdidos a lo largo de la columna **precio** como se muestra a continuación.


In [11]:
df=df1.dropna(subset=["price"], axis=0)
df.head(47)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
10,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430


## Guardar un conjunto de datos
La biblioteca **Pandas** también provee la manera de salvar el conjunto de datos en un archivo con formato **csv**. Utilizando el método `dataframe.to_csv()`.

Por ejemplo, si se quisiera guardar el dataframe `df` como `automoviles.csv` a un directorio de la máquina local, Se debe usar la sintaxis mostrada a continuación, donde `index = False` significa que el nombre de las columnas no será escrito.

In [8]:
df.to_csv("./datos/automoviles.csv", index=False)

# Información básica de los conjuntos de datos

Después de leer los datos en un dataframe **Pandas**, es tiempo de explorar el conjunto de datos.


## Tipos de datos

Los datos tienen una variedad de tipos.

El principal tipo de datos almacenados en una dataframe de **Pandas** son **object**, **float**, **int**, **bool** y **datetime64**. Para entender mejor acerca de cada atributo, es siempre bueno conocer el tipo de datos de cada columna. En **Pandas** se utiliza el atributo `dtypes`.


Así, una serie con los tipos de datos de cada columna es retornado.


In [9]:
# Verifica el tipo de datos del dataframe "df" usando .dtypes
print(df.dtypes)

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object


Como se muestra arriba, se puede ver claramente que el tipo de datos de las columnas **symboling** y **curb-weight** son `int64`, **normalized-losses** es `object`, y **wheel-base** es `float64`, entre otros.




## Descripción

Si quisiéramos tener un resumen estadístico de cada columna, por ejemplo, la cantidad, el promedio de la columna la desviación estándar de la columna, entre otros, se debe utilizar el método `.describe()`.


Este método proveerá un resumen de varios datos estadísticos de cada columna, excluyendo los valores `NaN` (Not a Number).


In [10]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0
mean,0.840796,98.797015,174.200995,65.889055,53.766667,2555.666667,126.875622,10.164279,25.179104,30.686567
std,1.254802,6.066366,12.322175,2.101471,2.447822,517.296727,41.546834,4.004965,6.42322,6.81515
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.8,64.1,52.0,2169.0,98.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.5,66.6,55.5,2926.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.0,59.8,4066.0,326.0,23.0,49.0,54.0


Esto muestra el resumen estadístico de toda las columnas que son de tipo numérico (int, float).

Por ejemplo, el atributo **symboling** tiene 205 elementos, el valor promedio de esta columna es 0.83, la desviación estándar es 1.25, El valor mínimo es -2, el percentil del 25% es 0, el percentil del 50% es 1, el percentil del 75% es 2, y el valor máximo es 3.

Sin embargo, que pasa si se quiere chequear todas las columnas, incluyendo esas que son del tipo `object`.

Se puede agregar un argumento `include = "all"` dentro de los paréntesis. Probemos.


In [11]:
# descrive todas las columnas en "df" 
df.describe(include = "all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,201.0,164.0,201,201,201,199,201,201,201,201.0,...,201.0,201,197.0,197.0,201.0,199.0,199.0,201.0,201.0,201.0
unique,,51.0,22,2,2,2,5,3,2,,...,,8,38.0,36.0,,58.0,22.0,,,186.0
top,,161.0,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,8921.0
freq,,11.0,32,181,165,113,94,118,198,,...,,92,23.0,19.0,,19.0,36.0,,,2.0
mean,0.840796,,,,,,,,,98.797015,...,126.875622,,,,10.164279,,,25.179104,30.686567,
std,1.254802,,,,,,,,,6.066366,...,41.546834,,,,4.004965,,,6.42322,6.81515,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,98.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


Aquí, se muestra el resumen estadístico de todas las columnas, incluyendo las columnas que son del tipo `object`.

Así, se puede observar cuantos valores hay que son únicos, Cual valor es el top y la frecuencia de ese valor top en las columnas que son del tipo `object`.

Algunos valores en la tabla de arriva se muestran como **NaN**. Esto es porque esos números no están disponiblescon respecto al tipo particular de alguna columna.

## Información

Otro método que se puede utilizar para verificar el conjunto de datos es, `dataframe.info()`.


Este provee un resumen consiso del DataFrame.

Este método imprime información acerca de un DataFrame incluyendo los índices `dtype` y columnas, valores no-nulos y uso de la memoria.


In [12]:
# muestra la información del "df"

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          201 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               201 non-null    object 
 3   fuel-type          201 non-null    object 
 4   aspiration         201 non-null    object 
 5   num-of-doors       199 non-null    object 
 6   body-style         201 non-null    object 
 7   drive-wheels       201 non-null    object 
 8   engine-location    201 non-null    object 
 9   wheel-base         201 non-null    float64
 10  length             201 non-null    float64
 11  width              201 non-null    float64
 12  height             201 non-null    float64
 13  curb-weight        201 non-null    int64  
 14  engine-type        201 non-null    object 
 15  num-of-cylinders   201 non-null    object 
 16  engine-size        201 non