# Importar un conjunto de datos

## Adquisición de datos

Un conjunto de datos típicamente es un archivo que contiene datos almacenados en uno de varios formatos. Los formatos de archivo comunes que contienen conjuntos de datos incluyen: .csv, .json, .xlsx, etc. El conjunto de datos puede almacenarse en diferentes lugares, en tu máquina local, en un servidor o un sitio web, almacenamiento en la nube, y así sucesivamente.

Para analizar datos en un cuaderno de Python, necesitamos traer el conjunto de datos al cuaderno. En esta sección, aprenderás cómo cargar un conjunto de datos en nuestro Cuaderno Jupyter.

Para este caso. el conjunto de datos Automobile Data es un recurso en líneael cual se encuentra en el formato CSV(comma separated value). Usaremos este conjunto de datos para practicar la lectura de archivos.

* Data source: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
* Data type: csv

La librería de `Pandas` es muy popular y ina herramienta muy úti, el cual nos permte leer varios conjuntos de datos dentro de un data frame. Jupyter Notebook contiene la librería de Pandas por defecto instalada, por lo cual ya no es necesario instalarlo previamente.

Para importa la libreira de pandas usamos la sintaxis:

In [2]:
# Importar las librerias necesarias
import pandas as pd
import numpy as np

## Lectura de datos

Utilizaremos la función `pandas.read_csv()` para leer archivos CSV.

In [5]:
# Alamacenamos el url del dataframe en una variable
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"

In [6]:
# Usando la función pd.read_csv() leemos el archivo
df = pd.read_csv(url)

Después de leer el conjunto de datos, podemos usar el método `data_frame.head()`, para comprobar las n primeras filas del data frame.

In [7]:
# Muestra las 5 primeras filas del dataframe
df.head(5)

Unnamed: 0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.60,...,130,mpfi,3.47,2.68,9.00,111,5000,21,27,13495
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
3,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
4,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250


### Añadir cabezeras

Observemos al conjunto de datos impreso. Pandas de manera autoática asigna un conjunto de cabezeras con un número entero empezando desde 0.

Una mejor manera de describir los datos es introducciendo una cabezera si esta no tiene.

Primero debemos crear una lista con las "cabezeras" la cual incliuye el nombre de las columnas del dataframe en orden.
Después usaremos el metodo `dataframe.columns=ColumnsName`.

In [9]:
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
print(headers)

['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']


Ahora las reemplazamos en el dataframe.

In [11]:
df.columns = headers
df.columns

Index(['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration',
       'num-of-doors', 'body-style', 'drive-wheels', 'engine-location',
       'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
       'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke',
       'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg',
       'highway-mpg', 'price'],
      dtype='object')

Veamos nuevamente el dataframe.

In [12]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
3,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
4,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250


Ahora podemos limpiar un poco el dataframe. Empezaremos reemplazando los caracteres `?` por `NaN`.

In [14]:
df1 = df.replace("?",np.NaN)
df1.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
3,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
4,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250


Ahora si extendemos un poco más el dataframe, encontraremos que algunos valores `NaN` en las columnas que deberían ser importantes como el precio, eliminaremos esas filas, mediante el método `dataframe.drop()`.

In [15]:
df1 = df1.dropna(subset=["price"], axis = 0)
df1.head(20)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
3,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
4,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
5,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
6,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
7,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430
10,0,192.0,bmw,gas,std,four,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16925



`axis=0` significa que el contenido a lo largo de toda la fila será eliminado siempre que se encuentre que la entidad 'price' es NaN.

### Guardar un conjunto de datos

Pandas permite la posibilidad de gurdar los datos en un archivo en distintos formatos. Para guardar en la extesion CSV usamos el método `dataframe.to_csv()` añadiendo el path del archivo donde se vaya a guardar y el nombre del mismo dentro de los paréntesis.

In [None]:
# Para guardar el archivo dentro de la ruta actual ejecute

df.to_csv("automobile.csv", index = False)

Otros formatos que se pueden leer y guardar usando las funciones similares vistas se encuntran en la siguiente tabla.

<h2>Otros formatos</h2>

| Data Formate |        Read       |            Save |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |


## Tipos de datos 

Los datos tienen una variedad de tipos.

Los tipos principales dentro de Pandas son `object`,`float`,`int`,`bool` y `datetime64`. Es recomendable conocer el tipo de datos con el que se esta trabajando.

`dtypes` devueve una serie con los tipos de datos de cada columna del dataframe.

In [17]:
df.dtypes

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

Ahí puedes observar los distintos tipos de datos que se pueden manejar. Y estos pueden ser cambiados.

### Describe

Si queremos tener un resumen estadístico de cada columna, como el recuento, el valor medio de la columna, la desviación estándar de la columna, etc., usamos el método `describe`:

In [21]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,204.0,204.0,204.0,204.0,204.0,204.0,204.0,204.0,204.0,204.0
mean,0.823529,98.806373,174.075,65.916667,53.74902,2555.602941,126.892157,10.148137,25.240196,30.769608
std,1.239035,5.994144,12.362123,2.146716,2.424901,521.96082,41.744569,3.981,6.551513,6.898337
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.3,64.075,52.0,2145.0,97.0,8.575,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,119.5,9.0,24.0,30.0
75%,2.0,102.4,183.2,66.9,55.5,2939.25,142.0,9.4,30.0,34.5
max,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,23.0,49.0,54.0


Esto muestra un resumen estadístico de todas las columnas del tipo numérico(int, float).

Sin embargo, esta no incluye las columnas del tipo object.

Podemos añadir un argumento extra `include = "all"` dentro de los paréntesis.

In [23]:
df.describe(include="all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,204.0,204,204,204,204,204,204,204,204,204.0,...,204.0,204,204.0,204.0,204.0,204.0,204.0,204.0,204.0,204
unique,,52,22,2,2,3,5,3,2,,...,,8,39.0,37.0,,60.0,24.0,,,186
top,,?,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,?
freq,,40,32,184,167,114,96,120,201,,...,,93,23.0,20.0,,19.0,37.0,,,4
mean,0.823529,,,,,,,,,98.806373,...,126.892157,,,,10.148137,,,25.240196,30.769608,
std,1.239035,,,,,,,,,5.994144,...,41.744569,,,,3.981,,,6.551513,6.898337,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,97.0,,,,8.575,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,119.5,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,142.0,,,,9.4,,,30.0,34.5,


Es posible seleccionar columnas específicas.

In [25]:
df[["length","compression-ratio"]]

Unnamed: 0,length,compression-ratio
0,168.8,9.0
1,171.2,9.0
2,176.6,10.0
3,176.6,8.0
4,177.3,8.5
...,...,...
199,188.8,9.5
200,188.8,8.7
201,188.8,8.8
202,188.8,23.0


Y con ellas hacer el resumen estadístico.

In [27]:
df[["length","compression-ratio"]].describe()

Unnamed: 0,length,compression-ratio
count,204.0,204.0
mean,174.075,10.148137
std,12.362123,3.981
min,141.1,7.0
25%,166.3,8.575
50%,173.2,9.0
75%,183.2,9.4
max,208.1,23.0


## Información

Pudes usar otros métodos para conocer tu conjunto de datos.

`info` orivee un resumen conciso del conjunto de datos.

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          204 non-null    int64  
 1   normalized-losses  204 non-null    object 
 2   make               204 non-null    object 
 3   fuel-type          204 non-null    object 
 4   aspiration         204 non-null    object 
 5   num-of-doors       204 non-null    object 
 6   body-style         204 non-null    object 
 7   drive-wheels       204 non-null    object 
 8   engine-location    204 non-null    object 
 9   wheel-base         204 non-null    float64
 10  length             204 non-null    float64
 11  width              204 non-null    float64
 12  height             204 non-null    float64
 13  curb-weight        204 non-null    int64  
 14  engine-type        204 non-null    object 
 15  num-of-cylinders   204 non-null    object 
 16  engine-size        204 non

<hr/>

## Autor:
Jonathan Palan

## Carga y cambios

| Fecha             |Por         |  Descripción                                  |
| -----------------| ---------------| ----------------------------------------------|
| 2024-05-4     | Jonathan Palan | Traducción curso Data Analysis with Python|

## Bibliografía

[1] IBM,"Data Analysis with Python", Skills Network 
<hr/>