## Diccionario a DataFrame (1)

Pandas es una biblioteca de código abierto, que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar para Python. ¡Suena prometedor!

El DataFrame es una de las estructuras de datos más importantes de Pandas. Básicamente es una forma de almacenar datos tabulares donde puede etiquetar las filas y las columnas. Una forma de construir un DataFrame es desde un diccionario.

En los ejercicios siguientes, trabajará con datos de vehículos de diferentes países. Cada observación corresponde a un país y las columnas dan información sobre el número de vehículos per cápita, si las personas conducen hacia la izquierda o hacia la derecha, y así sucesivamente.

Se definen tres listas en el script:

* *names*, que contiene los nombres de países para los que hay datos disponibles.
* *dr*, una lista con booleanos que indica si las personas conducen hacia la izquierda o hacia la derecha en el país correspondiente.
* *cpc*, el número de vehículos automotores por cada 1000 personas en el país correspondiente.
Cada clave del diccionario es una etiqueta de columna y cada valor es una lista que contiene los elementos de la columna.

**Actividad**

* Importar pandas como pd.
* Use las listas predefinidas para crear un diccionario llamado my_dict. Debe haber tres pares de valores clave:
* Clave *'country'* y valor *names*.
* Clave *'drives_right'* y valor *dr*.
* Clave *'cars_per_cap'* y valor *cpc*.
* Use **pd.DataFrame()** para convertir su dict en un DataFrame llamado *cars*.
* Imprima *cars* y vea lo hermoso que es.

In [1]:
# Pre-defined lists
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]

# Import pandas as pd
import pandas as pd

# Create dictionary my_dict with three key:value pairs: my_dict
my_dict = {'country':names, 'drives_right':dr, 'cars_per_cap':cpc}

# Build a DataFrame cars from my_dict: cars
cars = pd.DataFrame(my_dict)

# Print cars
print(cars)

         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45


## Diccionario a DataFrame (2)

El código de Python que resuelve el ejercicio anterior se incluye a la derecha. ¿Ha notado que las etiquetas de fila (es decir, las etiquetas para las diferentes observaciones) se configuraron automáticamente en enteros de 0 a 6?

Para resolver esto, se ha creado una lista *row_labels* . Puede usarlo para especificar las etiquetas de fila del DataFrame *cars*. Para ello, establezca el atributo *index* de *cars*, al que puede acceder como *cars.index*.

**Actividad**

* Ejecute el código para ver que las etiquetas de fila no están configuradas correctamente.
* Especifique las etiquetas de fila estableciendo *cars.index* igual a *row_labels*.
Imprima nuevamente *cars* y compruebe si las etiquetas de las filas son correctas esta vez.

In [2]:
import pandas as pd

# Build cars DataFrame
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]
cars_dict = { 'country':names, 'drives_right':dr, 'cars_per_cap':cpc }
cars = pd.DataFrame(cars_dict)
print(cars)

# Definition of row_labels
row_labels = ['US', 'AUS', 'JPN', 'IN', 'RU', 'MOR', 'EG']

# Specify row labels of cars
cars.index = row_labels

# Print cars again
print(cars)

         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45
           country  drives_right  cars_per_cap
US   United States          True           809
AUS      Australia         False           731
JPN          Japan         False           588
IN           India         False            18
RU          Russia          True           200
MOR        Morocco          True            70
EG           Egypt          True            45


## CSV a DataFrame (1)

Poner datos en un diccionario y luego construir un DataFrame funciona, pero no es muy eficiente. ¿Qué pasa si se trata de millones de observaciones? En esos casos, los datos generalmente están disponibles como archivos con una estructura regular. Uno de esos tipos de archivo es el archivo CSV, que es la abreviatura de "valores separados por comas".

Para importar datos CSV en Python como Pandas DataFrame, puede usar **read_csv()**.

Exploremos esta función con los mismos datos de autos de los ejercicios anteriores. Esta vez, sin embargo, los datos están disponibles en un archivo CSV, llamado *cars.csv*. Está disponible en su directorio de trabajo actual, por lo que la ruta al archivo es sencilla *'cars.csv'*.

**Actividad**

* Para importar archivos CSV, aún necesita el paquete pandas: impórtelo como pd.
* Se usa pd.read_csv() para importar datos *cars.csv* como un DataFrame. Almacene este marco de datos como *cars*.
* Imprimir *cars*. ¿Todo se ve bien?

In [4]:
# Import pandas as pd
import pandas as pd

# Import the cars.csv data: cars
cars = pd.read_csv('data/cars.csv', sep =';')

# Print out cars
print(cars)

  Unnamed: 0  cars_per_cap        country  drives_right
0         US           809  United States          True
1        AUS           731      Australia         False
2        JPN           588          Japan         False
3         IN            18          India         False
4         RU           200         Russia          True
5        MOR            70        Morocco          True
6         EG            45          Egypt          True


## CSV a DataFrame (2)

Su llamada read_csv() para importar los datos CSV no generó un error, pero el resultado no es del todo lo que queríamos. Las etiquetas de fila se importaron como otra columna sin nombre.

¿Recuerda index_colun argumento de read_csv() que puede usar para especificar qué columna del archivo CSV debe usarse como etiqueta de fila? Bueno, eso es exactamente lo que necesitas aquí!

El código Python que resuelve el ejercicio anterior ya está incluido; ¿Puedes hacer los cambios apropiados para arreglar la importación de datos?

**Actividad**

* Ejecute el código con Código de ejecución y afirme que la primera columna debería usarse como etiquetas de fila.
* Especifique el index_colargumento dentro **pd.read_csv()**: configúrelo *0* para que la primera columna se use como etiquetas de fila.
* ¿Ha carsmejorado la impresión de ahora?

In [8]:
# Import pandas as pd
import pandas as pd

# Fix import by including index_col
cars = pd.read_csv('data/cars.csv', sep =';', index_col=0)

# Print out cars
print(cars)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JPN           588          Japan         False
IN             18          India         False
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True
