# Importando datos con __Pandas__

La librería __Pandas__ nos permite importar con mucha facilidad diferentes formatos:

|Format Type |	Data  Description |	Reader | Writer |
|---|---|---|---|
|text | CSV | read_csv | to_csv |
|text |JSON |read_json |to_json|
|text |HTML |read_html |to_html|
|text |Local clipboard |read_clipboard |to_clipboard|
|binary |MS Excel |read_excel |to_excel|
|binary |HDF5 Format |read_hdf |to_hdf|
|binary |Feather Format |read_feather |to_feather|
|binary |Msgpack |read_msgpack |to_msgpack|
|binary |Stata |read_stata |to_stata|
|binary |SAS |read_sas | | 
|binary |Python Pickle Format |read_pickle |to_pickle|
|SQL |SQL |read_sql |to_sql|
|SQL |Google Big Query |read_gbq |to_gbq|


Para desarrollar algunos ejemplos descargaremos algunos datos:

https://github.com/ochoadavid/Pandas-Salta22/raw/main/ListaAlumnos.csv

Empezamos importando la librería:

In [1]:
import pandas as pd

Y cargamos los datos:

In [2]:
alumnos = pd.read_csv('ListaAlumnos.csv')
alumnos

Unnamed: 0,Numero,Expediente,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
0,1,297613,Margarita,Duarte,LIM2014,100,100,100,100.0,100,75
1,2,261301,Manolo,Garcia,LIM2014,100,27,100,60.0,50,13
2,3,262979,Tomas,Gomez,LIM2014,67,57,100,100.0,100,50
3,4,223867,Susana,Gonzalez,LIM2014,100,60,33,100.0,100,38
4,5,200389,Itzel,Hernandez,LIM2014,100,75,67,100.0,100,50
5,6,270819,David,Hernandez,LIM2014,100,63,100,95.0,100,50
6,7,203004,Francisco,Jimenez,LIM2014,33,23,100,60.0,50,0
7,8,297471,Juan,Nuñez,LIM2014,67,77,67,97.5,100,75
8,9,276809,Helena,Perez,LIM2014,100,95,100,90.0,100,88
9,10,262959,Gustavo,Ramirez,LIM2014,100,87,100,100.0,100,100


Pandas no selecciona ninguna columna como índice automáticamente, sin embargo nosotros podemos hacerlo después de cargar los datos:

In [3]:
alumnos.set_index('Expediente')

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100,100,100,100.0,100,75
261301,2,Manolo,Garcia,LIM2014,100,27,100,60.0,50,13
262979,3,Tomas,Gomez,LIM2014,67,57,100,100.0,100,50
223867,4,Susana,Gonzalez,LIM2014,100,60,33,100.0,100,38
200389,5,Itzel,Hernandez,LIM2014,100,75,67,100.0,100,50
270819,6,David,Hernandez,LIM2014,100,63,100,95.0,100,50
203004,7,Francisco,Jimenez,LIM2014,33,23,100,60.0,50,0
297471,8,Juan,Nuñez,LIM2014,67,77,67,97.5,100,75
276809,9,Helena,Perez,LIM2014,100,95,100,90.0,100,88
262959,10,Gustavo,Ramirez,LIM2014,100,87,100,100.0,100,100


Nótese que el comando anterior no modifica el _dataframe_ original.

In [4]:
alumnos

Unnamed: 0,Numero,Expediente,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
0,1,297613,Margarita,Duarte,LIM2014,100,100,100,100.0,100,75
1,2,261301,Manolo,Garcia,LIM2014,100,27,100,60.0,50,13
2,3,262979,Tomas,Gomez,LIM2014,67,57,100,100.0,100,50
3,4,223867,Susana,Gonzalez,LIM2014,100,60,33,100.0,100,38
4,5,200389,Itzel,Hernandez,LIM2014,100,75,67,100.0,100,50
5,6,270819,David,Hernandez,LIM2014,100,63,100,95.0,100,50
6,7,203004,Francisco,Jimenez,LIM2014,33,23,100,60.0,50,0
7,8,297471,Juan,Nuñez,LIM2014,67,77,67,97.5,100,75
8,9,276809,Helena,Perez,LIM2014,100,95,100,90.0,100,88
9,10,262959,Gustavo,Ramirez,LIM2014,100,87,100,100.0,100,100


Para que sea modificado debemos de usar:
    
    alumnos = alumnos.set_index('Expediente')
    
o

    alumnos.set_index('Expediente', inplace=True)

In [5]:
alumnos = pd.read_csv('ListaAlumnos.csv')
alumnos = alumnos.set_index('Expediente')
alumnos

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100,100,100,100.0,100,75
261301,2,Manolo,Garcia,LIM2014,100,27,100,60.0,50,13
262979,3,Tomas,Gomez,LIM2014,67,57,100,100.0,100,50
223867,4,Susana,Gonzalez,LIM2014,100,60,33,100.0,100,38
200389,5,Itzel,Hernandez,LIM2014,100,75,67,100.0,100,50
270819,6,David,Hernandez,LIM2014,100,63,100,95.0,100,50
203004,7,Francisco,Jimenez,LIM2014,33,23,100,60.0,50,0
297471,8,Juan,Nuñez,LIM2014,67,77,67,97.5,100,75
276809,9,Helena,Perez,LIM2014,100,95,100,90.0,100,88
262959,10,Gustavo,Ramirez,LIM2014,100,87,100,100.0,100,100


In [6]:
alumnos = pd.read_csv('ListaAlumnos.csv')
alumnos.set_index('Expediente', inplace=True)
alumnos

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100,100,100,100.0,100,75
261301,2,Manolo,Garcia,LIM2014,100,27,100,60.0,50,13
262979,3,Tomas,Gomez,LIM2014,67,57,100,100.0,100,50
223867,4,Susana,Gonzalez,LIM2014,100,60,33,100.0,100,38
200389,5,Itzel,Hernandez,LIM2014,100,75,67,100.0,100,50
270819,6,David,Hernandez,LIM2014,100,63,100,95.0,100,50
203004,7,Francisco,Jimenez,LIM2014,33,23,100,60.0,50,0
297471,8,Juan,Nuñez,LIM2014,67,77,67,97.5,100,75
276809,9,Helena,Perez,LIM2014,100,95,100,90.0,100,88
262959,10,Gustavo,Ramirez,LIM2014,100,87,100,100.0,100,100


También se puede identificar desde el momento de la lectura el índice:

In [7]:
alumnos = pd.read_csv('ListaAlumnos.csv', index_col='Expediente')
alumnos

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100,100,100,100.0,100,75
261301,2,Manolo,Garcia,LIM2014,100,27,100,60.0,50,13
262979,3,Tomas,Gomez,LIM2014,67,57,100,100.0,100,50
223867,4,Susana,Gonzalez,LIM2014,100,60,33,100.0,100,38
200389,5,Itzel,Hernandez,LIM2014,100,75,67,100.0,100,50
270819,6,David,Hernandez,LIM2014,100,63,100,95.0,100,50
203004,7,Francisco,Jimenez,LIM2014,33,23,100,60.0,50,0
297471,8,Juan,Nuñez,LIM2014,67,77,67,97.5,100,75
276809,9,Helena,Perez,LIM2014,100,95,100,90.0,100,88
262959,10,Gustavo,Ramirez,LIM2014,100,87,100,100.0,100,100


_Pandas_ automáticamente hace su mejor esfuerzo para:

* Identificar nombres de columnas
* Identificar el tipo de datos que hay en cada columna

In [8]:
alumnos.Examen1

Expediente
297613    100
261301     27
262979     57
223867     60
200389     75
270819     63
203004     23
297471     77
276809     95
262959     87
273339     67
226660     69
293143     69
254011     72
276772     69
252165     84
Name: Examen1, dtype: int64

In [9]:
alumnos.Examen2

Expediente
297613    100.0
261301     60.0
262979    100.0
223867    100.0
200389    100.0
270819     95.0
203004     60.0
297471     97.5
276809     90.0
262959    100.0
273339    100.0
226660     95.0
293143     95.0
254011     90.0
276772    100.0
252165    100.0
Name: Examen2, dtype: float64

Las columnas se pueden convertir usando:

In [10]:
alumnos.Examen1 = alumnos.Examen1.astype('float64')
alumnos.Examen1

Expediente
297613    100.0
261301     27.0
262979     57.0
223867     60.0
200389     75.0
270819     63.0
203004     23.0
297471     77.0
276809     95.0
262959     87.0
273339     67.0
226660     69.0
293143     69.0
254011     72.0
276772     69.0
252165     84.0
Name: Examen1, dtype: float64

También podemos identificar nosotros mismos los tipos que deberán de ser usados.

Hay varias maneras de hacer esto, pero una relativamente sencilla es pasar un diccionario con esta información, donde las **llaves** son los nombres de las columnas y los **valores** el tipo de dato y pasándolo al `read_csv` con el nombre `dtype`:

In [11]:
tipos = {'Numero':'int',
         'Expediente':'str',
         'Nombre':'str',
         'Apellido':'str',
         'Plan':'str',
         'Tarea1':'float',
         'Examen1':'float',
         'Tarea2':'float',
         'Examen2':'float',
         'Tarea3':'float',
         'Examen3':'float'}

In [12]:
alumnos = pd.read_csv('ListaAlumnos.csv', index_col='Expediente', dtype=tipos)
alumnos

Unnamed: 0_level_0,Numero,Nombre,Apellido,Plan,Tarea1,Examen1,Tarea2,Examen2,Tarea3,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
297613,1,Margarita,Duarte,LIM2014,100.0,100.0,100.0,100.0,100.0,75.0
261301,2,Manolo,Garcia,LIM2014,100.0,27.0,100.0,60.0,50.0,13.0
262979,3,Tomas,Gomez,LIM2014,67.0,57.0,100.0,100.0,100.0,50.0
223867,4,Susana,Gonzalez,LIM2014,100.0,60.0,33.0,100.0,100.0,38.0
200389,5,Itzel,Hernandez,LIM2014,100.0,75.0,67.0,100.0,100.0,50.0
270819,6,David,Hernandez,LIM2014,100.0,63.0,100.0,95.0,100.0,50.0
203004,7,Francisco,Jimenez,LIM2014,33.0,23.0,100.0,60.0,50.0,0.0
297471,8,Juan,Nuñez,LIM2014,67.0,77.0,67.0,97.5,100.0,75.0
276809,9,Helena,Perez,LIM2014,100.0,95.0,100.0,90.0,100.0,88.0
262959,10,Gustavo,Ramirez,LIM2014,100.0,87.0,100.0,100.0,100.0,100.0


Para bases de datos muy grandes es posible que alguna vez no necesitemos todas las columnas y cargar sólo aquellas necesarias hará más eficiente nuestro análisis. Podemos seleccionar algunas usando `usecols`:

In [13]:
alumnos = pd.read_csv('ListaAlumnos.csv', index_col='Expediente', dtype=tipos, 
                      usecols=['Expediente', 'Examen1', 'Examen2','Examen3'])
alumnos

Unnamed: 0_level_0,Examen1,Examen2,Examen3
Expediente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
297613,100.0,100.0,75.0
261301,27.0,60.0,13.0
262979,57.0,100.0,50.0
223867,60.0,100.0,38.0
200389,75.0,100.0,50.0
270819,63.0,95.0,50.0
203004,23.0,60.0,0.0
297471,77.0,97.5,75.0
276809,95.0,90.0,88.0
262959,87.0,100.0,100.0


A continuación, para hacer algunos ejercicios trabajaremos con los datos de:

https://www.inegi.org.mx/temas/natalidad/default.html#Tabulados

Ejercicio:

Cargar los datos de natalidad total por entidad de los años recientes a pandas.

In [14]:
natalidad = pd.read_csv('Natalidad_01.csv', skiprows=2, index_col='Entidad federativa de residencia habitual de la madre')
natalidad

Unnamed: 0_level_0,2010 Total,2011 Total,2012 Total,2013 Total,2014 Total,2015 Total,2016 Total,2017 Total
Entidad federativa de residencia habitual de la madre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Total,2643908.0,2586287.0,2498880.0,2478889.0,2463420.0,2353596.0,2293708.0,2234039.0
Aguascalientes,26583.0,27427.0,26933.0,26434.0,27080.0,26486.0,26388.0,26955.0
Baja California,63559.0,65631.0,62871.0,61840.0,63183.0,63805.0,62608.0,61840.0
Baja California Sur,13988.0,13412.0,12864.0,12489.0,12667.0,12526.0,12545.0,12573.0
Campeche,20380.0,22138.0,18343.0,18998.0,19304.0,17862.0,17361.0,17034.0
Coahuila de Zaragoza,56972.0,58882.0,59966.0,62490.0,62966.0,62807.0,62011.0,58393.0
Colima,13796.0,14054.0,13422.0,13287.0,13303.0,12344.0,11867.0,11756.0
Chiapas,175382.0,168256.0,144423.0,164102.0,164912.0,145526.0,140356.0,131638.0
Chihuahua,74063.0,69376.0,69735.0,66516.0,66110.0,63395.0,62313.0,63475.0
Ciudad de México,160057.0,156549.0,153631.0,145302.0,145609.0,135828.0,128227.0,119227.0
