# Importacion de datos con Pandas y algunas operaciones especiales
Pandas es una libreria que tiene muchos métodos para importar informacion de muchas fuentes e incluirlas en un código como DataFrames

In [1]:
import pandas as pd

## Importar un CSV
Se puede importar la información de un archivo CSV con el método `read_csv`

In [2]:
df = pd.read_csv("notas.csv")
df

Unnamed: 0,Alumno,PC1,PC2,PC3,PC4
0,1,10,20,18,12
1,2,9,10,12,11
2,3,10,12,11,15
3,4,10,10,11,13
4,5,16,14,10,12


Al momento de leer el archivo CSV, utiliza el encabezado del archivo como las etiquetas de las columnas, y genera una secuencia de enteros para las etiquetas de las filas. Se puede ajustar la importación para que considere una de las columnas (en este caso, `Alumno`, la columna 0 en el CSV) como etiqueta de fila:

In [3]:
df = pd.read_csv("notas.csv", index_col=0)
df

Unnamed: 0_level_0,PC1,PC2,PC3,PC4
Alumno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10,20,18,12
2,9,10,12,11
3,10,12,11,15
4,10,10,11,13
5,16,14,10,12


Se pueden hacer algunos cambios sobre el DataFrame:

In [5]:
df['Prom'] = df[['PC1', 'PC2', 'PC3', 'PC4']].mean(axis=1)    # Por que si se utiliza df.mean(axis=1) el resultado es el mismo???
df

Unnamed: 0_level_0,PC1,PC2,PC3,PC4,Prom
Alumno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,10,20,18,12,15.0
2,9,10,12,11,10.5
3,10,12,11,15,12.0
4,10,10,11,13,11.0
5,16,14,10,12,13.0


In [6]:
df['PC1'] = df['PC1'] + 3    # Broadcast: la operacion de una Serie con un escalar se propara por toda la serie
df

Unnamed: 0_level_0,PC1,PC2,PC3,PC4,Prom
Alumno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,13,20,18,12,15.0
2,12,10,12,11,10.5
3,13,12,11,15,12.0
4,13,10,11,13,11.0
5,19,14,10,12,13.0


### Pregunta
¿Cómo se podrían aplicar 3 puntos adicionales a la nota PC3, pero solo a las notas que sean menores a 18, de forma tal que no supere el puntaje máximo de 20 puntos?

In [8]:
df['PC3'] = df['PC3'] + (df['PC3'] < 18) * 3
df

Unnamed: 0_level_0,PC1,PC2,PC3,PC4,Prom
Alumno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,13,20,18,12,15.0
2,12,10,15,11,10.5
3,13,12,14,15,12.0
4,13,10,14,13,11.0
5,19,14,13,12,13.0


Recalculemos la columna `Prom` despues de los cambios realizados:

In [9]:
# Recalculemos el promedio
df['Prom'] = df[['PC1', 'PC2', 'PC3', 'PC4']].mean(axis=1)
df

Unnamed: 0_level_0,PC1,PC2,PC3,PC4,Prom
Alumno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,13,20,18,12,15.75
2,12,10,15,11,12.0
3,13,12,14,15,13.5
4,13,10,14,13,12.5
5,19,14,13,12,14.5


Una vez hecho esto, podemos guardar estos cambios en forma de un archivo CSV con el método `to_csv` del DataFrame:

In [10]:
df.to_csv('notas_v2.csv')

Si revisa el archivo generado, observará que los indices de las filas (especificados en la columna `Alumno`) son una columna mas en el CSV, lo que en este caso es correcto. Pero es frecuente importar los datos de un CSV y que Pandas se asigne unos indices a las filas y al retornar los datos al formato CSV estos indices se agreguen como una columna adicional.

Para que esto no suceda hay que especificar la propiedad:

    df.to_csv(filename, index=False)
    
Existen tambien algunos atributos adicionales a considerar:

    error_bad_lines = False  (evita cargar lineas del CSV con errores)
    header = False  (si el CSV no tiene encabezado)
    names = []   (nombres de las columnas si el CSV no tiene encabezado)

## Importar de un URL
Tambien se pueden importar datos que esten presenten en una fuente Web, siempre y cuando exista una tabla (con las etiquetas HTML <TD>, es decir, Tabla Data) en la página Web, con el método `from_html`:

In [11]:
URL = "https://es.wikipedia.org/wiki/Anexo:Departamentos_del_Per%C3%BA_por_poblaci%C3%B3n"
df = pd.read_html(URL)
print(type(df))
df

<class 'list'>


[    Puesto   Departamento                  Capital PoblaciónCenso 2017
 0        1           Lima  Lima (capital nacional)           9 485 405
 1        2          Piura                    Piura           1 856 809
 2        3    La Libertad                 Trujillo           1 778 080
 3        4       Arequipa                 Arequipa           1 382 730
 4        5      Cajamarca                Cajamarca           1 341 012
 5        6          Junín                 Huancayo           1 246 038
 6        7          Cuzco                    Cuzco           1 205 527
 7        8     Lambayeque                 Chiclayo           1 197 260
 8        9           Puno                     Puno           1 172 697
 9       10         Ancash                   Huaraz           1 083 519
 10      11         Callao                   Callao             994 494
 11      12         Loreto                  Iquitos             883 510
 12      13            Ica                      Ica             

Lo que el metodo `from_html` retorna es una lista de DataFrames (ya que pueden haber varias tablas en una página Web por lo que habrá que especificar el elemento de la lista)

In [12]:
URL = "https://es.wikipedia.org/wiki/Anexo:Departamentos_del_Per%C3%BA_por_poblaci%C3%B3n"
df = pd.read_html(URL)[0]
df

Unnamed: 0,Puesto,Departamento,Capital,PoblaciónCenso 2017
0,1,Lima,Lima (capital nacional),9 485 405
1,2,Piura,Piura,1 856 809
2,3,La Libertad,Trujillo,1 778 080
3,4,Arequipa,Arequipa,1 382 730
4,5,Cajamarca,Cajamarca,1 341 012
5,6,Junín,Huancayo,1 246 038
6,7,Cuzco,Cuzco,1 205 527
7,8,Lambayeque,Chiclayo,1 197 260
8,9,Puno,Puno,1 172 697
9,10,Ancash,Huaraz,1 083 519


### apply()
¿Cómo puedo cambiar la columna `PoblaciónCenso 2017` para que contenga valores enteros? Cuando se quiere aplicar una operación sobre todos los datos de una fila o columna (¿le recuerda a la funcion `map`?) se aplica el método `apply` sobre la fila o columna del DataFrame.

In [13]:
df['PoblaciónCenso 2017'] = df['PoblaciónCenso 2017'].apply(lambda x: int(''.join(x.split())))   # str sin espacios (entre miles) a int

In [15]:
df.index = df['Puesto']
df.drop(columns='Puesto', inplace=True)

In [16]:
df

Unnamed: 0_level_0,Departamento,Capital,PoblaciónCenso 2017
Puesto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Lima,Lima (capital nacional),9485405
2,Piura,Piura,1856809
3,La Libertad,Trujillo,1778080
4,Arequipa,Arequipa,1382730
5,Cajamarca,Cajamarca,1341012
6,Junín,Huancayo,1246038
7,Cuzco,Cuzco,1205527
8,Lambayeque,Chiclayo,1197260
9,Puno,Puno,1172697
10,Ancash,Huaraz,1083519


### groupby
En Pandas se pueden agrupar las filas respecto a la información de una columna y una operación a realizar. Considere la tabla en https://es.wikipedia.org/wiki/Anexo:Provincias_del_Per%C3%BA:

In [17]:
URL = "https://es.wikipedia.org/wiki/Anexo:Provincias_del_Per%C3%BA"
df = pd.read_html(URL)[0]
df

Unnamed: 0,Departamento,Provincia,Ubigeo,Población (2017),Capital
0,Amazonas,Chachapoyas,101,55 506,Chachapoyas
1,Amazonas,Bagua,102,74 100,Bagua
2,Amazonas,Bongara,103,25 637,Jumbilla
3,Amazonas,Condorcanqui,104,42 470,Santa María de Nieva
4,Amazonas,Luya,105,44 436,Lámud
...,...,...,...,...,...
191,Tumbes,Zarumilla,2403,48 844,Zarumilla
192,Ucayali,Coronel Portillo,2501,384 168,Pucallpa
193,Ucayali,Atalaya,2502,49 324,Atalaya
194,Ucayali,Padre Abad,2503,60 107,Aguaytía


En la página Web, se puede observar que los datos se enuentran agrupados por Departamento, mientras que en el DataFrame esta fila se repite. Podemos utilizar el método `groupby` para agrupar las filas en torno a la información de una columna, en donde la columna agrupada se convierte en el ídice de las columnas del DataFrame resultante:

In [18]:
# Convertir los datos de poblacion a int
df['Población (2017)'] = df['Población (2017)'].apply(lambda x: int(''.join(x.split())))

In [19]:
# Población total por departamento
df.groupby(by='Departamento').sum()[['Población (2017)']]  # [col]: Series, [[col]]: DataFrame

Unnamed: 0_level_0,Población (2017)
Departamento,Unnamed: 1_level_1
Amazonas,379384
Ancash,1083519
Apurimac,405759
Arequipa,1382730
Ayacucho,616176
Cajamarca,1341012
Callao,994494
Cusco,1205527
Huancavelica,347639
Huanuco,721047


In [20]:
# Promedio poblacional por provincia en cada departamento
df.groupby(by='Departamento').mean()[['Población (2017)']]

Unnamed: 0_level_0,Población (2017)
Departamento,Unnamed: 1_level_1
Amazonas,54197.714286
Ancash,54175.95
Apurimac,57965.571429
Arequipa,172841.25
Ayacucho,56016.0
Cajamarca,103154.769231
Callao,994494.0
Cusco,92732.846154
Huancavelica,49662.714286
Huanuco,65549.727273


### MultiIndex: Indices por niveles
La tabla importada desde la fuente Web no es exactamente la misma. Al momento de hacer `groupby` se agruparon las filas alrededor de la columna `Departamento` bajo una operación (en esta caso, la suma o el promedio). Para obtener la tabla de la fuente web, se requiere tener indices para diferentes niveles; esto es, un indice para los Departamento, y otros para las Provincias, en diferentes niveles de indexación, y la información de cada una de estas.

In [21]:
URL = "https://es.wikipedia.org/wiki/Anexo:Provincias_del_Per%C3%BA"
df = pd.read_html(URL, thousands=',')[0]

m_index = pd.MultiIndex.from_frame(df[['Departamento', 'Provincia']])
df_multi = pd.DataFrame(df.iloc[:,2:].values, 
                        index=m_index, 
                        columns=['Ubigeo', 'Poblacion', 'Capital'])
df_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Ubigeo,Poblacion,Capital
Departamento,Provincia,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Amazonas,Chachapoyas,101,55 506,Chachapoyas
Amazonas,Bagua,102,74 100,Bagua
Amazonas,Bongara,103,25 637,Jumbilla
Amazonas,Condorcanqui,104,42 470,Santa María de Nieva
Amazonas,Luya,105,44 436,Lámud
...,...,...,...,...
Tumbes,Zarumilla,2403,48 844,Zarumilla
Ucayali,Coronel Portillo,2501,384 168,Pucallpa
Ucayali,Atalaya,2502,49 324,Atalaya
Ucayali,Padre Abad,2503,60 107,Aguaytía


In [22]:
df_multi.loc['Lima']

Unnamed: 0_level_0,Ubigeo,Poblacion,Capital
Provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lima,1501,8 574 974,Lima
Barranca,1502,144 381,Barranca
Cajatambo,1503,6559,Cajatambo
Canta,1504,11 548,Canta
Cañete,1505,240 013,San Vicente de Cañete
Huaral,1506,183 898,Huaral
Huarochirí,1507,58 145,Matucana
Huaura,1508,227 685,Huacho
Oyón,1509,17 739,Oyón
Yauyos,1510,20 463,Yauyos


In [23]:
df_multi.loc['Lima'].loc['Canta']

Ubigeo         1504
Poblacion    11 548
Capital       Canta
Name: Canta, dtype: object

# Importación de una base de datos
Pandas también puede crear un DataFrame a partir de consula SQL en una base de datos. De esta forma, se puede obtener información y poder manipularla de forma más sencilla en Pandas que son instrucciones SQL.

In [24]:
import requests
import zipfile

r = requests.get("https://cdn.sqlitetutorial.net/wp-content/uploads/2018/03/chinook.zip")

with open("chinook.zip", mode='wb') as file:
    file.write(r.content)
    
with zipfile.ZipFile("chinook.zip") as file:
    file.extractall(".//data")

Hay varios métodos para construír un DataFrame a partir de una base de datos. Existe un wrapper (un método que invoca a otros en función de los parametros) llamado `read_sql` que importa toda una tabla o los resultados de una consulta SQL. Vamos a probar convertír el resultado de una consulta SQL (lo que suele ser lo más habitual) es un DataFrame. Para esto debemos instanciar una conexión contra una base de datos para luego utilizar esta como argumento de `read_sql`:

In [26]:
import sqlite3

conn = sqlite3.connect(".//data//chinook.db")
sql = "SELECT * FROM artists"
df = pd.read_sql(sql, conn)
df

Unnamed: 0,ArtistId,Name
0,1,AC/DC
1,2,Accept
2,3,Aerosmith
3,4,Alanis Morissette
4,5,Alice In Chains
...,...,...
270,271,"Mela Tenenbaum, Pro Musica Prague & Richard Kapp"
271,272,Emerson String Quartet
272,273,"C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon..."
273,274,Nash Ensemble


Reemplazemos los índices de filas por la columna `ArtistId`:

In [27]:
df.index = df['ArtistId']
df.drop(columns='ArtistId', inplace=True)

In [28]:
df

Unnamed: 0_level_0,Name
ArtistId,Unnamed: 1_level_1
1,AC/DC
2,Accept
3,Aerosmith
4,Alanis Morissette
5,Alice In Chains
...,...
271,"Mela Tenenbaum, Pro Musica Prague & Richard Kapp"
272,Emerson String Quartet
273,"C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon..."
274,Nash Ensemble


Probemos el DataFrame busando la fila que tenga "Metallica" en la columna `Name`: 

In [29]:
df[df['Name'] == 'Metallica']

Unnamed: 0_level_0,Name
ArtistId,Unnamed: 1_level_1
50,Metallica


Cuando se trabaja con str se puede tener la necesidd de buscar una fila en donde la información en la columna cumpla con una conicidencia, por ejemplo, que la cadena tenga ciertos caracteres. Esto requiere incluír algunos conceptos adiconales (como las Expresiones Regulares), pero se puede utilizar la siguiente instrucción para ubicar una cadena por sus caracteres iniciales:

In [30]:
df[df['Name'].str.contains("Me")]

Unnamed: 0_level_0,Name
ArtistId,Unnamed: 1_level_1
33,Luiz Melodia
50,Metallica
105,Men At Work
216,"Berliner Philharmoniker, Claudio Abbado & Sabi..."
255,Yehudi Menuhin
271,"Mela Tenenbaum, Pro Musica Prague & Richard Kapp"
