## Pandas

<img src="img/pandas_logo.png" width="600">

## Python Data Analysis Library

Pandas es una librería de open source que permite el uso fácil de estructuras de datos y herramientas de análisis utilizando el lenguaje de programación Python.


In [1]:
# Para usarlo primero hay que importarlo
from pandas import Series, DataFrame
import pandas as pd

In [3]:
datos = {'Nombre': ['Ana', 'Maria', 'Lucia', 'Jorge', 'Carlos'], 
        'year': [2012, 2012, 2013, 2014, 2014], 
        'reports': [4, 24, 31, 2, 3]}

df = pd.DataFrame(datos, index = ['Mexico', 'Aguascalientes', 
                                  'Guadalajara', 'Monterrey', 'Sinaloa'])

df

Unnamed: 0,Nombre,reports,year
Mexico,Ana,4,2012
Aguascalientes,Maria,24,2012
Guadalajara,Lucia,31,2013
Monterrey,Jorge,2,2014
Sinaloa,Carlos,3,2014


In [5]:
df[:2]

Unnamed: 0,Nombre,reports,year
Mexico,Ana,4,2012
Aguascalientes,Maria,24,2012


In [8]:
df[0:3]

Unnamed: 0,Nombre,reports,year
Mexico,Ana,4,2012
Aguascalientes,Maria,24,2012
Guadalajara,Lucia,31,2013


In [9]:
#Acceso a los datos
print(df['Nombre']) #Acceso a los atributos o columnas
print('\n')
print(df['reports'])
print('\n')
print(df['year'])

Mexico               Ana
Aguascalientes     Maria
Guadalajara        Lucia
Monterrey          Jorge
Sinaloa           Carlos
Name: Nombre, dtype: object


Mexico             4
Aguascalientes    24
Guadalajara       31
Monterrey          2
Sinaloa            3
Name: reports, dtype: int64


Mexico            2012
Aguascalientes    2012
Guadalajara       2013
Monterrey         2014
Sinaloa           2014
Name: year, dtype: int64


In [11]:
#Acceso a los valores de un registro en un atributo especifico
print(df.Nombre[0])
print(df.Nombre[1])
print(df.Nombre[2])
print(df.Nombre[3])
print(df.Nombre[4])
#df.Nombre[5]  

#conocer las dimensiones del dataframe
print('\n')
print(df.shape)
len(df)

Ana
Maria
Lucia
Jorge
Carlos


(5, 3)


5

In [12]:
#También podemos buscar por un valor en especifico
row = df.xs('Aguascalientes')
print(row)
col = df.xs('Nombre', axis=1)
print('\n')
print(col)


Nombre     Maria
reports       24
year        2012
Name: Aguascalientes, dtype: object


Mexico               Ana
Aguascalientes     Maria
Guadalajara        Lucia
Monterrey          Jorge
Sinaloa           Carlos
Name: Nombre, dtype: object


In [10]:
print(row['Nombre'])
print(row['reports'])
print(row['year'])

Maria
24
2012


In [11]:
print(col['Aguascalientes'])
print(col['Sinaloa'])


Maria
Carlos


In [14]:
roww = df.ix[1] # Porque no podemos hacer df[0]
roww


Nombre     Maria
reports       24
year        2012
Name: Aguascalientes, dtype: object

In [16]:
dfmi = df.copy()  #Copiar un dataframe
dfmi

Unnamed: 0,Nombre,reports,year
Mexico,Ana,4,2012
Aguascalientes,Maria,24,2012
Guadalajara,Lucia,31,2013
Monterrey,Jorge,2,2014
Sinaloa,Carlos,3,2014


In [15]:
df.index

Index(['Mexico', 'Aguascalientes', 'Guadalajara', 'Monterrey', 'Sinaloa'], dtype='object')

In [16]:
#Recorrer todos los elementos del dataframe
for index, row in df.iterrows():
    print(row)
    print(index)
    print('\n')

Nombre      Ana
reports       4
year       2012
Name: Mexico, dtype: object
Mexico


Nombre     Maria
reports       24
year        2012
Name: Aguascalientes, dtype: object
Aguascalientes


Nombre     Lucia
reports       31
year        2013
Name: Guadalajara, dtype: object
Guadalajara


Nombre     Jorge
reports        2
year        2014
Name: Monterrey, dtype: object
Monterrey


Nombre     Carlos
reports         3
year         2014
Name: Sinaloa, dtype: object
Sinaloa




In [17]:
#Recorrer todos los elementos del dataframe
for index, row in df.iterrows():
    nombre = row['Nombre']
    print(nombre)

Ana
Maria
Lucia
Jorge
Carlos


In [18]:
#Recorrer todos los elementos del dataframe
for columna, valor in df.iteritems():
    print(columna)
    print(valor)
    print('\n')

Nombre
Mexico               Ana
Aguascalientes     Maria
Guadalajara        Lucia
Monterrey          Jorge
Sinaloa           Carlos
Name: Nombre, dtype: object


reports
Mexico             4
Aguascalientes    24
Guadalajara       31
Monterrey          2
Sinaloa            3
Name: reports, dtype: int64


year
Mexico            2012
Aguascalientes    2012
Guadalajara       2013
Monterrey         2014
Sinaloa           2014
Name: year, dtype: int64




In [18]:
df.values

array([['Ana', 4, 2012],
       ['Maria', 24, 2012],
       ['Lucia', 31, 2013],
       ['Jorge', 2, 2014],
       ['Carlos', 3, 2014]], dtype=object)

In [19]:
df.describe()

Unnamed: 0,reports,year
count,5.0,5.0
mean,12.8,2013.0
std,13.663821,1.0
min,2.0,2012.0
25%,3.0,2012.0
50%,4.0,2013.0
75%,24.0,2014.0
max,31.0,2014.0


In [21]:
#Estadísticas en los dataframes
print(df.mean())

#También aplica count, sum, median, min, max, abs, prod, etc.
print('\n')
print(df.min())

reports      12.8
year       2013.0
dtype: float64


Nombre      Ana
reports       2
year       2012
dtype: object


  <img src="img/dataframes_statis.png" width="600">

In [22]:
#Borrando filas u observaciones
df.drop(['Aguascalientes', 'Mexico'], inplace=True)
df

Unnamed: 0,Nombre,reports,year
Guadalajara,Lucia,31,2013
Monterrey,Jorge,2,2014
Sinaloa,Carlos,3,2014


In [23]:
#Borrando variables
df.drop('year', axis=1, inplace=True)
df.head() # Nos ayuda a ver los n primeros elementos del dataframe

Unnamed: 0,Nombre,reports
Guadalajara,Lucia,31
Monterrey,Jorge,2
Sinaloa,Carlos,3


In [28]:
df.head(2)

Unnamed: 0,Nombre,reports
Guadalajara,Lucia,31
Monterrey,Jorge,2


In [29]:
df.tail(1) #Nos muestra los últimos n elementos del Dataframe

Unnamed: 0,Nombre,reports
Sinaloa,Carlos,3


In [33]:
#Seleccionamos una observación siempre y cuando contenga un 
#determinado valor
df_n = df[df.Nombre != 'Carlos']
df_n

Unnamed: 0,Nombre,reports
Guadalajara,Lucia,31
Monterrey,Jorge,2


In [35]:
## También podemos modificar los valores del dataframe
df_2 = df #Hacemos una copia del Dataframe

print(df_2)

df_2['year'] = 2015 #Asignamos 2015 a toda la columna year

print(df)

             Nombre  reports  year
Guadalajara   Lucia       31  2015
Monterrey     Jorge        2  2015
Sinaloa      Carlos        3  2015
             Nombre  reports  year
Guadalajara   Lucia       31  2015
Monterrey     Jorge        2  2015
Sinaloa      Carlos        3  2015


In [37]:
#Igualamos a 10 a toda la fila de index Aguascalientes
df_2[df_2.index=="Guadalajara"]=10 

df_2



Unnamed: 0,Nombre,reports,year
Guadalajara,10,10,10
Monterrey,Jorge,2,2015
Sinaloa,Carlos,3,2015


In [38]:
df

Unnamed: 0,Nombre,reports,year
Guadalajara,10,10,10
Monterrey,Jorge,2,2015
Sinaloa,Carlos,3,2015


In [40]:
# Si queremos modificar un valor especifico, 
# por ejemplo el nombre del Registro con índice "Guadalajara"
# utilizamos la opción loc

df_2.loc[df_2.index=="Guadalajara","Nombre"] = 'Alejandra'
df_2

Unnamed: 0,Nombre,reports,year
Guadalajara,Alejandra,10,10
Monterrey,Jorge,2,2015
Sinaloa,Carlos,3,2015


In [42]:
#Colocando valores en un renglón especifico y columna especifica
df_2.iat[0,1] = 1000

df_2

Unnamed: 0,Nombre,reports,year
Guadalajara,Alejandra,1000,10
Monterrey,Jorge,2,2015
Sinaloa,Carlos,3,2015


In [43]:
#Selección de fragmentos del dataframe
df_2[df_2.index=="Guadalajara"]['Nombre']


Guadalajara    Alejandra
Name: Nombre, dtype: object

In [45]:
df_2[df_2.reports >=100]['year']

Guadalajara    10
Name: year, dtype: int64

In [54]:
import numpy as np
df_numeros = pd.DataFrame({
'one' : pd.Series(np.random.randn(3), 
index=['a', 'b', 'c']),
'two' : pd.Series(np.random.randn(4), 
index=['a', 'b', 'c', 'd']),
'three' : pd.Series(np.random.randn(3), 
index=['b', 'c', 'd'])})


df_numeros

Unnamed: 0,one,three,two
a,0.174891,,0.010256
b,-1.922754,1.040841,-0.32431
c,-0.472022,0.735914,0.33183
d,,-0.419111,0.080826


In [55]:
df_numeros.columns = ['C1','C2','C3']
df_numeros

Unnamed: 0,C1,C2,C3
a,0.174891,,0.010256
b,-1.922754,1.040841,-0.32431
c,-0.472022,0.735914,0.33183
d,,-0.419111,0.080826


In [619]:
df_numeros[df_numeros.C1 > 0]

Unnamed: 0,C1,C2,C3
c,0.752893,1.034588,0.500686


In [56]:
df_numeros[df_numeros > 0]

Unnamed: 0,C1,C2,C3
a,0.174891,,0.010256
b,,1.040841,
c,,0.735914,0.33183
d,,,0.080826


In [57]:
#Re-indexado

df_numeros = df_numeros.reindex(index=list(df_numeros.index)+['e'], 
                        columns=list(df_numeros.columns) + ['C4'])
df_numeros


Unnamed: 0,C1,C2,C3,C4
a,0.174891,,0.010256,
b,-1.922754,1.040841,-0.32431,
c,-0.472022,0.735914,0.33183,
d,,-0.419111,0.080826,
e,,,,


In [58]:
df_numeros[df_numeros.C1 > 0]

Unnamed: 0,C1,C2,C3,C4
a,0.174891,,0.010256,


In [59]:
df_numeros[df_numeros > 0]

Unnamed: 0,C1,C2,C3,C4
a,0.174891,,0.010256,
b,,1.040841,,
c,,0.735914,0.33183,
d,,,0.080826,
e,,,,


In [63]:
#Missing data
#To drop any rows that have missing data.
#Si alguno elemento de la observación tiene missing data 
#borra toda la observación
df_numeros_nona = df_numeros.dropna(how='any')

#Si todos los elementos son NAN borra la observación

df_numeros_nona

Unnamed: 0,C1,C2,C3,C4


In [64]:
df_numeros_nona = df_numeros.dropna(how='all', axis=1)

df_numeros_nona



Unnamed: 0,C1,C2,C3
a,0.174891,,0.010256
b,-1.922754,1.040841,-0.32431
c,-0.472022,0.735914,0.33183
d,,-0.419111,0.080826
e,,,


In [65]:
#Filling missing data
df_numeros_nona = df_numeros.fillna(value=5)
df_numeros_nona

Unnamed: 0,C1,C2,C3,C4
a,0.174891,5.0,0.010256,5.0
b,-1.922754,1.040841,-0.32431,5.0
c,-0.472022,0.735914,0.33183,5.0
d,5.0,-0.419111,0.080826,5.0
e,5.0,5.0,5.0,5.0


In [66]:
dframe = pd.DataFrame(np.random.randn(8, 4), 
        columns=['A','B','C','D'])
dframe


Unnamed: 0,A,B,C,D
0,-0.565528,1.256361,0.944172,0.339928
1,-1.003912,0.051469,0.206023,0.978341
2,0.624192,0.420492,0.246161,2.733592
3,-0.864671,-1.367889,-0.344099,0.455427
4,-1.240942,-1.006943,1.416863,0.28961
5,0.963384,0.23658,2.697727,0.445973
6,0.195778,0.015544,-1.136599,-0.050604
7,1.430125,-0.969026,-0.54423,0.908039


In [67]:
s=dframe.iloc[3] #Copiamos un valor de dataframe
s

A   -0.864671
B   -1.367889
C   -0.344099
D    0.455427
Name: 3, dtype: float64

In [71]:
#Agregar un renglón al dataframe
df_nuevo=dframe.append(s,ignore_index=True)
df_nuevo

Unnamed: 0,A,B,C,D
0,-0.565528,1.256361,0.944172,0.339928
1,-1.003912,0.051469,0.206023,0.978341
2,0.624192,0.420492,0.246161,2.733592
3,-0.864671,-1.367889,-0.344099,0.455427
4,-1.240942,-1.006943,1.416863,0.28961
5,0.963384,0.23658,2.697727,0.445973
6,0.195778,0.015544,-1.136599,-0.050604
7,1.430125,-0.969026,-0.54423,0.908039
8,-0.864671,-1.367889,-0.344099,0.455427


In [46]:
df_nuevo

Unnamed: 0,A,B,C,D
0,-0.505759,0.362071,-0.289255,-0.117031
1,0.184065,-0.934977,1.549899,-0.071344
2,-0.109178,1.02263,-0.104068,0.789313
3,-0.854098,1.830736,0.401189,-0.046734
4,-0.743508,0.746445,-0.442784,-0.425863
5,0.398668,-1.19483,-1.120134,0.222439
6,-0.667413,-1.551989,0.286814,-1.468408
7,0.106746,1.349772,0.101672,-0.088193
8,-0.854098,1.830736,0.401189,-0.046734


In [47]:
#Seleccionar por posición

df.iloc[1:3,:] # rebanadas por renglones
df.iloc[:,1:3] # Rebanadas por columas
df.iloc[1,1] # Tomando un valor explicitamente 
df.iloc[:1,:1]

Unnamed: 0,Nombre
Guadalajara,Lucia


In [13]:
''' Existen métodos de comparación booleana para 
los Dataframes: eq, ne, lt, gt, le, y ge.
 eq : igual a 
 ne: no igual a
 lt: menor que
 gt: mayor que
 le y ge : menore igual, mayor e igual
'''
df2=df
df.eq(df2)


Unnamed: 0,Nombre,reports,year
Mexico,True,True,True
Aguascalientes,True,True,True
Guadalajara,True,True,True
Monterrey,True,True,True
Sinaloa,True,True,True


In [72]:
import numpy as np
#Apply 
frame = DataFrame(np.random.randn(4, 3), 
                columns=list('bde'), 
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

frame

Unnamed: 0,b,d,e
Utah,-1.477824,-0.019066,1.096037
Ohio,-2.206196,0.961892,-0.104363
Texas,0.742849,-0.606353,0.816215
Oregon,0.634214,0.821172,1.27254


In [73]:
f=frame.apply(np.sqrt) # regresa un DataFrame
f


Unnamed: 0,b,d,e
Utah,,,1.046918
Ohio,,0.980761,
Texas,0.861887,,0.903446
Oregon,0.796375,0.906186,1.128069


In [51]:
f=frame.apply(np.sum, axis=1) #axis=0 columnas, axis=1 filas
f

Utah     -1.770296
Ohio      1.842479
Texas     3.104558
Oregon    1.028145
dtype: float64

In [52]:
#Ordena por ejes (por el nombre de los ejes)
frame.sort_index(axis=1, ascending=True,inplace=True) 
frame

Unnamed: 0,b,d,e
Utah,-0.245974,-0.36878,-1.155542
Ohio,-0.265911,0.408889,1.6995
Texas,1.493265,1.178813,0.432479
Oregon,1.113539,0.999035,-1.084429


In [53]:
#Ordena por valores
frame.sort_values("e",ascending=True, inplace=True) 
frame

Unnamed: 0,b,d,e
Utah,-0.245974,-0.36878,-1.155542
Oregon,1.113539,0.999035,-1.084429
Texas,1.493265,1.178813,0.432479
Ohio,-0.265911,0.408889,1.6995


In [54]:
frame2 = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
f_2 = frame2.sort_values(by=['b','a'], ascending=False)
print(frame2,'\n')
print(f_2)

   a  b
0  0  4
1  1  7
2  0 -3
3  1  2 

   a  b
1  1  7
0  0  4
3  1  2
2  0 -3


### Ejercicio con pandas
- Leer datos desde archivo.


In [74]:
Datos=pd.read_csv("DATOS_Ej.csv", index_col=0)
Datos

Unnamed: 0_level_0,COMUNA,LOCALIDAD,TIPO DE BIEN,NORMATIVA,PROPIETARIO
ficha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Arauco,Laraquete,Casa,Rural,Honorina
5,Arauco,Laraquete,Casa,Rural,Marilyn Marlene
10,Arauco,Laraquete,Casa,Rural,Francisco Segundo
11,Arauco,Laraquete,Casa,Rural,Susana Angela
12,Arauco,Laraquete,Casa,Rural,Bernarda del Carmen
13,Arauco,Laraquete,Casa,Rural,Segundo Ramón
15,Arauco,Laraquete,Casa,Rural,Flor Esilda
22,Arauco,Arauco,Casa,Rural,Cecilia
23,Arauco,Arauco,Casa,Rural,Samuel Segundo
25,Arauco,Arauco,Casa,Rural,Sonia Inés


In [75]:
np.RAISE?

### Ejercicio con pandas
- Leer datos desde archivo.
- Muestren los primeros 10
- Muestren los últimos 10
- Muestren solo los nombres de los propietarios
- Agregar una columna de Edad
- Asignar una edad a cada registro (como prefieran)
- Agregar 10 registros, uno por cada compañero de clase (puede inventar los datos, excepto el nombre)
- Cuenten cuántas casas y departamentos hay (tipo de bien) en la BD
- Me digan cuantos Juan son propietarios
- Llenar los missing data con el valor predominante en cada columna
- Contar cuantos elementos hay de cada columna
- Copien la BD a otro Dataframe
- En el nuevo Dataframe
    - Borrar todos los registros de localidad Laraquete
    - Borrar las fichas con valore entre 30 y 60.
    
    