# Librería `pandas`


In [None]:
# !pip install numpy scipy matplotlib seaborn scikit-learn -q

[`pandas`](https://pandas.pydata.org/) es una librería de Python especializada en el manejo y análisis de estructuras de datos.

Las principales características de esta librería son:
* Define nuevas estructuras de datos basadas en el tipo `array`de la librería *NumPy* pero agregan algunas funcionalidades.
* Permite leer y escribir fácilmente archivos en formato CSV, Excel y bases de datos SQL.
* Permite acceder a los datos mediantes índices o nombres para renglones y columnas.
* Ofrece métodos para reordenar, dividr y combinar conjuntos de datos.
* Permite trabajar con series temporales.

## Lectura de archivos CSV

* Primero, vamos a cargar algunos archivos que vamos a necesitar: `data_xml.xml`, `page.html`, `saleman.txt`, `times.csv`, y `tmdb_5000_movies.csv`. Estos archivos se encuentran en el repositorio de la materia.

In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

ModuleNotFoundError: No module named 'google'

* Importamos la librería `pandas` para usarla a lo largo de este cuaderno de trabajo.

In [None]:
import pandas as pd
import numpy as np

* A continuación, cargueremos los datos del archivo a un `DataFrame` de pandas. Un `DataFrame` es un conjunto de datos estructurado en forma de tabla donde cada renglon corresponde a un registro diferente, y las columnas son las distintas características del registro.

* Un `DataFrame`contiene dos índices, uno para los renglones y otro para las columnas. Se pueden acceder mediante los índices de los renglones y los nombres (o índices) de las columnas.

In [None]:
df = pd.read_csv('tmdb_5000_movies.csv')
# El método `head` nos permite desplegar las primeras línea de un DataFrame.
df.head(2)

FileNotFoundError: [Errno 2] No such file or directory: 'tmdb_5000_movies.csv'

In [None]:
# El método `info` nos despliega información sobre el tipo de dato de las columnas (características).
df.info()

In [None]:
# El método `describe` nos da información estadística básica de las calumnas.
df.describe()

* Usando `pandas` podemos leer cualquier archivo CSV sin importar la extensión que tenga.

In [None]:
df = pd.read_csv('salesman.txt')
df.head()

* O, incluso, si utilizan separadores diferentes a la `,`.

In [None]:
df = pd.read_csv('times.csv', sep=';')
df.head()

* También, podemos asignarles nombres a las columnas (si es que no tiene uno asignado).

In [None]:
df = pd.read_csv('times.csv', sep=';', names=['ID', 'TIME','SCORE','CLASS'])
df.head()

* Algunas veces sólo necesitaremos algunas columnas. Por ejemplo, del archivo `tmdb_5000_movies.csv` sólo necesitamos las columnas `id` (1), `original_title` (6), `popularity` (8), `vote_average` (18), `vote_count` (19).

In [None]:
df = pd.read_csv('tmdb_5000_movies.csv', usecols=[1, 6, 8, 18, 19])
df.head(2)

## Lectura de archivos HTML

* Podemos usar `pandas` para leer todas las tablas contenidas en un archivo HTML.

In [None]:
df = pd.read_html('page.html')
print('Total tables:', len(df))
print(df[0])
print(df[1])

In [None]:
table1 = df[0]
table1.head()

* También, podemos optar sólo extraer alguna tabla en particular (que tenga alguna etiqueta determinada).

In [None]:
df = pd.read_html('https://en.wikipedia.org/wiki/Economy_of_the_United_States', match='Nominal GDP')
print('Total tables:', len(df))
df_GDP = df[0]
df_GDP.head(4)

## Lectura de archivos XML
* XML es el acrónimo de Extensible Markup Language, es decir, es un lenguaje de marcado que define un conjunto de reglas para la codificación de documentos. El lenguaje de marcado es un conjunto de códigos que se pueden aplicar en el análisis de datos o la lectura de textos creados por computadoras o personas. El lenguaje XML proporciona una plataforma para definir elementos para crear un formato y generar un lenguaje personalizado.

In [None]:
df = pd.read_xml('data_xml.xml')
df.head()

## Crear `Series` usando una lista de valores

In [None]:
s = pd.Series([1, 3, 5, np.nan, 9, 11])
s

In [None]:
s[0]

## Crear un `DataFrame`

* Vamos a crear un `DataFrame` que contenga números aleatorios en donde los índices sean las fechas des el primero de enero de 2020 hasta el 6 de enero de 20202. El `DataFrame` tendrá 4 columnas, llamadas `A`, `B`, `C` y `D`.

In [None]:
dates = pd.date_range('20200101', periods=6)
dates

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df.head()

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,-0.533736,1.118109
2020-01-02,-0.406651,1.563322,1.138195,0.356028
2020-01-03,-0.093066,1.016498,-0.512645,0.688105
2020-01-04,-0.320599,0.931979,-2.051235,0.221298
2020-01-05,-0.830595,0.30553,-0.601467,1.247763


* También, podemos crear un `DataFrame` con diferentes objetos.

In [None]:
df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20200101'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': pd.Series(2, index=list(range(4)), dtype='float32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-01-01,1.0,2.0,test,foo
1,1.0,2020-01-01,1.0,2.0,train,foo
2,1.0,2020-01-01,1.0,2.0,test,foo
3,1.0,2020-01-01,1.0,2.0,train,foo


In [None]:
df2.dtypes

A          float64
B    datetime64[s]
C          float32
D          float32
E         category
F           object
dtype: object

## Visualizando los primeros y últimos valores de un `DataFrame`

In [None]:
df.head(2)

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,-0.533736,1.118109
2020-01-02,-0.406651,1.563322,1.138195,0.356028


In [None]:
df.tail(2)

Unnamed: 0,A,B,C,D
2020-01-05,-0.830595,0.30553,-0.601467,1.247763
2020-01-06,-0.345935,-0.486864,0.305955,-0.085704


## Transponer la información

* En otras palabras, convertir las columnas en índices y los índices en columnas.

In [None]:
df.T

Unnamed: 0,2020-01-01,2020-01-02,2020-01-03,2020-01-04,2020-01-05,2020-01-06
A,0.789088,-0.406651,-0.093066,-0.320599,-0.830595,-0.345935
B,1.601492,1.563322,1.016498,0.931979,0.30553,-0.486864
C,-0.533736,1.138195,-0.512645,-2.051235,-0.601467,0.305955
D,1.118109,0.356028,0.688105,0.221298,1.247763,-0.085704


## Seleccionando columnas

* Para seleccionar lso valores de la columna `A`, tenemos las siguiente opciones:

In [None]:
df["A"]

2020-01-01    0.789088
2020-01-02   -0.406651
2020-01-03   -0.093066
2020-01-04   -0.320599
2020-01-05   -0.830595
2020-01-06   -0.345935
Freq: D, Name: A, dtype: float64

In [None]:
df['A']

2020-01-01    0.789088
2020-01-02   -0.406651
2020-01-03   -0.093066
2020-01-04   -0.320599
2020-01-05   -0.830595
2020-01-06   -0.345935
Freq: D, Name: A, dtype: float64

In [None]:
df.A

2020-01-01    0.789088
2020-01-02   -0.406651
2020-01-03   -0.093066
2020-01-04   -0.320599
2020-01-05   -0.830595
2020-01-06   -0.345935
Freq: D, Name: A, dtype: float64

## Seleccionando renglones

In [None]:
df[0:3]

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,-0.533736,1.118109
2020-01-02,-0.406651,1.563322,1.138195,0.356028
2020-01-03,-0.093066,1.016498,-0.512645,0.688105


In [None]:
df['2020-01-01':'2020-01-03']

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,-0.533736,1.118109
2020-01-02,-0.406651,1.563322,1.138195,0.356028
2020-01-03,-0.093066,1.016498,-0.512645,0.688105


## Seleccionar por posición

* Si queremos seleccionar los renglones con 2020-01-04 y 2020-01-05 además de las columnas `A` y `B`.

In [None]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2020-01-04,-0.320599,0.931979
2020-01-05,-0.830595,0.30553


* Y, si necesitamos seleccionar el primer valor del primer renglón.

In [None]:
df.iloc[0,0]

np.float64(0.789088098416167)

## Filtrar valores

* Seleccionar solo aquellas columnas del `DataFrame` `df` que tenga un valor mayor a 0.

In [None]:
df

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,-0.533736,1.118109
2020-01-02,-0.406651,1.563322,1.138195,0.356028
2020-01-03,-0.093066,1.016498,-0.512645,0.688105
2020-01-04,-0.320599,0.931979,-2.051235,0.221298
2020-01-05,-0.830595,0.30553,-0.601467,1.247763
2020-01-06,-0.345935,-0.486864,0.305955,-0.085704


In [None]:
df[df > 0]

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,,1.118109
2020-01-02,,1.563322,1.138195,0.356028
2020-01-03,,1.016498,,0.688105
2020-01-04,,0.931979,,0.221298
2020-01-05,,0.30553,,1.247763
2020-01-06,,,0.305955,


* Seleecionar los renglones del `DataFrame` `df` en los que la columna `A` sea mayor a 0.

In [None]:
df[df.B > 0]

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,-0.533736,1.118109
2020-01-02,-0.406651,1.563322,1.138195,0.356028
2020-01-03,-0.093066,1.016498,-0.512645,0.688105
2020-01-04,-0.320599,0.931979,-2.051235,0.221298
2020-01-05,-0.830595,0.30553,-0.601467,1.247763


* Seleecionmar los renglones del `DataFrame` `df2` donde los valores de la columna `E` tienen los valores `test` u `otro`.

In [None]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-01-01,1.0,2.0,test,foo
1,1.0,2020-01-01,1.0,2.0,train,foo
2,1.0,2020-01-01,1.0,2.0,test,foo
3,1.0,2020-01-01,1.0,2.0,train,foo


In [None]:
df2[df2['E'].isin(['test','otro'])]

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-01-01,1.0,2.0,test,foo
2,1.0,2020-01-01,1.0,2.0,test,foo


## Trabajando con información faltante

In [None]:
df3 = df[df > 0]
df3

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,,1.118109
2020-01-02,,1.563322,1.138195,0.356028
2020-01-03,,1.016498,,0.688105
2020-01-04,,0.931979,,0.221298
2020-01-05,,0.30553,,1.247763
2020-01-06,,,0.305955,


* Eliminar los renglones en donde no haya información (`NaN`) en alguna columna.

In [None]:
df3.dropna(how='all')

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,,1.118109
2020-01-02,,1.563322,1.138195,0.356028
2020-01-03,,1.016498,,0.688105
2020-01-04,,0.931979,,0.221298
2020-01-05,,0.30553,,1.247763
2020-01-06,,,0.305955,


* Rellenar los valores faltantes (`NaN`) con el valor de 10.

In [None]:
df3.fillna(value=10)

Unnamed: 0,A,B,C,D
2020-01-01,0.789088,1.601492,10.0,1.118109
2020-01-02,10.0,1.563322,1.138195,0.356028
2020-01-03,10.0,1.016498,10.0,0.688105
2020-01-04,10.0,0.931979,10.0,0.221298
2020-01-05,10.0,0.30553,10.0,1.247763
2020-01-06,10.0,10.0,0.305955,10.0


## Borrando un renglón

In [None]:
df4 = pd.DataFrame({ 'A': [1,2,3,4, 5],
                   'B': [10,20,30,40, 50],
                   'C': [20,40,60,80, 100]
                  },
                  index=['Linea 1', 'Linea 2', 'Linea 3', 'Linea 4', 'Linea 5'])
df4

Unnamed: 0,A,B,C
Linea 1,1,10,20
Linea 2,2,20,40
Linea 3,3,30,60
Linea 4,4,40,80
Linea 5,5,50,100


In [None]:
df5 = df4.drop(df4.index[[4]] )
df5

Unnamed: 0,A,B,C
Linea 1,1,10,20
Linea 2,2,20,40
Linea 3,3,30,60
Linea 4,4,40,80


## Agrupando valores

In [None]:
df6 = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                    'B': ['one', 'one', 'two', 'three',
                    'two', 'two', 'one', 'three'],
                    'C': np.random.randn(8),
                    'D': np.random.randn(8)})
df6

Unnamed: 0,A,B,C,D
0,foo,one,-1.501662,0.768396
1,bar,one,-1.30001,-0.240571
2,foo,two,1.922394,1.051654
3,bar,three,1.41816,0.263967
4,foo,two,-1.211805,0.565247
5,bar,two,0.566697,0.233338
6,foo,one,0.665638,1.674179
7,foo,three,1.603553,-0.092627


* Agrupar los renglones del `DataFrame` `df4` con base a la columna `A` y realizar la suma de las columnas `B` y `C`.

In [None]:
df6.groupby('A').sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,0.684848,0.256734
foo,onetwotwoonethree,1.478118,3.966848


In [None]:
df6.groupby('A').mean()

TypeError: agg function failed [how->mean,dtype->object]

* Agrupar los renglones del `DataFrame` `df4` con base a la columna `A` y `B, además realizar la suma de las columnas `C` y `D`.

In [None]:
df6.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-1.30001,-0.240571
bar,three,1.41816,0.263967
bar,two,0.566697,0.233338
foo,one,-0.836024,2.442574
foo,three,1.603553,-0.092627
foo,two,0.710589,1.616901


## Ordenar

* Ordenar con base a un columna (variable).

In [None]:
sortA = df6.groupby('A').sum()
sortA = sortA.sort_values(by='A', ascending=False)
sortA

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,onetwotwoonethree,1.478118,3.966848
bar,onethreetwo,0.684848,0.256734


* Ordenar con base a varias columnas.

In [None]:
sortA = df6.groupby(['A','B']).sum()
sortA = sortA.sort_values(by=['A','B'], ascending=True)
sortA

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-1.30001,-0.240571
bar,three,1.41816,0.263967
bar,two,0.566697,0.233338
foo,one,-0.836024,2.442574
foo,three,1.603553,-0.092627
foo,two,0.710589,1.616901


In [None]:
sortA = df6.groupby(['A','B']).sum()
sortA = sortA.sort_values(by=['A','B'], ascending=False)
sortA

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,two,0.710589,1.616901
foo,three,1.603553,-0.092627
foo,one,-0.836024,2.442574
bar,two,0.566697,0.233338
bar,three,1.41816,0.263967
bar,one,-1.30001,-0.240571


## Unión

* `merge` es un método que nos permite unir dos `DataFrame` en uno solo. Para ello, es muy importante que ambos `DataFrame` compartar una columna determinada.

In [None]:
customer_product = {'Customer_id':pd.Series([1,2,3,4,5,6]),
  'Product':pd.Series(['Oven','Oven','Oven','Television','Television','Television'])}
customer_product = pd.DataFrame(customer_product)
customer_product

Unnamed: 0,Customer_id,Product
0,1,Oven
1,2,Oven
2,3,Oven
3,4,Television
4,5,Television
5,6,Television


In [None]:
customer = {'Customer_id':pd.Series([2,4,6]),
    'State':pd.Series(['California','California','Texas'])}
customer = pd.DataFrame(customer)
customer

Unnamed: 0,Customer_id,State
0,2,California
1,4,California
2,6,Texas


* Realizamos una unión, regresando los valores de la tabla izquierda.

In [None]:
pd.merge(customer, customer_product, on='Customer_id', how='left')

Unnamed: 0,Customer_id,State,Product
0,2,California,Oven
1,4,California,Television
2,6,Texas,Television


* Realizamos una unión, regresando los valores de la tabla derecha.

In [None]:
pd.merge(customer, customer_product, on='Customer_id', how='right')

Unnamed: 0,Customer_id,State,Product
0,1,,Oven
1,2,California,Oven
2,3,,Oven
3,4,California,Television
4,5,,Television
5,6,Texas,Television


* O, podemos regresar solos los renglones en donde existen coincidencias.

In [None]:
pd.merge(customer, customer_product, on='Customer_id', how='inner')

Unnamed: 0,Customer_id,State,Product
0,2,California,Oven
1,4,California,Television
2,6,Texas,Television


## El método `apply`

* Este método es utiliza para aplicar una función a lo largo de un eje de un `DataFrame` o una `Serie`.

In [None]:
df7 = pd.DataFrame({ 'A': [1,2,3,4],
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  },
                  index=['Linea 1', 'Linea 2', 'Linea 3', 'Linea 4'])
df7

Unnamed: 0,A,B,C
Linea 1,1,10,20
Linea 2,2,20,40
Linea 3,3,30,60
Linea 4,4,40,80


Es posible aplicar una función sobre un renglón o columna determinada.

In [None]:
# Función promedio
def custom_mean(row):
    return row.mean()

# axis = 0 - usando los valores de una columna
# axis = 1 - usando los valores de un renglón.
df7['D'] = df7.apply(custom_mean, axis=1)
df7

Unnamed: 0,A,B,C,D
Linea 1,1,10,20,10.333333
Linea 2,2,20,40,20.666667
Linea 3,3,30,60,31.0
Linea 4,4,40,80,41.333333


In [None]:
def custom_sum(col):
    return col.sum()

df7.loc['Sum'] = df7.apply(custom_sum, axis=0)
df7

Unnamed: 0,A,B,C,D
Linea 1,1.0,10.0,20.0,10.333333
Linea 2,2.0,20.0,40.0,20.666667
Linea 3,3.0,30.0,60.0,31.0
Linea 4,4.0,40.0,80.0,41.333333
Sum,10.0,100.0,200.0,103.333333


## El método `map'

* El método `map` realiza operaciones sobre una serie de valores (`Serie`).

In [None]:
s = pd.Series(['estufa','hornito','xbox','switch'])
s

0     estufa
1    hornito
2       xbox
3     switch
dtype: object

* Clasificaremos a cada elementos en electrodomético o consola.

In [None]:
s.map({'estufa':'electrodoméstico','hornito':'electrodoméstico','xbox':'consola','switch':'consola'})

0    electrodoméstico
1    electrodoméstico
2             consola
3             consola
dtype: object

## El método `applymap`

* Es utilizado para realizar operaciones a través de todo el `DataFrame`.

In [None]:
df8 = pd.DataFrame({ 'A': [1,2,3,4],
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  },
                  index=['Linea 1', 'Linea 2', 'Linea 3', 'Linea 4'])
df8

Unnamed: 0,A,B,C
Linea 1,1,10,20
Linea 2,2,20,40
Linea 3,3,30,60
Linea 4,4,40,80


* Calcular el cuadrado de cada número del `DataFrame`.

In [None]:
df8.apply(np.square)

Unnamed: 0,A,B,C
Linea 1,1,100,400
Linea 2,4,400,1600
Linea 3,9,900,3600
Linea 4,16,1600,6400


In [None]:
df8

Unnamed: 0,A,B,C
Linea 1,1,10,20
Linea 2,2,20,40
Linea 3,3,30,60
Linea 4,4,40,80
