# Prerequisitos con Pandas

Pandas es un paquete de manipulación de datos en python y el nombre no tiene que ver con el animal, sino *Panel Data*.  Las principales estructuras de datos que maneja pandas son **Pandas Series** y **Pandas Dataframe**.

<img src="imgs/pandas.PNG" width="850"/>

Veremos entonces a cubrir los siguientes aspectos:
- Importar datos en pandas
- Crear una serie de Pandas usando varios métodos
- Acceder a los elementos de series en un dataframe
- Cargar datos en un dataframe
- Manejar valores inciertos (NaN)

#### Porque debemos utilizar pandas

Para machine learning tenemos que existen varias cosas que nos pueden afectar, una de esas es el manejo de datos.  Debido a que los sistemas de inteligencia artificial son hambrientos en datos estos no necesariamente vienen listos para consumir para entrenar al sistema.  Existen valores vacios, incorrectos, valores que no son verdaderos y esto afecta al sistema de inteligencia artificial.

Es por esto que una parte (y larga) de los sistemas es preparar la data y hacer análisis previo, entender la información.

Pandas es bueno en este aspecto porque ayuda a la manipulación.
- permite re-etiquetar las filas y columnas
- calcular estadisticas para series de tiempo
- fácil manejo de valores NaN
- cargar de forma eficiente los datos
- puede unir los diferentes datasets juntos
- Se integra con numpy y matplotlib

#### Creando una serie de datos en pandas

Pandas es construido sobre numpy.

Veamos y aprendamos como crear un data series en pandas.

Una serie de datos de pandas es un arreglo que puede almacenar diferentes tipos de datos como números, cadenas, datos de tiempo.  Los arreglos de numpy solo son un tipo de datos a la vez.  Tambien podemos asignar indices en la serie de datos. Veamos

In [2]:
import pandas as pd

biblio_pty = pd.Series(data=[2, 10, 'Inteligencia Artificial', 'Panama'], index=['personas', 'sillas', 'Libro', 'Provincia'])
biblio_pty

personas                           2
sillas                            10
Libro        Inteligencia Artificial
Provincia                     Panama
dtype: object

Note que con pandas tenemos la primera columa como indices y la siguiente como los datos, que también podemos insertar texto como números.

Pandas tambien nos permite accedera  cada uno de los objetos por medio de atributos especiales, veamos algunos

In [3]:
biblio_pty.shape

(4,)

In [5]:
biblio_pty.ndim

1

In [6]:
biblio_pty.index

Index(['personas', 'sillas', 'Libro', 'Provincia'], dtype='object')

In [8]:
biblio_pty.values

array([2, 10, 'Inteligencia Artificial', 'Panama'], dtype=object)

In [16]:
'Lugar' in biblio_pty

False

In [17]:
'Provincia' in biblio_pty

True

#### Accediendo y borrando elementos en un arreglo de pandas

Ahora veremos como modificar los elementos, pandas nos permite acceder, por ejemplo por medio de indices o múltiples indices.

In [19]:
biblio_pty['sillas']

10

In [22]:
biblio_pty[['sillas', 'Provincia']]

sillas           10
Provincia    Panama
dtype: object

In [23]:
biblio_pty[0]

2

In [25]:
biblio_pty[-1]

'Panama'

In [28]:
biblio_pty[[0,2]]

personas                          2
Libro       Inteligencia Artificial
dtype: object

Pandas tambien nos ofrece otros atributos para acceder de manera eficiente a los datos, veamos más ejemplos

In [32]:
biblio_pty.loc[['Provincia', 'personas']]

Provincia    Panama
personas          2
dtype: object

Otra manera de acceder a los datos es por medio de sus índices, he aqui que utilizamos iloc

In [33]:
biblio_pty.iloc[[0,3]]

personas          2
Provincia    Panama
dtype: object

Las series de pandas son mutables, y podemos cambiar los valores a medida de que son creados.  Veamos el ejemplo.

In [34]:
biblio_pty['sillas'] = 20
biblio_pty

personas                           2
sillas                            20
Libro        Inteligencia Artificial
Provincia                     Panama
dtype: object

Podemos remover elementos de una serie de pandas por medio del método drop(), pero este método no lo hace inplace hasta declararlo, veamos el ejemplo.

In [39]:
print(biblio_pty.drop(['personas']))
biblio_pty

sillas                            20
Libro        Inteligencia Artificial
Provincia                     Panama
dtype: object


personas                           2
sillas                            20
Libro        Inteligencia Artificial
Provincia                     Panama
dtype: object

Observamos entonces que la lista si fue eliminado el dato de personas, pero el valor original de la lista sigue intacto, si queremos modificar la lista sin necesidad de tener que pasarla a un nuevo dato entonces podemos hacer uso de inplace.

In [40]:
biblio_pty.drop(['personas'], inplace=True)
biblio_pty

sillas                            20
Libro        Inteligencia Artificial
Provincia                     Panama
dtype: object

#### Operadores aritméticos en Series de Pandas

Así como en numpy podemos hacer por elemento operaciones entre series y numeros, veamos unos ejemplos

In [41]:
pesos = pd.Series([120, 110, 90, 220],['persona','animal', 'cosa','elemento'])

In [42]:
pesos + 2

persona     122
animal      112
cosa         92
elemento    222
dtype: int64

In [43]:
40 - pesos

persona     -80
animal      -70
cosa        -50
elemento   -180
dtype: int64

In [44]:
pesos * 3

persona     360
animal      330
cosa        270
elemento    660
dtype: int64

In [45]:
pesos / 5

persona     24.0
animal      22.0
cosa        18.0
elemento    44.0
dtype: float64

También podemos aplicar operaciones matemáticas a todos los elementos de la serie, por ejemplo:

In [46]:
import numpy as np

In [47]:
np.sqrt(pesos)

persona     10.954451
animal      10.488088
cosa         9.486833
elemento    14.832397
dtype: float64

In [49]:
np.power(pesos, 0.9)

persona      74.346944
animal       68.746947
cosa         57.387626
elemento    128.286339
dtype: float64

In [50]:
np.exp(pesos)

persona     1.304181e+52
animal      5.920972e+47
cosa        1.220403e+39
elemento    3.505791e+95
dtype: float64

Tambien podemos hacer operaciones simples utilizando broadcasting para cada elemento que queramos, veamos unos ejemplos

In [52]:
print(pesos['animal'])
pesos['animal'] + 30

110


140

In [53]:
print(pesos['persona'])
print(pesos['persona'] - 2)

120
118


In [56]:
print(pesos[['persona', 'animal']])
print()
print(pesos[['persona', 'animal']] * 2.5)

persona    120
animal     110
dtype: int64

persona    300.0
animal     275.0
dtype: float64


In [66]:
print(pesos.iloc[[0,-1]])
print()
print(pesos.iloc[[0,-1]]*4)

persona     120
elemento    220
dtype: int64

persona     480
elemento    880
dtype: int64


In [68]:
print(pesos.iloc[[2,3]])
print()
print(pesos.iloc[[2,3]]/4)

cosa         90
elemento    220
dtype: int64

cosa        22.5
elemento    55.0
dtype: float64


En pandas hay que tener cuidado con las operaciones, por ejemplo miremos este caso

In [69]:
serie = pd.Series(data=[1,'Si'],index=['num','str'])

serie*2

num       2
str    SiSi
dtype: object

Si observa bien, pandas no da error al realizar la operación matemática, de hecho multiplicar un string por un escalar si recuerda lo repite, es por esto que debemos tener cuidado con cada operación que realizamos en pandas.  Lo cual no sucede para el caso de la division

In [70]:
serie/2

TypeError: unsupported operand type(s) for /: 'str' and 'int'

Así que cuando tenemos datos mixtos entre números y cadenas asegurese que las operaciones aritméticas están definida para todos los tipos de datos en sus series.

### Pandas DataFrame

La segunda estructura de datos en pandas es un dataframe, piense en un dataframe como excel, que es un spreadsheet.

Primeramente crearemos un dataframe a mano.

In [80]:
# Cada madre y sus hijos con sus respectivas edades

madres_hijos = {'Ana': pd.Series([10, 8, 2], index=['Juan', 'Javier', 'Jonas']),
                'Victoria': pd.Series([20, 40, 28], index=['Nuria', 'Gilza', 'Veronique']),
                'Sharima': pd.Series([10, 15, 20], index=['Leo','Migel','Rafa'])
               }
type(madres_hijos)

dict

Ahora que tenemos el diccionario podemos pasarlo al dataframe y realizar algunas funciones

In [81]:
madres = pd.DataFrame(madres_hijos)
madres

Unnamed: 0,Ana,Victoria,Sharima
Gilza,,40.0,
Javier,8.0,,
Jonas,2.0,,
Juan,10.0,,
Leo,,,10.0
Migel,,,15.0
Nuria,,20.0,
Rafa,,,20.0
Veronique,,28.0,


Vemos que los dataframes son desplegados en multicolumnas de manera tabular.

También que las filas son la unificacion de todos los índices que se proveeron en el diccionario en las variables index, las columas son los keys del diccionario

Los NaN son Not a Number, simboliza que para ese punto en el dataframe no tiene ningun tipo de dato, por ejemplo Sharima no tiene una hija llamada Gilza.

Al momento de entrenar los sistemas de machine learning necesitamos tener la capacidad de manejar estos NaN y eliminarlos o hacer alguna operación para rellenarlos.

Veamos otro ejemplo de series.

In [82]:
data = {'Alice': pd.Series([1,2,3,4,5]),
        'Nemesis': pd.Series([2,4,5])}

In [83]:
df = pd.DataFrame(data)
df

Unnamed: 0,Alice,Nemesis
0,1,2.0
1,2,4.0
2,3,5.0
3,4,
4,5,


Tambien, como en los dataframe podemos recopilar lo mismo que pudimos ver en las series, las mismas funciones para acceder a información básica.

In [84]:
df.values

array([[ 1.,  2.],
       [ 2.,  4.],
       [ 3.,  5.],
       [ 4., nan],
       [ 5., nan]])

In [85]:
df.shape

(5, 2)

In [86]:
df.ndim

2

In [87]:
df.size

10

Con pandas también podemos seleccionar de cierta manera el slicing de los datos, veamos el ejemplo

In [91]:
madres_hijos = {'Ana': pd.Series([10, 8, 2], index=['Juan', 'Javier', 'Jonas']),
                'Victoria': pd.Series([20, 40, 28], index=['Nuria', 'Gilza', 'Veronique']),
                'Sharima': pd.Series([10, 15, 20], index=['Leo','Migel','Rafa'])
               }
df = pd.DataFrame(madres_hijos)
df

Unnamed: 0,Ana,Victoria,Sharima
Gilza,,40.0,
Javier,8.0,,
Jonas,2.0,,
Juan,10.0,,
Leo,,,10.0
Migel,,,15.0
Nuria,,20.0,
Rafa,,,20.0
Veronique,,28.0,


Veamos como cargar solo los datos de los hijos de Ana

In [95]:
de_ana = pd.DataFrame(madres_hijos, columns=['Ana'])
de_ana

Unnamed: 0,Ana
Juan,10
Javier,8
Jonas,2


Adicionalmente veamos como podemos cargar de mútliples columnas los datos de los hijos de Ana y Sharima

In [99]:
de_ana_sharima = pd.DataFrame(madres_hijos, columns=['Ana','Sharima'])
de_ana_sharima

Unnamed: 0,Ana,Sharima
Javier,8.0,
Jonas,2.0,
Juan,10.0,
Leo,,10.0
Migel,,15.0
Rafa,,20.0


Ahora veamos como podemos cargar solo de los índices de los hijos especificos de las jovenes listadas en la columna

In [101]:
de_ana_sharima = pd.DataFrame(madres_hijos, index=['Juan', 'Leo'], columns=['Ana','Sharima'])
de_ana_sharima

Unnamed: 0,Ana,Sharima
Juan,10.0,
Leo,,10.0


También podemos crear nuevas columnas de los arreglos, como si fuese un diccionario, es el mismpo rocedimiento que antes.  Sin embargo tienen que tener la misma dimensión, veamos el ejemplo con solamente datos numéricos.

In [102]:
data = {'enteros':[1,2,3,4],
        'foltantes':[4.1,3.2,6.3,9.4]
       }
df = pd.DataFrame(data)
df

Unnamed: 0,enteros,foltantes
0,1,4.1
1,2,3.2
2,3,6.3
3,4,9.4


Vemos que cuando creamos el dataframe crea índices numéricos, sin embargo podemos suprimir estos indices si le decimos la etiqueta que queremos argar, recuerde que donde van los números son los indices de las etiquetas.

In [103]:
df = pd.DataFrame(data, index=['row0','row1','row2','row3'])
df

Unnamed: 0,enteros,foltantes
row0,1,4.1
row1,2,3.2
row2,3,6.3
row3,4,9.4


El último método que veremos es como crear un dataframe de una lista de diccionarios.

In [167]:
market = [{'frutas':20, 'vegetales':10, 'hogar':40, 'farmacia':100}, {'vegetales':10, 'frutas':5, 'hogar':1, 'caja':50}]

market_items = pd.DataFrame(market, index=['tiendita 1', 'tiendita 2']) 
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,
tiendita 2,5,10,1,,50.0


### Accediendo a los elementos en el dataframe de pandas

Podemos acceder a los elementos de pandas por medio de filas, columas o por sus etiquetas, en el dataframe anterior podemos acceder a los dataframes por medio de su direccionamiento por brackets.

In [168]:
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,
tiendita 2,5,10,1,,50.0


Por medio de sus keys...

In [169]:
market_items[['hogar']]

Unnamed: 0,hogar
tiendita 1,40
tiendita 2,1


In [170]:
market_items[['hogar', 'caja']]

Unnamed: 0,hogar,caja
tiendita 1,40,
tiendita 2,1,50.0


Por medio de sus index labels

In [171]:
market_items.loc[['tiendita 1']]

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,


In [172]:
market_items.iloc[[-1]]

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 2,5,10,1,,50.0


Es importante saber que podemos también accederlo por sus indices y labels, pero en ese mismo orden, por esto es importante conocer bien el dataframe.  De la manera contraria dará error

In [173]:
market_items['hogar']['tiendita 1']

40

In [174]:
# esto dará error
market_items['tiendita 1']['hogar']

KeyError: 'tiendita 1'

Podemos añadir nuevos datos al dataframe por medio de indexado tambien modificando los datos.

In [175]:
market_items['salud'] = [10, 2]
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja,salud
tiendita 1,20,10,40,100.0,,10
tiendita 2,5,10,1,,50.0,2


Cambiar los valores del dataframe a nuestra disposicion

In [176]:
market_items['frutas']['tiendita 1'] = 12
market_items

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  market_items['frutas']['tiendita 1'] = 12


Unnamed: 0,frutas,vegetales,hogar,farmacia,caja,salud
tiendita 1,12,10,40,100.0,,10
tiendita 2,5,10,1,,50.0,2


In [177]:
market_items['vegetales'] = [5, 2]
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja,salud
tiendita 1,12,5,40,100.0,,10
tiendita 2,5,2,1,,50.0,2


Tambien podemos hacer operaciones con las secciones del dataframe y hacer append con un nuevo dato

In [178]:
market_items['totales'] = market_items['vegetales'] + market_items['frutas'] + market_items['hogar']
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja,salud,totales
tiendita 1,12,5,40,100.0,,10,57
tiendita 2,5,2,1,,50.0,2,8


Podemos utilizar el método de append para añdadir una nueva tienda por ejemplo.  Vamos a crear un nuevo elemento de tienda en nuestro dataframe.

In [179]:
data = [{'frutas':1, 'vegetales':2, 'hogar':3, 'farmacia':4, 'caja':5, 'salud':6, 'totales':21}]

tiendita3 = pd.DataFrame(data, index=['tiendita 3'])
tiendita3

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja,salud,totales
tiendita 3,1,2,3,4,5,6,21


In [180]:
market_items = market_items.append(tiendita3)
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja,salud,totales
tiendita 1,12,5,40,100.0,,10,57
tiendita 2,5,2,1,,50.0,2,8
tiendita 3,1,2,3,4.0,5.0,6,21


Podemos poner información de los viejos elementos en nuestras nuevas columnas utilizando datos por pedazos del dataframe

In [181]:
market_items['nueva_col'] = market_items['salud'][1:]
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja,salud,totales,nueva_col
tiendita 1,12,5,40,100.0,,10,57,
tiendita 2,5,2,1,,50.0,2,8,2.0
tiendita 3,1,2,3,4.0,5.0,6,21,6.0


Podemos también añadir elementos al dataframe utilizando el método insert

In [182]:
market_items.insert(2, 'dulces', [3, 5, 7])
market_items

Unnamed: 0,frutas,vegetales,dulces,hogar,farmacia,caja,salud,totales,nueva_col
tiendita 1,12,5,3,40,100.0,,10,57,
tiendita 2,5,2,5,1,,50.0,2,8,2.0
tiendita 3,1,2,7,3,4.0,5.0,6,21,6.0


Podemos utilzar los métodos de pop() y drop() para borrar columnas

In [183]:
market_items.pop('nueva_col')
market_items

Unnamed: 0,frutas,vegetales,dulces,hogar,farmacia,caja,salud,totales
tiendita 1,12,5,3,40,100.0,,10,57
tiendita 2,5,2,5,1,,50.0,2,8
tiendita 3,1,2,7,3,4.0,5.0,6,21


In [184]:
market_items = market_items.drop(['dulces', 'caja'], axis=1)
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,salud,totales
tiendita 1,12,5,40,100.0,10,57
tiendita 2,5,2,1,,2,8
tiendita 3,1,2,3,4.0,6,21


Para remover las filas podemos realizarlo de la misma manera pero con axis=0

In [185]:
market_items = market_items.drop(['tiendita 2'], axis=0)
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,salud,totales
tiendita 1,12,5,40,100.0,10,57
tiendita 3,1,2,3,4.0,6,21


Digamos que la columna (su nombre no nos agrada o no es el correcto) podemos modificarlas utilizando el método rename

In [186]:
market_items = market_items.rename(columns={'frutas':'fruits', 'vegetales':'veggies', 'hogar':'home'})
market_items

Unnamed: 0,fruits,veggies,home,farmacia,salud,totales
tiendita 1,12,5,40,100.0,10,57
tiendita 3,1,2,3,4.0,6,21


Ahora cambiemos los labels de las filas con rename nuevamente.

In [187]:
market_items = market_items.rename(index={'tiendita 1':'minimall','tiendita 3':'ixoria'})
market_items

Unnamed: 0,fruits,veggies,home,farmacia,salud,totales
minimall,12,5,40,100.0,10,57
ixoria,1,2,3,4.0,6,21


Podemos poner un indice general a la columna de labels con set index utilizando el valor de esta columna, veamos como

In [188]:
market_items = market_items.set_index('fruits')
market_items

Unnamed: 0_level_0,veggies,home,farmacia,salud,totales
fruits,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
12,5,40,100.0,10,57
1,2,3,4.0,6,21


#### Manejando los caracteres inexistentes NaN

Antes de que podamos analizar la data o ingresar esta a nuestro algoritmo de inteligencia artificial debemos corregir los errores que tiene el dataset.

Nos vamos a encontrar siempre, fallos en el dataset en donde tenemos que corregir información del mismo o eliminar filas o columnas.

El dato más común encontrado es sin valor o NaN en el dataset.  Pandas asigna NaN para los datos perdidos.

In [190]:
market = [{'frutas':20, 'vegetales':10, 'hogar':40, 'farmacia':100}, {'vegetales':10, 'frutas':5, 'hogar':1, 'caja':50}]

market_items = pd.DataFrame(market, index=['tiendita 1', 'tiendita 2']) 
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,
tiendita 2,5,10,1,,50.0


Podemos contar el número de NaN values utilizando el metodo isnull() y sum()

In [193]:
market_items.isnull().sum().sum()


2

Si descomponemos o vemos el dataframe parte por parte tenemos un arreglo de forma binaria

In [194]:
market_items.isnull()

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,False,False,False,False,True
tiendita 2,False,False,False,True,False


In [196]:
market_items.isnull().sum() # aqui vemos que luego de descomponer y sumar nos da el total

frutas       0
vegetales    0
hogar        0
farmacia     1
caja         1
dtype: int64

Otra forma de verlos es por medio de count

In [200]:
market_items.count()

frutas       2
vegetales    2
hogar        2
farmacia     1
caja         1
dtype: int64

Los eliminamos por dropna

In [204]:
market_items.dropna(axis=1) # elimina columnas

Unnamed: 0,frutas,vegetales,hogar
tiendita 1,20,10,40
tiendita 2,5,10,1


Para que tome el valor lo hacemos inplace, de lo contrario no habremos eliminado los valores correctamente del dataframe, observemos

In [206]:
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,
tiendita 2,5,10,1,,50.0


In [207]:
market_items.dropna(axis=1, inplace=True)
market_items

Unnamed: 0,frutas,vegetales,hogar
tiendita 1,20,10,40
tiendita 2,5,10,1


Existe un método que podemos utilizar también para reemplazar valores por medio de otros valores de la tabla, el siguiente método toma los valores de dicha tabla y los reemplaza por el valor anterior.

In [208]:
market = [{'frutas':20, 'vegetales':10, 'hogar':40, 'farmacia':100}, {'vegetales':10, 'frutas':5, 'hogar':1, 'caja':50}]

market_items = pd.DataFrame(market, index=['tiendita 1', 'tiendita 2']) 
market_items

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,
tiendita 2,5,10,1,,50.0


In [212]:
market_items.fillna(method='ffill', axis=1) # por columna

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20.0,10.0,40.0,100.0,100.0
tiendita 2,5.0,10.0,1.0,1.0,50.0


Hay que tener cuidado, pues en algunos casos reemplazar por Nan solo filas o solo columnas podemos tener aún valores en Nan, recomiendo entonces que se haga reemplazos en ambos ejes si encuenta algún dato sin llenar y también volver a validar con isnull()

Probemos el método de backfill para ver lo que mencionaba anteriormente

In [214]:
market_items.fillna(method='backfill', axis=0) # por indice

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,50.0
tiendita 2,5,10,1,,50.0


In [215]:
market_items.fillna(method='backfill', axis=1) # por columna

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20.0,10.0,40.0,100.0,
tiendita 2,5.0,10.0,1.0,50.0,50.0


Otro método de reemplazo es interpolación, igualmente lo podemos hacer por medio de filas o columas

In [218]:
market_items.interpolate(method='linear', axis=0)

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20,10,40,100.0,
tiendita 2,5,10,1,100.0,50.0


In [219]:
market_items.interpolate(method='linear', axis=1)

Unnamed: 0,frutas,vegetales,hogar,farmacia,caja
tiendita 1,20.0,10.0,40.0,100.0,100.0
tiendita 2,5.0,10.0,1.0,25.5,50.0


#### Cargando datos a un dataframe

Cuando trabajamos con datos nos econtramos que necesitamos trabajar con datos de base de datos, sin embargo, un dato común de carga de datos es por csv.

Veamos como podemos acceder a este tipo de datos por medio de la función read_csv

In [253]:
df = pd.read_csv('data/forestfires.csv')
print(type(df))
print(df.shape)

<class 'pandas.core.frame.DataFrame'>
(517, 13)


Veamos las primeras filas del dataframe

In [254]:
df.head()

Unnamed: 0,X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
0,7,5,mar,fri,86.2,26.2,94.3,5.1,8.2,51,6.7,0.0,0.0
1,7,4,oct,tue,90.6,35.4,669.1,6.7,18.0,33,0.9,0.0,0.0
2,7,4,oct,sat,90.6,43.7,686.9,6.7,14.6,33,1.3,0.0,0.0
3,8,6,mar,fri,91.7,33.3,77.5,9.0,8.3,97,4.0,0.2,0.0
4,8,6,mar,sun,89.3,51.3,102.2,9.6,11.4,99,1.8,0.0,0.0


Pandas nos ayuda para alinear las filas con índices y trata de poner las columnas con los valores que posee el archivo.  También podemos ver las últimas filas del archivo con tail()

In [255]:
df.tail()

Unnamed: 0,X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
512,4,3,aug,sun,81.6,56.7,665.6,1.9,27.8,32,2.7,0.0,6.4
513,2,4,aug,sun,81.6,56.7,665.6,1.9,21.9,71,5.8,0.0,54.3
514,7,4,aug,sun,81.6,56.7,665.6,1.9,21.2,70,6.7,0.0,11.2
515,1,4,aug,sat,94.4,146.0,614.7,11.3,25.6,42,4.0,0.0,0.0
516,6,3,nov,tue,79.5,3.0,106.7,1.1,11.8,31,4.5,0.0,0.0


Veamos si tenemos valores Nan, que de hecho los tenemos

In [256]:
df.isnull().any()

X        False
Y        False
month    False
day      False
FFMC     False
DMC      False
DC       False
ISI      False
temp     False
RH       False
wind     False
rain     False
area     False
dtype: bool

Veamos ahora información del dataset con info()

In [257]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517 entries, 0 to 516
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   X       517 non-null    int64  
 1   Y       517 non-null    int64  
 2   month   517 non-null    object 
 3   day     517 non-null    object 
 4   FFMC    517 non-null    float64
 5   DMC     517 non-null    float64
 6   DC      517 non-null    float64
 7   ISI     517 non-null    float64
 8   temp    517 non-null    float64
 9   RH      517 non-null    int64  
 10  wind    517 non-null    float64
 11  rain    517 non-null    float64
 12  area    517 non-null    float64
dtypes: float64(8), int64(3), object(2)
memory usage: 52.6+ KB


También podemos ver información estadística de los dataframes por medio de describe()

In [258]:
df.describe()

Unnamed: 0,X,Y,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
count,517.0,517.0,517.0,517.0,517.0,517.0,517.0,517.0,517.0,520.0,517.0
mean,4.7,4.3,90.6,110.9,547.9,9.0,18.9,44.3,4.0,0.022,12.8
std,2.3,1.2,5.5,64.0,248.1,4.6,5.8,16.3,1.8,0.3,63.7
min,1.0,2.0,18.7,1.1,7.9,0.0,2.2,15.0,0.4,0.0,0.0
25%,3.0,4.0,90.2,68.6,437.7,6.5,15.5,33.0,2.7,0.0,0.0
50%,4.0,4.0,91.6,108.3,664.2,8.4,19.3,42.0,4.0,0.0,0.5
75%,7.0,5.0,92.9,142.4,713.9,10.8,22.8,53.0,4.9,0.0,6.6
max,9.0,9.0,96.2,291.3,860.6,56.1,33.3,100.0,9.4,6.4,1090.8


In [265]:
df['FFMC'].describe()

count    517.0
mean      90.6
std        5.5
min       18.7
25%       90.2
50%       91.6
75%       92.9
max       96.2
Name: FFMC, dtype: float64

In [260]:
df.max()

X            9
Y            9
month      sep
day        wed
FFMC     1e+02
DMC      3e+02
DC       9e+02
ISI      6e+01
temp     3e+01
RH         100
wind         9
rain         6
area     1e+03
dtype: object

In [261]:
df.mean()

X       4.7e+00
Y       4.3e+00
FFMC    9.1e+01
DMC     1.1e+02
DC      5.5e+02
ISI     9.0e+00
temp    1.9e+01
RH      4.4e+01
wind    4.0e+00
rain    2.2e-02
area    1.3e+01
dtype: float64

In [263]:
df['X'].std(), df['RH'].mean()

(2.3137778287257666, 44.28820116054158)

Algo muy util es la correlación de datos, podemos ver que tanta relación tienen los datos de cada fila y columna con el método de correlación

In [271]:
df.corr()

Unnamed: 0,X,Y,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
X,1.0,0.539548,-0.021039,-0.048384,-0.085916,0.00621,-0.051258,0.085223,0.018798,0.065387,0.063385
Y,0.539548,1.0,-0.046308,0.007782,-0.101178,-0.024488,-0.024103,0.062221,-0.020341,0.033234,0.044873
FFMC,-0.021039,-0.046308,1.0,0.382619,0.330512,0.531805,0.431532,-0.300995,-0.028485,0.056702,0.040122
DMC,-0.048384,0.007782,0.382619,1.0,0.682192,0.305128,0.469594,0.073795,-0.105342,0.07479,0.072994
DC,-0.085916,-0.101178,0.330512,0.682192,1.0,0.229154,0.496208,-0.039192,-0.203466,0.035861,0.049383
ISI,0.00621,-0.024488,0.531805,0.305128,0.229154,1.0,0.394287,-0.132517,0.106826,0.067668,0.008258
temp,-0.051258,-0.024103,0.431532,0.469594,0.496208,0.394287,1.0,-0.52739,-0.227116,0.069491,0.097844
RH,0.085223,0.062221,-0.300995,0.073795,-0.039192,-0.132517,-0.52739,1.0,0.06941,0.099751,-0.075519
wind,0.018798,-0.020341,-0.028485,-0.105342,-0.203466,0.106826,-0.227116,0.06941,1.0,0.061119,0.012317
rain,0.065387,0.033234,0.056702,0.07479,0.035861,0.067668,0.069491,0.099751,0.061119,1.0,-0.007366


In [272]:
df

Unnamed: 0,X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
0,7,5,mar,fri,86.2,26.2,94.3,5.1,8.2,51,6.7,0.0,0.00
1,7,4,oct,tue,90.6,35.4,669.1,6.7,18.0,33,0.9,0.0,0.00
2,7,4,oct,sat,90.6,43.7,686.9,6.7,14.6,33,1.3,0.0,0.00
3,8,6,mar,fri,91.7,33.3,77.5,9.0,8.3,97,4.0,0.2,0.00
4,8,6,mar,sun,89.3,51.3,102.2,9.6,11.4,99,1.8,0.0,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
512,4,3,aug,sun,81.6,56.7,665.6,1.9,27.8,32,2.7,0.0,6.44
513,2,4,aug,sun,81.6,56.7,665.6,1.9,21.9,71,5.8,0.0,54.29
514,7,4,aug,sun,81.6,56.7,665.6,1.9,21.2,70,6.7,0.0,11.16
515,1,4,aug,sat,94.4,146.0,614.7,11.3,25.6,42,4.0,0.0,0.00


Podemos utilzar el modo de groupby para obtener más información, por ejemplo podemos agrupar por mes y ver la velocidad del viento promedio

In [276]:
df.groupby(['month'])['wind'].mean()

month
apr    4.666667
aug    4.086413
dec    7.644444
feb    3.755000
jan    2.000000
jul    3.734375
jun    4.135294
mar    4.968519
may    4.450000
nov    4.500000
oct    3.460000
sep    3.557558
Name: wind, dtype: float64

Ahora digamos que por área quiero saber cuales fueron las termperaturas máximas

In [279]:
df.groupby(['area'])['temp'].max()

area
0.00       32.4
0.09       25.7
0.17       19.4
0.21       22.1
0.24       24.0
           ... 
200.94     18.2
212.88     18.8
278.53     22.6
746.28     27.5
1090.84    25.1
Name: temp, Length: 251, dtype: float64

O que necesite saber en que dia y mes llovio más

In [280]:
df.groupby(['day', 'month'])['rain'].max()

day  month
fri  apr      0.0
     aug      1.4
     dec      0.0
     feb      0.0
     jul      0.0
             ... 
wed  jul      0.2
     jun      0.0
     mar      0.0
     oct      0.0
     sep      0.0
Name: rain, Length: 64, dtype: float64

### Manipulacion de las series

Crear una serie de pandas que tenga las distancias de diferentes sitios.

In [73]:
distancias = [10, 50, 40, 25, 100]
sitios = ['sitio1', 'sitio2', 'sitio3', 'sitio4', 'sitio5']

In [None]:
# crear una serie de pandas con los datos anteriores
dist_sitios = 
dist_sitios

Respuesta esperada:
```
sitio1     10
sitio2     50
sitio3     40
sitio4     25
sitio5    100
dtype: int64
```

In [76]:
velocidad = 3.8 # m/s

Ahora calcule el número de minutos que toma cada uno de los elementos en la serie

In [None]:
tiempo = 60*velocidad*dist_sitios
tiempo

Respuesta esperada:
```
sitio1     2280.0
sitio2    11400.0
sitio3     9120.0
sitio4     5700.0
sitio5    22800.0
dtype: float64
```

Ahora con indexamiento booleano como en numpy calcule todos los sitios que estan por arriba de 6000 minutos

Respuesta esperada:

```
sitio2    11400.0
sitio3     9120.0
sitio5    22800.0
dtype: float64
```

#### Manipulación del dataframe

In [None]:
# vamos a cambiar la precisión del dataframe a 4 y un punto decimal
pd.set_option('precision', 1)

# crearemos un dataframe que contenga ratings de usuarios y libros
books = pd.Series(data = ['Inteligencia Artificial', 'El futuro de los profesionales', 'Super Inteligencia', 'AI Superpowers'])
authors = pd.Series(data = ['Jerry Kaplan', 'Susskind bros', 'Nick Bostrom', 'Kai Fu Lee'])

u1 = pd.Series(data = [2.2, np.nan ,3.5])
u2 = pd.Series(data = [4, 2.0, 3.0, 2.8])
u3 = pd.Series(data = [5.0, 1.3, np.nan, 2])
u4 = pd.Series(data = [3, 3.6, 4, 4, 5.0])

# creare el dataframe de la siguiente marea
# Nan = libro no categorizado (rated)
# Columnas = 'Autor', 'Libro', 'Usuario 1', 'Usuario 2', 'Usuario 3', 'Usuario 4'. 
# Dejar que pandas asigne automaticamente las filas por indicies (0,1,2, etc)

# Crear el diccionario con los datos anteriores
dat = 

# utilice el diccionario para crear el dataframe
book_ratings = 
book_ratings

<img src="imgs/pandas_test.PNG" width="850"/>

In [None]:
# Calcule el promedio del dataframe


Respuesta esperada
```
Usuario 1    2.9
Usuario 2    3.0
Usuario 3    2.8
Usuario 4    3.9
dtype: float64
```

In [None]:
# Ahora reemplace todos los valores con Nan en su dataframe
# puede utilizar fillna() y con el valor anterior como argumento, esto reemplazará los valores nan
# con el promedio de cada columna. recuerde utilizar inplace=True


In [None]:
book_ratings

Respuesta esperada
<img src="imgs/pandas_test_mean.PNG" width="850"/>

#  Abrir la hoja para la *Prerequisitos con Pandas - Parte 2* y completar el ejercicio