# Pandas

Pandas es una biblioteca de python que permite la manipulacion y analisis de datos para el lenguaje Python. Para importala hacemos lo siguiente:

In [86]:
import pandas as pd
import numpy as np

## DataFrame

El eje central de pandas es el dataframe, ya que nos permite manipular la información de forma sencilla a través de sus métodos y atributos. Lo primero que hay que entender es la lectura de la información, para esto podemos usar varias funciones de pandas

In [134]:
datos = {
    'fecha':pd.date_range('20200113', periods=6),
    'experiencia':pd.Categorical(['buena', 'muy buena', 'mala', np.nan, 'muy mala', 'buena'],
                                ["muy mala", "mala", "regular", "buena", "muy buena"]),
    'monto':[120, 23.34, 123.34, 343.2, 23.4, 343.3],
    'propina':[10, 5, 12, 45, 0, 30],
    'opinion':['fria la comida', 'espere mucho tiempo', 'todo bien', 'excelente', 'mal servicio', 'Tardaron mucho']
}
df = pd.DataFrame(datos)
df.experiencia.cat.categories

Index(['muy mala', 'mala', 'regular', 'buena', 'muy buena'], dtype='object')

## Funciones utiles para Entender el DataFrame

DataFrame posee diversas funciones para que podamos entender como es la información que poseemos

* `head(n=5)`: Imprime los primeros n renglones del dataframe
* `tail(n=5)`: Imprime los ultimos n renglones del dataframe
* `info()`: Imprime una descripción del tipo de dato de las columnas
* `describe()`: Imprime una descripción de las columnas númericas

In [88]:
df.head(3)

Unnamed: 0,fecha,experiencia,monto,propina,opinion
0,2020-01-13,buena,120.0,10,fria la comida
1,2020-01-14,muy buena,23.34,5,espere mucho tiempo
2,2020-01-15,mala,123.34,12,todo bien


In [89]:
df.tail(2)

Unnamed: 0,fecha,experiencia,monto,propina,opinion
4,2020-01-17,muy mala,23.4,0,mal servicio
5,2020-01-18,buena,343.3,30,Tardaron mucho


In [90]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
fecha          6 non-null datetime64[ns]
experiencia    5 non-null category
monto          6 non-null float64
propina        6 non-null int64
opinion        6 non-null object
dtypes: category(1), datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 526.0+ bytes


In [91]:
df.describe()

Unnamed: 0,monto,propina
count,6.0,6.0
mean,162.763333,17.0
std,146.557009,17.088007
min,23.34,0.0
25%,47.55,6.25
50%,121.67,11.0
75%,288.235,25.5
max,343.3,45.0


## Atributos de DataFrame

DataFrame posee atriutos importantes como:

| Atributo | Descripcion                                           |
|----------|-------------------------------------------------------|
| columns  | Nombre de las columnas del dataframe                  |
| dtypes   | Tipos de datos del dataframe                          |
| ndim     | Número de dimensiones del dataframe                   |
| shape    | Tupla que representa la dimensionalidad del dataframe |
| values   | Regresa un ndarray (numpy) con la info del dataframe  |
| index    | Como esta indexado el dataframe                       |


In [92]:
print("Registros de dataframe: {}\n".format(len(df)))
print("Columnas del dataframe: {}\n".format(df.columns))
print("Numero de columnas del dataframe: {}\n".format(len(df.columns)))
print("dtype:\n{}\n".format(df.dtypes))
print("ndim: {}\n".format(df.size))
print("shape: {}\n".format(df.shape))
print("values: {}\n".format(df.values))
print("index: {}\n".format(df.index))

Registros de dataframe: 6

Columnas del dataframe: Index(['fecha', 'experiencia', 'monto', 'propina', 'opinion'], dtype='object')

Numero de columnas del dataframe: 5

dtype:
fecha          datetime64[ns]
experiencia          category
monto                 float64
propina                 int64
opinion                object
dtype: object

ndim: 30

shape: (6, 5)

values: [[Timestamp('2020-01-13 00:00:00') 'buena' 120.0 10 'fria la comida']
 [Timestamp('2020-01-14 00:00:00') 'muy buena' 23.34 5
  'espere mucho tiempo']
 [Timestamp('2020-01-15 00:00:00') 'mala' 123.34 12 'todo bien']
 [Timestamp('2020-01-16 00:00:00') nan 343.2 45 'excelente']
 [Timestamp('2020-01-17 00:00:00') 'muy mala' 23.4 0 'mal servicio']
 [Timestamp('2020-01-18 00:00:00') 'buena' 343.3 30 'Tardaron mucho']]

index: RangeIndex(start=0, stop=6, step=1)



## Acceder a Elementos de un DataFrame

Para seleccionar columnas basta con poner su nombre en corchetes o con escribirlo seguido de un punto (es la que seguiremos en este manual), una columna de un dataframe es una clase llamada "Series". El atributo loc nos permite acceder mediante el nombre de los renglons y columnas y el atributo iloc mediante los indices de renglones y columnas.

`iloc[indice_renglones, indice_columnas]`  
`loc[nombre_renglones, nombre_columnas]`

In [93]:
# Obteniendo toda una columna
monto = df['monto']
print('Columna monto:\n', monto)
print('Tipo de dato monto:', type(monto))

monto = df.monto
print('Columna monto:\n', monto)
print('Tipo de dato monto:', type(monto))

# Columnas monto y propina

monto_y_propina = df[['monto', 'propina']]
print('Monto y propina:\n', monto_y_propina)

#Acceder a los primeros tres renglones
tres_renglones = df[0:3]
print("Primeros tres renglones del dataframe:\n", tres_renglones)

Columna monto:
 0    120.00
1     23.34
2    123.34
3    343.20
4     23.40
5    343.30
Name: monto, dtype: float64
Tipo de dato monto: <class 'pandas.core.series.Series'>
Columna monto:
 0    120.00
1     23.34
2    123.34
3    343.20
4     23.40
5    343.30
Name: monto, dtype: float64
Tipo de dato monto: <class 'pandas.core.series.Series'>
Monto y propina:
     monto  propina
0  120.00       10
1   23.34        5
2  123.34       12
3  343.20       45
4   23.40        0
5  343.30       30
Primeros tres renglones del dataframe:
        fecha experiencia   monto  propina              opinion
0 2020-01-13       buena  120.00       10       fria la comida
1 2020-01-14   muy buena   23.34        5  espere mucho tiempo
2 2020-01-15        mala  123.34       12            todo bien


In [94]:
# Uso de loc
primeros_dos_renglones_de_monto = df.loc[:1, 'monto']
print("Primeros dos renglones monto:\n", primeros_dos_renglones_de_monto)

primeros_dos_renglones_de_monto_y_propina = df.loc[:1, ['monto', 'propina']]
print("primeros_dos_renglones_de_monto_y_propina:\n", primeros_dos_renglones_de_monto_y_propina)

# Uso de iloc

primeros_dos_renglones_de_monto = df.iloc[:2, 2]
print("Primeros dos renglones monto:\n", primeros_dos_renglones_de_monto)

primeros_dos_renglones_de_monto_y_propina = df.iloc[:2, 2:4]
print("primeros_dos_renglones_de_monto_y_propina:\n", primeros_dos_renglones_de_monto_y_propina)

Primeros dos renglones monto:
 0    120.00
1     23.34
Name: monto, dtype: float64
primeros_dos_renglones_de_monto_y_propina:
     monto  propina
0  120.00       10
1   23.34        5
Primeros dos renglones monto:
 0    120.00
1     23.34
Name: monto, dtype: float64
primeros_dos_renglones_de_monto_y_propina:
     monto  propina
0  120.00       10
1   23.34        5


In [95]:
# Accediendo a traves de un vector logico

df_experiencia_buena = df[df.experiencia == 'buena']  # Experiencia buena
print('Experiencia buena:\n', df_experiencia_buena)

df_experiencia_buena_y_muy_buena = df[df.experiencia.isin(['buena', 'muy buena'])]
print('Experiencia buena y muy buena:\n', df_experiencia_buena_y_muy_buena)

Experiencia buena:
        fecha experiencia  monto  propina         opinion
0 2020-01-13       buena  120.0       10  fria la comida
5 2020-01-18       buena  343.3       30  Tardaron mucho
Experiencia buena y muy buena:
        fecha experiencia   monto  propina              opinion
0 2020-01-13       buena  120.00       10       fria la comida
1 2020-01-14   muy buena   23.34        5  espere mucho tiempo
5 2020-01-18       buena  343.30       30       Tardaron mucho


## Series

Series es una columna de un DataFrame este posee diversos métodos y atributos, los atributos mas destacables de Series son:

| Atributo | Descripcion                                  |
|----------|----------------------------------------------|
| size     | Tamaño de la Serie                           |
| dtype    | Tipo de dato de la Serie                     |
| values   | Regresa un ndarray con la info del dataframe |

In [102]:
serie = df.monto  # Haremos una serie de la columna orde_id
print(serie.head())  #imprimimos los primeros 5
print("\ntamaño: {}\n".format(serie.size))
print("tipo de los elementos: {}\n".format(serie.dtype))
print("values como ndarray: {}\n".format(serie.values))

0    120.00
1     23.34
2    123.34
3    343.20
4     23.40
Name: monto, dtype: float64

tamaño: 6

tipo de los elementos: float64

values como ndarray: [120.    23.34 123.34 343.2   23.4  343.3 ]



algunos métodos que posee una serie son:

In [107]:
print("Descripcion Estadistica \n{}\n".format(serie.describe()))
print("media: {}\n".format(serie.mean()))
print("maximo: {}\n".format(serie.max()))
print("minimo: {}\n".format(serie.min()))
print("valores unicos: {}\n".format(serie.unique()))
print("Repeticion de cada valor unico: \n{}\n".format(serie.value_counts()))
print("Moda: \n{}\n".format(serie.value_counts().head(1)))
print("ordenando de forma no ascendente \n{}\n".format(serie.sort_values(ascending = False).head()))
print("Suma de todos los elementos: {}\n".format(serie.sum()))

Descripcion Estadistica 
count      6.000000
mean     162.763333
std      146.557009
min       23.340000
25%       47.550000
50%      121.670000
75%      288.235000
max      343.300000
Name: monto, dtype: float64

media: 162.76333333333332

maximo: 343.3

minimo: 23.34

valores unicos: [120.    23.34 123.34 343.2   23.4  343.3 ]

Repeticion de cada valor unico: 
123.34    1
23.40     1
343.20    1
343.30    1
23.34     1
120.00    1
Name: monto, dtype: int64

Moda: 
123.34    1
Name: monto, dtype: int64

ordenando de forma no ascendente 
5    343.30
3    343.20
2    123.34
0    120.00
4     23.40
Name: monto, dtype: float64

Suma de todos los elementos: 976.5799999999999



## Modificando Valores de un DataFrame

Podemos modificar valores de un DataFrame usando la sintaxis de accediendo a un valor seguidamente de un igual y el nuevo valor. También es posible crear nuevas columnas en un dataframe

In [99]:
df_original = df.copy()  # Haciendo una copia de los datos

df.loc[df.propina < 10, 'propina'] = 15  # Todas las propinas menores a 10 le asigno el valor de 15
df

Unnamed: 0,fecha,experiencia,monto,propina,opinion
0,2020-01-13,buena,120.0,10,fria la comida
1,2020-01-14,muy buena,23.34,15,espere mucho tiempo
2,2020-01-15,mala,123.34,12,todo bien
3,2020-01-16,,343.2,45,excelente
4,2020-01-17,muy mala,23.4,15,mal servicio
5,2020-01-18,buena,343.3,30,Tardaron mucho


In [101]:
# Creando una nueva columna monto_total

df['monto_total'] = df.monto + df.propina
df

Unnamed: 0,fecha,experiencia,monto,propina,opinion,monto_total
0,2020-01-13,buena,120.0,10,fria la comida,130.0
1,2020-01-14,muy buena,23.34,15,espere mucho tiempo,38.34
2,2020-01-15,mala,123.34,12,todo bien,135.34
3,2020-01-16,,343.2,45,excelente,388.2
4,2020-01-17,muy mala,23.4,15,mal servicio,38.4
5,2020-01-18,buena,343.3,30,Tardaron mucho,373.3


## Valores Faltantes

En un DataFrame existen valores faltantes podemos tratarlos con las siguientes funciones:

* `dropna(how='any')`: Elimina todo el renglon si existe algun valor no disponible
* `fillna(value=v)`: A cada valor faltante le asigna v
* `pd.isna(DataFrame)`: Regresa true en los valores donde se encuentre un valor faltante

In [120]:
df = df_original

print(pd.isna(df))
print(df.dropna(how='any'))
print(df.fillna(value='buena'))

   fecha  experiencia  monto  propina  opinion
0  False        False  False    False    False
1  False        False  False    False    False
2  False        False  False    False    False
3  False         True  False    False    False
4  False        False  False    False    False
5  False        False  False    False    False
       fecha experiencia   monto  propina              opinion
0 2020-01-13       buena  120.00       10       fria la comida
1 2020-01-14   muy buena   23.34       15  espere mucho tiempo
2 2020-01-15        mala  123.34       12            todo bien
4 2020-01-17    muy mala   23.40       15         mal servicio
5 2020-01-18       buena  343.30       30       Tardaron mucho
       fecha experiencia   monto  propina              opinion
0 2020-01-13       buena  120.00       10       fria la comida
1 2020-01-14   muy buena   23.34       15  espere mucho tiempo
2 2020-01-15        mala  123.34       12            todo bien
3 2020-01-16       buena  343.20       45

## Funciones a un DataFrame

A un DataFrame es posible aplicarle funciones cada una de estas actuara sobre las columnas correspondientes

In [139]:
print("Media:\n", df.mean())
print("Maximo:\n", df.max())
print("Maximo:\n", df.min())
print("Funcion propia:\n", df[['monto', 'propina']].apply(lambda x: x.max() - x.min()))

Media:
 monto      162.763333
propina     17.000000
dtype: float64
Maximo:
 fecha      2020-01-18 00:00:00
monto                    343.3
propina                     45
opinion              todo bien
dtype: object
Maximo:
 fecha      2020-01-13 00:00:00
monto                    23.34
propina                      0
opinion         Tardaron mucho
dtype: object
Funcion propia:
 monto      319.96
propina     45.00
dtype: float64


## Combinar DataFrames

Es posible combinar DataFrames la forma mas sencilla de hacerlo es con concat

In [136]:
datos2 = {
    'fecha':pd.date_range('20200113', periods=6),
    'experiencia':pd.Categorical(['buena', 'muy buena', 'mala', 'mala', 'muy mala', 'buena'],
                                ["muy mala", "mala", "regular", "buena", "muy buena"]),
    'monto':[22, 22.34, 33.34, 44.2, 56.4, 77.3],
    'propina':[2, 2, 3, 4, 5, 00],
    'opinion':['fria la comida', 'espere mucho tiempo', 'todo bien', 'excelente', 'mal servicio', 'Tardaron mucho']
}
df2 = pd.DataFrame(datos2)
df2

Unnamed: 0,fecha,experiencia,monto,propina,opinion
0,2020-01-13,buena,22.0,2,fria la comida
1,2020-01-14,muy buena,22.34,2,espere mucho tiempo
2,2020-01-15,mala,33.34,3,todo bien
3,2020-01-16,mala,44.2,4,excelente
4,2020-01-17,muy mala,56.4,5,mal servicio
5,2020-01-18,buena,77.3,0,Tardaron mucho


In [138]:
df_grande = pd.concat([df, df2])
df_grande = df_grande.reset_index()
df_grande

Unnamed: 0,index,fecha,experiencia,monto,propina,opinion
0,0,2020-01-13,buena,120.0,10,fria la comida
1,1,2020-01-14,muy buena,23.34,5,espere mucho tiempo
2,2,2020-01-15,mala,123.34,12,todo bien
3,3,2020-01-16,,343.2,45,excelente
4,4,2020-01-17,muy mala,23.4,0,mal servicio
5,5,2020-01-18,buena,343.3,30,Tardaron mucho
6,0,2020-01-13,buena,22.0,2,fria la comida
7,1,2020-01-14,muy buena,22.34,2,espere mucho tiempo
8,2,2020-01-15,mala,33.34,3,todo bien
9,3,2020-01-16,mala,44.2,4,excelente


## Agrupar un DataFrame

Se puede agrupar un dataframe en base a una caracteristica:


In [142]:
agrupado_por_experiencia = df.groupby('experiencia')
print(agrupado_por_experiencia)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f1670be9b70>


## Objeto GroupBy

Un objeto group by es el resultado de agrupar un dataframe, a el groupby hay que aplicarle una función para que los valores iguales (la columna que utilizamos para agrupar) se puedan unir:

| Función     | Descripcion         |
|-------------|---------------------|
| min()       | Toma el minimo      |
| max()       | Toma el maximo      |
| mean()      | Toma la media       |
| sum()       | Suma de todos los valores      |
| agregate(f) | Aplica la función f |

In [143]:
suma_experiencia = agrupado_por_experiencia.sum().head()
print(suma_experiencia)

              monto  propina
experiencia                 
muy mala      23.40        0
mala         123.34       12
regular        0.00        0
buena        463.30       40
muy buena     23.34        5


## Ordenando

Tambien podemos ordenar un DataFrame de una forma similar a la de una Serie:

In [None]:
suma_cantidades_ordenado = suma_cantidades.sort_values("quantity", ascending=True).head()  # Ordenamos por cantidad ascendentemente
print(suma_cantidades_ordenado)

## Leer Datos de Internet

Una función muy usada en pandas para obtener un dataframe es read_csv() que permite leer un csv ya sea de internet o de nuestra computadora.

La data (información) con la que trabajaremos estara en: https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv que es un tsv (archivo separado por tabs)

In [97]:
info = pd.read_csv('https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv', sep = "\t", header = 0)
print('tipo info: ',type(info))
info

URLError: <urlopen error [Errno -3] Temporary failure in name resolution>