# Introduccion a Pandas

Pandas es un paquete que permite realizar analisis y manipulacion de datos de una manera muy similar a la vista en el lenguaje R , esta basada en NumPy lo cual significa que hace uso de NumPy pero busca proveer facilidades y funcionalidad adicional, esto  a traves del uso de 2 estructuras de datos principales :

* **Series** : arreglo unidimensional de datos parecido  los vectores de NumPy 
* **DataFrames** : arreglo rectangular o bi-dimensional organizado en filas y columnas(similar a las matrices en NumPy), algunas de sus caracteristicas y ventajas son:
    * Combinar columnas de diferentes tipos de datos.
    * Es posible manejar nombre tanto para las columnas como para las filas. 
    
 
Existen multiples formas de crear estructuras de datos de Pandas (tanto series como dataframes)  y un escenario muy comun es hacerlo utilizando una estructura de NumPy existente , o bien utilizando funciones de lectura de datos externos(como leer un archivo csv o excel).

Pandas no es un paquete por defecto y debe ser instalado , si usamos Anaconda es bastante sencillo agregarlo a nuestro ambiente de trabajo.

In [2]:
import sys
#!conda install --yes --prefix {sys.prefix} pandas

# ! ejecuta un comando del sistema desde el notebook, el comando ejecutado fue:
print("Comando ejecutado:conda install --yes --prefix {"+sys.prefix+"} pandas")

Comando ejecutado:conda install --yes --prefix {C:\Users\ruben\AppData\Local\Continuum\anaconda3\envs\Galileo-Python} pandas


In [3]:
import numpy as np
import pandas as pd # tal como es casi un estandar importar NumPy bajo el alias np, en pandas es casi un estandar usar pd

Existen multiples formas de crear estructuras de datos de Pandas (tanto series como dataframes)  y un escenario muy comun es hacerlo utilizando una estructura de NumPy existente , o bien utilizando funciones de lectura de datos externos(como leer un archivo csv o excel).


In [4]:
numpy_data = np.array([1,2,3,4,5])
pandas_data = pd.Series(numpy_data)

print(pandas_data)

0    1
1    2
2    3
3    4
4    5
dtype: int32


Podemos especificar los "indices" de una serie para poder hacer "indexing" con valores a conveniencia(no necesariamente de 0 a n-1)

In [5]:
numpy_data = np.linspace(1,10,5)
pandas_data = pd.Series(numpy_data,index=[1,2,3,4,5])

print(pandas_data)

1     1.00
2     3.25
3     5.50
4     7.75
5    10.00
dtype: float64


In [6]:
print(pandas_data[1])
print(pandas_data[2])
print(pandas_data[5])

1.0
3.25
10.0


In [7]:
numpy_data = np.linspace(1,10,5)
pandas_data = pd.Series(numpy_data,index=["uno","dos","tres","cuatro","cinco"])

print(pandas_data)

uno        1.00
dos        3.25
tres       5.50
cuatro     7.75
cinco     10.00
dtype: float64


In [8]:
print(pandas_data["uno"])
print(pandas_data["dos"])
print(pandas_data["cinco"])

1.0
3.25
10.0


Podemos crear una serie de pandas a partir de un diccionario, las llaves seran los "indices" y valores serian los datos de la serie

In [9]:
data = {'a' : 0., 'b' : 1., 'c' : 2.}
serie = pd.Series(data)

In [10]:
serie["b"]

1.0

Para crear dataframes usamos  pd.Dataframe y le enviamos los parametros correspondientes, por ejemplo para crear un databrame de 2 columnas  (nombre,edad) usamos una lista de listas, donde cada lista interior corresponde a una fila del dataframe:

In [11]:
data = [['Alex',10],
        ['Bob',12],
        ['Clarke',13]]
pandas_dataframe = pd.DataFrame(data,columns=['Name','Age'])
print(pandas_dataframe)

     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13


In [12]:
pandas_dataframe

Unnamed: 0,Name,Age
0,Alex,10
1,Bob,12
2,Clarke,13


In [13]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df

Unnamed: 0,Name,Age
0,Tom,28
1,Jack,34
2,Steve,29
3,Ricky,42


In [14]:
df["Name"]

0      Tom
1     Jack
2    Steve
3    Ricky
Name: Name, dtype: object

In [15]:
df["Age"]

0    28
1    34
2    29
3    42
Name: Age, dtype: int64

Para acceder multiples columnas usamos una lista de nombres.

In [16]:
df[["Name","Age"]]

Unnamed: 0,Name,Age
0,Tom,28
1,Jack,34
2,Steve,29
3,Ricky,42


In [17]:
columnas = ["Name","Age"]
df[columnas]

Unnamed: 0,Name,Age
0,Tom,28
1,Jack,34
2,Steve,29
3,Ricky,42


Cada columna del dataframe es un objeto tipo series ,por lo cual agregar una columna es equivalente a agregar una serie.

In [17]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df["age_when_started_college"] = pd.Series([17,18,19,18])

df

Unnamed: 0,Name,Age,age_when_started_college
0,Tom,28,17
1,Jack,34,18
2,Steve,29,19
3,Ricky,42,18


Es posible crear nuevas columnas a partir de calculos usando otras existentes

In [21]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df["age_when_started_college"] = pd.Series([17,18,19,18])
df["years_after_college"] = df["Age"] /5
#df["years_after_college"] = df["Age"] - df["age_when_started_college"]

df

Unnamed: 0,Name,Age,age_when_started_college,years_after_college
0,Tom,28,17,5.6
1,Jack,34,18,6.8
2,Steve,29,19,5.8
3,Ricky,42,18,8.4


Es posible borrar columnas(por ejemplo si se tiene una columna con datos irrelevantes para cierto proyecto) usando :

* La sentencia del de Python
* la funcion pop(columna) de pandas.

In [19]:
del df["age_when_started_college"]

df

Unnamed: 0,Name,Age,years_after_college
0,Tom,28,11
1,Jack,34,16
2,Steve,29,10
3,Ricky,42,24


In [20]:
df.pop("years_after_college")

df

Unnamed: 0,Name,Age
0,Tom,28
1,Jack,34
2,Steve,29
3,Ricky,42


Para seleccion y acceso por filas , debemos usar las propiedades :
* **loc** : por nombre y/o etiqueta
* **iloc**: por posicion(similar a indexing y slicing de Numpy)

In [21]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [22]:
df.loc["d"]

one    NaN
two    4.0
Name: d, dtype: float64

In [23]:
names = ['Tom', 'Jack', 'Steve', 'Ricky']
data = {'Name':names,'Age':[28,34,29,42]}

df = pd.DataFrame(data,index=names)
df

Unnamed: 0,Name,Age
Tom,Tom,28
Jack,Jack,34
Steve,Steve,29
Ricky,Ricky,42


In [25]:
df.loc["Steve"]

Name    Steve
Age        29
Name: Steve, dtype: object

In [26]:
df.iloc[1]

Name    Jack
Age       34
Name: Jack, dtype: object

In [27]:
df[1:4]

Unnamed: 0,Name,Age
Jack,Jack,34
Steve,Steve,29
Ricky,Ricky,42


Para agregar nuevas filas o combinar 2 dataframes usamos la funcion **append**

In [30]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df3 = df.append(df2)

df3

Unnamed: 0,a,b
0,1,2
1,3,4
0,5,6
1,7,8


Para borrar filas usamos la funcion drop

In [31]:
df3.loc[1]

Unnamed: 0,a,b
1,3,4
1,7,8


In [32]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)

df

Unnamed: 0,a,b
0,1,2
1,3,4
0,5,6
1,7,8


In [33]:
dropped_df = df.drop(0)

dropped_df

Unnamed: 0,a,b
1,3,4
1,7,8


### Propiedades utiles 

Similar a como  tensores de Numpy poseeian propiedeades utiles(por ejemplo ndim, shape) las estructuras de Pandas poseen propiedades utiles, algunas heredadas de NumPy y otras propias (por ejemplo head() y tail() )

Transpuesta con .T

In [34]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df = df.T

df

Unnamed: 0,0,1,2,3
Name,Tom,Jack,Steve,Ricky
Age,28,34,29,42


In [39]:
print(df.size)
print(df.shape)
print(df.shape[1])

8
(2, 4)
4


In [40]:
df.loc["Age"]

0    28
1    34
2    29
3    42
Name: Age, dtype: object

In [41]:
df.iloc[1]

0    28
1    34
2    29
3    42
Name: Age, dtype: object

In [42]:
df[0]

Name    Tom
Age      28
Name: 0, dtype: object

Total de elementos con .size

In [43]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df.size

8

La forma del dataframe con .shape (similar al usado en numpy)

In [44]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df

Unnamed: 0,Name,Age
0,Tom,28
1,Jack,34
2,Steve,29
3,Ricky,42


In [45]:
df.shape

(4, 2)

Arreglo de NumPy con los datos del dataframe usando .values

In [46]:
df.values

array([['Tom', 28],
       ['Jack', 34],
       ['Steve', 29],
       ['Ricky', 42]], dtype=object)

Consultar los primeros o ultimos rows del dataframe(muy util para analisis exploratorio)

In [47]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)


df.head(2)

Unnamed: 0,Name,Age
0,Tom,28
1,Jack,34


In [48]:
df.tail(1)

Unnamed: 0,Name,Age
3,Ricky,42


In [49]:
df.describe()

Unnamed: 0,Age
count,4.0
mean,33.25
std,6.396614
min,28.0
25%,28.75
50%,31.5
75%,36.0
max,42.0


### Estadistica descriptiva

Similar al caso de NumPy ,podemos usar pandas para realizar estadistica descriptiva sobre nuestros dataframes, y de manera similar a NumPy podemos especificar  el "axis" a utilizar, ademas de poseer caracteristicas adicionales.

In [50]:
np_data = [[1,2,3,4],
           [5,6,7,8],
           [4,3,2,1],
           [4,5,6,7]]
pandas_data = pd.DataFrame(np_data)

pandas_data.sum(axis=0)

0    14
1    16
2    18
3    20
dtype: int64

In [51]:
pandas_data.sum(axis=1)

0    10
1    26
2    10
3    22
dtype: int64

Debemos tener en cuenta los tipos de datos de cada columna al usar funciones de agregacion y/o estadistica:

In [52]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df

Unnamed: 0,Name,Age
0,Tom,28
1,Jack,34
2,Steve,29
3,Ricky,42


In [53]:
df.sum()

Name    TomJackSteveRicky
Age                   133
dtype: object

Veamos como ejemplo la media

In [54]:
np_data = [[1,2,3,4],
           [5,6,7,8],
           [4,3,2,1],
           [4,5,6,7]]
pandas_data = pd.DataFrame(np_data)

pandas_data.mean(axis=1)

0    2.5
1    6.5
2    2.5
3    5.5
dtype: float64

In [55]:
pandas_data.mean(axis=0)

0    3.5
1    4.0
2    4.5
3    5.0
dtype: float64

Podemos utilizar muchas de las funciones que ya aprendimos en NumPy sobre un dataframe de pandas, por ejemplo **std()** y otras adicionales propias de pandas , por ejemplo la moda con **mode()**

### describe

Una funcion muy utilizada  en Pandas  y no existente en NumPy es **describe** la cual busca generar un resumen descriptivo  de cierto dataframe,  esta funcion es muy util en la etapa de analisis exploratorio.

In [56]:
pandas_data

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,4,3,2,1
3,4,5,6,7


In [57]:
pandas_data.describe()

Unnamed: 0,0,1,2,3
count,4.0,4.0,4.0,4.0
mean,3.5,4.0,4.5,5.0
std,1.732051,1.825742,2.380476,3.162278
min,1.0,2.0,2.0,1.0
25%,3.25,2.75,2.75,3.25
50%,4.0,4.0,4.5,5.5
75%,4.25,5.25,6.25,7.25
max,5.0,6.0,7.0,8.0


In [58]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)

df.describe()

Unnamed: 0,Age
count,4.0
mean,33.25
std,6.396614
min,28.0
25%,28.75
50%,31.5
75%,36.0
max,42.0


### Otras funciones utiles en analisis de datos

Pandas provee de cajon muchas funciones utiles para analisis de datos , por ejemplo :

* group by: https://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.DataFrame.groupby.html
* window functions : https://pandas.pydata.org/pandas-docs/stable/reference/window.html
* sustitucion de valores faltantes : https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html

### Entrada y salida de datos

Es posible tanto leer con Pandas , como escribir un dataframe de Pandas a almacenamiento  en una gran variedad de formatos y fuentes ,por ejemplo archivos .csv , archivos excel, Json, queries a bases de datos con SQL, etc, la referencia oficial es: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

In [59]:
url = 'https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/baseball.csv'

tips=pd.read_csv(url)

tips.head()

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,...,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
0,88641,womacto01,2006,2,CHN,NL,19,50,6,14,...,2.0,1.0,1.0,4,4.0,0.0,0.0,3.0,0.0,0.0
1,88643,schilcu01,2006,1,BOS,AL,31,2,0,1,...,0.0,0.0,0.0,0,1.0,0.0,0.0,0.0,0.0,0.0
2,88645,myersmi01,2006,1,NYA,AL,62,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,88649,helliri01,2006,1,MIL,NL,20,3,0,0,...,0.0,0.0,0.0,0,2.0,0.0,0.0,0.0,0.0,0.0
4,88650,johnsra05,2006,1,NYA,AL,33,6,0,1,...,0.0,0.0,0.0,0,4.0,0.0,0.0,0.0,0.0,0.0


Editando el dataset y escribiendo el resultado a disco.


In [60]:
tips = tips.iloc[0:5]

tips

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,...,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
0,88641,womacto01,2006,2,CHN,NL,19,50,6,14,...,2.0,1.0,1.0,4,4.0,0.0,0.0,3.0,0.0,0.0
1,88643,schilcu01,2006,1,BOS,AL,31,2,0,1,...,0.0,0.0,0.0,0,1.0,0.0,0.0,0.0,0.0,0.0
2,88645,myersmi01,2006,1,NYA,AL,62,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,88649,helliri01,2006,1,MIL,NL,20,3,0,0,...,0.0,0.0,0.0,0,2.0,0.0,0.0,0.0,0.0,0.0
4,88650,johnsra05,2006,1,NYA,AL,33,6,0,1,...,0.0,0.0,0.0,0,4.0,0.0,0.0,0.0,0.0,0.0


In [61]:
tips.to_json("result_file.json")