# Pandas

Notepad de resumen sobre pandas para el analisis de datos.

## Cargando un CSV

In [14]:
import pandas as pd

# Con el siguiente script vamos a leer un dataset en formato CSV y mostrar los primeros 5 elementos

titanic_data = pd.read_csv("../datasets/titanic_data.csv")
titanic_data.head()

"""
La funcion read_csv lee la data de un CSV o TSV y la guarda en un Pandas dataframe que es un objeto
especial que guarda la data en forma de tabla
"""

'\nLa funcion read_csv lee la data de un CSV o TSV y la guarda en un Pandas dataframe que es un objeto\nespecial que guarda la data en forma de tabla\n'

## Filtrando filas

In [15]:
"""
Una de las tareas rutinarias que es necesario realizar cuando manipulamos un dataframe de pandas, es filtrar
filas basado en los valores de las columnas, para poder filtrar las filas primero tenemos que identificar los indices
de las filas a filtrar.
"""

# El siguiente script retorna una seria de True y False, True va a ser devuelto para indices que la Pclass sea igual a 1.

titanic_pclass1 = (titanic_data.Pclass == 1)
titanic_pclass1

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889     True
890    False
Name: Pclass, Length: 891, dtype: bool

In [16]:
"""
Ahora, la serie titanic_pclass1 que contiene True o False, y se puede utilizar para filtrar el dataset titanic_data
obteniendo solo las filas que correspondan a la Pclass1 = True
"""
titanic_pclass1 = (titanic_data.Pclass == 1)
titanic_pclass1_data = titanic_data[titanic_pclass1]
titanic_pclass1_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S


In [18]:
# Otro operador muy usado para filtrar filas es el operador isin

"""
Este operador toma una lista de valores y devuelve solo las filas donde la columna usada para comparar contiene
valores de la lista pasada al operador isin como un parametro
"""

ages = [20,21,22]
age_dataset = titanic_data[titanic_data["Age"].isin(ages)]
age_dataset.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
37,38,0,3,"Cann, Mr. Ernest Charles",male,21.0,0,0,A./5. 2152,8.05,,S
51,52,0,3,"Nosworthy, Mr. Richard Cater",male,21.0,0,0,A/4. 39886,7.8,,S
56,57,1,2,"Rugg, Miss. Emily",female,21.0,0,0,C.A. 31026,10.5,,S


In [19]:
"""
Se pueden realizar filtros de filas en pandas basados en multiples condiciones usando operadores logicos
como and (&) and or (|)
"""

ages = [20,21,22]
ageclass_dataset = titanic_data[titanic_data["Age"].isin(ages) & (titanic_data["Pclass"] == 1)]
ageclass_dataset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
102,103,0,1,"White, Mr. Richard Frasar",male,21.0,0,1,35281,77.2875,D26,S
151,152,1,1,"Pears, Mrs. Thomas (Edith Wearne)",female,22.0,1,0,113776,66.6,C2,S
356,357,1,1,"Bowerman, Miss. Elsie Edith",female,22.0,0,1,113505,55.0,E33,S
373,374,0,1,"Ringhini, Mr. Sante",male,22.0,0,0,PC 17760,135.6333,,C
539,540,1,1,"Frolicher, Miss. Hedwig Margaritha",female,22.0,0,2,13568,49.5,B39,C


## Filtrando columnas

In [20]:
"""
Para filtrar columnas desde un dataframe de pandas, se puede utilizar el metodo filter().
se le puede pasar una lista de columnas a este metodo.
"""

titanic_data_filter = titanic_data.filter(["Name","Sex","Age"])
titanic_data_filter.head()

Unnamed: 0,Name,Sex,Age
0,"Braund, Mr. Owen Harris",male,22.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,"Heikkinen, Miss. Laina",female,26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,"Allen, Mr. William Henry",male,35.0


In [21]:
# Ademas de filtrar columnas, podemos tambien eliminarlas del dataset con el metodo drop()

titanic_data_filter = titanic_data.drop(["Name","Sex","Age"], axis=1)
titanic_data_filter.head()

Unnamed: 0,PassengerId,Survived,Pclass,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,1,0,A/5 21171,7.25,,S
1,2,1,1,1,0,PC 17599,71.2833,C85,C
2,3,1,3,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,1,0,113803,53.1,C123,S
4,5,0,3,0,0,373450,8.05,,S


## Concatenacion de Dataframes

In [26]:
"""
Algunas veces vamos a necesitar unir multiples dataframes de pandas tanto horizontal como verticalmente
primero vamos a ver como podemos unirlos verticalmente
"""

# Primero creamos 2 dataframes
titanic_pclass1_data = titanic_data[titanic_data.Pclass == 1]
print(titanic_pclass1_data.shape)

titanic_pclass2_data = titanic_data[titanic_data.Pclass == 2]
print(titanic_pclass2_data.shape)

"""
En la salida de este script podemos ver que la cantidad de columnas en 12 en ambos dataframes
esto es importante que cuando queremos unir dos dataset verticalmente, ambos tienen que tener un
igual numero de columnas.
"""

# Hay una forma de concatenar datasets horizontalmente, usando el metodo concat de pandas y pasandole una lista con los datasets

final_data = pd.concat([titanic_pclass1_data, titanic_pclass2_data], ignore_index=True)
print(final_data.shape)

(216, 12)
(184, 12)
(400, 12)


In [29]:
"""
Para concatenar dataframes horizontalmente hay que estar seguro que los dataframes tienen un igual numero de filas,
se puede utilizar el metodo concat() para realizar esta operacion. simplemente pasando el valor de 1 al attributo axis de la funcion
"""

df1 = final_data[:200]
print(df1.shape)
df2 = final_data[200:]
print(df2.shape)

final_data2 = pd.concat([df1,df2], ignore_index=True, axis=1)
print(final_data2.shape)

final_data2.head()

(200, 12)
(200, 12)
(400, 24)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,14,15,16,17,18,19,20,21,22,23
0,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,PC 17599,71.2833,...,,,,,,,,,,
1,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1.0,0.0,113803,53.1,...,,,,,,,,,,
2,7.0,0.0,1.0,"McCarthy, Mr. Timothy J",male,54.0,0.0,0.0,17463,51.8625,...,,,,,,,,,,
3,12.0,1.0,1.0,"Bonnell, Miss. Elizabeth",female,58.0,0.0,0.0,113783,26.55,...,,,,,,,,,,
4,24.0,1.0,1.0,"Sloper, Mr. William Thompson",male,28.0,0.0,0.0,113788,35.5,...,,,,,,,,,,


## Ordenando Dataframes