
<a href="https://colab.research.google.com/github/Argentan/DMA_LAB2/blob/master/tutoriales/03_manejo_de_datos-pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## Libreria Pandas

Pandas es la libreria mas utilizada para la manipulación de datos, utiliza series y dataframes que son estrtucturas de datos columnares, de una o dos dimensiones

In [1]:
import pandas as pd

## Series

Son columnas de datos con indices

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
animales = ['Tortuga', 'Zorro', 'Paloma', 'Elefante', "Zorro"]
tipo = ['reptil', 'mamífero', 'ave', 'mamífero', 'mamífero' ]
obj = pd.Series(tipo, index=animales)
obj

In [None]:
animales = ['Tortuga', 'Zorro', 'Paloma', 'Elefante', "Zorro"]
tipo = ['reptil', 'mamífero', 'ave', 'mamífero', 'mamífero' ]
obj = pd.Series(tipo)
obj.index = animales
obj

In [None]:
obj["Tortuga"]

In [None]:
obj[0]

In [None]:
obj.sort_values()[0]

In [None]:
obj.sort_values()["Tortuga"]

## DataFrames

Son estructuras de dos dimensiones, pueden pensarse como la contatenación horizontal de series. 

In [None]:
d = {'tipo_vivienda': ['casa', 'departamento'],
     'm2': [125, 59],
     'Barrio': ['San Martin', 'Florida'],
     'Precio (kUSD)': [200, 130]
    }
df = pd.DataFrame(data=d, index=["casa1", "casa2"])
df

## Lectura de archivos de datos


Pandas soporta la lectura de una amplia cantidad de formatos ([más info](http://pandas.pydata.org/pandas-docs/stable/io.html)): 

- read_csv
- read_excel
- read_hdf
- read_sql
- read_json
- read_msgpack (experimental)
- read_html
- read_gbq (experimental)
- read_stata
- read_sas
- read_clipboard
- read_pickle

Vamos a empezar a probar con una dataset publicado para una competencia de kaggle: [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data).

In [3]:
data = pd.read_csv("https://raw.githubusercontent.com/Argentan/DMA_LAB2/master/data/titanic.csv", index_col="PassengerId")

In [None]:
data.head()

In [None]:
data.tail()

In [None]:
data.columns

In [None]:
data.dtypes

In [None]:
data.info()

In [None]:
data.describe()

In [None]:
data.shape

In [None]:
data.size

In [None]:
data.Pclass

In [None]:
data.Pclass.unique()

In [None]:
data.Pclass.value_counts()

In [None]:
data.Pclass.nunique()

## Tipos de Indexado

Hay varias formas de seleccionar un subconjunto de los datos:

- Como las listas o arrays, por posición.
- Como los diccionarios, por llave o etiqueta.
- Como los arrays, por máscaras de verdadero o falso.
- Se puede indexar por número, rango o lista (array)
- Todos estos métodos pueden funcionar subconjunto como en las columnas


## Reglas Básicas

1. Se usan corchetes (abreviatura para el método `__getitem__`) para seleccionar columnas de un `DataFrame`

    ```python
    >>> df[['a', 'b', 'c']]
    ```

2. Se usa `.iloc` para indexar por posición (tanto filas como columnas)

    ```python
    >>> df.iloc[[1, 3], [0, 2]]
    ```
    
3. Se usa `.loc` para indexar por etiquetas (tanto filas como columnas)

    ```python
    >>> df.loc[["elemento1", "elemento2", "elemento3"], ["columna1", "columna2"]]
    ```

In [None]:
data.__getitem__("Name") == data["Name"]

In [None]:
data["Name"]

In [None]:
data.loc[[1], ["Name", "Sex"]]

In [None]:
data.loc[[1, 2, 3]]

In [None]:
data.loc[[1, 2, 3], "Name"]

In [None]:
data.loc[1, "Survived"]

In [None]:
temp = data.loc[:, ["Name", "Sex"]]
temp.loc[1, "Name"] = "Rafa"
temp

In [None]:
data.loc[1, "Name"], temp.loc[1, "Name"]

In [None]:
temp = data.copy()
temp.index = ["pasajero_nro_" + str(i) for i in temp.index]
temp.index.name =data.index.name
temp


In [None]:
data.loc[1]

In [None]:
data.loc["1"]

In [None]:
temp.loc[["pasajero_nro_1", "pasajero_nro_2", "pasajero_nro_3"], ["Name", "Sex"]]

In [None]:
temp.iloc[[1, 2, 3], [2, 3]]

In [None]:
del temp

In [None]:
data.loc[:3, :"Sex"]

In [None]:
data.sort_values("Name").loc[:3]

## Calculo de columnas nuevas

In [None]:
temp = data[["Name"]].copy()
temp.OtroNombre = ["OTRO_" + n for n in data.Name]
temp

In [None]:
temp.OtroNombre[:10]

In [None]:
temp["OtroNombre"] = ["OTRO_" + n for n in data.Name]
temp

In [None]:
del temp

## Filtrado

In [None]:
data["SibSp"] > 0

In [None]:
data[data["Age"] > 18]

In [None]:
data.select_dtypes("float")

### Funciones comunes

Pandas ya viene con una cantidad de funciones incorporadas, por ejemplo:

* sum
* mean
* std
* var
* cumsum
* value_counts()

In [None]:
data.Age.mean()

In [None]:
data.mean()

In [None]:
data.sum()

In [None]:
data.select_dtypes("float").sum(axis=1)

In [None]:
data.Age.cumsum()

In [None]:
data.isnull().sum()

In [None]:
data.Survived.value_counts()

In [None]:
data.Survived.value_counts(True)

In [None]:
data.Survived.value_counts(1)

### Ejercicio

1. Mostrar las primeras 16 files de data

In [4]:
data.iloc[:16]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C



2. ¿Cómo se llama el pasajero 881?

In [6]:
data.loc[881, "Name"]

'Shelley, Mrs. William (Imanita Parrish Hall)'


3. Calcular una columna numFam que sea la suma de la cantidad de familiares en el barco

In [7]:
data['numFam'] = data['SibSp']+data['Parch']


4. Encontrar la edad media de los sobrevivientes

In [12]:
data[data['Survived'] == 1]['Age'].mean()

28.343689655172415