<a href="https://colab.research.google.com/github/portafolioGitJocelynP2019/BibliotecaEscuadron/blob/master/Pandas101.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **(Breve) Introducción al Análisis de Datos con pandas**

**¿Qué es Pandas?**
Es la librería de Python para el Análisis de Datos o *Python Data Analysis Library*

Para la sesión de hoy usaremos el dataset del [Titanic](https://www.kaggle.com/c/titanic/data)

In [0]:
from google.colab import drive
drive.mount('/content/drive')

# Importación de Librerías y carga de datos

In [0]:
import pandas as pd
import requests
import io 

#nos vamos a importar un dataset
url="https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
s=requests.get(url).content
df_original=pd.read_csv(io.StringIO(s.decode('utf-8')))

#Generar una copia just_in_case
df = df_original.copy() 


#explorando un poco la data
df.head(5)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [0]:
# Tambien podemos ver los ultimos 25 registros
df.tail(25)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
866,867,1,2,"Duran y More, Miss. Asuncion",female,27.0,1,0,SC/PARIS 2149,13.8583,,C
867,868,0,1,"Roebling, Mr. Washington Augustus II",male,31.0,0,0,PC 17590,50.4958,A24,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S
870,871,0,3,"Balkic, Mr. Cerin",male,26.0,0,0,349248,7.8958,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0,B51 B53 B55,S
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0,,S
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0,,C
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.225,,C


In [0]:
#Obteniendo las dimensiones de DataFrame
print(df.shape)

(891, 12)


In [0]:

#Dimensiones de la data, de forma mas comprensible (:
rows, columns = df.shape
print ('Filas: {0}, Columnas: {1}'.format(rows, columns))

Filas: 891, Columnas: 12


In [0]:
# Obteniendo mas informacion sobre el dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


In [0]:
# Podemos ver el tipo de dato por cada columna
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

# Exploración de datos

In [0]:
#Queremos ver la cuenta de datos por columna
print(df.count())


NameError: ignored

NameError: ignored

Como parte de la exploración de datos, veamos si es que todas las columnas tienen datos válidos.

In [0]:
#Otra forma de ver contar datos validos por columnas
columns = df.columns.tolist()
for column in columns:
  print('Valores nulos para la columna <{0}> : {1}'.format(column, df[column].isnull().sum()))

In [0]:
# Queremos ver los valores unicos por columna
df.nunique()

In [0]:
# Puedo hacer un preview o head de una columna en particular
df.['Sex'].head()

In [0]:
# Puedo hacer cuentas por columnas
df.Sex.value_counts()

In [0]:
# Podemos ordenar una columna determinada v2
df.sort_values('Fare').head(10)

In [0]:
# Podemos ordenar una columna determinada
df.sort_values('Fare', ascending = False).head(10)

NameError: ignored

In [0]:
# Ordenando una columna con valores NaN
df.sort_values("Age", ascending = True, na_position ='last').tail(20)

In [0]:
df[df.Fare == 0].sort_values(by='Pclass')

In [0]:
#Podemos hacer cuentas por columnas en base a un filtro
df.Sex[df.Sex=='female'].count()

In [0]:
# Podemos filtrar datos por un valor en especifico
df[df["Pclass"] == 3].head(5)

In [0]:
# Obteniendo sub-grupo de datos
df.loc[[5,46], ['Sex','Pclass', 'Survived']]

In [0]:
# Obteniendo sub-grupo de datos v2
df.iloc[5:10, 3:9]

In [0]:
df.describe()

# Transformación de datos

Podemos realizar un rápida transformación de datos para simplificar el análisis y/o posterior agrupación.

In [0]:
#Transformacion de datos
genders = {'male':'M', 'female': 'F'}
df['Sex'] = df['Sex'].apply(lambda x : genders[x])
df['Sex'].head()

En la exploración inicial de datos, pudimos notar que la columna Age tiene datos nulos. Para salvar estos datos nulos y poder considerarlos dentro de nuestro dataset, podriamos convertir esos *nulos* al promedio de edades de todo el dataset

In [0]:
#mostrar todos los nulos
df.Age.isnull().sum()
#Reemplazando valores null por valores medios
#df['Age'] = df['Age'].fillna(df.Age.mean())

# Análisis

In [0]:
#Cuantos sobrevivieron
total_survivors = df[df.Survived == 1].count()['Survived']
print('Número Total de sobrevivientes: {0}'.format(total_survivors))

In [0]:
# Tablas Cruzadas, metodo de Libreria no del dataframe
# Queremos ver la proporcion de sobrevivientes por sexo
pd.crosstab(df.Sex, df.Survived)

In [0]:
# Podemos agrupar 
pclass_gender_survival_rate_df = df.groupby(['Pclass','Sex'])[ 'Survived'].sum()
pclass_gender_survival_rate_df

Pclass  Sex
1       F      91
        M      45
2       F      70
        M      17
3       F      72
        M      47
Name: Survived, dtype: int64

In [0]:
df_survivors = df[df.Survived == 1]
df_survivors.shape

In [0]:
df.describe()

In [0]:
# Cual hubiera sido tu probabilidad de sobrevivencia de acuerdo a tu genero y edad?

#df[(df.Age > 30) & (df.Sex =='male') & (df.Pclass <2)].count() / 342

# About Me
[Stephanie Frias](https://about.me/stephaniefrias)

```
Twitter: @_stephfz_
```

