<a href="https://colab.research.google.com/github/stephfz/pandas101/blob/master/Pandas101.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **(Breve) Introducción al Análisis de Datos con pandas**

**¿Qué es Pandas?**
Es la librería de Python para el Análisis de Datos o *Python Data Analysis Library*

Para la sesión de hoy usaremos el dataset del [Titanic](https://www.kaggle.com/c/titanic/data)

# Importación de Librerías y carga de datos

In [0]:
import pandas as pd
import requests
import io 

#nos vamos a importar un dataset
url="https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
s=requests.get(url).content
df_original=pd.read_csv(io.StringIO(s.decode('utf-8')))

#Generar una copia just_in_case
df = df_original.copy() 


#explorando un poco la data
df.head(5)


In [0]:
# Tambien podemos ver los ultimos 25 registros
df.tail(5)

In [0]:
#Obteniendo las dimensiones de DataFrame
print(df.shape)

In [0]:
#Dimensiones de la data, de forma mas comprensible (:
rows, columns = df.shape
print ('Filas: {0}, Columnas: {1}'.format(rows, columns))

In [0]:
# Obteniendo mas informacion sobre el dataset
df.info()

In [0]:
# Podemos ver el tipo de dato por cada columna
df.dtypes

# Exploración de datos

In [0]:
#Queremos ver la cuenta de datos por columna
print(df.count())

Como parte de la exploración de datos, veamos si es que todas las columnas tienen datos válidos.

In [0]:
#Otra forma de ver contar datos validos por columnas
columns = df.columns.tolist()
for column in columns:
  print('Valores nulos para la columna <{0}> : {1}'.format(column, df[column].isnull().sum()))

In [0]:
# Queremos ver los valores unicos por columna
df.nunique()

In [0]:
# Puedo hacer un preview o head de una columna en particular
df['Sex'].head()

In [0]:
# Puedo hacer cuentas por columnas
df.Sex.value_counts()

In [0]:
# Podemos ordenar una columna determinada 
df.sort_values('Fare').head(10)

In [0]:
# Podemos ordenar una columna determinada v2
df.sort_values('Fare', ascending = False).head(10)

In [0]:
# Ordenando una columna con valores NaN
df.sort_values("Age", ascending = True, na_position ='last').tail(20)

In [0]:
#Podemos hacer cuentas por columnas en base a un filtro
df.Sex[df.Sex=='female'].count()

In [0]:
# Podemos filtrar datos por un valor en especifico
df[df["Pclass"] == 3].head(5)

In [0]:
# Podemos obtener un subconjunto de datos con cierto filtro y ordenarlo
df[df.Fare == 0].sort_values(by='Pclass')


In [0]:
# Podemos agrupar los datos para obtener una cuenta de los sobrevivientes
df.groupby(['Sex', 'Survived'])['Ticket'].count()

In [0]:
# Obteniendo sub-grupo de datos en base a su indice/rango dentro del dataframe
df.iloc[5:10, 3:9]

In [0]:
# Obteniendo sub-grupo de datos
df.loc[[5,46], ['Sex','Pclass', 'Survived']]

In [0]:
# Podemos obtener información de indicadores estadísticos del dataframe
df.describe()

# Transformación de datos

Podemos realizar un rápida transformación de datos para simplificar el análisis y/o posterior agrupación.

In [0]:
df.head(3)

In [0]:
#Transformacion de datos
genders = {'male':'M', 'female': 'F'}
df['Sex'] = df['Sex'].apply(lambda x : genders[x])
df['Sex'].head()

En la exploración inicial de datos, pudimos notar que la columna **Age** tiene datos nulos. Para salvar estos datos nulos y poder considerarlos dentro de nuestro dataset, podriamos convertir esos *nulos* al promedio de edades de todo el dataset

In [0]:
#hacemos una copia del dataframe
df_copy = df.copy()
#mostrar todos los nulos
df.Age.isnull().sum()
#Reemplazando valores null por valores medios
df['Age'] = df['Age'].fillna(df.Age.mean())

In [0]:
#Otro Approach
#Remover las filas con valores nulos es columna(s) especifica(s)
df_copy = df_copy.dropna(subset =['Age'])

In [0]:
print( df.shape)
print (df_copy.shape)

In [0]:
df.Age.isnull().sum()

# Análisis

In [0]:
#Cuantos sobrevivieron
total_survivors = df['Survived'].value_counts()[0]

print('Número Total de sobrevivientes: {0}'.format(total_survivors))

df.groupby('Sex')[['Survived']].mean()

In [0]:
# Tablas Cruzadas, metodo de Libreria no del dataframe
# Queremos ver la proporcion de sobrevivientes por sexo
pd.crosstab(df.Sex, df.Survived)

In [0]:
# Podemos agrupar 
pclass_gender_survival_rate_df = df.groupby(['Pclass','Sex'])[ 'Survived'].sum()
pclass_gender_survival_rate_df

In [0]:
df_survivors = df[df.Survived == 1]
df_survivors.shape

In [0]:
df_survivors.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,342.0,342.0,342.0,290.0,342.0,342.0,342.0
mean,444.368421,1.0,1.950292,28.34369,0.473684,0.464912,48.395408
std,252.35884,0.0,0.863321,14.950952,0.708688,0.771712,66.596998
min,2.0,1.0,1.0,0.42,0.0,0.0,0.0
25%,250.75,1.0,1.0,19.0,0.0,0.0,12.475
50%,439.5,1.0,2.0,28.0,0.0,0.0,26.0
75%,651.5,1.0,3.0,36.0,1.0,1.0,57.0
max,890.0,1.0,3.0,80.0,4.0,5.0,512.3292


# About Me
[Stephanie Frias](https://about.me/stephaniefrias)

```
Twitter: @_stephfz_
```

