# **(Breve) Introducción al Análisis de Datos con pandas**

**¿Qué es Pandas?**
Es la librería de Python para el Análisis de Datos o *Python Data Analysis Library*

Para la sesión de hoy usaremos el dataset del [Titanic](https://www.kaggle.com/c/titanic/data)

# Importación de Librerías y carga de datos

In [0]:
import pandas as pd
import requests
import io 

#nos vamos a importar un dataset
url="https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
s=requests.get(url).content
df_original=pd.read_csv(io.StringIO(s.decode('utf-8')))

#Generar una copia just_in_case
df = df_original.copy() 


#explorando un poco la data
df.head(5)


In [0]:
# Tambien podemos ver los ultimos 25 registros
df.tail(25)

In [0]:
#Obteniendo las dimensiones de DataFrame
print(df.shape)

In [0]:

#Dimensiones de la data, de forma mas comprensible (:
rows, columns = df.shape
print ('Filas: {0}, Columnas: {1}'.format(rows, columns))

In [0]:
# Obteniendo mas informacion sobre el dataset
df.info()

In [0]:
# Podemos ver el tipo de dato por cada columna
df.dtypes

# Exploración de datos

In [0]:
#Queremos ver la cuenta de datos por columna
print(df.count())

Como parte de la exploración de datos, veamos si es que todas las columnas tienen datos válidos.

In [0]:
#Otra forma de ver contar datos validos por columnas
columns = df.columns.tolist()
for column in columns:
  print('Valores nulos para la columna <{0}> : {1}'.format(column, df[column].isnull().sum()))

In [0]:
# Queremos ver los valores unicos por columna
df.nunique()

In [0]:
# Puedo hacer un preview o head de una columna en particular
df['Sex'].head()

In [0]:
# Puedo hacer cuentas por columnas
df.Sex.value_counts()

In [0]:
# Podemos ordenar una columna determinada v2
df.sort_values('Fare').head(10)

In [0]:
# Podemos ordenar una columna determinada
df.sort_values('Fare', ascending = False).head(10)

In [0]:
# Ordenando una columna con valores NaN
df.sort_values("Age", ascending = True, na_position ='last').tail(20)

In [0]:
df[df.Fare == 0].sort_values(by='Pclass')
#df[df['Fare'] == 0].sort_values(by='Pclass')

In [0]:
#Podemos hacer cuentas por columnas en base a un filtro
df.Sex[df.Sex=='female'].count()

In [0]:
# Podemos filtrar datos por un valor en especifico
df[df["Pclass"] == 3].head(5)

In [0]:
# Obteniendo sub-grupo de datos
df.loc[[5,46], ['Sex','Pclass', 'Survived']]

In [0]:
# Obteniendo sub-grupo de datos v2
df.iloc[5:10, 3:9]

In [0]:
df.describe()

# Transformación de datos

Podemos realizar un rápida transformación de datos para simplificar el análisis y/o posterior agrupación.

In [0]:
#Transformacion de datos
genders = {'male':'M', 'female': 'F'}
df['Sex'] = df['Sex'].apply(lambda x : genders[x])
df['Sex'].head()

En la exploración inicial de datos, pudimos notar que la columna Age tiene datos nulos. Para salvar estos datos nulos y poder considerarlos dentro de nuestro dataset, podriamos convertir esos *nulos* al promedio de edades de todo el dataset

In [0]:
#mostrar todos los nulos
df.Age.isnull().sum()
#Reemplazando valores null por valores medios
df['Age'] = df['Age'].fillna(df.Age.mean())

In [0]:
df.Age.isnull().sum()

# Análisis

In [0]:
#Cuantos sobrevivieron
total_survivors = df[df.Survived == 1].count()['Survived']
print('Número Total de sobrevivientes: {0}'.format(total_survivors))

In [0]:
# Tablas Cruzadas, metodo de Libreria no del dataframe
# Queremos ver la proporcion de sobrevivientes por sexo
pd.crosstab(df.Sex, df.Survived)

In [0]:
# Podemos agrupar 
pclass_gender_survival_rate_df = df.groupby(['Pclass','Sex'])[ 'Survived'].sum()
pclass_gender_survival_rate_df

In [0]:
df_survivors = df[df.Survived == 1]
df_survivors.shape

In [0]:
df_survivors.describe()

In [0]:
# Cual hubiera sido tu probabilidad de sobrevivencia de acuerdo a tu genero y edad?


# About Me
[Stephanie Frias](https://about.me/stephaniefrias)

```
Twitter: @_stephfz_
```

