# Modulo 2: Pandas - Conociendo un dataset



Antes de empezar a utilizar una librería, lo primero que debemos hacer es llamarla.
En caso de que sea una libreria que no está incluida en python debemos utilizar el comando `pip instal nombredelalibreria` antes de llamarla

In [None]:
#importa numpy
import numpy as np
#importa pandas
import pandas as pd

In [None]:
#Creamos una serie de datos
serie = pd.Series(data = [1,2,3, 4, 6.7],  #Escribimos los valores del serie
          index=['primero', 'segundo' ,'tercero', 'cuarto', 'quinto']) #Indexamos los valores de la serie

In [None]:
#Veamos qué objeto es lo que acabamos de crear
type(serie)

In [None]:
serie 

In [None]:
serie.columns

**¿Qué sucede en este caso?** Nos marca un error porque las _Series_ no tienen columnas (mirar la imagen al inicio del módulo)

Probemos entonces creando un _DataFrame_

In [None]:
df = pd.DataFrame(data = [1,2,3, 4, 6.7], 
          index=['primero', 'segundo' ,'tercero', 'cuarto', 'quinto'])
#Generalmente se los nombra con las letras df

df #para mostrarlo

Notar que ahora si tenemos una columna cuyo nombre es cero.

In [None]:
df.index

In [None]:
df.columns

In [None]:
#Otro ejemplo de DataFrame con nombre en filas y columnas
df1= pd.DataFrame([ [0, 1, 2, 5], [3,4,5,4] ], 
                  columns=["a", "b", "c", "d"],
                 index=['primero', 'segundo'])
df1

In [None]:
df1.columns

In [None]:
df1.index

In [None]:
#Otra forma de escribir el DF anterior
df2=pd.DataFrame({'a': [0, 3], 'b': [1,4], 'c': [2,5], 'd': [5,4]}, index=['primero', 'segundo'])
df2

## Importar dataframes

Pandas nos facilita con varias funciones para leer archivos que están por fuera del entorno de python. Entre ellas podemos encontrar:

- `.read_csv()`: lee archivos `csv` como DataFrame
- `.read_json()`: lee archivos `json` como DataFrame
- `.read_excel()`: leer archivos `excel` como DataFrame

Para conocer más funciones que ayuden a leer archivos, consulta [acá](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Nosotros vamos a usar [`.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). 

Los archivos `csv` son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas (o punto y coma) y las filas por saltos de línea. Es uno de los formatos más utilizados en Data Science.

La sintaxis para poder leer un archivo csv es: 
    
`df = pd.read_csv('nombredelarchivo.csv', delimiter=',')`

Aunque muchas veces se omite el `delimiter` si el archivo esta separado por comas.

Vamos a trabajar con el archivo `StudentsPerformance.csv` (Lo podes encontrar en la carpeta Clase2). Es usual descargar el archivo `csv` en la misma carpeta en la que trabajas con el jupyter notebook. De esta manera, no tendras que especificar el path a tu archivo.

1) Lee el archivo csv `StudentsPerformace` usando `pandas`. Guardalo en una variable llamada `students`.

In [None]:
students = pd.read_csv("StudentsPerformance.csv")

In [None]:
students

## Funciones

In [None]:
#Miremos el index de este DataFrame
students.index

2) ¿Qué tipo de estructura de datos contiene la variable `students`? Para saberlo utilizamos `type`

In [None]:
type(students)

3) ¿Cuántas filas y columnas tiene `students`? Para contestar esta pregunta, pandas tiene la funcion `.shape`. Su sintaxis es la siguiente: `df.shape` (`df` debe ser reemplazado por el nombre de tu `DataFrame`). 


De ahora en más cuando nos refiramos a un tipo de sintaxis donde debe colocarse `nombre_del_data_frame.funcion()`, la mencionaremos como `.funcion()`.

¿Qué devuelve esta funcion? ¿Cuál crees que corresponde a las filas y cual a las columnas?


**Numero de filas**: ____

**Numero de columnas**: ____

In [None]:
students.shape

4) ¿Cuál es el nombre de las columnas contenidas en `students`? Para esto, pandas tiene el atributo `.columns`.

In [None]:
students.columns

5) Inspecciona las primeras 10 filas de `students` usando la función `.head()`. Dentro de esta función podemos colocar un numero. Este numero nos dira cuantas filas queremos observar.

In [None]:
students.head(10)

6) Ahora inspecciona las 10 ultimas usando `.tail()`. También podemos indicar el número de filas que queremos observar.

In [None]:
students.tail(10)

7) ¿Qué tipos de datos contiene cada una de las columnas de `students`? Para esto, utiliza el atributo `.dtypes`.

In [None]:
students.dtypes

8) ¿Cómo accedemos a una fila o a una columa de un DataFrame?

Una de las maneras de acceder a una columna es especificando el nombre de la misma. Por ejemplo, `df['nombre_columna']`.

- Accede a la columna `gender` de `students`.

In [None]:
students['gender']


- Accede ahora a la columna `lunch`.

In [None]:
students['lunch']

In [None]:
students.lunch

Otra manera de acceder es usando dos funciones `.loc[]` y `.iloc[]`.

- `iloc[1:m, 1:n]`: Se usa para seleccionar filas basadas en su posición de 1 a m filas y de 1 a n columnas. 

In [None]:
#seleccionar las dos primeras filas y 3 columnas
students.iloc[:2,:3]

In [None]:
# o tambión se usa para las dos primeras filas y todas sus columnas
students.iloc[:2,]

In [None]:
#Selecciona los datos entre la decima y vigesima fila.
students.iloc[10:21]

In [None]:
#Selecciona todos los datos para las dos primeras columnas 
students.iloc[:, :2]

- `.loc[[nombre_fila], [nombre_columna]]`. Se usa para seleccionar filas o columnas basadas en su nombre 

In [None]:
#Selecciona la fila por nombre 1, o sea con indice igual a 0
students.loc[0]

In [None]:
#Corre el código y observa que devuelve
students.loc[[1,20,3,4,5],['gender','lunch','race/ethnicity']]

In [None]:
#Selecciona las filas con indices 3, 10, 30, 43, 43 y columnas reading score y writing score
students.loc[[3, 10, 30, 43, 43], ['reading score', 'writing score']]

In [None]:
df2 = pd.DataFrame(data = ['perro', 'gato', 'flor'], index = ['str1', 'str2', 'st32'], columns=['titulo'])

In [None]:
df2

In [None]:
df2.loc['str2']

In [None]:
df2.iloc[1]

## Aplicando condicionales
 
A veces queremos seleccionar filas que cumplan con ciertas condiciones, donde el valor de una columna en esa fila sea igual, mayor o menor que un valor.

Para esto tenemos que usar una sintáxis especial. Vamos a construirla de a poco. 

Imaginemos que tenemos un DataFrame `df` con las columnas `col1`, `col2` y `col3` y queremos seleccionar solo aquellas filas donde `col1` sea mayor a 10.

Para eso diremos que:

`df['col1'] > 10` (La columna col1 debe ser mayor a 10). 
Ahora si corremos este codigo, veremos que devuelve valores booleanos. O sea devolvera False para aquellos valores que sean menores o iguales a 10 y True para los que sean mayores a 10.

O sea que tenemos que agregar algo mas para poder seleccionar las columnas. Esta lista de valores booleanos se llama mascara booleana. 

¿Qué significa? Que si yo le paso estos valores a pandas, pandas interpretara que debe conservar aquellos valores donde tiene True y descartar donde tiene False.

Por eso, para filtrar filas en base a estas condiciones escribimos:

**`df[df['col1] > 10]`**

Esto significa primero fijate en que filas de `df`, la columna `col1` es mayor a 10. Luego, selecciona solo aquellas filas donde esta condicion sea `True` y mostralas.

In [None]:
#Selecciona solo las filas donde math score sea mayor a 70
students[students['math score'] > 70]

In [None]:
#Selecciona solo las filas donde reading score sea menor a 60
students[students['reading score'] < 60]

In [None]:
#Selecciona solo las filas donde gender sea igual a female
students[students['gender'] == 'female']

In [None]:
#Selecciona solo aquellas filas donde lunch sea distinto a standard
students[students['lunch']!='standard']

In [None]:
#Muestra los valores de writing score para aquellos estudiantes que tengan reading score mayor a math score
students[students['reading score'] > students['math score']]['writing score']

In [None]:
#Selecciona aquellos estudiantes que posean reading and writing score mayor a 70
students[(students['reading score']>70)&(students['writing score']>70)]

### Missing Values o Valores faltantes

Los valores faltantes son un problema muy grande a la hora de visualizar y limpiar datos así como también a la hora de entrenar un modelo. Uno de los pasos obligados de cualquier exploración de datos es evaluar la presencia de estos valores.

Cómo manejar estos datos faltantes es un gran desafio, la mayoría de las veces no queremos eliminar esos valores porque significaría perder información valiosa en otros features que si tienen un valor asignado. 

Los valores faltantes estan codificados normalemente como `NaN`. Esto no es un string, sino que es un valor especial de la libreria `NumPy` que es tratado como un flotante.

Algunas veces también se puede encontrar un dato faltante con la forma `None` (objeto de Python que representa ausencia de dato)

Para chequear si tenemos valores faltantes podemos usar la función `.isnull()`. Esto nos devuelve una nueva DataFrame en la cual tendremos el valor False si no es faltante y True si ese valor es faltante.

In [None]:
#Usa .isnull() para ver que ocurre
students.isnull()

In [None]:
#Prueba usar .isnull().sum() sobre tu dataframe para ver que devuelve
students.isnull().sum()

¿Hay valores faltantes en alguna de las columnas del DataFrame `students`?

Si la cantidad de valores faltantes es poca, podemos entonces deshacernos de ellas. Para esto pandas ofrece la función [`.dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). Esta función hara que se eliminen las filas donde hay valores faltantes. Si no le pasamos ningun parametro extra, eliminara todas las filas con valores faltantes. Sin embargo, podes chequear en la documentación como eliminar solo algunas de las filas.

In [None]:
#Elimina todas las filas que tengan valores faltantes. No te olvides de poner inplace=True dentro de la función.
students.dropna(inplace=True)
students

## Estadísticas descriptivas

Una manera de ver facilmente algunos detalles estadísticos de cada columna de un DataFrame es usando la fución `.describe()`.

In [None]:
#Usa la funcion .describe() sobre students y describe que informacion estadistica proporciona
students.describe()

Tambien es posible visualizar estadísticas descriptivas específicas, por ejemplo, calcular solo el promedio de una columna de interés. 
Para esto pandas usa una función de numpy, pero provee la misma sintaxis que las demás funciones. Por ejemplo, si queremos calcular el promedio de la columna `col1` del DataFrame `df` usamos **`df['col1'].mean()`**.

In [None]:
#Calcula el promedio de la columna math score de students
students['math score'].mean()

In [None]:
students['gender'].mean()

De la misma manera, podemos usar funciones como `.min()`, `.max()`, `.median()`, `.std()`.

In [None]:
#Calcula el minimo y maximo valor, la mediana y el desvio estandard en la columna math score de students
students['math score'].min()

In [None]:
students['math score'].max()

In [None]:
students['math score'].median()

In [None]:
students['math score'].std()

## Funciones en Pandas

Podes investigar [acá](https://pandas.pydata.org/pandas-docs/stable/index.html) algunas de las funciones que ofrece `pandas` para aplicarlas en tu código


## Indices

- `.index`: Los DataFrame contienen una propiedad especial que son los índices. Estos son valores inmutables que se asignan a cada una de las filas del conjunto de datos. Al ser inmutables no es posible cambiar un valor específico, pero sí que es posible modificar todos los índices. 

In [None]:
#Veo el indice de las columnas 
students.index

In [None]:
students

En este caso, el índice de nuestra base de datos es un rango de números que va de 0 a 1000.

Algo que no comentamos es que las columnas también se pueden acceder a través de usar **nombrededataframe.nombredelacolumna** 

Esta nomenclatura en algunos casos hace que sea mas rápida la escritura del codigo pero tambien tenemos que tener cuidado porque es incompatible con los nombres de las columnas que contengan espacios.

In [None]:
#Asigno un nuevo indice para las columnas
students.index = students.gender

In [None]:
students.index = students['gender']

In [None]:
students.head()

In [None]:
students.index

## Eliminar
- `.drop()`: Es una función que se utiliza para eliminar filas (axis=0) o columnas (axis=1) específicas de un DataFrame.


In [None]:
students.drop('gender', axis=1, inplace=True)

Por defecto, `.drop()` no modifica el DataFrame original. En su lugar, devuelve un nuevo DataFrame con las filas o columnas especificadas eliminadas. Si queremos modificar el DataFrame original en su lugar, podemos configurar el `inplace=True`.

In [None]:
students.head()

In [None]:
#borrar filas de mujeres
students.drop('female', axis=0)

## Agrupar
- `.groupby()`:
Es una herramienta que sirve para obtener medidas agrupadas por alguna caracteristica. Permite agrupar algunos datos en función de otros, es decir, hacer un análisis del DataFrame en función de una de las columnas. 

In [None]:
#en este caso agrupamos por lunch todas las demás variables
students.groupby('lunch').mean()

In [None]:
#en este caso vemos cuál es la nota mínima en escritura agrupada por género
students.groupby('gender')['writing score'].min()

In [None]:
#en este caso vemos cuál es el promedio en reading y el máximo math score agrupadas según genero
students.groupby('gender').agg({"reading score": "mean", "math score": "max" })

In [None]:
#Otra forma de usar el groupby es hacerlo para agrupar con más de una categoría
students.groupby(['gender','parental level of education']).agg({"reading score": "mean"})

## Completar 
- `.fillna()`:Es una función que completa los valores nulos (NA/NaN) con un valor que le especifiquemos

In [None]:
#si hay valores nulos llena esos valores con el valor que proveamos
students['lunch'].fillna('standard', inplace=True)

## Renombrar

- `.rename()`: es una función que sirve para cambiar el nombre de columnas, indices, etc

In [None]:
students.rename(columns={'lunch': 'meal'}, inplace=True)

In [None]:
students.head()

## Cambiar tipo de dato

- `.astype()`: es una función que sirve para cambiar de tipo de datos a los valores contenidos en una columna determinada

In [None]:
#En este caso, convierte los float de la columna math score en strings
students['math score'].astype(str)

## Valores únicos

- `.unique()`: se utiliza para obtener los valores únicos de una variable categórica

In [None]:
#Obtiene los valores únicos de una variable categórica
students['meal'].unique()

In [None]:
students['race/ethnicity'].unique()

## Contar

- `.count()`: es una función que se utiliza para contar los valores no nulos en el total del DataFrame o en una columna específica

In [None]:
students.count()

- `.value_counts()`: cuenta la cantidad de veces que cada nivel de una variable categorica aparece

In [None]:
students['race/ethnicity'].value_counts()

In [None]:
students['meal'].value_counts()

- `.reset_index()`

In [None]:
#resetea los indices de una df
students.reset_index(drop=False)

# Base TITANIC

Enumeremos sus variables
- PassengerId: Id para cada pasajero
- Survived: Vale 0 si no sobrevivió y 1 si sobrevivió 
- Pclass: Es una variable categoría que indica las clases: Class 1, Class 2 and Class 3.
- Name: Nombre del pasajero
- Sex: Género del pasajero
- Age: Edad del pasajero
- SibSp: Indica si el pasajero tiene hermanxs o esposxs.
- Parch: Si el pasajero está solo o tiene familia. 
- Ticket: Número de ticket del pasajero
- Fare: Indicador de la tarifa
- Cabin: Cabina del pasajero
- Embarked: Indica la categoría de embarco.

In [384]:
#Cargamos la base de datos
titanic = pd.read_csv("titanic.csv")

In [385]:
#Primeras 8 filas
titanic.head(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


In [386]:
#Observamos los tipos de dato en cada columna
titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [387]:
#Estadísticas descriptivas
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [388]:
#Calculamos la edad máxima de los pasajeros
titanic["Age"].max()

80.0

In [None]:
#Creamos una variable ages que contiene a la columna Age del df titanic
ages = titanic["Age"]
ages

In [None]:
#Es una serie de datos
type(ages)

In [None]:
#Veamos su dimensión
ages.shape

In [None]:
#ahora en age_sex nos guardamos la columna Age y Sex
age_sex = titanic[["Age", "Sex"]]
age_sex.head()

In [None]:
type(age_sex)

In [389]:
#En above_35 nos quedamos con las observaciones mayores a 35 años
above_35 = titanic[titanic["Age"] > 35]
above_35

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


In [None]:
#Nos quedamos con las observaciones que esten entre la clase 2 y la 3 (incluidas)
class_23 = titanic[titanic["Pclass"].isin([2, 3])]
class_23

In [None]:
#Otra forma de hacer lo mismo: Nos quedamos con las observaciones que pertenezcan a la clase 2 o 3
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]
class_23

In [None]:
#Nos quedamos con los nombres de aquellos pasajeros cuya edad es mayor a 35 años
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
adult_names.head()

In [390]:
#Nos devuelve de la fila 9 a la 24 (9:25) y de la colmuna 3 a la 5 (2:5)
titanic.iloc[9:25, 2:5]

Unnamed: 0,Pclass,Name,Sex
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,3,"Sandstrom, Miss. Marguerite Rut",female
11,1,"Bonnell, Miss. Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female
16,3,"Rice, Master. Eugene",male
17,2,"Williams, Mr. Charles Eugene",male
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


In [None]:
#Calculamos la edad promedio en el Titanic
titanic["Age"].mean()

In [None]:
#Calculamos la mediana 
titanic[["Age", "Fare"]].median()

In [None]:
#Más estadísticas descriptivas
titanic[["Age", "Fare"]].describe()

In [None]:
#Agregamos en una tabla dos listas
titanic.agg(
    {
        "Age": ["min", "max", "median", "skew"],
        "Fare": ["min", "max", "median", "mean"],
    }
)

In [391]:
#Agrupamos por sexo todas columnas (calcula el promedio)
titanic.groupby("Sex").mean()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


In [None]:
#Nos quedamos con sexo y edad y agrupamos por sexo
titanic[["Sex", "Age"]].groupby("Sex").mean()

In [None]:
#Agrupamos por sexo y clase, para calcular el promedio de la tarifa
titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

In [None]:
#Contamos dentro de las categorías de la columna Clase
titanic["Pclass"].value_counts()

In [None]:
#Otra manera de hacer lo mismo
titanic.groupby("Pclass")["Pclass"].count()

In [392]:
#Ordenamos por Edad
titanic.sort_values(by="Age").head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S


In [393]:
#Ordenamos por edad en forma descendente
titanic.sort_values(by=['Age'], ascending=False).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
