# Sección 2 Lección 5: Carga y exploración de datos con Pandas

In [1]:
import pandas as pd

# Datos en formato diccionario
datos = {
    "Nombre": ["Lucía", "Carlos", "María", "David", "Ana", "Pepe"],
    "Edad": [28, 35, 22, 41, 30, 18],
    "Sexo": ["F", "M", "F", "M", "F", "M"],
    "Ciudad": ["Madrid", "Barcelona", "Valencia", "Sevilla", "Bilbao", "Badajoz"],
    "Salario": [32000, 45000, 29000, 51000, 38000, 27000]
}

# Crear DataFrame
df = pd.DataFrame(datos)

In [2]:
# Guardar como CSV
df.to_csv("datos.csv", index=False)

In [3]:
df = pd.read_csv("datos.csv")
print(df.head())

   Nombre  Edad Sexo     Ciudad  Salario
0   Lucía    28    F     Madrid    32000
1  Carlos    35    M  Barcelona    45000
2   María    22    F   Valencia    29000
3   David    41    M    Sevilla    51000
4     Ana    30    F     Bilbao    38000


In [4]:
print(df)

   Nombre  Edad Sexo     Ciudad  Salario
0   Lucía    28    F     Madrid    32000
1  Carlos    35    M  Barcelona    45000
2   María    22    F   Valencia    29000
3   David    41    M    Sevilla    51000
4     Ana    30    F     Bilbao    38000
5    Pepe    18    M    Badajoz    27000


In [5]:
print(df.shape)       # Número de filas y columnas

(6, 5)


In [6]:
print(df.columns)     # Nombres de las columnas

Index(['Nombre', 'Edad', 'Sexo', 'Ciudad', 'Salario'], dtype='object')


In [7]:
print(df.info())      # Tipos de datos y valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nombre   6 non-null      object
 1   Edad     6 non-null      int64 
 2   Sexo     6 non-null      object
 3   Ciudad   6 non-null      object
 4   Salario  6 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 372.0+ bytes
None


In [8]:
print(df.describe())  # Estadísticas numéricas básicas

            Edad       Salario
count   6.000000      6.000000
mean   29.000000  37000.000000
std     8.390471   9486.832981
min    18.000000  27000.000000
25%    23.500000  29750.000000
50%    29.000000  35000.000000
75%    33.750000  43250.000000
max    41.000000  51000.000000


# Acceder a columnas y filas 

In [10]:
print(df["Edad"])     # Columna individual

0    28
1    35
2    22
3    41
4    30
5    18
Name: Edad, dtype: int64


In [11]:
print(df.iloc[0])     # Fila por posición

Nombre      Lucía
Edad           28
Sexo            F
Ciudad     Madrid
Salario     32000
Name: 0, dtype: object


In [13]:
print(df.loc[0])      # Fila por índice

Nombre      Lucía
Edad           28
Sexo            F
Ciudad     Madrid
Salario     32000
Name: 0, dtype: object


# Carga de dataset de clasificación, ya existente de librería "seaborn" 

In [9]:
import seaborn as sns
import pandas as pd #¿Necesario?

df = sns.load_dataset("titanic")
print(df.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


In [10]:
print(df.shape)

(891, 15)


In [11]:
print(df.columns.tolist()) #Nombre de todas las columnas del dataset

['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']


In [None]:
"""
survived -->	Si el pasajero sobrevivió (1) o no (0).
pclass -->	    Clase del pasajero: 1 = Primera clase, 2 = Segunda clase, 3 = Tercera clase.
sex -->	        Sexo del pasajero (male = hombre, female = mujer).
age -->	        Edad del pasajero en años. Puede tener valores faltantes (NaN).
sibsp -->	    Número de hermanos o cónyuges a bordo (Siblings/Spouses).
parch -->	    Número de padres o hijos a bordo (Parents/Children).
fare -->	    Tarifa pagada por el pasajero para el billete.
embarked -->	Puerto de embarque: C = Cherbourg, Q = Queenstown, S = Southampton.
class -->	    Clase en formato texto (First, Second, Third), equivalente a pclass pero en texto.
who -->	        Clasificación simplificada de la persona: man, woman, child.
adult_male -->	Booleano: True si es un hombre adulto, False en caso contrario.
deck -->	    Cubierta del barco donde estaba el pasajero (A, B, C, etc.).
embark_town -->	Nombre completo del puerto de embarque (Cherbourg, Queenstown, Southampton).
alive -->	    Texto que indica si sobrevivió o no ("yes" o "no").
alone -->	    Booleano que indica si el pasajero estaba solo (True) o acompañado (False) en el barco.
"""

In [12]:
print(df.isnull().sum()) #Suma de los valores nulos de cada columna

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


# Carga de dataset de regresión, ya existente de librería sklearn

In [13]:
from sklearn.datasets import fetch_california_housing

data = fetch_california_housing(as_frame=True) #as_frame=True hace que la función devuelva los datos como un DataFrame de pandas, en lugar de un array de NumPy
df = data.frame    #data.frame contiene un pandas.DataFrame con variables independientes y objetivo
print(df.head())

   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  MedHouseVal  
0    -122.23        4.526  
1    -122.22        3.585  
2    -122.24        3.521  
3    -122.25        3.413  
4    -122.25        3.422  


In [14]:
# Primer vistazo
print(df.describe())

             MedInc      HouseAge      AveRooms     AveBedrms    Population  \
count  20640.000000  20640.000000  20640.000000  20640.000000  20640.000000   
mean       3.870671     28.639486      5.429000      1.096675   1425.476744   
std        1.899822     12.585558      2.474173      0.473911   1132.462122   
min        0.499900      1.000000      0.846154      0.333333      3.000000   
25%        2.563400     18.000000      4.440716      1.006079    787.000000   
50%        3.534800     29.000000      5.229129      1.048780   1166.000000   
75%        4.743250     37.000000      6.052381      1.099526   1725.000000   
max       15.000100     52.000000    141.909091     34.066667  35682.000000   

           AveOccup      Latitude     Longitude   MedHouseVal  
count  20640.000000  20640.000000  20640.000000  20640.000000  
mean       3.070655     35.631861   -119.569704      2.068558  
std       10.386050      2.135952      2.003532      1.153956  
min        0.692308     32.54000

In [15]:
df.head() #Funciona por el intérprete de estos notebooks

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [21]:
df 

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
...,...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


In [16]:
target = data.target
print(target[:5]) #De las 5 primeras filas

0    4.526
1    3.585
2    3.521
3    3.413
4    3.422
Name: MedHouseVal, dtype: float64


In [17]:
print(target[-5:]) #Las 5 últimas filas

20635    0.781
20636    0.771
20637    0.923
20638    0.847
20639    0.894
Name: MedHouseVal, dtype: float64


In [18]:
print(target[5:]) #Todas las filas menos las 5 primeras

5        2.697
6        2.992
7        2.414
8        2.267
9        2.611
         ...  
20635    0.781
20636    0.771
20637    0.923
20638    0.847
20639    0.894
Name: MedHouseVal, Length: 20635, dtype: float64
