import repository from arizona
[raven.git] / 2.0 / docs / Nr05_Journal.txt
1 April 9th, 2007
2         NR05's data diskspace ( 8gb used, 20 available)
3         Added cronjob to check diskspace
4
5 April 24th, 2007
6         Tar'd and Bzipped initial syslog/strace folders (6 hours)
7         Receiving approximately 3GB per day
8         Strace files are cumulative (redundant), taking up lots of space
9                 This was done to prevent the possibility of losing log data
10
11 April 25th, 2007
12         Added a script that sort/uniq the strace files 
13                 (data preserved through timestamps)
14
15 April 5th, 2007
16         NR05's logging diskspace expanded to 250GB
17
18
19 May 10th, 2007
20         Duy noticed NR05 was overflowing with scp calls.  
21                 System prevents ssh into the system with a 
22                 "too many files are open in system" error
23                 Problems occur for very long SCPs as well as
24                 nodes that were unstable and slow.
25         Note: Although Strace data is now uniq so that redundant data doesn't 
26                 appear on the system, the entire cumulative file is still 
27                 being sent
28
29 May 11th, 2007
30         NR05 rebooted
31
32 May 13th, 2007
33         Logs are now sent at a random minute mark per node each hour instead of 
34                 being sent at xx:00, causing NR05 to thrash because of all the SCP calls 
35                 coming in at once
36
37 May 14th, 2007
38         NR05 is still thrashing because of large number of SCP calls 
39                 (400 scps running, most older than an hour)
40
41 May 17th, 2007
42         NR05 completely locks out ssh with 
43                 "ssh_exchange_identification: Connection closed by remote host"
44
45 May 22nd, 2007
46         Changed strace collection method to the same method we do the tcpdump 
47                 (rotate logs, then send them in.  New data becomes unique)
48         Split Strace and Strac2 folders 
49                 (Strac2 folder hold the new data that is uniq, while the 
50                 strace folder collects any leftover data before the change)
51
52
53
54 June 13th, 2007
55         NR05 rebooted, locked up in a bit over an hour
56         Issued killall on scp processes
57
58         
59 June 28th, 2007
60         NR05 rebooted, added 256MB of Ram, and turned off X11
61
62 July 2nd, 2007
63         Log files are now placed into subdirectories based on timestamp.  This 
64                 was done because it became incredibly inconvenient to work with 
65                 several hundred thousand files in a single directory, so they 
66                 are now divided in such a way that roughly 1000 log files are 
67                 stored in a single subdirectory.
68
69
70 July 12th
71         Noticed that NR05's disk space hit 100% capacity.  The old strace 
72                 function appears to still be active, and we are now receiving 
73                 redundant syslog files due to the new directory structure 
74                 alongside scp failures.
75         When an scp fails, all files in the scp stick around to be send the 
76                 next time storklog is activated.  Since there are more files, 
77                 there is a higher chance this scp will fail.  At the same time, 
78                 when an scp fails, the file is renamed back to its original file 
79                 name.  When the file is sent the next time, it receives a new 
80                 timestamp and is sent in.  This means two files with the same 
81                 data are stored under two different filenames.
82         
83 July 14th
84         Space is relieved by bzipping the strace files.
85
86 July 19th
87         Syslog files are now sent one at a time, and are removed from the 
88                 nest if the file succeeds in transfering.
89
90 July 26th 2007
91         Script is run to place all the syslog files into single files 
92                 based on nodename.  This allows us to have a directory with 
93                 a few hundred large files that are all sortted/uniqued, so 
94                 all the redundant data is eliminated